TL;DR
- امروز ما در حال انتشار یک بهروزرسانی مهم برای سیاست مقیاسپذیری مسئول (RSP) هستیم،.
- چارچوب حاکمیت ریسک که برای کاهش خطرات فاجعهبار احتمالی سیستمهای هوش مصنوعی مرزی استفاده میکنیم.
- این بهروزرسانی رویکردی انعطافپذیرتر و ظریفتر را برای ارزیابی و مدیریت ریسکهای هوش مصنوعی معرفی میکند،.
چه اتفاقی افتاد
امروز ما در حال انتشار یک بهروزرسانی مهم برای سیاست مقیاسپذیری مسئول (RSP) هستیم،. چارچوب حاکمیت ریسک که برای کاهش خطرات فاجعهبار احتمالی سیستمهای هوش مصنوعی مرزی استفاده میکنیم.
این بهروزرسانی رویکردی انعطافپذیرتر و ظریفتر را برای ارزیابی و مدیریت ریسکهای هوش مصنوعی معرفی میکند،. در حالی که تعهد خود را برای آموزش یا استقرار مدلها حفظ نمیکنیم،.
مگر اینکه پادمانهای کافی را اجرا کرده باشیم. پیشرفتهای کلیدی شامل آستانههای جدید قابلیت برای نشان دادن زمان ارتقای پادمانها،.
فرآیندهای اصلاحشده برای ارزیابی قابلیتهای مدل و کفایت پادمانهای ما (الهام گرفته از روششناسی موارد ایمنی)،. و اقدامات جدید برای حاکمیت داخلی و ورودیهای خارجی است.
با یادگیری از تجربیات پیادهسازی خود و استفاده از شیوههای مدیریت ریسک مورد استفاده در سایر. صنایع با پیامدهای بالا،.
هدف ما این است که برای سرعت سریع پیشرفت هوش مصنوعی بهتر آماده شویم. چالش پیشروی مدلهای هوش مصنوعی مرزی AIA پیشرفته،.
آنها پتانسیل ایجاد مزایای دگرگونکننده برای جامعه و اقتصاد ما را دارند. هوش مصنوعی میتواند اکتشافات علمیرا تسریع بخشد،.
مراقبتهای بهداشتی را متحول کند،. سیستم آموزشی ما را ارتقا دهد و حوزههای کاملاً جدیدی برای خلاقیت و نوآوری انسان ایجاد کند.
با این حال،. سیستمهای هوش مصنوعی مرزی نیز چالشها و خطرات جدیدی را ارائه میکنند که مستلزم مطالعه دقیق و پادمانهای.
موثر است. در سپتامبر 2023،.
ما سیاست مقیاسپذیری مسئول خود را منتشر کردیم،. چارچوبی برای مدیریت خطرات ناشی از سیستمهای هوش مصنوعی توانمندتر.
پس از یک سال اجرا و یادگیری،. اکنون نسخه بهروزرسانی شدهای را به اشتراک میگذاریم که بینشهای عملی و حسابهایی را برای پیشرفت قابلیتهای تکنولوژیکی.
منعکس میکند. اگرچه این خطمشی بر خطرات فاجعهباری مانند دستههای فهرستشده در زیر تمرکز دارد،.
این خطرات تنها خطراتی نیستند که ما نظارت میکنیم و برای آن آماده میشویم. ما خطمشی استفاده استانداردهای ما را برای استفاده از محصولات ما تعیین میکند،.
از جمله قوانینی که استفاده از مدلهای ما را برای انتشار اطلاعات نادرست،. تحریک خشونت یا رفتار نفرتآمیز،.
یا درگیر شدن در روشهای کلاهبرانگیز یا توهینآمیز ممنوع میکند. ما بهطور مداوم اقدامات فنی خود را برای اجرای استانداردهای اعتماد و ایمنی خود در مقیاس اصلاح می.
کنیم. علاوه بر این، ما تحقیقاتی را برای درک تأثیرات اجتماعی گستردهتر مدلهایمان انجام میدهیم.
خطمشی مقیاسپذیری مسئول ما مکمل کار ما در این زمینهها است و به درک ما از خطرات فعلی. و بالقوه کمک میکند.
چارچوبی برای پادمانهای متناسب همانطور که قبلاً،. ما تعهد اصلی خود را حفظ میکنیم:.
ما مدلهایی را آموزش نمیدهیم یا مستقر نمیکنیم مگر اینکه اقدامات ایمنی و امنیتی را اجرا کنیم که. خطرات را زیر سطح قابل قبول نگه دارد.
RSP ما بر اساس اصل حفاظت متناسب است: حفاظتهایی که با خطرات بالقوه مقیاس میشوند. برای این کار از سطح ایمنی هوش مصنوعی استفاده میکنیم استانداردها (استانداردهای ASL)،.
مجموعههای درجه بندی شدهای از اقدامات ایمنی و امنیتی که با افزایش قابلیتهای مدل،. سختگیرتر میشوند.
اینها با الهام از سطوح ایمنی زیستی،. از ASL-1 برای مدلهایی شروع میشوند که دارای قابلیتهای بسیار ابتدایی هستند (مثلاً رباتهای شطرنجباز) و از طریق.
ASL-2،. ASL-3 و غیره پیشرفت میکنند.
در خطمشی بهروز شدهمان،. ما روششناسی خود را برای ارزیابی قابلیتهای خاص (و خطرات مرتبط با آنها) و اجرای اقدامات ایمنی و.
امنیتی متناسب اصلاح کرده ایم. چارچوب به روز شده ما دارای دو جزء کلیدی است:.
آستانه قابلیت:. تواناییهای هوش مصنوعی خاص که در صورت دستیابی به آنها،.
به حفاظتهای قویتری نسبت به خط پایه فعلی ما نیاز دارند. ایمنهای مورد نیاز:.
استانداردهای خاص ASL که برای کاهش خطرات پس از رسیدن به آستانه قابلیت لازم است. در حال حاضر، همه مدلهای ما بر اساس بهترین استانداردهای صنعت ASL-2 عمل میکنند.
خط مشی به روز شده ما دو آستانه قابلیت کلیدی را که مستلزم پادمانهای ارتقا یافته هستند تعریف. میکند:.
تحقیق و توسعه هوش مصنوعی مستقل:. اگر مدلی بتواند بهطور مستقل وظایف تحقیقاتی پیچیده هوش مصنوعی را انجام دهد که معمولاً به تخصص انسانی.
نیاز دارد - بهطور بالقوه بهطور قابل توجهی توسعه هوش مصنوعی را به روشی غیرقابل پیشبینی تسریع میکند. - ما به استانداردهای امنیتی بالا نیاز داریم (بهطور بالقوه قابلیت ASL-4 یا بالاتر از استانداردهای توسعهای برای.
رسیدگی به وضعیت ایمنی اضافی) خطرات نوظهور. سلاحهای شیمیایی،.
بیولوژیکی،. رادیولوژیکی و هستهای (CBRN):.
اگر مدلی بتواند بهطور معناداری به فردی با پیشینه فنی اولیه در ایجاد یا استقرار سلاحهای CBRN. کمک کند،.
ما به ایمنی و حفاظتهای استقرار پیشرفته (استانداردهای ASL-3) نیاز داریم. پادمانهای ASL-3 شامل اقدامات امنیتی و کنترلهای استقرار پیشرفته است.
در بخش امنیتی،. این شامل کنترلهای دسترسی داخلی و موارد دیگر میشود حفاظت قوی از وزن مدل برای خطرات.
استقرار،. ما قصد داریم یک رویکرد چند لایه را برای جلوگیری از سوء استفاده اجرا کنیم،.
از جمله نظارت بیدرنگ و ناهمزمان،. پروتکلهای واکنش سریع،.
و تیمبندی قرمز کامل قبل از استقرار. پیادهسازی و نظارت برای کمک به اجرای موثر این خطمشی،.
ما ایجاد کرده ایم:. ارزیابیهای قابلیت:.
ارزیابیهای مدل معمولی بر اساس قابلیتهای ما هنوز مناسب هستند یا خیر. (خلاصهای از ارزیابیهای گذشته در اینجا موجود است.) ارزیابیهای حفاظتی:.
ارزیابی روتین اثربخشی اقدامات ایمنی امنیتی و استقرار ما برای ارزیابی اینکه آیا نوار پادمانهای لازم را رعایت. کرده ایم یا خیر.
(خلاصهای از این تصمیمها در اینجا موجود خواهد بود.) مستندسازی و تصمیمگیری:. فرآیندهای مستندسازی ارزیابیهای قابلیت و حفاظت،.
با الهام از رویهها (مانند بهعنوان روشهای مورد ایمنی) رایج در صنایع با قابلیت اطمینان بالا. اقدامات برای حاکمیت داخلی و ورودی خارجی:.
روش ارزیابی ما علاوه بر فرآیند گزارشدهی داخلی موجود برای مسائل ایمنی،. از طریق تست استرس داخلی پشتیبانی میشود.
ما همچنین در حال درخواست بازخورد کارشناسان خارجی در مورد روششناسیهای خود هستیم. 1 یادگیری از تجربه ما در اولین سال فعالیتمان با RSP قبلی،.
چیزهای زیادی آموخته ایم،. و از این بهروزرسانی بهعنوان فرصتی برای تأمل در مورد آنچه به خوبی کار کرده و بهروزرسانی در.
خطمشی منطقی است،. استفاده میکنیم.
بهعنوان بخشی از این،. ما اولین بررسی خود را درباره میزان پایبندی به چارچوب انجام دادیم و تعداد کمیاز مواردی را.
شناسایی کردیم که در برآورده کردن کامل الزامات آن کوتاهی کردیم. اینها شامل مسائل رویهای مانند تکمیل مجموعهای از ارزیابیها سه روز دیرتر از زمان برنامه.
ریزی شده یا عدم شفافیت در مورد چگونگی و مکان بود. ما باید هر گونه تغییری را در ارزیابیهای مکاندار خود یادداشت کنیم.
ما همچنین برخی ارزیابیها را علامتگذاری کردیم که در آنها ممکن است بتوانیم عملکرد مدل کمیبهتر را. از طریق اجرای تکنیکهای استاندارد (مانند زنجیرهای از افکار یا بهترینهای N) به دست آوریم.
ما از سه روز اضافی برای اصلاح و بهبود ارزیابیهای خود استفاده کردیم. مجموعه متفاوتی از ارزیابیهایی که ما استفاده کردیم، ارزیابی دقیقتری را نسبت به ارزیابیهای جایگاهدار ارائه کرد.
و روش ارزیابی ما همچنان نشان داد که به اندازه کافی از آستانه فاصله داریم. از این،.
ما دو درس ارزشمند برای گنجاندن در چارچوب بهروز شدهمان آموختیم:. باید انعطافپذیری بیشتری را در خطمشیهای خود بگنجانیم،.
و باید فرآیند خود را برای ردیابی مطابقت با RSP بهبود دهیم. شما میتوانید در اینجا بیشتر بخوانید.
از آنجایی که ما برای اولین بار RSP را یک سال پیش منتشر کردیم،. ما هدف ارائه نمونهای از چارچوبی بوده است که دیگران ممکن است هنگام ایجاد سیاستهای حاکمیت ریسک هوش.
مصنوعی از آن الهام بگیرند. ما امیدواریم که به اشتراک گذاری فعالانه تجارب خود در اجرای خط مشی خودمان به سایر شرکتها.
در اجرای چارچوبهای مدیریت ریسک کمک کند و به ایجاد بهترین روشها در سراسر اکوسیستم هوش. مصنوعی کمک کند.
همه جنبههای برنامه ایمنی ما به تکامل خود ادامه خواهند داد:. سیاستها،.
روششناسی ارزیابی،. پادمانها و تحقیقات ما در مورد خطرات و کاهشهای احتمالی.
علاوه بر این،. جارد کاپلان،.
بنیانگذار و مدیر ارشد علمی،. بهعنوان مسئول مقیاسپذیری Anthropic،.
جانشین همبنیانگذار و مدیر ارشد فناوری سام مکک خواهد بود. سال گذشته سام بر اجرای اولیه RSP نظارت داشت و همچنان بر وظایف خود بهعنوان مدیر ارشد فناوری.
تمرکز خواهد کرد. همانطور که تلاش میکنیم تا تلاشهای خود را برای اجرای RSP افزایش دهیم،.
همچنین در حال باز کردن موقعیتی برای یک رئیس مقیاس مسئولیت پذیر هستیم. این نقش مسئول هماهنگی تیمهای زیادی است که برای تکرار و رعایت موفقیتآمیز RSP نیاز دارند.
اگر مایلید در مدیریت ریسک هوش مصنوعی در Anthropic مشارکت داشته باشید، ما استخدام میکنیم! بسیاری از تیمهای ما اکنون از طریق RSP به مدیریت ریسک کمک میکنند،.
از جمله:. تیم قرمز مرزی (مسئول مدلسازی تهدید و ارزیابی قابلیتها) اعتماد و ایمنی (مسئول توسعه پادمانهای استقرار) امنیت و.
انطباق (مسئول پادمانهای امنیتی و مدیریت ریسک) علم همسویی (شامل اقدامات مربوط به توسعه ASL-3) ارزیابی قابلیتهای. متمرکز بر ناهماهنگی،.
و برای برنامه تست استرس همسویی داخلی ما) تیم RSP (مسئول تهیه پیش نویس خط مشی،. تضمین و اجرای بین شرکتی) خط مشی به روز شده را در anthropic.
com/rsp و اطلاعات تکمیلی را در anthropic. com/rsp-updates بخوانید.
ما از بسیاری از گروههای خارجی که بازخوردهای ارزشمند و ارزشمندی را در مورد توسعه و بازخورد. ارزشمند ما ارائه کردند سپاسگزاری میکنیم.
پاورقیها 1 ما همچنین روش ارزیابی خود را با مؤسسههای ایمنی هوش مصنوعی و همچنین مجموعهای از کارشناسان. و های مستقل برای بازخورد به اشتراک گذاشته ایم.
این تاییدیهای از سوی موسسه ایمنی هوش مصنوعی یا کارشناسان وهای مستقل نیست. مطالب مرتبط دولت استرالیا و Anthropic تفاهم نامه همکاری برای ایمنی و تحقیقات هوش مصنوعی امضا کردند.
ادامه مطلب Anthropic 100 میلیون دلار در شبکه شریک کلود سرمایه گذاری میکندما در حال راه اندازی. برنامه Claude Partner Network هستیم.
برای های شریکی که به شرکتها کمک میکنند تا کلود را بپذیرند. بیشتر بخوانید معرفی موسسه آنتروپیک ما در حال راهاندازی موسسه آنتروپیک هستیم،.
تلاش جدیدی برای مقابله با مهمترین چالشهایی که هوش مصنوعی قدرتمند برای جوامع ما ایجاد میکند. بیشتر بخوانید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
