TL;DR
- ما در حال انتشار نسخه سوم خط مشی مقیاس پذیری مسئولیت پذیر (RSP) خود هستیم،.
- چارچوب داوطلبانهای که برای کاهش خطرات فاجعه بار ناشی از سیستمهای هوش مصنوعی استفاده میکنیم.
- Anthropic اکنون بیش از دو سال است که RSP دارد و ما چیزهای زیادی در مورد مزایا و.
چه اتفاقی افتاد
ما در حال انتشار نسخه سوم خط مشی مقیاس پذیری مسئولیت پذیر (RSP) خود هستیم،. چارچوب داوطلبانهای که برای کاهش خطرات فاجعه بار ناشی از سیستمهای هوش مصنوعی استفاده میکنیم.
Anthropic اکنون بیش از دو سال است که RSP دارد و ما چیزهای زیادی در مورد مزایا و. معایب آن یاد گرفته ایم.
بنابراین،. ما در حال به روز رسانی خط مشی هستیم تا آنچه را که تا به امروز به خوبی.
کار کرده است،. تقویت کنیم،.
سیاست را در صورت لزوم بهبود بخشیم،. و اقدامات جدیدی را برای افزایش شفافیت و مسئولیت پذیری تصمیمگیری خود اجرا کنیم.
میتوانید RSP جدید را بهطور کامل در اینجا بخوانید. در این پست، برخی از تفکرات پشت این تغییرات را مورد بحث قرار میدهیم.
RSP اصلی و تئوری تغییر ما RSP تلاش ما برای حل مشکل نحوه رسیدگی به خطرات هوش مصنوعی. است که در زمان نگارش خطمشی وجود ندارند،.
اما میتوانند به سرعت در نتیجه یک فناوری پیشرفته بهطور تصاعدی ظاهر شوند. وقتی RSP اصلی را در سپتامبر نوشتیم در سال 2023، مدلهای زبان بزرگ اساساً رابط چت بودند.
امروزه آنها میتوانند وب را مرور کنند،. کد بنویسند و اجرا کنند،.
از رایانه استفاده کنند،. و اقدامات مستقل و چند مرحلهای انجام دهند.
همانطور که هر یک از این قابلیتهای جدید ظهور کرده اند،. خطرات جدیدی نیز به وجود میآیند.
ما انتظار داریم که این الگو ادامه یابد. ما RSP را بر اصل تعهدات مشروط، یا اگر-پس، متمرکز کردیم.
اگر مدلی از سطوح توانایی خاصی فراتر رفت (بهعنوان مثال،. قابلیتهای علم بیولوژیکی که میتواند به ایجاد سلاحهای خطرناک کمک کند)،.
در آن صورت خطمشی بیان میکرد که باید مجموعهای از پادمانهای جدید و سختگیرانهتر را معرفی کنیم (بهعنوان. مثال،.
در برابر سوء استفاده از مدل و سرقت وزنههای مدل). مجموعهای دقیق از پادمانهای مورد نیاز برای مدلهای هوش مصنوعی توانمندتر.
ASLهای اولیه (ASL-2 و ASL-3) با جزئیات قابل توجهی تعریف شد،. اما تعیین حفاظت صحیح برای مدلهایی که هنوز چندین نسل با آن فاصله داشتند،.
دشوارتر بود. بنابراین،.
ما عمداً ASLهای بعدی (ASL-4 و فراتر از آن) را تا حد زیادی تعریف نشده رها کردیم. و امیدوار بودیم زمانی که تصویر بهتری از سطوح بالاتر توانایی هوش مصنوعی به دنبال دارد،.
آنها را با جزئیات بیشتری توسعه دهیم. در ادامه توضیحی تقریبی از "نظریه تغییر" ما ارائه شده است - یعنی مکانیسمهایی که امیدواریم از طریق.
آنها بر اکوسیستم با عملکرد داخلی RSP:. An تأثیر بگذاریم.
در آنتروپیک،. ما امیدوار بودیم RSP ما را وادار کند که پادمانهای مهم را بهعنوان الزامات راه اندازی (و.
آموزش) مدلهای جدید در نظر بگیریم. این امر اهمیت این پادمانها را برای بزرگ و در حال رشد روشن میکند و ما را تشویق.
میکند تا پیشرفت سریعتری داشته باشیم. مسابقه برای رسیدن به اوج.
ما امیدوار بودیم که اعلام RSP ما سایر شرکتهای هوش مصنوعی را تشویق به معرفی کند سیاستهای. مشابه این ایده "مسابقه به سمت بالا" (برعکس مسابقه "مسابقه به پایین") است که در آن بازیگران مختلف.
صنعت تشویق میشوند تا به جای تضعیف محافظهای مدلهای خود و وضعیت ایمنی کلی آنها. بهبود یابند.
با گذشت زمان،. امیدوار بودیم RSPها یا سیاستهای مشابه به استانداردهای داوطلبانه صنعت تبدیل شوند یا قوانین هوش مصنوعی را.
با هدف تشویق ایمنی و شفافیت در توسعه مدل هوش مصنوعی اعلام کنند. ایجاد اجماع بیشتر در مورد خطرات.
ما آستانههای توانایی را بهعنوان لحظات بالقوه مهم برای صنعت در نظر گرفتیم. اگر به آستانه توانایی مهمیرسیدیم (مانند توانایی مدلهای هوش مصنوعی برای پشتیبانی از تولید سرتاسر سلاحهای زیستی)،.
خودمان پادمانهای مناسب را ایجاد میکنیم و از شواهدی که در مورد قابلیتهای هوش مصنوعی بهدستآورده ایم استفاده میکنیم. تا از سایر شرکتها و دولتها حمایت کنیم که آنها نیز اقدامیانجام دهند.
به عبارت دیگر ما معتقد بودند که آستانههای توانایی ممکن است نقاط خوبی برای فراتر رفتن از اقدامات. یکجانبه (Anthropic که برای مدلهای خود به پادمانهایی نیاز دارد) و اقدامات چندجانبه (سایر شرکتهای هوش مصنوعی و/یا.
دولتهایی که به چنین پادمانیهایی نیاز دارند) را تشویق کند. با نگاه به آینده.
ما متوجه شدیم که در برخی از آستانههای توانایی بعدی،. شدت اقدامات متقابلی که در نظر داشتیم (بهعنوان مثال،.
دستیابی به استحکام بالا در برابر استفاده نادرست از مدلهای هوش مصنوعی توسط بازیگران سطح دولتی) احتمالاً برای. آنتروپیک انجام یکجانبه دشوار یا غیرممکن خواهد بود.
ما امیدوار بودیم تا زمانی که به این قابلیتهای بالاتر دست پیدا کنیم،. جهان به وضوح خطرات را ببیند و بتوانیم با دولتهای سراسر جهان در اجرای پادمانیهایی هماهنگ کنیم که.
دستیابی به آن برای یک شرکت به تنهایی دشوار است. ارزیابی نظریه تغییر دو سال و نیم بعد،.
ارزیابی صادقانه ما این است که برخی از بخشهای این تئوری تغییر آنطور که ما امیدوار بودیم اجرا. شده است،.
اما برخی دیگر چنین نبودهاند. در زیر زمینههایی وجود دارد که RSP در آنها موفقیت آمیز بوده است:.
RSP ما را تشویق کرد تا حفاظتهای قویتری ایجاد کنیم. بهعنوان مثال،.
به منظور مطابقت با استاندارد استقرار ASL-3 ما (که عمدتاً در مورد خطرات ناشی از سلاحهای شیمیایی و. بیولوژیکی از سوی عوامل تهدید با منابع و تخصص نسبتاً متوسط است)،.
روشهای پیچیده و دقیقتری (به ویژه طبقهبندیکنندههای ورودی و خروجی) برای مسدود کردن محتوای نگرانکننده توسعه دادیم. ما پادمانهای ASL-3 را برای مدلهای مربوطه در می 2025 فعال کردیم و از آن زمان برای بهبود.
آنها تلاش کردیم. RSP ما سایر شرکتهای هوش مصنوعی را تشویق کرد تا استانداردهای مشابهی را اتخاذ کنند:.
ظرف چند ماه پس از اعلام RSP ما،. OpenAI و Google.
DeepMind بهطور گسترده چارچوبهای مشابهی را اتخاذ کرد. برخی از شرکتها نیز طبقهبندیکنندههای مرتبط با سلاحهای زیستی را با روشی مشابه دفاعهای ASL-3 ما اجرا کردهاند.
اصول پشت این استانداردهای داوطلبانه،. از جمله آنهایی که در RSP هستند،.
به توسعه سیاستهای اولیه هوش مصنوعی کمک کرده اند. شاهدیم که دولتها در سرتاسر جهان (بهعنوان مثال در کالیفرنیا با SB 53،.
در نیویورک با قانون RAISE،. و با قوانین عملکرد قانون هوش مصنوعی اتحادیه اروپا) شروع به ایجاد و انتشار چارچوبهایی برای ارزیابی و.
مدیریت ریسکهای فاجعهبار از توسعهدهندگان هوش مصنوعی مرزی میکنند - الزامات آدرسهای Anthropic از طریق اسناد عمومیاز. جمله چارچوب مطابقت با مرز آن.
تشویق این نوع چارچوبهای شفافیت دقیق برای صنعت دقیقاً همان کاری بود که RSP ما انجام داده بود. آستانه برای ایجاد اجماع بیشتر در مورد خطرات هوش مصنوعی در عمل انجام نشد - اگرچه بخشی از.
این تأثیر وجود داشت. ما سطوح قابلیت از پیش تعیین شده را بسیار مبهمتر از آنچه پیشبینی میکردیم دریافتیم:.
در برخی موارد،. قابلیتهای مدل به وضوح به آستانههای RSP نزدیک شدهاند،.
اما ما در مورد اینکه آیا آنها بهطور قطعی از این آستانهها عبور کردهاند یا خیر،. ابهام زیادی داشتیم.
علم ارزیابی مدل به اندازه کافی توسعه نیافته است که بتواند پاسخهای مثبتی ارائه دهد. در چنین مواردی،.
ما یک رویکرد احتیاطی اتخاذ کرده ایم و پادمانهای مربوطه را اجرا کرده ایم،. اما عدم قطعیت داخلی ما به یک مورد خارجی ضعیف برای انجام اقدامات چندجانبه در سراسر صنعت هوش.
مصنوعی تبدیل میشود. خطرات بیولوژیکی نمونهای از این "منطقه ابهام" را ارائه میکنند.
مدلهای ما اکنون دانش بیولوژیکی کافی را نشان میدهند که اکثر آزمایشهایی را که میتوانیم به سرعت و. به راحتی اجرا کنیم،.
گذراندهاند،. بنابراین دیگر نمیتوانیم استدلال قوی داشته باشیم.
که خطرات از یک مدل داده شده کم است. اما این آزمایشها به تنهایی برای استدلال قوی مبنی بر بالا بودن ریسک کافی نیستند.
ما به دنبال شواهد اضافی،. مانند حمایت از آزمایش گسترده در آزمایشگاه مرطوب،.
هستیم،. اما نتایج مبهم باقی میمانند،.
بهویژه به این دلیل که مطالعات به اندازهای طول میکشد که مدلهای قدرتمندتر در زمان تکمیل آنها در. دسترس باشند.
علیرغم پیشرفتهای سریع در قابلیتهای هوش مصنوعی در سه سال گذشته،. اقدامات دولت در زمینه ایمنی هوش مصنوعی به کندی پیش رفته است.
محیط سیاست به سمت اولویتبندی رقابتپذیری هوش مصنوعی و رشد اقتصادی تغییر کرده است،. در حالی که بحثهای ایمنی محور هنوز در سطح فدرال جذابیت خاصی پیدا نکرده است.
ما متقاعد شده ایم که مشارکت مؤثر دولت در زمینه ایمنی هوش مصنوعی هم ضروری و هم قابل دستیابی. است و هدف ما ادامه پیشبرد گفتگو مبتنی بر شواهد،.
منافع امنیت ملی،. رقابت اقتصادی و اعتماد عمومیاما ثابت شده است که این یک پروژه بلندمدت است – نه چیزی.
که به صورت ارگانیک اتفاق میافتد،. زیرا هوش مصنوعی توانایی بیشتری پیدا میکند یا از آستانههای خاصی عبور میکند.
همانطور که در بالا ذکر شد،. ما توانستیم پادمانهای ASL-3 را به صورت یکطرفه و با هزینههای معقول برای عملیات شرکت پیادهسازی کنیم.
با این حال، این ممکن است برای سطوح توانایی بالاتر و ASLهای بالاتر صادق نباشد. در حالی که ASLهای بالاتر ما تا حد زیادی تعریف نشده اند،.
اقدامات کاهشی قوی که در RSP قبلی ارائه کردیم ممکن است بدون اقدام جمعی بهطور کامل غیرممکن باشد. بهعنوان نمونهای از مقیاس این چالش،.
گزارش RAND در مورد امنیت وزن مدل بیان میکند که استاندارد امنیتی "SL5" آن،. با هدف توقف عملیات با اولویت توسط توانمندترین نهادهای سایبری،.
"در حال حاضر امکان پذیر نیست" و "احتمالاً به کمک جامعه امنیت ملی نیاز دارد. " ترکیبی از (الف) منطقه ابهام.
مختل کردن پرونده عمومیبرای ریسک،. (ب) فضای سیاسی ضد نظارتی،.
و (ج) الزامات در سطوح بالاتر RSP که به سختی میتوان به صورت یک جانبه برآورده کرد،. یک چالش ساختاری برای RSP فعلی ما ایجاد میکند.
ما میتوانستیم با تعریف پادمانهای ASL-4 و ASL-5 به روشهایی که دستیابی به انطباق را آسان میکند،. سعی کنیم به این موضوع رسیدگی کنیم - اما این روحیه مورد نظر RSP را تضعیف میکند.
در عوض،. ما تصمیم گرفته ایم تا این چالشها را بهطور شفاف بپذیریم و قبل از رسیدن به این سطوح بالاتر،.
RSP را بازسازی کنیم. هدف RSP بازنگری شده اتخاذ تعهدات یکجانبه واقع گرایانهتر است که دشوار است اما همچنان در محیط.
کنونی قابل دستیابی است،. در حالی که به نقشه برداری جامع از خطراتی که معتقدیم صنعت کامل باید به صورت چند جانبه.
به آن رسیدگی کند،. ادامه میدهد.
تفکیک برنامههای ما بهعنوان یک شرکت از توصیههای ما برای صنعت،. RSP ما اکنون دو مجموعه کاهش را مشخص میکند:.
اول،. کاهشهایی که قصد داریم بدون توجه به آنچه دیگران انجام میدهند،.
دنبال کنیم. و دوم،.
یک نقشه بلندپروازانه قابلیتها برای کاهش که،. به اعتقاد ما،.
اگر در صنعت هوش مصنوعی پیادهسازی شود،. به مدیریت مناسب خطرات ناشی از هوش مصنوعی کمک میکند.
سیاست مقیاسپذیری کامل را بخوانید. نقشه راه ایمنی مرزی RSP جدید ما الزامیرا برای توسعه و انتشار یک نقشه راه ایمنی مرزی.
معرفی میکند که برنامههای مشخص ما را برای کاهش خطر در زمینههای امنیت،. همسویی،.
پادمانها و خط مشی توصیف میکند. اهدافی که در نقشههای راه توضیح داده شدهاند،.
بلندپروازانه و در عین حال قابل دستیابی هستند – که نوعی عملکرد اجباری را ارائه میکنند که ما. آن را موفقیت گذشته RSP خود میدانیم.
اینها به جای تعهدات سخت، اهداف عمومیهستند که ما آشکارا پیشرفت خود را به آن درجهبندی میکنیم. این استراتژی از اهداف "غیر الزام آور اما بهطور عمومیاعلام شده" از رویکرد شفافیتی که ما برای.
قوانین هوش مصنوعی مرزی دفاع کرده ایم (اگرچه جزئیات بسیار بیشتر از آنچه در قوانین موجود لازم است. در اختیار عموم قرار میدهد) و از موفقیتهای نسخههای RSP قبلی ما گرفته شده است.
برخی از اهداف نمونه از نقشه راه ایمنی مرزی کنونی ما عبارتند از:. راه اندازی "پروژههای مهتابی برای سرمایه گذاری" روشهای غیر متعارف برای دستیابی به سطوح بیسابقه امنیت اطلاعات؛
روشی برای تیمبندی قرمز سیستمهای ما (احتمالاً شامل اتوماسیون قابل توجه) ایجاد کنید که از کمکهای جمعی صدها. شرکتکننده در جایزه باگ ما پیشی بگیرد؛
تعدادی از اقدامات سیستماتیک را اجرا کنید تا اطمینان حاصل شود که کلود مطابق قانون خود رفتار میکند؛ هوش مصنوعی سوابق توسعه را برای تجزیه و تحلیل همه فعالیتهای متمرکز،.
متمرکز و جامع ما ایجاد کند. سوابق مسائلی از جمله رفتار افراد داخلی (اعم از انسان و هوش مصنوعی) و تهدیدات امنیتی؛
یک نقشه راه خط مشی با پیشنهادهای مشخص برای «نردبان نظارتی» منتشر کنید - سیاستهایی که با. افزایش ریسک مقیاس میشوند و میتوانند به هدایت سیاست هوش مصنوعی دولت کمک کنند.
برای اطلاعات بیشتر در مورد این اهداف و سایر اهداف ما، نقشه راه ایمنی مرزی را بخوانید. گزارشهای ریسک و بررسی خارجی گزارشهای ریسک روش دیگری است که ما در حال بهبود آنچه در مورد.
RSP قبلیمان خوب عمل میکرده است. ما دریافتیم که تهیه یک گزارش اولیه خطر،.
گزارش پادمانهای ما از می 2025،. برای درک داخلی ما و اطلاعرسانی عمومیاز خطرات مفید بود.
گزارشهای ریسک این را به یک روش جامعتر و سیستماتیکتر گسترش میدهند. گزارشهای ریسک اطلاعات دقیقی در مورد مشخصات ایمنی مدلهای ما در زمان انتشار ارائه میکنند.
آنها فراتر از توصیف قابلیتهای مدل خواهند رفت تا توضیح دهند که چگونه قابلیتها،. مدلهای تهدید (روشهای خاصی که مدلها ممکن است تهدید ایجاد کنند)،.
و کاهش ریسک فعال با هم هماهنگ میشوند و ارزیابی سطح کلی ریسک را ارائه میدهند. گزارشهای ریسک به صورت آنلاین (با برخی ویرایشها 1) هر 3 تا 6 ماه منتشر میشوند.
RSP جدید همچنین در شرایط خاص نیاز به بررسی خارجی گزارشهای ریسک دارد. ما بازبینان شخص ثالث متخصصی را منصوب خواهیم کرد که عمیقاً با تحقیقات ایمنی هوش مصنوعی آشنا باشند،.
انگیزه داشته باشند که در مورد موقعیت ایمنی Anthropic صادقانه و صادق باشند،. و از تضاد منافع عمده عاری باشند.
آنها به گزارش ریسک دسترسی ویرایش نشده یا حداقل ویرایش شده خواهند داشت و استدلال،. تجزیه و تحلیل و تصمیمگیری ما را در معرض یک بررسی عمومیجامع قرار میدهند.
اگرچه مدلهای فعلی ما هنوز نیازی به بررسی خارجی ندارند،. ما در حال حاضر در حال اجرای آزمایشی هستیم و برای رسیدن به این هدف کار میکنیم.
گزارشهای ریسک هرگونه شکاف بین ایمنی فعلی و ما را برطرف میکند. اقدامات امنیتی و توصیههای جاه طلبانهتر ما برای ایمنی در سطح صنعت.
ما امیدواریم که توصیف و انتشار چنین شکافهایی بتواند به آگاهی عمومیو در نتیجه تغییر سیاست سودمند. در آینده کمک کند.
گزارش ریسک اولیه را بخوانید. نتیجهگیری:.
سیاست مقیاسپذیری مسئول همیشه بهعنوان یک سند زنده برنامهریزی شده بود:. سیاستی که انعطافپذیری لازم برای تغییر را داشت،.
زیرا مدلهای هوش مصنوعی توانمندتر شدند. این ویرایش سوم آنچه را که در مورد RSP قبلی کار میکرد،.
تقویت میکند،. ما را به شفافیت بیشتر در مورد برنامهها و ملاحظات ریسکمان متعهد میکند،.
و توصیههای ما برای صنعت را از آنچه که بهعنوان یک شرکت میتوانیم به آن دست یابیم جدا. میکند.
در همین روحیه عملگرایی،. ما به تجدید نظر و اصلاح RSP خود،.
و روشهای ارزیابی و کاهش خطرات،. ادامه خواهیم داد.
همانطور که در RSP بحث میکنیم،. هدف ما این خواهد بود اصلاحات نسخه عمومیگزارش ریسک را به حداقل برسانید.
دلایلی که ممکن است مجبور باشیم برخی از متن را ویرایش کنیم عبارتند از:. انطباق قانونی،.
حفاظت از مالکیت معنوی،. امنیت عمومیو حریم خصوصی.
محتوای مرتبط دولت استرالیا و Anthropic تفاهم نامه همکاری برای ایمنی و تحقیقات هوش مصنوعی امضا کردند. موسسه آنتروپیک ما در حال راه اندازی موسسه آنتروپیک هستیم،.
تلاشی جدید برای مقابله با مهمترین چالشهایی که هوش مصنوعی قدرتمند برای جوامع ما ایجاد می. کند.
بیشتر بخوانید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
