TL;DR
- 19 دسامبر 2025 تیم تفسیرپذیری مدل مسئولیت و ایمنی زبان اعلام مجموعه ابزارهای باز و جدید برای تفسیرپذیری.
- مدل زبان.
- اگر یک سیستم آنطور که انتظار میرود رفتار نکند،.
چه اتفاقی افتاد
19 دسامبر 2025 تیم تفسیرپذیری مدل مسئولیت و ایمنی زبان اعلام مجموعه ابزارهای باز و جدید برای تفسیرپذیری. مدل زبان.
اگر یک سیستم آنطور که انتظار میرود رفتار نکند،. فقدان دید در عملکرد داخلی آن میتواند تعیین دلیل دقیق رفتار آن را دشوار کند.
سال گذشته،. علم تفسیرپذیری را با Gemma Scope،.
ابزاری که برای کمک به محققان در درک عملکرد درونی Gemma 2،. مجموعه سبک وزن ما از مدلهای باز طراحی شده است،.
ارتقا دادیم. امروز،.
Gemma Scope 2 را منتشر میکنیم:. مجموعه جامع و باز از ابزارهای تفسیرپذیر برای همه اندازههای مدل Gemma 3،.
از 270M تا پارامتر. این ابزارها میتوانند ما را قادر سازند تا خطرات بالقوه را در کل "مغز" مدل ردیابی کنیم.
دانش،. این بزرگترین انتشار منبعباز ابزارهای تفسیرپذیر توسط یک آزمایشگاه هوش مصنوعی تا به امروز است.
تولید Gemma Scope 2 شامل ذخیره سازی تقریباً 110 پتابایت داده و همچنین آموزش بیش از 1 تریلیون. پارامتر کل بود.
با ادامه پیشرفت هوش مصنوعی،. ما مشتاقانه منتظر جامعه تحقیقاتی هوش مصنوعی هستیم که از Gemma Scope 2 برای اشکال زدایی رفتارهای مدل.
اضطراری استفاده کنند،. از این ابزارها برای ممیزی و اشکال زدایی بهتر عوامل هوش مصنوعی و مداخله عملی هوش مصنوعی،.
توسعه و توسعه عوامل ایمنی استفاده کنند. در برابر مسائلی مانند فرار از زندان، توهمات و دودلی.
نسخه ی نمایشی تعاملی Gemma Scope 2 ما با اجازه Neuronpedia برای آزمایش در دسترس است. هدف تحقیق تفسیرپذیری Gemma Scope 2 درک عملکرد داخلی و الگوریتمهای آموخته شده مدلهای هوش مصنوعی.
است. همانطور که هوش مصنوعی بهطور فزایندهای توانمندتر و پیچیدهتر میشود،.
تفسیرپذیری برای ساختن هوش مصنوعی ایمن و ایمن بسیار مهم است قابل اعتماد. مانند سلف خود، Gemma Scope 2 بهعنوان یک میکروسکوپ برای خانواده مدلهای زبان Gemma عمل میکند.
با ترکیب رمزگذارهای خودکار پراکنده (SAE) و رمزگذارها،. به محققان این امکان را میدهد تا به داخل مدلها نگاه کنند،.
ببینند به چه چیزی فکر میکنند و چگونه این افکار شکل میگیرند و به رفتار مدل متصل میشوند. به نوبه خود،.
این امکان مطالعه غنیتر از فرار از زندان یا سایر رفتارهای هوش مصنوعی مرتبط با ایمنی را فراهم. میکند،.
مانند اختلافات بین استدلال ارتباطی مدل و حالت داخلی آن. در حالی که Gemma Scope اولیه امکان تحقیق در زمینههای کلیدی ایمنی،.
مانند توهم مدل،. شناسایی اسرار شناخته شده توسط یک مدل،.
و آموزش مدلهای ایمنتر را از طریق تحقیقات مهمتر و حتی بیشتر از Gemma Scope پشتیبانی میکند:. مقیاس:.
ما مجموعه کاملی از ابزارها را برای کل خانواده Gemma 3 (تا 27B پارامتر) ارائه میدهیم که. برای مطالعه رفتارهای اضطراری ضروری است.
فقط در مقیاس ظاهر میشوند،. مانند مدلهایی که قبلاً توسط مدل مقیاس 27b C2S کشف شده بود که به کشف یک مسیر.
بالقوه درمانی سرطان کمک کرد. اگرچه Gemma Scope 2 بر روی این مدل آموزش ندیده است،.
این نمونهای از نوع رفتار اضطراری است که این ابزارها ممکن است قادر به درک آن باشند. ابزارهای پیشرفتهتر برای رمزگشایی رفتارهای پیچیده داخلی:.
Gemma Scope 2 شامل SAEها و رمزگذارهایی است که در هر لایه از مدلهای خانواده Gemma. 3 ما آموزش دیده اند.
رمزگذارهای پرش و رمزگذارهای چندلایه رمزگشایی محاسبات چند مرحلهای و الگوریتمهای پخششده در سراسر مدل را آسانتر میکنند. تکنیکهای آموزشی پیشرفته:.
ما از تکنیکهای پیشرفته،. بهویژه تکنیک آموزشی Matryoshka استفاده میکنیم،.
که به SAEها کمک میکند مفاهیم مفیدتر را شناسایی کنند و برخی از ایرادات کشف شده را. در ابزار تجزیه و تحلیل هدف Gemhat نیز برطرف کند.
نسخههای Gemma 3 که برای موارد استفاده از چت تنظیم شدهاند. این ابزارها امکان تجزیه و تحلیل رفتارهای پیچیده و چند مرحلهای مانند فرار از زندان،.
مکانیسمهای امتناع و وفاداری زنجیرهای از افکار را فراهم میکنند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
