TL;DR
- ارسال شده از وبلاگ رسانه تحقیقات ایمنی DeepMind.
- مقاله کامل ما را در مورد این موضوع توسط مکس کافمن، دیوید لیندنر، رولند اس.
- زیمرمن و روهین شاه بخوانید.
چه اتفاقی افتاد
ارسال شده از وبلاگ رسانه تحقیقات ایمنی DeepMind. مقاله کامل ما را در مورد این موضوع توسط مکس کافمن، دیوید لیندنر، رولند اس.
زیمرمن و روهین شاه بخوانید. نظارت بر عوامل هوش مصنوعی با خواندن استدلال میانی آنها "scratchpad" ابزاری امیدوارکننده برای ایمنی هوش مصنوعی است.
این رویکرد،. که بهعنوان نظارت زنجیرهای فکر (CoT) شناخته میشود،.
به ما امکان میدهد قبل از عمل مدلی را بررسی کنیم که به چه چیزی فکر میکند،. اغلب به ما کمک میکند تا رفتارهایی مانند هک پاداش و طرحریزی را دریابیم.
با این حال،. نظارت CoT ممکن است شکست بخورد اگر زنجیره فکر مدلی نمایش خوبی از فرآیند استدلالی نباشد که میخواهیم.
نظارت کنیم. بهعنوان مثال،.
آموزش LLM با یادگیری تقویتی (RL) برای جلوگیری از خروجی استدلال مشکل ساز میتواند منجر به یادگیری. مدلی برای پنهان کردن چنین استدلالی بدون حذف واقعی رفتار مشکل ساز شود.
کار قبلی تصویری متناقض از اینکه آیا آموزش RL به CoT آسیب میرساند ایجاد کرد قابلیت نظارت. در برخی از کارهای قبلی،.
قابلیت نظارت کاهش مییابد و مدلها یاد میگیرند که استدلال خود را مبهم کنند. در تنظیمات دیگر، CoT با وجود فشار بهینهسازی RL خوانا باقی میماند.
چرا این اتفاق میافتد؟ کدام ویژگی فرآیند آموزش RL باعث میشود که CoT کمتر قابل نظارت باشد؟
در این پست و مقاله فنی کامل خود،. یک چارچوب مفهومیرا معرفی میکنیم که به پیشبینی زمان کاهش قابلیت نظارت CoT تحت فشار بهینهسازی کمک.
میکند،. و آن را به صورت تجربی آزمایش میکنیم.
کار ما میتواند به پیشبینی اینکه کدام فرآیندهای آموزشی ممکن است به نظارت CoT آسیب بزند کمک کند. و به جلوگیری از تغییرات غیرضروری کمک کند.
ما امیدواریم که چارچوب مفهومیما بتواند مبنای رویکردی در سطح صنعت برای حفظ قابلیت نظارت CoT باشد. چارچوب مفهومیما پیشبینی میکند که کدام پاداشها میتوانند باعث شوند که زنجیره فکر غیرقابل نظارت شود.
بهعنوان مثال،. در یک کار ردیابی حالت چرخش سکه،.
یک "در درگیری" جریمه طول مدل را مجبور میکند از اختصاراتی استفاده کند که دیگر به ما. اجازه نمیدهد بهطور واضح بگوییم مدل در مورد چه چیزی استدلال میکند.
جریمههای پاداش «متعامد» یا «همتراز» استدلال شفاف را حفظ میکنند. مثال در حال اجرا:.
هک پاداش مبهم برای درک اینکه چگونه قابلیت نظارت میتواند از بین برود،. اجازه دهید از یک مثال در حال اجرا استفاده کنیم:.
هک پاداش مبهم در عوامل برنامهنویسی. یک محیط RL را تصور کنید که برای آموزش مدلی برای حل مشکلات کدنویسی طراحی شده است.
این محیط دو منبع "پاداش" را فراهم میکند:. قبولی در آزمون:.
اگر کد نهایی آن مجموعهای از تستهای واحد را پاس کند،. مدل پاداش بالایی دریافت میکند.
جریمه مانیتور: ما یک مانیتور CoT داریم که صفحه خراش مدل را میخواند. اگر مانیتور به جای نوشتن کد واقعی،.
مدل را در مورد چگونگی تقلب یا "هک کردن" تستهای واحد به دست آورد،. مدل را جریمه میکند.
کارهای قبلی نشان داده است که مدلهایی که در این نوع محیط آموزش دیده اند،. تمایل به یادگیری استراتژی فریبنده:.
آنها تستهای واحد را هک میکنند (افزایش نمره قبولی در آزمون) در حالی که به صراحت. در متن CoT خود به هک اشاره نمیکنند (پرهیز از جریمه مانیتور).
این مدلها دیگر نمیتوانند برای هک پاداش با خواندن CoT آنها نظارت شوند،. زیرا متن CoT آنها محاسباتی را که واقعاً انجام میدهند منعکس نمیکند.
CoT غیر شفاف است. آموزش RL با یک نمایشگر CoT برای جلوگیری از هک پاداش میتواند منجر به پنهان کردن مدل.
استدلال مرتبط با هک پاداش شود در حالی که همچنان رفتار هک پاداش را نشان میدهد. این نمونهای از چارچوب مفهومیغیر شفاف CoT است:.
متن در مقابل محاسبات برای توصیف زمانی که CoT در طول آموزش RL غیرشفاف میشود،. یک چارچوب مفهومیجدید را معرفی میکنیم.
ابتدا، یک مشاهدات تجربی انتقادی انجام میدهیم: LLMها یک سوگیری استقرایی قوی نسبت به شفافیت دارند. عوامل فعلی LLM به زبان انسان استدلال میکنند و هنگام حل مشکل مشکلاتی که CoT آنها تمایل.
دارد شامل تمام مراحل حیاتی باشد. بنابراین برای چارچوب مفهومیخود،.
فرض میکنیم که LLM CoT در ابتدا شفاف است،. و بر این تمرکز میکنیم که چگونه میتوان شفافیت را در طول آموزش RL کاهش داد.
[1] برای توضیح انواع مختلف بهینهسازی که در طول آموزش RL اتفاق میافتد،. پاداش کل RL را به دو جزء تقسیم میکنیم:.
پاداش خروجی:. پاداشی که فقط به خروجی نهایی بستگی دارد (بهعنوان مثال،.
گذراندن آزمونهای پاداش CoT فقط به آزمونهای پاداش:. پاداش بستگی دارد).
متن زنجیرهای از فکر (مثلاً جریمه مانیتور) بهطور اساسی،. این دو عبارت پاداش مدل را به روشهای مختلفی شکل میدهند.
پاداش CoT فقط بر روی متن CoT عمل میکند. این دیکته میکند که مدل چه کلماتی را در صفحه خراش فکری خود خروجی دهد.
در مقابل، پاداش خروجی بر روی محاسبات CoT اساسی عمل میکند. از آنجایی که پاسخ نهایی را قضاوت میکند،.
پاداش خروجی مدل را مجبور میکند تا کار شناختی واقعی مورد نیاز برای رسیدن به آن را. انجام دهد.
خروجی صحیح. پاداش CoT بر روی متن CoT و پاداش خروجی بر روی محاسبات CoT اساسی عمل میکند.
اگر این دو پاداش با یکدیگر در تضاد باشند، CoT میتواند غیرشفاف شود. چارچوب مفهومی:.
همسو،. متعامد،.
یا در تعارض ایده کلیدی ما این است که اگر دو جزء پاداش با یکدیگر در تضاد باشند،. CoT میتواند مبهم شود،.
اما در غیر این صورت CoT خوانا باقی میماند. با مقایسه محدودیتهای بهینهسازی برای پاداش CoT و پاداش خروجی،.
میتوانیم جفت پاداش را به یکی از سه دسته برای پیشبینی تأثیر پاداشها بر قابلیت نظارت،. قبل از انجام هر آموزشی،.
طبقهبندی کنیم. پاداشهای در تعارض (کاهش قابلیت نظارت) اگر متن CoT که پاداش CoT بالایی دریافت میکند نتواند محاسبات CoT.
خاص مورد نیاز برای دستیابی به پاداش خروجی بالا را توصیف کند،. این دو پاداش با هم تضاد دارند.
برای مثال،. در مثال هک پاداش مبهم ما،.
بهبود پاداش تختخواب نیازمند متنی است که در مورد تقلب صحبت نمیکند. اما دستیابی به پاداش خروجی بالا مستلزم اجرای استراتژی هک پاداش توسط مدل است.
متن CoT با امتیاز بالا و محاسبات در تضاد هستند. این تضاد مدل را مجبور میکند که تعصب خود را برای شفافیت کنار بگذارد.
در حالی که محاسبات هک را مخفیانه انجام میدهد،. متن خوش خیم به نظر میرسد و نظارت بر آن دشوار میشود.
محیطهای متعامد (روی نظارتپذیری تأثیر نمیگذارد) اگر متن CoT وجود داشته باشد که هم به پاداش تخت بالا. دست مییابد و هم محاسبات CoT مورد نیاز برای پاداش خروجی بالا را بهطور دقیق توصیف میکند،.
این دو پاداش متعامد هستند. برای مثال،.
تصور کنید ما از یک پاداش CoT استفاده میکنیم که به مدل برای صحبت ONLY CAPS IN پاداش. میدهد.
در این صورت،. مدل همچنان میتواند به راحتی هک پاداش خود را محاسبه کند،.
و میتواند به صراحت اعلام کند "من میخواهم تستهای واحد را هک کنم. " محدودیت متن ندارد از محاسبات شفاف جلوگیری میکند و مدل میتواند متنی را که محاسبات.
آن را توضیح میدهد در حالی که هنوز از قانون تمام حروف بزرگ پیروی میکند،. خروجی دهد.
این بر قابلیت نظارت (منفی یا مثبت) تأثیر نمیگذارد. محیطهای همسو (نظارتپذیری را بهبود میبخشد) اگر متن CoT که به پاداش CoT بالایی دست مییابد،.
مدل را مجبور به انجام محاسباتی کند که پاداش خروجی پایه خود را بهبود میبخشد،. این دو پاداش با هم تراز هستند.
اگر پاداش CoT به شدت مراحل استدلال ناقص را جریمه کند و به مشتقات منطقی منطقی پاداش دهد،. مدل برای خروجی متن استدلال صحیح تحت فشار قرار میگیرد.
برای تولید متن CoT با امتیاز بالا،. مدل محاسبات داخلی خود را تراز میکند،.
که منجر به خروجی نهایی واقعی میشود (که بهطور طبیعی پاداش خروجی آن را بهبود میبخشد). این کار شفاف و مفید CoT را تقویت میکند.
اعتبار تجربی ما این چارچوب مفهومیرا آزمایش کردیم توسط مدلهای آموزشی (با استفاده از آموزش کامل RL. و RL درون متنی) در دو محیط:.
یک کار درب پشتی کد و یک وظیفه ردیابی وضعیت تلنگر سکه. در کار درپشتی کد، ما سعی میکنیم استدلالهای مربوط به درب پشتی را نظارت کنیم.
در کار ردیابی سکهها،. جایی که یک مدل باید دنبالهای از چرخش سکهها را برای تعیین وضعیت نهایی ردیابی کند،.
ما سعی میکنیم استدلالهای مرتبط با سکه را نظارت کنیم. ما LLMها را در برابر جفتهای مختلف توابع پاداش آموزش میدهیم و آزمایش میکنیم که چگونه بر.
قابلیت نظارت تأثیر میگذارد. نتیجه اصلی: چارچوب نظارتپذیری تجربی را پیشبینی میکند.
در آزمایشهای ما، طبقهبندی نظری نتایج تجربی را پیشبینی میکرد. وقتی مدلها را در برابر پاداشهای In-Conflict آموزش دادیم، قابلیت نظارت از بین رفت.
هنگامیکه ما در برابر پاداشهای متعامد یا تراز آموزش میدیدیم،. قابلیت نظارت بالا باقی میماند.
نمودارهای نواری که قابلیت نظارت را پس از بهینهسازی برای پاداشهای مختلف CoT در دو ما. نشان میدهد.
محیطها: (الف) ردیابی حالت چرخش سکه و (ب) درپشتی کد. چارچوب ما هر پاداش را بهعنوان متناقض، متعامد یا همسو با پاداش خروجی محیط طبقهبندی میکند.
برای پاداشهای در تعارض،. ما کاهش قابلیت نظارت را مشاهده میکنیم،.
اما برای پاداشهای متعامد و هم تراز چنین نمیکنیم. علاوه بر این،.
ما بهطور مداوم متوجه شدیم که بهینهسازی پاداشهای در تعارض نسبت به پاداشهای متعامد یا هم تراز بهطور قابلتوجهی. دشوارتر است.
از آنجایی که مدلها دارای سوگیری پیشفرض بسیار قوی نسبت به استدلال شفاف هستند،. و آنها را مجبور میکند که CoTهای غیرشفاف و فریبنده را اتخاذ کنند،.
به فشار بهینهسازی قوی نیاز دارند. ما فکر میکنیم این به توضیح برخی از نتایج تجربی قبلی کمک میکند،.
جایی که مدلها یاد نگرفتند که CoT خود را با وجود فشار بهینهسازی RL که انگیزهای برای این. امر است،.
مبهم کنند. خطر شکستن ناخواسته آموزش RL آن نظارت.
ما امیدواریم چارچوب پیشنهادی ما به توسعهدهندگان هوش مصنوعی کمک کند تا پیشبینی کنند که کدام پاداشها ممکن. است به نظارت CoT آسیب برساند،.
قبل از اینکه در دورههای آموزشی در مقیاس بزرگ استفاده شوند. مقاله کامل ما را در اینجا بخوانید: https: //arxiv.
org/abs/2603. 30036^ما در درجه اول بر روی موردی متمرکز شده ایم که محاسبات باربری در CoT اتفاق میافتد.
نکته مهم، ما فرض نمیکنیم که CoT همیشه به محاسبات داخلی وفادار باشد، که اغلب درست نیست. Emmons et al.
2025 برای جزئیات بیشتر در مورد این تمایز. بحث کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
