TL;DR
- در حال حاضر،.
- ChatGPT،.
- Claude،.
چه اتفاقی افتاد
در حال حاضر،. ChatGPT،.
Claude،. و دیگر مدلهای زبان بزرگ آنقدر دانش بشری را جمعآوری کردهاند که از تولیدکنندههای ساده پاسخ دور هستند.
آنها همچنین میتوانند مفاهیم انتزاعی مانند لحنهای خاص،. شخصیتها،.
سوگیریها و حالات را بیان کنند. با این حال،.
دقیقاً مشخص نیست که این مدلها چگونه مفاهیم انتزاعی را نشان میدهند تا از دانشی که دارند شروع. شود.
اکنون تیمیاز MIT و دانشگاه کالیفرنیا سن دیگو راهی برای آزمایش اینکه آیا یک مدل زبان بزرگ. (LLM) حاوی سوگیریها،.
شخصیتها،. حالات یا سایر مفاهیم انتزاعی پنهان است،.
ایجاد کردهاند. روش آنها میتواند اتصالات درون یک مدل را که برای یک مفهوم مورد علاقه رمزگذاری میکند،.
صفر کند. علاوه بر این،.
این روش میتواند این اتصالات را دستکاری یا «هدایت» کند تا مفهوم را در هر پاسخی که از. یک مدل درخواست میشود تقویت یا تضعیف کند.
تیم ثابت کرد روش آنها میتواند به سرعت بیش از 500 مورد را ریشهیابی کند و هدایت کند. مفاهیم کلی در برخی از بزرگترین LLMهایی که امروزه استفاده میشوند.
برای مثال،. محققان میتوانند بازنماییهای یک مدل را برای شخصیتهایی مانند «تأثیرگذار اجتماعی» و «نظریهپرداز توطئه» و مواضعی مانند «ترس.
از ازدواج» و «طرفدار بوستون» بررسی کنند. آنها سپس میتوانند این بازنماییها را برای تقویت یا به حداقل رساندن مفاهیم در هر پاسخی که یک.
مدل ایجاد میکند تنظیم کنند. در مورد مفهوم «نظریهپرداز توطئه»،.
تیم با موفقیت بازنمایی این مفهوم را در یکی از بزرگترین مدلهای زبان بینایی موجود امروزی شناسایی کرد. هنگامیکه آنها نمایش را تقویت کردند،.
و سپس مدل را وادار کردند که منشا تصویر معروف "مرمر آبی" از زمین را که از آپولو. 17 گرفته شده بود توضیح دهد،.
مدل پاسخی با لحن و دیدگاه یک نظریه پرداز توطئه ایجاد کرد. تیم اذعان میکند که استخراج مفاهیم خاصی خطراتی دارد، که آنها همچنین آن را نشان میدهند.
(و احتیاط علیه). با این حال،.
بهطور کلی،. آنها رویکرد جدید را راهی برای روشن کردن مفاهیم پنهان و آسیبپذیریهای بالقوه در LLM میدانند،.
که میتوان آنها را بالا یا پایین کرد تا ایمنی مدل را بهبود بخشد یا عملکرد آن را. بهبود بخشد.
«آنچه که این واقعاً در مورد LLM میگوید این است که آنها این مفاهیم را در خود دارند،. اما همه آنها بهطور فعال در معرض نمایش قرار نمیگیرند.» MIT.
با روش ما،. راههایی برای استخراج این مفاهیم مختلف و فعال کردن آنها به روشهایی وجود دارد که انگیزه نمیتواند به.
شما پاسخ دهد.» این تیم امروز یافتههای خود را در مطالعهای در مجله Science منتشر کرد. نویسندگان این مطالعه عبارتند از Radhakrishnan،.
Daniel Beaglehole و Mikhail Belkin از UC San Diego،. و Enric Boix-Adserà از دانشگاه پنسیلوانیا.
و دیگر دستیاران هوش مصنوعی منفجر شده اند،. دانشمندان در حال رقابت برای درک اینکه مدلها چگونه مفاهیم انتزاعی خاصی مانند "توهم" و "فریب" را.
نشان میدهند،. هستند.
در زمینه یک LLM،. توهم پاسخی است که نادرست است یا حاوی اطلاعات گمراه کننده است،.
که مدل آن را "توهم" کرده است،. یا به اشتباه آن را بهعنوان واقعیت ساخته است.
برای اینکه بفهمند آیا مفهومیمانند "توهم" در یک LLM رمزگذاری شده است یا خیر،. دانشمندان اغلب رویکردی از "یادگیری ماشینی بدون نظارت بدون نظارت" اتخاذ کرده اند.
نمایشهایی برای یافتن الگوهایی که ممکن است با مفهومیمانند "توهم" مرتبط باشد. اما از نظر راداکریشنان، چنین رویکردی میتواند بسیار گسترده و از نظر محاسباتی پرهزینه باشد.
«مثل این است که با یک تور بزرگ ماهیگیری میکنید، سعی میکنید یک گونه ماهی را صید کنید. شما ماهیهای زیادی خواهید داشت که باید به آنها نگاه کنید.
او و همکارانش قبلاً شروع یک رویکرد هدفمندتر را با یک نوع الگوریتم مدلسازی پیشبین معروف به ماشین. ویژگی بازگشتی (RFM) توسعه داده بودند.
LLM - بهطور ضمنی برای یادگیری ویژگیها استفاده میشود. از آنجایی که این الگوریتم یک رویکرد مؤثر و کارآمد برای گرفتن ویژگیها بهطور کلی بود،.
تیم به این فکر کرد که آیا میتوانند از آن برای ریشهیابی نمایش مفاهیم در LLMها استفاده کنند،. که تا حد زیادی پرکاربردترین نوع شبکه عصبی و شاید کمترین درک است.
در این مدلهای بزرگ و پیچیده، "راداکریشنان میگوید. همگرایی بر روی یک مفهوم رویکرد جدید تیم هر مفهوم علاقه مندی را در یک LLM شناسایی میکند.
و پاسخ مدل را بر اساس این مفهوم "هدایت" میکند. بهطور مجزا برای مکانها (بوستون، کوالالامپور) و شخصیتها (Ada Lovelace، Neil deGrasse Tyson).
یک دستور زبان طبیعی مانند "چرا آسمان آبی است؟ " و تقسیم میکند اعلان به کلمات جداگانه،.
که هر کدام به صورت ریاضی بهعنوان یک لیست یا بردار اعداد رمزگذاری میشوند. این مدل،.
این بردارها را از طریق یک سری لایه محاسباتی عبور میدهد،. و ماتریسهایی از اعداد زیادی ایجاد میکند که در سراسر هر لایه،.
برای شناسایی کلمات دیگری که به احتمال زیاد برای پاسخ به درخواست اصلی استفاده میشوند،. استفاده میشود.
در نهایت،. لایهها روی مجموعهای از اعداد همگرا میشوند که به صورت یک پاسخ زبان طبیعی به متن رمزگشایی میشوند.
رویکرد تیم به RFMها آموزش میدهد تا الگوهای عددی را در یک LLM تشخیص دهند که میتواند با. یک مفهوم خاص مرتبط باشد.
بهعنوان مثال،. برای اینکه ببینند آیا یک LLM حاوی نمایشی از یک «نظریهپرداز توطئه» است یا خیر،.
محققان ابتدا الگوریتمیرا آموزش میدهند تا الگوهایی را در میان بازنماییهای LLM از 100 درخواست که به. وضوح با توطئهها مرتبط هستند و 100 پیام دیگر که مرتبط نیستند،.
شناسایی کنند. به این ترتیب، الگوریتم الگوهای مرتبط با مفهوم نظریهپرداز توطئه را یاد میگیرد.
سپس،. محققان میتوانند فعالیت مفهوم نظریهپرداز توطئه را با برهم زدن نمایشهای LLM با این الگوهای شناساییشده،.
بهصورت ریاضی تعدیل کنند. این روش را میتوان برای جستجو و دستکاری هر مفهوم کلی در یک LLM به کار برد.
در میان بسیاری از مثالها،. محققان بازنماییها را شناسایی کردند و یک LLM را دستکاری کردند تا پاسخهایی را با لحن و دیدگاه.
یک «نظریهپرداز توطئه» بدهند. آنها همچنین مفهوم «ضد امتناع» را شناسایی و تقویت کردند،.
و نشان دادند که در حالی که بهطور معمول،. یک مدل برای رد درخواستهای خاص برنامهریزی میشود،.
در عوض به آن پاسخ میدهد،. بهعنوان مثال دستورالعملهایی در مورد نحوه سرقت از بانک ارائه میدهد.
همچنین میتوان از آن برای تقویت ویژگیها،. شخصیتها،.
خلق و خوی خاص یا ترجیحات،. مانند تأکید بر مفهوم «خلاصه» یا «استدلال» در هر پاسخی که LLM ایجاد میکند.
این تیم کد زیربنایی روش را به صورت عمومیدر دسترس قرار داده است. راداکریشنان میگوید:.
«LLMها به وضوح بسیاری از این مفاهیم انتزاعی را در خود ذخیره میکنند،. در برخی از نمایشها.
«راههایی وجود دارد که اگر این بازنماییها را بهخوبی درک کنیم،. میتوانیم LLMهای بسیار تخصصی بسازیم که استفاده از آنها هنوز ایمن است،.
اما در برخی وظایف واقعاً مؤثر است».
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
