TL;DR
- مدلهای زبان بزرگ (LLM) میتوانند پاسخهای معتبر اما نادرست ایجاد کنند،.
- بنابراین محققان روشهای کمیسازی عدم قطعیت را برای بررسی قابلیت اطمینان پیشبینیها توسعه دادهاند.
- یکی از روشهای رایج شامل ارسال یک درخواست چندین بار برای دیدن اینکه آیا مدل پاسخ یکسانی را.
چه اتفاقی افتاد
مدلهای زبان بزرگ (LLM) میتوانند پاسخهای معتبر اما نادرست ایجاد کنند،. بنابراین محققان روشهای کمیسازی عدم قطعیت را برای بررسی قابلیت اطمینان پیشبینیها توسعه دادهاند.
یکی از روشهای رایج شامل ارسال یک درخواست چندین بار برای دیدن اینکه آیا مدل پاسخ یکسانی را. ایجاد میکند یا خیر.
اعتماد بیش از حد میتواند کاربران را در مورد دقت یک پیش بینی گمراه کند،. که ممکن است منجر به عواقب مخربی در تنظیمات پرمخاطره مانند مراقبتهای بهداشتی یا مالی شود.
برای رفع این نقص،. محققان MIT روش جدیدی را برای اندازهگیری نوع متفاوتی از عدم قطعیت معرفی کردند که با اطمینان بیشتری.
پاسخهای LLM مطمئن اما نادرست را شناسایی میکند. روش آنها شامل مقایسه پاسخ مدل هدف با پاسخهای گروهی از LLMهای مشابه است.
آنها متوجه شدند که اندازهگیری مدل متقاطع اختلاف نظر با دقت بیشتری نسبت به رویکردهای سنتی این. نوع عدم قطعیت را نشان میدهد.
آنها رویکرد خود را با معیاری از خودسازگاری LLM ترکیب کردند تا یک متریک عدم قطعیت کلی ایجاد. کنند و آن را بر روی 10 کار واقع بینانه،.
مانند پاسخ به سؤال و استدلال ریاضی ارزیابی کردند. این معیار عدم قطعیت کل بهطور مداوم از سایر معیارها بهتر بود و در شناسایی پیشبینیهای غیرقابل اعتماد.
بهتر بود. «خودسازگاری در بسیاری از رویکردهای مختلف برای کمیسازی عدم قطعیت استفاده میشود،.
اما اگر برآورد شما از عدم قطعیت تنها بر نتیجه یک مدل تکیه کند،. لزوماً قابل اعتماد نیست.
کیمیا حمیدیه،. دانشجوی فارغ التحصیل رشته مهندسی برق و علوم کامپیوتر (EECS) میگوید:.
یک روش مکمل که میتواند بهطور تجربی نتایج را بهبود بخشد. در MIT و نویسنده اصلی مقاله در مورد این تکنیک.
Veronika Thost، دانشمند محقق در آزمایشگاه هوش مصنوعی MIT-IBM Watson به او پیوست. والتر گریچ، فوق دکترای سابق MIT که اکنون استادیار موسسه پلی تکنیک ورچستر است.
میخائیل یوروچکین،. دانشمند تحقیقاتی در آزمایشگاه هوش مصنوعی MIT-IBM Watson; و نویسنده ارشد مرضیه قاسمی،.
دانشیار EECS و عضو انستیتوی علوم مهندسی پزشکی و آزمایشگاه اطلاعات و سیستمهای تصمیمگیری. درک بیش از حد اطمینان بسیاری از روشهای رایج برای کمیسازی عدم قطعیت شامل درخواست یک مدل برای.
نمره اطمینان یا آزمایش سازگاری پاسخهای آن به همان درخواست است. این روشها عدم قطعیت اصلی را تخمین میزنند،.
یا اینکه یک مدل چقدر از نظر درونی به پیشبینی خودش اطمینان دارد. تحقیقات نشان داده است که عدم قطعیت معرفتی،.
یا عدم اطمینان در مورد استفاده از مدل مناسب،. میتواند راه بهتری برای ارزیابی عدم قطعیت واقعی در زمانی که یک مدل بیش از حد مطمئن.
باشد. حمیدیه توضیح میدهد:.
"اگر چندین بار از ChatGPT یک سوال را بپرسم و بارها و بارها پاسخ یکسانی به من بدهد،. به این معنی نیست که پاسخ لزوماً درست است.
اگر به کلود یا جمینی تغییر مسیر دهم و همان سوال را از آنها بپرسم و پاسخ متفاوتی. دریافت کنم،.
این امر به من احساس عدم قطعیت معرفتی میدهد. " مدل ایده آل برای آن کار اما از آنجایی که ساختن یک مدل ایده آل غیرممکن است،.
محققان از جایگزینها یا تقریبیهایی استفاده میکنند که اغلب بر فرضیات معیوب تکیه میکنند. برای بهبود کمیسازی عدم قطعیت، MIT محققان به روشی دقیقتر برای تخمین عدم قطعیت معرفتی نیاز داشتند.
رویکرد گروهی روشی که آنها توسعه دادند شامل اندازهگیری واگرایی بین مدل هدف و مجموعه کوچکی از مدلها. با اندازه و معماری مشابه است.
آنها دریافتند که مقایسه شباهت معنایی،. یا اینکه چقدر معانی پاسخها مطابقت دارند،.
میتواند تخمین بهتری از عدم قطعیت معرفتی ارائه دهد. برای دستیابی به دقیقترین تخمین،.
محققان به مجموعهای از LLM نیاز داشتند که پاسخهای متنوع را پوشش دهد،. خیلی شبیه مدل هدف نباشد و بر اساس اعتبار وزن شود.
حمیدیه میگوید:. زمانی که آنها این روش را برای تخمین معرفتی ایجاد کردند،.
روشهای مختلفی را امتحان کردند که پیچیدهتر بودند،. اما این رویکرد بسیار ساده به بهترین وجه انجام شد.
عدم قطعیت،. آنها آن را با یک رویکرد استاندارد ترکیب کردند که عدم قطعیت aleatoric را اندازهگیری میکند.
این متریک عدم قطعیت کل (TU) دقیقترین بازتاب را از قابل اعتماد بودن سطح اطمینان یک مدل ارائه. میکند.
حمیدیه میگوید:. «حمیدیه میگوید:.
«Hamidieh میگوید:. «نامعین به عدم قطعیت دستور داده شده و همچنین نزدیک بودن مدل ما به مدل بهینه بستگی دارد.
به همین دلیل است که جمعبندی این دو معیار عدم قطعیت بهترین تخمین را به ما میدهد. عدم قطعیت معرفتی میتواند خروجیهای نادرستی را که ممکن است عدم قطعیت مقولهای از دست بدهد، نشان دهد.
همچنین میتواند محققان را قادر سازد تا پاسخهای صحیح مطمئن LLM را در طول آموزش تقویت کنند،. که ممکن است عملکرد را بهبود بخشد.
آنها TU را با استفاده از چندین LLM در 10 کار رایج،. مانند پاسخگویی به سؤال،.
خلاصهسازی،. ترجمه و استدلال ریاضی آزمایش کردند.
روش آنها بیشتر است بهطور مؤثری پیشبینیهای غیرقابل اعتماد را نسبت به اندازهگیری به تنهایی شناسایی کرد. اندازهگیری عدم قطعیت کل اغلب به پرس و جوهای کمتری نسبت به محاسبه عدم قطعیت پیشبینی نیاز داشت،.
که میتواند هزینههای محاسباتی را کاهش دهد و در انرژی صرفهجویی کند. آزمایشهای آنها همچنین نشان داد که عدم قطعیت معرفتی در کارهایی با پاسخ صحیح منحصربهفرد،.
مانند پاسخدهی به پرسشهای واقعی،. بیشتر مؤثر است،.
اما ممکن است در پاسخگویی به پرسشهای واقعی،. در تحقیقات آتی بیشتر به پایان برسد.
میتوانند تکنیک خود را برای بهبود عملکرد آن در پرس و جوهای باز وفق دهند. آنها همچنین ممکن است با کاوش در اشکال دیگر عدم قطعیت ناشناخته بر این کار بسازند.
این کار تا حدی توسط آزمایشگاه هوش مصنوعی MIT-IBM Watson تامین میشود.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
