TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- مدلهای زبان بزرگ (LLM) اغلب در تنظیماتی که امتناع امنتر است،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
مدلهای زبان بزرگ (LLM) اغلب در تنظیماتی که امتناع امنتر است،. پاسخهای مطمئن اما نادرست ایجاد میکنند.
پروتکلهای ارزیابی استاندارد،. با این حال،.
نیاز به پاسخ دارند و در مورد اینکه چگونه اعتماد باید تصمیمات را تحت اولویتهای مختلف ریسک. هدایت کند،.
توضیح نمیدهند. برای پرداختن به این شکاف،.
امتیاز همسویی رفتاری (BAS) را معرفی میکنیم،. یک معیار تئوری تصمیم برای ارزیابی اینکه چگونه اعتماد LLM از تصمیمگیری آگاهانه پرهیز میکند.
BAS از یک مدل سودمند پاسخ یا پرهیز صریح مشتق شده است و مطلوبیت تحقق یافته را در. زنجیرهای از آستانههای ریسک جمع میکند،.
که معیاری از قابلیت اطمینان در سطح تصمیم را به دست میدهد که هم به میزان و. هم به ترتیب اطمینان بستگی دارد.
ما از نظر تئوری نشان میدهیم که تخمینهای اطمینان صادقانه بهطور منحصربهفردی،. کاربرد مورد انتظار BAS را به حداکثر میرسانند،.
و کالیبراسیون را به رفتار تصمیمگیری بهینه مرتبط میکند. BAS به قوانین امتیازدهی مناسبی مانند از دست دادن گزارش مربوط است،.
اما از نظر ساختاری متفاوت است:. از دست دادن گزارش،.
عدم اطمینان و اعتماد بیش از حد را بهطور متقارن جریمه میکند،. در حالی که BAS یک جریمه نامتقارن را اعمال میکند که به شدت اجتناب از خطاهای بیش.
از حد اطمینان را در اولویت قرار میدهد. با استفاده از BAS در کنار معیارهای پرکاربرد مانند ECE و AURC،.
ما سپس معیاری از قابلیت اطمینان اعتماد گزارششده توسط خود در سراسر چندین LLM و وظایف ایجاد میکنیم. نتایج ما تنوع قابلتوجهی را در اعتماد مفید تصمیمگیری نشان میدهد،.
و در حالی که مدلهای بزرگتر و دقیقتر تمایل به دستیابی به BAS بالاتر دارند،. حتی مدلهای مرزی نیز مستعد اعتماد بیش از حد شدید هستند.
نکته مهم این است که مدلهایی با ECE یا AURC مشابه میتوانند BAS بسیار متفاوتی را به دلیل. خطاهای بسیار مطمئن نشان دهند که محدودیتهای معیارهای استاندارد را برجسته میکند.
ما همچنین نشان میدهیم که مداخلات ساده،. مانند برانگیختن اعتماد به نفس بالای $k$ و کالیبراسیون پس از انجام،.
میتوانند بهطور معناداری بهبود قابلیت اطمینان بهطور کلی،. کار ما یک معیار اصولی و یک معیار جامع برای ارزیابی قابلیت اطمینان اطمینان LLM ارائه میدهد.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
