TL;DR
- چکیده: توانایی تخمین دقیق میزان شکست مدلهای زبان بزرگ (LLM) پیش نیازی برای استقرار ایمن آنها است.
- با این حال،.
- در حال حاضر،.
چه اتفاقی افتاد
چکیده: توانایی تخمین دقیق میزان شکست مدلهای زبان بزرگ (LLM) پیش نیازی برای استقرار ایمن آنها است. با این حال،.
در حال حاضر،. پزشکان اغلب با یک معاوضه بین استانداردهای گران قیمت طلای انسانی و طرحهای حاشیهنویسی خودکار شدیداً مغرضانه مانند.
برچسبگذاری «LLM-as-a-a-Judge» مواجه هستند. در این مقاله،.
ما یک رویکرد جدید،. عملی و کارآمد برای برآورد نرخ شکست LLM بر اساس برآورد حداکثر احتمال محدود (MLE) پیشنهاد میکنیم.
روش ما سه منبع سیگنال مجزا را ادغام میکند:. (1) یک مجموعه کالیبراسیون با برچسب انسانی کوچک و با کیفیت،.
(2) مجموعه بزرگی از حاشیه نویسی LLM-judge،. و مهمتر از همه،.
(iii) اطلاعات جانبی اضافی از طریق محدودیتهای خاص دامنه به دست آمده از محدودههای شناخته شده. در آمار عملکرد داور.
ما رویکرد خود را از طریق یک مطالعه تجربی جامع تأیید میکنیم و آن را محک میزنیم در. برابر خطوط پایه پیشرفته مانند استنتاج مبتنی بر پیش بینی (PPI).
در سراسر رژیمهای آزمایشی مختلف - شامل دقتهای مختلف داور،. اندازههای مجموعه کالیبراسیون،.
و نرخهای شکست LLM - MLE محدود ما بهطور مداوم برآوردهای دقیقتر و واریانس کمتری را نسبت به. روشهای موجود ارائه میدهد.
با حرکت فراتر از استفاده از «جعبه سیاه» قضات خودکار به یک چارچوب انعطافپذیر،. مسیری اصولی،.
قابل تفسیر و مقیاسپذیر به سوی گواهینامه نرخ شکست LLM ارائه میکنیم. محاسبات و زبان (cs.
CL); هوش مصنوعی (cs. AI) استناد بهعنوان: (یا v1 [cs.
CL] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
Minghe Shen [مشاهده ایمیل] [v1] چهارشنبه،. 11 مارس 2026،.
ساعت 21:. 48:.
40 UTC (32,. 480 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
