TL;DR
- شرکتی که میخواهد از یک مدل زبان بزرگ (LLM) برای خلاصه کردن گزارشهای فروش یا تریاژ سؤالات مشتری.
- استفاده کند،.
- میتواند از بین صدها LLM منحصربهفرد با دهها تنوع مدل،.
چه اتفاقی افتاد
شرکتی که میخواهد از یک مدل زبان بزرگ (LLM) برای خلاصه کردن گزارشهای فروش یا تریاژ سؤالات مشتری. استفاده کند،.
میتواند از بین صدها LLM منحصربهفرد با دهها تنوع مدل،. هر کدام با عملکرد کمیمتفاوت انتخاب کند.
برای محدود کردن انتخاب،. شرکتها اغلب بر پلتفرمهای رتبهبندی LLM تکیه میکنند،.
که بازخورد کاربران را در مورد تعاملات مدل جمعآوری میکند تا بر اساس آخرین تحقیقات انجام شده MIT. بر اساس روشهای انجام شده MIT مشخص شود.
تعاملات کاربر میتواند نتایج را منحرف کند،. و باعث شود کسی به اشتباه فکر کند که یک LLM انتخاب ایده آل برای یک مورد خاص.
است. مطالعه آنها نشان میدهد که حذف بخش کوچکی از دادههای جمعسپاری میتواند مدلهایی را که در رتبهبندی برتر.
هستند تغییر دهد. آنها روشی سریع برای آزمایش پلتفرمهای رتبهبندی و تعیین اینکه آیا آنها مستعد این مشکل هستند یا خیر.
توسعه دادند. تکنیک ارزیابی،.
آرای فردی را مشخص میکند که بیشترین مسئولیت را برای آنها دارند انحراف نتایج بهطوری که کاربران. بتوانند این آرای تاثیرگذار را بررسی کنند.
محققان میگویند این کار بر نیاز به استراتژیهای دقیقتر برای ارزیابی رتبهبندی مدل تاکید. میکند.
در حالی که آنها در این مطالعه روی کاهش تمرکز نداشتند،. اما پیشنهاداتی ارائه میدهند که ممکن است استحکام این پلتفرمها را بهبود بخشد،.
مانند جمعآوری بازخورد دقیقتر برای ایجاد رتبهبندی. این مطالعه همچنین هشداری را به کاربرانی ارائه میدهد که ممکن است هنگام تصمیمگیری در مورد LLM به.
رتبهبندیهایی که میتوانند تأثیرات گسترده و پرهزینهای روی یک کسبوکار یا داشته باشند،. متکی باشند.» تامارا برودریک میگوید:.
«بهنظر میرسد که رتبه برتر LLM تنها به دو یا سه بازخورد کاربر از دهها هزار مورد بستگی. دارد،.
پس نمیتوان فرض کرد که LLM رتبه برتر در هنگام استقرار،. بهطور مداوم از همه LLMهای دیگر بهتر خواهد بود.» دانشیار گروه مهندسی برق و علوم کامپیوتر MIT (EECS)؛
عضو آزمایشگاه اطلاعات و سیستمهای تصمیمگیری (LIDS) و موسسه دادهها،. سیستمها و جامعه.
وابسته به آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL)؛ و نویسنده ارشد این مطالعه. نویسندگان اصلی و دانشجویان فارغ التحصیل EECS جنی هوانگ و یونی شن و همچنین دنیس وی،.
دانشمند تحقیقاتی ارشد در IBM Research به او پیوستند. این مطالعه در کنفرانس بینالمللی نمایشهای یادگیری ارائه میشود.
دادههای حذفی در حالی که انواع مختلفی از پلتفرمهای رتبهبندی LLM وجود دارد،. محبوبترین تغییرات از کاربران میخواهند یک پرس و جو را به دو مدل ارسال کنند و انتخاب کنند.
که کدام LLM پاسخ بهتری ارائه میدهد. پلتفرمها نتایج این تطابقها را جمعآوری میکنند تا رتبهبندیهایی را ایجاد کنند که نشان میدهد کدام LLM در.
وظایف خاصی بهترین عملکرد را داشته است. مانند کدنویسی یا درک بصری.
با انتخاب یک LLM با عملکرد برتر،. کاربر احتمالاً انتظار دارد که رتبه برتر آن مدل تعمیم یابد،.
به این معنی که باید با مجموعهای از دادههای جدید از سایر مدلها در برنامه. مشابه،.
اما نه یکسان،. عملکرد بهتری داشته باشد.
محققان MIT قبلاً تعمیم را در زمینههایی مانند آمار و اقتصاد مطالعه کرده بودند. این کار موارد خاصی را نشان داد که در آن حذف درصد کمیاز دادهها میتواند نتایج یک.
مدل را تغییر دهد،. که نشان میدهد نتایج آن مطالعات ممکن است فراتر از تنظیمات محدود آنها نباشد.
محققان میخواستند ببینند آیا میتوان همان تحلیل را برای پلتفرمهای رتبهبندی LLM اعمال کرد یا خیر. «در پایان روز، کاربر میخواهد بداند که آیا آنها بهترین LLM را انتخاب میکنند یا نه.
برودریک میگوید: «پایان همه چیز باشد.» اما آزمایش پدیده حذف داده غیرممکن است. به صورت دستی بهعنوان مثال، یک رتبهبندی که آنها ارزیابی کردند بیش از 57000 رای داشت.
آزمایش کاهش 0. 1 درصدی داده به معنای حذف هر زیرمجموعه 57 رأی از 57000 رأی (بیش از 10194 زیرمجموعه وجود.
دارد) و سپس محاسبه مجدد رتبهبندی است. در عوض،.
محققان یک روش تقریب کارآمد را بر اساس کار قبلی خود ایجاد کردند و آن را برای مطابقت. با کارکردهای LLM با سیستمهای رتبهبندی خاص ما تطبیق دادند.
کاربر نیازی به اطمینان ندارد که روش ما در پایان به کاربر نقاط داده مشکلساز را میگوید،. بنابراین آنها میتوانند آن نقاط داده را حذف کنند،.
تجزیه و تحلیل را دوباره اجرا کنند و بررسی کنند که آیا تغییری در رتبهبندی دارند یا خیر.». او میگوید.
LLMs. در یک نمونه، حذف تنها دو رأی از بیش از 57000 رأی، که 0.
0035 درصد است، تغییر مدلی که در رتبه برتر قرار دارد را تغییر داد. پلتفرم رتبهبندی متفاوتی که از حاشیه نویسان متخصص و درخواستهای با کیفیت بالاتر استفاده میکند،.
قویتر بود. در اینجا، حذف 83 از 2575 ارزیابی (حدود 3 درصد) مدلهای برتر را تغییر داد.
بررسی آنها نشان داد که بسیاری از رأیهای تأثیرگذار ممکن است در نتیجه خطای کاربر باشد. برودریک میگوید:.
«در برخی موارد،. به نظر میرسید که پاسخ روشنی در مورد اینکه کدام LLM بهتر عمل میکند،.
وجود دارد،. اما کاربر به جای آن مدل دیگری را انتخاب کرد.
ما هرگز نمیتوانیم بدانیم در آن زمان چه چیزی در ذهن کاربر بود،. اما شاید اشتباه کلیک کردهاند یا توجه نکردهاند،.
یا صادقانه نمیدانند که کدام یک بهتر است. نکته مهم اینجاست که کاربر نمیخواهد کدام یک را بهتر کند.
او میافزاید:. LLM دارای رتبه برتر است بازخورد اضافی از کاربران،.
مانند سطح اطمینان در هر رأی،. اطلاعات غنیتری را ارائه میدهد که میتواند به کاهش این مشکل کمک کند.
پلتفرمهای رتبهبندی همچنین میتوانند از واسطههای انسانی برای ارزیابی پاسخهای جمعسپاری استفاده کنند. از نظر پژوهشگران،.
آنها میخواهند به کاوش تعمیم در زمینههای دیگر ادامه دهند و در عین حال روشهای تقریب بهتری را. نیز توسعه دهند که میتواند نمونههای بیشتری از عدم استحکام را ثبت کند.
جسیکا هالمن،. استاد علوم کامپیوتر جینی رومتی در دانشگاه نورث وسترن،.
که با این کار درگیر نبود،. میگوید:.
مدلها و مجموعه دادههای یادگیری ماشینی. «کار اخیر نگاهی اجمالی به وابستگیهای دادهای قوی در کاربردهای معمول ارائه میکند - اما همچنین بسیار شکننده.
- روشهایی برای جمع آوری ترجیحات انسانی و استفاده از آنها برای به روز رسانی یک مدل. دیدن اینکه چقدر تعداد کمیاز اولویتها میتوانند واقعاً رفتار یک مدل تنظیمشده را تغییر دهند،.
میتواند الهامبخش روشهای متفکرانهتری برای جمعآوری این دادهها باشد.» این تحقیق تا حدی توسط دفتر تحقیقات نیروی دریایی،. آزمایشگاه هوش مصنوعی MIT-IBM Watson،.
بنیاد ملی علوم،. آمازون و جایزه بذر CSAIL تأمین میشود.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
