TL;DR
- چکیده:.
- عاملهای هوش مصنوعی مبتنی بر مدل بنیادی (FM) به سرعت در دامنههای مختلف مورد پذیرش قرار میگیرند،.
- اما عدم قطعیت و تکرارناپذیری ذاتی آنها چالشهایی را برای آزمایش و تضمین کیفیت ایجاد میکند.
چه اتفاقی افتاد
چکیده:. عاملهای هوش مصنوعی مبتنی بر مدل بنیادی (FM) به سرعت در دامنههای مختلف مورد پذیرش قرار میگیرند،.
اما عدم قطعیت و تکرارناپذیری ذاتی آنها چالشهایی را برای آزمایش و تضمین کیفیت ایجاد میکند. در حالی که معیارهای اخیر ارزیابیهای سطح کار را ارائه میکنند،.
درک محدودی از نحوه تأیید صحت داخلی این عوامل توسط توسعهدهندگان در طول توسعه وجود دارد. برای پرداختن به این شکاف،.
ما اولین مطالعه تجربی مقیاس بزرگ را در مورد شیوههای آزمایش در اکوسیستم عامل هوش مصنوعی انجام میدهیم. که 39 چارچوب عامل منبعباز و 439 برنامه کاربردی را تجزیه و تحلیل میکند.
ما ده الگوی آزمایشی متمایز را شناسایی میکنیم و متوجه میشویم که روشهای جدید و خاص عامل مانند. DeepEval به ندرت استفاده میشوند (حدود 1 ٪)،.
در حالی که الگوهای سنتی مانند تست منفی و عضویت بهطور گسترده برای مدیریت عدم قطعیت FM سازگار. هستند.
با نگاشت این الگوها به اجزای معماری متعارف از چارچوبهای عامل و برنامههای عامل،. ما یک وارونگی اساسی تلاش آزمایشی را کشف میکنیم:.
مؤلفههای قطعی مانند مصنوعات منبع (ابزارها) و مصنوعات هماهنگی (جریانهای کاری) بیش از 70 درصد تلاش آزمایشی را. مصرف میکنند،.
در حالی که بدنه طرح مبتنی بر FM کمتر از 5 درصد را دریافت میکند. مهمتر از همه،.
این یک نقطه کور بحرانی را نشان میدهد،. زیرا مؤلفه Trigger (اعلانات) نادیده گرفته میشود و در حدود 1 ٪ از همه آزمایشها ظاهر.
میشود. یافتههای ما اولین خط پایه آزمایش تجربی را در چارچوبهای عامل مبتنی بر FM و برنامههای کاربردی عامل.
ارائه میدهد،. که انطباق منطقی اما ناقص با غیر جبرگرایی را آشکار میکند.
برای پرداختن به آن،. توسعهدهندگان چارچوب باید پشتیبانی از روشهای آزمایش جدید را بهبود بخشند،.
توسعهدهندگان برنامهها باید آزمایش رگرسیون سریع را انجام دهند،. و محققان باید موانع پذیرش را بررسی کنند.
تقویت این شیوهها برای ساخت عوامل هوش مصنوعی قویتر و قابل اعتمادتر حیاتی است. مهندسی نرم افزار (cs.
SE); فناوریهای نوظهور (cs. ET) استناد بهعنوان: (یا v3 [cs.
SE] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
محمد مهدی حسن [مشاهده ایمیل] [v1] سه شنبه،. 23 سپتامبر 2025،.
16:. 02:.
09 UTC (450 KB) [v2] چهارشنبه،. 24 سپتامبر 2025،.
14:. 15:.
20 UTC (450 KB) [v3] پنجشنبه،. 2 آوریل 2026،.
ساعت 22:. 22:.
56 UTC (438 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
