TL;DR
- چکیده:.
- استقرار مدلهای زبان چندوجهی بزرگ در مقیاس توسط هزینههای استنتاج مبتنی بر نشانه محدود میشود،.
- با این حال رفتار هزینه-عملکرد استراتژیهای محرک بصری مشخص نیست.
چه اتفاقی افتاد
چکیده:. استقرار مدلهای زبان چندوجهی بزرگ در مقیاس توسط هزینههای استنتاج مبتنی بر نشانه محدود میشود،.
با این حال رفتار هزینه-عملکرد استراتژیهای محرک بصری مشخص نیست. ما Packaging Prompt Image (IPPg) را معرفی میکنیم،.
یک الگوی محرک که متن ساختاریافته را مستقیماً در تصاویر جاسازی میکند تا سربار نشانه متن را کاهش. دهد،.
و آن را در پنج مجموعه داده،. سه مدل مرزی (GPT-4.
1، GPT-4o، کلود 3. 5 Sonnet)، و دو خانواده وظیفه (VQA و تولید کد) معیار قرار میدهد.
ما یک فرمول هزینه را استخراج میکنیم که پس انداز را بر اساس نوع توکن تجزیه می. کند و نشان میدهد که IPPg به کاهش هزینه استنتاج 35.
8--91. 0% دست مییابد.
علیرغم فشردهسازی توکنها تا 96%،. دقت در بسیاری از تنظیمات رقابتی باقی میماند،.
اگرچه نتایج بسیار وابسته به مدل و کار هستند:. GPT-4.
1 به دقت و هزینههای همزمان در CoSQL دست مییابد، در حالی که Claude 3. 5 متحمل افزایش هزینه میشود.
چندین معیار VQA تجزیه و تحلیل خطای سیستماتیک یک طبقهبندی حالت شکست به دست میدهد:. استدلال فضایی،.
ورودیهای غیرانگلیسی و عملیات حساس به کاراکتر آسیبپذیرترین هستند،. در حالی که وظایف طرحوارهساز بیشترین سود را دارند.
ابلیشن رندر با پیکربندی 125،. تغییرات دقت 10 تا 30 درصد را نشان میدهد و گزینههای رمزگذاری بصری را بهعنوان یک متغیر درجه.
یک در طراحی سیستم چندوجهی ایجاد میکند. صفحه شامل مراجع بینایی کامپیوتری و تشخیص الگو (cs.
CV)؛ هوش مصنوعی (cs. AI) استناد بهعنوان: (یا v1 [cs.
CV] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
جونگ هو چوی [مشاهده ایمیل] [v1] پنجشنبه،. 2 آوریل 2026،.
19:. 50:.
59 UTC (44 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
