TL;DR
- چکیده:.
- با پذیرش گسترده مدلهای زبان برای IR - و بهویژه سیستمهای RAG - تأخیر LLM زیربنایی به یک.
- گلوگاه مهم تبدیل میشود،.
چه اتفاقی افتاد
چکیده:. با پذیرش گسترده مدلهای زبان برای IR - و بهویژه سیستمهای RAG - تأخیر LLM زیربنایی به یک.
گلوگاه مهم تبدیل میشود،. زیرا زمینههای طولانی متنهای بازیابیشده منجر به درخواستهای بزرگ و در نتیجه افزایش محاسباتی میشود.
فشردهسازی سریع،. که اندازه اعلانهای ورودی را کاهش میدهد و در عین حال با هدف حفظ عملکرد در وظایف پاییندستی،.
خود را بهعنوان یک روش مقرونبهصرفه و با تأخیر کم برای تسریع استنتاج در مدلهای زبان بزرگ تثبیت. کرده است.
با این حال،. سودمندی آن به این بستگی دارد که آیا زمان پیش پردازش اضافی در طول تولید با رمزگشایی سریع.
تر جبران میشود یا خیر. ما اولین مطالعه سیستماتیک و در مقیاس بزرگ را از این مبادله با هزاران اجرا و 30000 جستجو.
در چندین LLM منبعباز و سه کلاس GPU ارائه میکنیم. ارزیابی ما سربار فشرده سازی را از تأخیر رمزگشایی در حین ردیابی جدا میکند کیفیت خروجی و.
مصرف حافظه LLMLingua زمانی که طول سریع،. نسبت فشردهسازی و ظرفیت سختافزار به خوبی با هم تطبیق داده میشود،.
تا 18 درصد سرعت میدهد و کیفیت پاسخ از نظر آماری در خلاصهسازی،. تولید کد و وظایف پاسخگویی به سؤال بدون تغییر باقی میماند.
با این حال،. خارج از این پنجره عملیاتی،.
مرحله فشرده سازی غالب است و دستاوردها را لغو میکند. ما همچنین نشان میدهیم که فشردهسازی مؤثر میتواند استفاده از حافظه را به اندازه کافی کاهش دهد تا.
بارهای کاری از پردازندههای گرافیکی مرکز داده به کارتهای کالا،. تنها با افزایش ۰.
۳ ثانیه تأخیر، کاهش یابد. نمایه ساز منبعباز ما نقطه سربه سر تأخیر را برای هر راه اندازی مدل-سخت افزار پیش بینی.
میکند،. و راهنمایی عملی در مورد زمانی که فشرده سازی سریع مزایای دنیای واقعی را ارائه میدهد،.
ارائه میدهد. پذیرفته شده در ECIR 2026 (مقاله کامل) بازیابی اطلاعات (cs.
IR); هوش مصنوعی (cs. AI)؛ محاسبات و زبان (cs.
CL) استناد بهعنوان: (یا v1 [cs. IR] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Michael Färber [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. 11:.
41:. 53 UTC (118 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
