TL;DR
- v2 نوع اعلام:.
- جایگزین چکیده:.
- دستاوردهای عملکرد بهدستآمده توسط مدلهای زبان بزرگ (LLM) با نیازهای محاسباتی و حافظه قابل توجه آنها مرتبط است.
چه اتفاقی افتاد
v2 نوع اعلام:. جایگزین چکیده:.
دستاوردهای عملکرد بهدستآمده توسط مدلهای زبان بزرگ (LLM) با نیازهای محاسباتی و حافظه قابل توجه آنها مرتبط است. LLMهای کوانتیزه شده مزایای قابل توجهی را با مدلهای بسیار کوانتیزه شده ارائه میدهند و.
انگیزه توسعه معماریهای تخصصی را برای سرعت بخشیدن به حجم کاری آنها فراهم میکنند. این مقاله D-Legion را پیشنهاد میکند،.
یک معماری چند هستهای مقیاسپذیر جدید،. که با استفاده از بسیاری از هستههای آرایه سیستولی با دقت تطبیقی طراحی شده است تا ضرب ماتریس.
را در LLMهای کوانتیزه تسریع کند. معماری پیشنهادی شامل مجموعهای از لژیونها است که در آن هر لژیون دارای گروهی از آرایههای سیستولی با.
دقت تطبیقی است. D-Legion از حالتهای محاسباتی متعدد، از جمله ضربهای ماتریس پراکنده و متراکم کوانتیزه شده پشتیبانی میکند.
پراکندگی ساختاری بلوک در یک پنجره کاملاً پراکنده یا نیمه پراکنده مورد سوء استفاده قرار میگیرد. علاوه بر این،.
به حافظه دسترسی دارد جمعهای جزئی (psums) از طریق انباشته کنندههای موازی به صورت مکانی کاهش. مییابد.
علاوه بر این،. استفاده مجدد از دادهها از طریق تکنیکهای زمانبندی بهینه شده توسط کاشیهای ماتریس چندگانه در سراسر Legions به.
حداکثر میرسد. یک کاوش فضای طراحی جامع از نظر دانه بندی لژیون/هسته برای تعیین پیکربندی بهینه لژیون انجام میشود.
علاوه بر این، D-Legion بر اساس حجم کاری توجه از دو مدل BitNet ارزیابی میشود که تا 8. 2 دلار/برابر دلار تأخیر کمتر، تا 3.
8 دلار/برابر دلار صرفهجویی در حافظه بیشتر و تا 3 دلار\ برابر دلار صرفهجویی در حافظه psum بالاتر. در مقایسه با کارهای پیشرفته ارائه میکند.
D-Legion با هشت لژیون و 64 هسته در مجموع، به حداکثر توان عملیاتی 135. 68 TOPS در فرکانس 1 گیگاهرتز دست مییابد.
یک نسخه مقیاسشده از D-Legion با 32 لژیون با Google TPUv4i مقایسه میشود و تاخیر کلی تا 2. 5 دلار\ برابر دلار کمتر، تا 2.
3 دلار\برابر دلار خروجی کل بیشتر و تا 2. 7 دلار\بار دلار به دست میآورد.
صرفه جویی در کل حافظه بالاتر.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
