TL;DR
- مدلهای زبان بزرگ استدلال (LLM) برای حل مسائل پیچیده با تجزیه آنها به یک سری مراحل کوچکتر طراحی.
- شدهاند.
- این مدلهای قدرتمند بهویژه در کارهای چالش برانگیز مانند برنامهنویسی پیشرفته و برنامهریزی چند مرحلهای خوب هستند.
چه اتفاقی افتاد
مدلهای زبان بزرگ استدلال (LLM) برای حل مسائل پیچیده با تجزیه آنها به یک سری مراحل کوچکتر طراحی. شدهاند.
این مدلهای قدرتمند بهویژه در کارهای چالش برانگیز مانند برنامهنویسی پیشرفته و برنامهریزی چند مرحلهای خوب هستند. اما توسعه مدلهای استدلالی به دلیل ناکارآمدی در فرآیند آموزش، به مقدار زیادی محاسبات و انرژی نیاز دارد.
در حالی که تعداد کمیاز پردازندههای پرقدرت بهطور مداوم از طریق پرس و جوهای پیچیده کار. میکنند،.
سایرین در گروه بیکار مینشینند. محققان MIT و جاهای دیگر راهی برای استفاده از این خرابی محاسباتی برای تسریع کارآمد آموزش مدل استدلال.
پیدا کردند. روش جدید آنها بهطور خودکار یک مدل کوچکتر و سریعتر را آموزش میدهد تا خروجیهای مدل.
بزرگتر را پیش بینی کند. این کار میزان کاری که مدل استدلال باید انجام دهد را کاهش میدهد و روند آموزش را.
تسریع میکند. کلید این سیستم آن است توانایی آموزش و استقرار مدل کوچکتر به صورت تطبیقی،.
بنابراین تنها زمانی که برخی از پردازندهها بیکار هستند،. وارد عمل میشود.
با استفاده از منابع محاسباتی که در غیر این صورت هدر میرفتند،. آموزش را بدون تحمیل هزینه اضافی تسریع میبخشد.
هنگامیکه این روش بر روی LLMهای استدلالی متعدد آزمایش شد،. سرعت آموزش را دو برابر کرد و در عین حال دقت را حفظ کرد.
این میتواند هزینه را کاهش دهد و بهره وری انرژی توسعه LLMهای پیشرفته را برای کاربردهایی. مانند پیش بینی روندهای مالی یا تشخیص خطرات در شبکههای برق افزایش دهد.
"مردم مدلهایی میخواهند که بتوانند وظایف پیچیدهتری را انجام دهند. اما اگر هدف توسعه مدل این است، پس باید کارایی را در اولویت قرار دهیم.
ما یک راهحل کاملاً بدون ضرر برای این مشکل پیدا کردیم،. و سپس میگوید یک سیستم کامل با سرعت بالا ارائه میکند.
" Qinghao Hu،. فوق دکترای MIT و نویسنده ارشد مقاله در مورد این تکنیک شانگ یانگ،.
یک دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) به این مقاله پیوست. Junxian Guo، دانشجوی کارشناسی ارشد EECS.
نویسنده ارشد سونگ هان، دانشیار EECS، عضو آزمایشگاه تحقیقاتی الکترونیک و دانشمند برجسته NVIDIA. و همچنین سایرین در NVIDIA، ETH Zurich، MIT-IBM Watson AI Lab، و دانشگاه ماساچوست در Amherst.
این تحقیق در کنفرانس بینالمللی ACM در مورد پشتیبانی معماری برای زبانهای برنامهنویسی و سیستمهای عامل ارائه خواهد. شد.
تنگنای آموزشی توسعهدهندگان میخواهند LLMهای استدلالی برای شناسایی و تصحیح اشتباهات در فرآیند تفکر انتقادی خود. این قابلیت به آنها اجازه میدهد تا پرسوجوهای پیچیدهای را انجام دهند که یک LLM استاندارد را به.
چالش میکشد. برای آموزش این مهارت،.
توسعهدهندگان LLMهای استدلالی را با استفاده از تکنیکی به نام یادگیری تقویتی (RL) آموزش میدهند. مدل پاسخهای بالقوه متعددی را برای یک پرس و جو ایجاد میکند،.
برای بهترین نامزد جایزه دریافت میکند و بر اساس پاسخ برتر به روز میشود. این مراحل هزاران بار در حین یادگیری مدل تکرار میشوند.
اما محققان دریافتند که فرآیند ایجاد پاسخهای متعدد،. به نام استقرار مرحلهای،.
میتواند تا 85 درصد از زمان اجرای مورد نیاز برای آموزش RL را مصرف کند. هو میگوید:.
«بهروزرسانی مدل - که بخش واقعی «آموزش» است - در مقایسه با زمان بسیار کمیمصرف میکند. قبل از اینکه بتوانند به مرحله بعدی بروند، پاسخهای خود را تمام کنند.
از آنجایی که برخی از پردازندهها ممکن است روی پاسخهای بسیار طولانی کار کنند،. برخی دیگر که پاسخهای کوتاهتری تولید میکنند منتظر میمانند تا تمام شود.
هو میافزاید:. «هدف ما این بود که این زمان بیحرکتی را بدون هیچ هزینهای به سرعت تبدیل کنیم.» آنها به.
دنبال استفاده از یک تکنیک موجود بودند،. به نام رمزگشایی گمانه زنی،.
برای سرعت بخشیدن به کارها. رمزگشایی گمانهزنی شامل آموزش مدل کوچکتری به نام پیشنویس برای حدس زدن سریع خروجیهای آینده مدل بزرگتر است.
مدل بزرگتر حدسهای پیشنویس را تأیید میکند و پاسخهایی را که میپذیرد برای آموزش استفاده میشود. زیرا مدل بزرگتر میتواند همه حدسهای پیشنویس را در یک زمان تأیید کند،.
نه اینکه هر یک از خروجیها را بهطور متوالی انطباقدهنده ایجاد کند. رمزگشایی حدسی، مدل پیش نویس معمولاً فقط یک بار آموزش داده میشود و ثابت میماند.
این تکنیک را برای یادگیری تقویتی غیرممکن میکند،. زیرا مدل استدلال هزاران بار در طول آموزش به روز میشود.
یک پیش نویس استاتیک پس از چند مرحله به سرعت کهنه و بی فایده میشود. برای غلبه بر این مشکل،.
محققان یک سیستم انعطاف پذیر به نام "رام کردن دم دراز" یا TLT ایجاد کردند. بخش اول TLT یک پیش نویس تطبیقی است.
مربی،. که از زمان آزاد روی پردازندههای بیکار استفاده میکند تا مدل پیشنویس را در جریان آموزش دهد،.
و آن را بدون استفاده از منابع محاسباتی اضافی با مدل هدف هماهنگ میکند. مؤلفه دوم،.
یک موتور عرضه تطبیقی،. رمزگشایی گمانهزنی را مدیریت میکند تا بهطور خودکار استراتژی بهینه را برای هر دسته جدید ورودی انتخاب کند.
این مکانیسم پیکربندی رمزگشایی گمانهزنی را بر اساس ویژگیهای بار آموزشی،. مانند تعداد ورودیهای پردازش شده توسط مدل پیشنویس و تعداد ورودیهای پذیرفتهشده توسط مدل هدف در طول تأیید،.
تغییر میدهد. علاوه بر این،.
محققان مدل پیشنویس را سبک وزن طراحی کردند تا بتوان آن را به سرعت آموزش داد. TLT از برخی مؤلفههای فرآیند آموزش مدل استدلال مجدد برای آموزش پیشنویس استفاده میکند،.
که منجر به دستاوردهای اضافی در شتاب میشود. «به محض اینکه برخی از پردازندهها درخواستهای کوتاه خود را تمام کردند و بیکار شدند،.
بلافاصله آنها را به آموزش مدل پیش نویس را با استفاده از همان دادههایی که آنها برای. فرآیند عرضه استفاده میکنند انجام دهید.
مکانیسم کلیدی رمزگشایی گمانهزنی تطبیقی ما است – این دستاوردها بدون آن امکانپذیر نخواهد بود.» آنها TLT را. در چندین LLM استدلالی که با استفاده از مجموعه دادههای دنیای واقعی آموزش داده شده بودند،.
آزمایش کردند. این سیستم آموزش را بین 70 تا 210 درصد تسریع کرد و در عین حال دقت هر مدل.
را حفظ کرد. در آینده،.
محققان میخواهند TLT را در انواع بیشتری از چارچوبهای آموزشی و استنتاج ادغام کنند و کاربردهای یادگیری تقویتی. جدیدی را پیدا کنند که میتوان با استفاده از این رویکرد تسریع کرد.
«از آنجایی که استدلال همچنان به حجم کاری اصلی محرک تقاضا برای استنتاج تبدیل میشود،. TLT Qinghao کار عالی برای مقابله با گلوگاه مدلهای محاسباتی این آموزش است.
من فکر میکنید این روش در زمینه محاسبات هوش مصنوعی کارآمد بسیار مفید خواهد بود.» این کار توسط. آزمایشگاه هوش مصنوعی واتسون MIT-IBM،.
برنامه سختافزار هوش مصنوعی MIT،. مرکز علمیآمازون MIT،.
شرکت موتور هیوندای و بنیاد ملی علوم تامین میشود.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
