TL;DR
- هدف اصلی اکثر الگوریتمهای یادگیری تقویتی،.
- یافتن یک خطمشی بهینه است – یعنی یک استراتژی یا نقشهبرداری از حالتها به اقداماتی که عامل را.
- قادر میسازد تا به بالاترین پاداش تجمعی ممکن در طول زمان دست یابد.
چه اتفاقی افتاد
هدف:. هدف اصلی اکثر الگوریتمهای یادگیری تقویتی،.
یافتن یک خطمشی بهینه است – یعنی یک استراتژی یا نقشهبرداری از حالتها به اقداماتی که عامل را. قادر میسازد تا به بالاترین پاداش تجمعی ممکن در طول زمان دست یابد.
برخلاف رویکردهایی که به دنبال عملکرد خوب در کوتاه مدت هستند (فقط با در نظر گرفتن پاداشهای فوری)،. الگوریتمهای RL برای در نظر گرفتن پیامدهای بلندمدت،.
متعادل کردن پاداشهای فوری و آتی طراحی شدهاند. این فرآیند بهعنوان به حداکثر رساندن بازده مورد انتظار شناخته میشود.
برای دستیابی به این امر،. عامل باید محیط را کاوش کند و از پاداشها یا جریمههایی که برای اقدامات خود دریافت.
میکند،. درس بگیرد.
با گذشت زمان،. سیاستهای خود را برای تصمیمگیری بهتر در موقعیتهای مختلف اصلاح میکند و بهطور مؤثر بهترین روش اقدام را.
حتی زمانی که با عدم قطعیت یا پاداشهای با تأخیر مواجه میشود،. یاد میگیرد.
یادگیری تقویتی در مقابل یادگیری تحت نظارت تفاوت کلیدی بین تقویت یادگیری و یادگیری تحت نظارت در ماهیت. سیگنال یادگیری نهفته است.
الگوریتمهای یادگیری نظارت شده از دادههای برچسب دار یاد میگیرند،. جایی که هر ورودی با یک خروجی صحیح جفت میشود.
هدف این الگوریتم یادگیری یک تابع نگاشت است که میتواند خروجی ورودیهای جدید و دیده نشده. را پیش بینی کند.
در مقابل، یادگیری تقویتی به دادههای برچسب دار دسترسی ندارد. عامل از طریق تعامل با محیط یاد میگیرد.
جوایزی (یا جریمههایی) دریافت میکند که نشاندهنده کیفیت اعمالش است،. اما به او گفته نمیشود که در هر ایالت چه اقدامی «درست» انجام دهد.
عامل باید با کاوش در محیط،. انجام اقدامات مختلف و مشاهده پاداشهای حاصله،.
خط مشی بهینه را کشف کند. تمرکز در RL بر به حداکثر رساندن پاداش تجمعی در طول زمان است،.
که اغلب شامل یک مبادله بین پاداشهای فوری و پاداشهای آینده است. این فرآیند آزمون و خطا، که توسط سیگنال پاداش هدایت میشود، است روش اساسی یادگیری عوامل RL.
تفاوت یادگیری تقویتی با سایر پارادایمهای یادگیری ماشینی برای درک بهتر تفاوت یادگیری تقویتی با سایر پارادایم. ها،.
مورد آموزش یک عامل برای انجام یک بازی ویدیویی را در نظر بگیرید. در یک رویکرد یادگیری نظارت شده،.
به عامل یک نمونه از گیم پلی بازی ارائه میشود - دنبالههایی از مجموعه دادهها. در آن حالتهای بازی که یک بازیکن در آن حالتهای انسانی جفت شده است.
وظیفه عامل تقلید این رفتارهای انسانی با یادگیری پیشبینی و بازتولید اعمالی است که در نمونههای برچسبگذاری شده. مشاهده میشود.
در حالی که این امر میتواند به عامل آموزش دهد تا عملکرد شایستهای داشته باشد،. قابلیتهای آن ذاتاً توسط کیفیت و تنوع دادههای نمونه محدود شده است.
عامل اساساً یاد میگیرد که از نحوه بازی انسانها تقلید کند،. اما استراتژیهای جدید را کشف نمیکند یا از نمایشهای انسانی بهتر عمل نمیکند مگر اینکه این استراتژیها در.
در مقابل،. یادگیری تقویتی عامل را قادر میسازد تا محیط بازی را به تنهایی کشف کند.
به جای کپی کردن رفتارهای موجود،. عامل در حالتهای مختلف بازی اقداماتی را انجام میدهد و بر اساس موفقیت خود جوایزی یا.
جریمه دریافت میکند - مانند کسب امتیاز،. اجتناب از موانع یا رسیدن به سطوح جدید.
با گذشت زمان،. عامل RL شناسایی میکند که کدام اقدامات تمایل دارند تا پاداش تجمعی خود را به حداکثر برسانند،.
و اغلب استراتژیهای جدید و گاهی مافوق بشری را کشف میکنند که در هیچ مجموعه داده اولیه بازی. انسانی وجود ندارند.
میتواند به صورت پویا وفق دهد و نه فقط تقلید،. بلکه بهینهسازی گیم پلی خود را بر اساس ساختار پاداش تعریف شده،.
حتی اگر به معنای توسعه تاکتیکهای غیرمنتظره یا خلاقانه باشد،. یاد میگیرد.
یادگیری تقویتی برای آموزش LLMs یادگیری تقویتی اساساً از نظر سیگنال و هدف یادگیری از سایر پارادایمهای. یادگیری ماشینی متفاوت است.
برای درک رویکردهای متمایز برای آموزش یک مدل زبان بزرگ،. بیایید یادگیری بدون نظارت،.
نظارت شده و تقویتی را بررسی کنیم. یادگیری بدون نظارت برای آموزش یک LLM از حجم وسیعی از دادههای متن خام موجود استفاده می.
کند. ایده اصلی این است که مدل را قادر میسازد تا ساختار و الگوهای زیربنایی زبان را بدون.
هیچ گونه برچسب صریح ارائه شده توسط انسان از آنچه که متن "خوب" یا "بد" را تشکیل می. دهد،.
بیاموزد. در طول این مرحله آموزشی،.
LLM با دنبالهای از متن ارائه میشود و با تلاش برای پیشبینی عناصر گمشده یا قسمتهای بعدی دنباله. یاد میگیرد.
سیگنال آموزشی در این پارادایم، خطای بین پیشبینیهای مدل و متن واقعی است. ارزیابی در یادگیری بدون نظارت اغلب شامل ارزیابی کیفیت بازنماییهای آموختهشده در وظایف پاییندستی است.
برای مثال،. تعبیههای آموختهشده چقدر شباهت معنایی را به تصویر میکشند یا عملکرد را بهبود میبخشند وظایفی مانند طبقه بندی.
متن وقتی بهعنوان ویژگی ورودی استفاده میشود؟ ارزیابیهای درونی ممکن است به انسجام و ساختار خود مدل زبان آموختهشده،.
مانند سردرگمیدر دادههای نگهداشتهشده،. نگاه کنند.
یادگیری نظارتشده برای آموزش یک LLM شامل استفاده از مجموعههای داده با دقت تنظیمشده است که در آن. متن ورودی صریحاً با متن خروجی مورد نظر جفت میشود.
هدف در اینجا آموزش LLM برای انجام وظایف خاص با یادگیری نگاشت اعلانها یا سؤالات ورودی به پاسخهای. مربوطه،.
یا زبان مبدأ برای زبان مقصد در ترجمه یا مقالات به خلاصههای آنها است. دادههای آموزشی از این جفتهای برچسبگذاری شده تشکیل شدهاند و LLM با تنظیم پارامترهای خود برای به حداقل.
رساندن تفاوت بین خروجی تولید شده و خروجی هدف ارائه شده،. یاد میگیرد.
سیگنال آموزشی این خطا بین پیش بینی مدل و پاسخ یا ترجمه یا خلاصه "صحیح" ارائه شده توسط. انسان است.
ارزشیابی در یادگیری نظارت شده معمولاً مختص کار است و شامل اندازهگیری دقت پیشبینیهای مدل در یک مجموعه. آزمون نگهداشتهشده با ی شناختهشده است.
معیارهایی مانند امتیاز BLEU برای ترجمه،. امتیاز ROUGE برای خلاصهسازی،.
یا دقت ساده برای طبقهبندی معمولاً مورد استفاده قرار میگیرند. در نهایت،.
یادگیری تقویتی رویکرد متفاوتی را برای آموزش یک LLM ارائه میکند که بر بهینهسازی متن تولید شده بر. اساس سیگنال پاداش تمرکز دارد.
این سیگنال پاداش برای ثبت ویژگیهای مورد نظر خروجی،. مانند دقت واقعی،.
انسجام،. درگیر بودن،.
یا پایبندی به یک سبک خاص طراحی شده است. LLM متنی را در پاسخ به یک درخواست یا در یک زمینه تولید میکند،.
و این خروجی سپس توسط یک تابع پاداش (که میتواند یک مدل آموزش دیده دیگر یا بازخورد. انسانی باشد) ارزیابی میشود.
پاداش یک مقدار اسکالر است که نشان میدهد متن تولید شده چقدر با ویژگیهای مورد نظر. هماهنگ است.
هدف آموزشی LLM یادگیری تولید متنی است که این پاداش مورد انتظار را به حداکثر برساند. ارزیابی در یادگیری تقویتی اغلب شامل ارزیابی عملکرد LLM آموزش دیده با توجه به تابع پاداش تعریف شده.
در سناریوهای دیده نشده است. فرآیند تصمیمگیری مارکوف (MDP) یک مفهوم اصلی در یادگیری تقویتی، فرآیند تصمیمگیری مارکوف یا MDP است.
MDP یک چارچوب ریاضی است که برای توصیف محیطهایی استفاده میشود که در آن نتایج تا. حدی تصادفی و بخشی تحت کنترل یک عامل تصمیمگیری است.
محیطهای یادگیری تقویتی که بهعنوان MDP مدل میشوند،. یک فرض اساسی به نام ویژگی مارکوف را ایجاد میکنند.
"مارکوف" بودن به چه معناست؟ "مارکوف" بودن به این معنی است که با توجه به حال، آینده بهطور مشروط مستقل از گذشته است.
به زبان ساده:. در هر لحظه،.
وضعیت و پاداش بعدی فقط به وضعیت فعلی و اقدام انجام شده بستگی دارد - نه به قبل. حالات یا اقدامات.
بازی شطرنج را تصور کنید:. اگر پیکربندی فعلی مهرههای روی تخته (وضعیت) را میدانید،.
لازم نیست در هنگام تصمیمگیری برای حرکت بعدی خود به یاد بیاورید که مهرهها چگونه به آنجا رسیدهاند. تمام اطلاعات مورد نیاز برای اتخاذ بهترین تصمیم در وضعیت فعلی موجود است.
این ویژگی مارکوف نامیده میشود و یک فرض کلیدی در اکثر الگوریتمهای یادگیری تقویتی است. در هر مرحله، عامل به وضعیت فعلی نگاه میکند و اقدامیرا انتخاب میکند.
سپس محیط به حالت جدیدی تبدیل میشود و پاداشی صادر میکند. این انتقالها و پاداشها معمولاً توسط احتمالات اساسی کنترل میشوند که ممکن است برای عامل ناشناخته باشند.
عناصر اصلی در حلقه مکرر عامل-محیط گرد هم میآیند،. که در آن تجربه در طول زمان انباشته میشود - اغلب بهعنوان یک مسیر یا قسمت.
چرا ویژگی مارکوف مهم است؟ خاصیت مارکوف هم مسئله یادگیری و هم ریاضیات تصمیمگیری بهینه را بسیار ساده میکند.
این به روشهایی مانند برنامهنویسی پویا و بسیاری از الگوریتمهای RL اجازه میدهد تا بهطور موثر کار کنند،. زیرا عامل فقط باید وضعیت فعلی را در نظر بگیرد نه تاریخچه کامل تجربه.
محدود در مقابل بینهایت فرآیندهای تصمیمگیری مارکوف: نظریه با واقعیت ملاقات میکند. پاداش.
این فرض تحلیل رسمیو طراحی الگوریتمهای پایه را بسیار قابل انجامتر میکند،. و به همین دلیل است که نمونههای کلاسیک یادگیری تقویتی (مانند دنیای شبکهای یا بازیهای رومیزی ساده) اغلب.
از MDPهای محدود استفاده میکنند. با این حال،.
در دنیای واقعی،. بیشتر محیطهای کاربردی بسیار پیچیدهتر هستند و بهتر بهعنوان MDPهای "بی نهایت" یا پیوسته توصیف می.
شوند. بهعنوان مثال،.
زوایای مشترک،. سرعتها و خوانش حسگر یک ربات میتواند هر مقداری را در یک محدوده به خود بگیرد.
و فضای حالتی را با امکانات بی نهایت تشکیل دهد. بهطور مشابه،.
در حوزههایی مانند رانندگی مستقل یا امور مالی،. حالتها و اقدامات هر دو به بهترین وجه با مقادیر پیوسته یا مجموعههای گسسته بسیار بزرگ نشان داده.
میشوند. در حالی که MDPهای محدود به ما کمک میکنند اصول و ضمانتهای RL را درک کنیم،.
برنامههای کاربردی واقعی تقریباً همیشه میخواهند که عوامل ما در محیطهایی بسیار بزرگ عمل کنند که نمیتوان آنها. را برشمرد.
چارچوب فرآیند تصمیمگیری و ویژگی Markov به همان اندازه در این تنظیمات بی نهایت یا در مقیاس. بزرگ قابل اجرا هستند.
تفاوت اصلی در نحوه مدیریت الگوریتمهای یادگیری تقویتی است:. به جای نگه داشتن جدول برای هر جفت اقدام حالت (مانند MDPهای محدود)،.
RL مدرن از تقریبهای تابع قدرتمند - معمولاً شبکههای عصبی عمیق - برای تخمین توابع و. خط مشیهای ارزش و تعمیم رفتار در موقعیتهای نادیده استفاده میکند.
این رویکرد به عوامل RL اجازه میدهد حتی زمانی که هرگز دقیقاً دو بار از یک حالت. مشابه بازدید نخواهند کرد،.
موفق شوند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
