TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- یادگیری سیاستهای کنترل با عملکرد بالا که با رفتار متخصصان مطابقت دارند،.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
یادگیری سیاستهای کنترل با عملکرد بالا که با رفتار متخصصان مطابقت دارند،. یک چالش اساسی در رباتیک است.
یادگیری تقویتی میتواند استراتژیهای با عملکرد بالا را کشف کند،. اما اغلب از رفتار مطلوب انسانی فاصله میگیرد،.
در حالی که یادگیری تقلیدی با کیفیت نمایش محدود میشود و تلاش میکند تا فراتر از دادههای تخصصی. بهبود یابد.
ما یک چارچوب یادگیری تقویتی مبتنی بر رفتار را پیشنهاد میکنیم که فراتر از نمایشها بهبود مییابد و. در عین حال انحراف از رفتار متخصص را به وضوح کنترل میکند.
از آنجایی که رفتار سازگار با متخصص در کنترل پویا ذاتاً در سطح مسیر است،. ما یک مکانیسم پیشبینی افق عقبنشینی را معرفی میکنیم که مسیرهای کوتاهمدت آینده را مدلسازی میکند و پاداشهای.
پیشبینی را در طول آموزش ارائه میدهد. برای توضیح تنوع طبیعی رفتار انسان در شرایط آشفتگی و تغییر،.
ما این خط مشی را بیشتر بر مدارهای مرجع مشروط میکند و به آن اجازه میدهد. تا توزیعی از رفتارهای سازگار با کارشناسان را به جای یک هدف قطعی واحد نشان دهد.
بهطور تجربی،. ما رویکرد را در شبیهسازی ماشین مسابقه با وفاداری بالا با استفاده از دادههای رانندگان حرفهای ارزیابی میکنیم،.
حوزهای که با پویایی شدید و حاشیههای عملکرد باریک مشخص میشود. خطمشیهای آموختهشده به زمانهای دور رقابتی دست مییابند و در عین حال همراستایی نزدیک با رفتار رانندگی متخصص.
را حفظ میکنند و از روشهای پایه هم در عملکرد و هم کیفیت تقلید بهتر عمل میکنند. فراتر از معیارهای استاندارد،.
ارزیابی مبتنی بر انسان را در یک شبیهساز راننده در حلقه انجام میدهیم و نشان میدهیم که سیاستهای. آموخته شده ویژگیهای رانندگی وابسته به تنظیمات را مطابق با بازخورد رانندگان مسابقه حرفهای درجه یک بازتولید میکنند.
این نتایج نشان میدهد که روش ما امکان یادگیری سیاستهای کنترل با عملکرد بالا را فراهم میکند هر. دو بهینه و سازگار با رفتار هستند و میتوانند بهعنوان جانشین قابل اعتماد برای تصمیمگیری انسانی.
در سیستمهای کنترل پیچیده عمل کنند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
