TL;DR
- چکیده: یادگیری تقویتی ربات از نمایش (RLfD) فرض میکند که دادههای متخصص فراوان است.
- این معمولا در دنیای واقعی با توجه به کمبود داده و همچنین هزینه بالای جمع آوری غیر واقعی.
- علاوه بر این،.
چه اتفاقی افتاد
چکیده: یادگیری تقویتی ربات از نمایش (RLfD) فرض میکند که دادههای متخصص فراوان است. این معمولا در دنیای واقعی با توجه به کمبود داده و همچنین هزینه بالای جمع آوری غیر واقعی.
است. علاوه بر این،.
الگوریتمهای یادگیری تقلید فرض میکنند که دادهها بهطور مستقل و یکسان توزیع میشوند،. که در نهایت منجر به عملکرد ضعیفتر به دلیل ظهور خطاهای تدریجی و ترکیب در مسیرهای آزمایشی میشود.
ما این مسائل را با معرفی چارچوب «مسلط بر تخصص خود» (MYOE)،. یک چارچوب تقلید از خود که به عوامل روباتیک امکان میدهد رفتارهای پیچیده را از نمونههای دادههای نمایشی.
محدود بیاموزند،. برطرف میکنیم.
ما با الهام از ادراک و عمل انسان،. چیزی را پیشنهاد و طراحی میکنیم که به آن مدل فضای حالت ترکیبی ترجیحات قابل پرسش (QMoP-SSM) میگوییم،.
که هدف مورد نظر را در هر مرحله زمانی تخمین میزند. از این اهداف مورد نظر استفاده میشود محاسبه "حسرت اولویت"،.
که برای بهینهسازی خط مشی کنترل ربات استفاده میشود. آزمایشهای ما استحکام،.
سازگاری،. و عملکرد خارج از نمونه عامل ما را در مقایسه با دیگر طرحهای پیشرفته RLfD نشان میدهد.
مخزن GitHub که از این کار پشتیبانی میکند را میتوان در این آدرس https پیدا کرد. صفحه، 4 شکل، 4 جدول رباتیک (cs.
RO)؛ هوش مصنوعی (cs. AI)؛ بینایی کامپیوتری و تشخیص الگو (cs.
CV)؛ یادگیری ماشینی (cs. LG) کلاسهای ACM: I.
2. 9; I.
10; G. 3; I.
6 استناد بهعنوان: (یا v1 [cs. RO] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Viet Dung Nguyen [مشاهده ایمیل] [v1] شنبه،.
4 آوریل 2026،. 00:.
03:. 59 UTC (10,.
718 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
