TL;DR
- چکیده:.
- برنامهریزی انتها به انتها بهعنوان یک الگوی غالب برای رانندگی خودکار ظاهر شده است،.
- که در آن مدلهای اخیر اغلب یک چارچوب انتخاب امتیاز برای انتخاب مسیرها از مجموعه بزرگی از نامزدها.
چه اتفاقی افتاد
چکیده:. برنامهریزی انتها به انتها بهعنوان یک الگوی غالب برای رانندگی خودکار ظاهر شده است،.
که در آن مدلهای اخیر اغلب یک چارچوب انتخاب امتیاز برای انتخاب مسیرها از مجموعه بزرگی از نامزدها. را اتخاذ میکنند،.
با رمزگشایی مبتنی بر انتشار که نوید قوی را نشان میدهد. با این حال،.
انتخاب مستقیم از کل فضای کاندید برای بهینهسازی مشکل باقی میماند،. و آشفتگیهای گاوسی که در انتشار استفاده میشوند،.
اغلب مسیرهای غیرواقعی را معرفی میکنند که فرآیند حذف نویز را پیچیده میکنند. علاوه بر این،.
برای آموزش این مدلها،. یادگیری تقویتی (RL) امیدوارکننده بوده است،.
اما رویکردهای RL سرتاسر موجود معمولاً بر یک پاداش جفتشده واحد بدون سیگنالهای ساختاریافته تکیه میکنند که اثربخشی. بهینهسازی را محدود میکند.
برای پرداختن به این چالشها،. ما HAD را پیشنهاد میکنیم،.
یک چارچوب برنامهریزی سرتاسر با یک خطمشی انتشار سلسله مراتبی که برنامهریزی را به درشت به ریز تجزیه. میکند.
فرآیند برای بهبود تولید مسیر،. توسعه مسیر با ساختار حفظ شده را معرفی میکنیم که در عین حفظ ساختار سینماتیک،.
نامزدهای واقعی را تولید میکند. برای یادگیری خطمشی،.
ما بهینهسازی خطمشی جداشده از متریک (MDPO) را توسعه میدهیم تا بهینهسازی RL ساختاریافته را در چندین هدف. محرکه فعال کنیم.
آزمایشهای گسترده نشان میدهد که HAD به عملکرد پیشرفتهای در NAVSIM و HUGSIM دست مییابد،. و با اختلاف زیادی از هنرهای قبلی بهتر عمل میکند:.
+2. 3 EPDMS در NAVSIM و +4.
9 تکمیل مسیر در HUGSIM. صفحه، 7 شکل رباتیک (cs.
RO)؛ بینایی کامپیوتری و تشخیص الگو (cs. CV) استناد بهعنوان: (یا v1 [cs.
RO] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Wenhao Yao [مشاهده ایمیل] [v1] شنبه،. 4 آوریل 2026،.
04:. 12:.
47 UTC (17,. 426 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
