TL;DR
- چکیده:.
- ما مشکل راهزنان زمینهای تصادفی را در محیط آگنوستیک مطالعه میکنیم،.
- جایی که هدف رقابت با بهترین خطمشی در یک کلاس معین بدون فرض تحقق پذیری یا تحمیل محدودیتهای.
چه اتفاقی افتاد
چکیده:. ما مشکل راهزنان زمینهای تصادفی را در محیط آگنوستیک مطالعه میکنیم،.
جایی که هدف رقابت با بهترین خطمشی در یک کلاس معین بدون فرض تحقق پذیری یا تحمیل محدودیتهای. مدل بر ضرر یا پاداش است.
در این کار، ما اولین نرخ سریع پشیمانی را نسبت به بهترین خط مشی کلاس ایجاد میکنیم. الگوریتم پیشنهادی ما خطمشی را در هر دور با حداقل کردن یک هدف بدبینانه بهروزرسانی میکند،.
که بهعنوان یک تخمین گرایش معکوس از مقدار سیاست به اضافه یک جریمه واریانس تعریف میشود. با استفاده از مفروضات آنتروپی بر روی کلاس سیاست و یک شرط محدود به خطا هولدرین (تعمیم شرط.
حاشیه)،. ما به بهترین نرخ پشیمانی سریع در کلاس،.
از جمله نرخهای چند لگاریتمیدر مورد پارامتری دست پیدا میکنیم. تجزیه و تحلیل توسط یک نابرابری حداکثر خود-نرمال متوالی برای تجربی مارتینگل محدود هدایت میشود.
فرآیندها،. که مرزهای اطمینان واریانس تطبیقی یکنواخت را ایجاد میکند و بدبینی را تحت مجموعه دادههای تطبیقی.
تضمین میکند. یادگیری ماشین (stat.
ML)؛ یادگیری ماشینی (cs. LG) استناد بهعنوان: (یا v2 [stat.
ML] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
حسام زناتی [مشاهده ایمیل] [v1] جمعه،. 17 اکتبر 2025،.
09:. 53:.
42 UTC (464 KB) [v2] جمعه،. 3 آوریل 2026،.
17:. 49:.
49 UTC (671 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
