TL;DR
- چکیده:.
- سیستمهای توصیهکننده مکالمه (CRS) از تعاملات زبان طبیعی برای توصیههای شخصیسازی شده استفاده میکنند،.
- در عین حال تاریخچههای گفتگوی کمیاب و پارادایمهای توصیه تک نوبتی ممکن است به شدت مانع مدلسازی دقیق.
چه اتفاقی افتاد
چکیده:. سیستمهای توصیهکننده مکالمه (CRS) از تعاملات زبان طبیعی برای توصیههای شخصیسازی شده استفاده میکنند،.
در عین حال تاریخچههای گفتگوی کمیاب و پارادایمهای توصیه تک نوبتی ممکن است به شدت مانع مدلسازی دقیق. ترجیحات پیچیده کاربر شوند.
برای کاهش این مشکل،. مطالعات اخیر شبیهسازهای کاربر مبتنی بر LLM را معرفی کردهاند که بازخورد زبان طبیعی را ایجاد میکنند و.
تعاملات چند چرخشی شبیهسازی شده را برای کمک به توصیهها انجام میدهند. با این وجود،.
از آنجایی که شبیهسازها در طول استنتاج نمیتوانند به ی ترجیحی واقعی کاربر دسترسی داشته باشند،. بازخورد آنها ممکن است از علایق واقعی کاربر منحرف شود،.
که باعث انباشته شدن خطاها در تعاملات چندگانه میشود و به شدت بر تعمیم توصیهکننده تأثیر میگذارد. با الهام از قابلیتهای استدلال چند مرحلهای LLM و اثربخشی یادگیری تقویتی در بهینهسازی خط.
مشی،. ما SMTPO را پیشنهاد کنید،.
یک چارچوب پیشنهادی محاورهای بهینهسازی اولویت چند چرخشی با هدایت شبیهساز کاربر. برای همراستا کردن بازخورد تولید شده توسط شبیهساز با ترجیحات واقعی کاربر در غیاب ی صریح،.
کیفیت بازخورد را از طریق تنظیم دقیق با نظارت چند کاره (SFT) افزایش میدهیم و شبیهساز را قادر. میسازد تا نیازهای پیچیده و متنوع کاربران را بهتر منعکس کند.
برای پرداختن به چالش بازخورد مغرضانه که بهینهسازی چند چرخشی را بیثبات میکند،. ابتدا به توصیهگر مبتنی بر LLM استدلال میکنیم تا استدلال ترجیحی و الگوهای توصیه را از طریق SFT.
بیاموزد و سپس از یادگیری تقویتی با طراحی پاداش دقیق استفاده کند تا به تدریج با ترجیحات کاربر. واقعی هماهنگ شود و عملکرد توصیهها را بهبود بخشد.
آزمایشهای گسترده بر روی مجموعه دادههای عمومی، اثربخشی و قابلیت انتقال روش ما را نشان میدهد. بازیابی اطلاعات (cs.
IR) استناد بهعنوان: (یا v1 [cs. IR] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Xiangchen Pan [مشاهده ایمیل] [v1] شنبه،.
4 آوریل 2026،. 09:.
52:. 30 UTC (1,.
437 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
