TL;DR
- چکیده:.
- رونویسی و درک مکالمات چند گوینده نیاز به تشخیص گفتار،.
- انتساب سخنران،.
چه اتفاقی افتاد
چکیده:. رونویسی و درک مکالمات چند گوینده نیاز به تشخیص گفتار،.
انتساب سخنران،. و محلی سازی مهر زمان دارد.
در حالی که LLMهای گفتاری در وظایف تک بلندگو عالی هستند،. سناریوهای چند گوینده به دلیل همپوشانی گفتار،.
کانالهای پشتی،. چرخش سریع و محدودیتهای پنجره زمینه همچنان چالش برانگیز هستند.
ما Speaker-Reasoner را پیشنهاد میکنیم، یک Speech LLM سرتاسر با استدلال زمانی چند نوبتی عاملی. به جای استنتاج تک گذر،.
مدل بهطور مکرر ساختار صوتی جهانی را تجزیه و تحلیل میکند،. بهطور مستقل مرزهای زمانی را پیش بینی میکند،.
و تجزیه و تحلیل بخش ریز را انجام میدهد،. هویت گوینده،.
جنسیت،. مهر زمانی و رونویسی را بهطور مشترک مدل میکند.
حافظه پنهان بلندگوی آگاه، پردازش را به صدای فراتر از پنجره زمینه آموزشی گسترش میدهد. Speaker-Reasoner که با یک استراتژی مترقی سه مرحلهای آموزش دیده است،.
به یک ثبات دست مییابد بهبود بیش از خطوط پایه قوی در مجموعه دادههای AliMeeting و. AISHELL-4،.
به ویژه در مدیریت گفتار همپوشانی و چرخش پیچیده. پردازش صدا و گفتار (eess.
AS)؛ محاسبات و زبان (cs. CL); صدا (cs.
SD) استناد بهعنوان: (یا v1 [eess. AS] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Zhennan Lin [مشاهده ایمیل] [v1] جمعه،.
3 آوریل 2026،. ساعت 14:.
52:. 20 UTC (11,.
414 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
