TL;DR
- چکیده:.
- در این مقاله،.
- ما تولید صوتی جامع جهانی (UniHAGen) را پیشنهاد میکنیم،.
چه اتفاقی افتاد
چکیده:. در این مقاله،.
ما تولید صوتی جامع جهانی (UniHAGen) را پیشنهاد میکنیم،. وظیفهای برای ترکیب صحنههای شنیداری جامع که شامل صداهای روی صفحه و خارج از صفحه در دامنههای مختلف.
(مانند رویدادهای محیطی،. آلات موسیقی و گفتار انسان) است.
مدلهای تولید صوتی با شرایط ویدیویی قبلی معمولاً بر روی تولید صداهای محیطی روی صفحه تمرکز میکنند که. با رویدادهای صوتی قابل مشاهده مطابقت دارد و از رویدادهای شنیداری خارج از صفحه غفلت میکنند.
در حالی که هدف مدلهای جدید تولید متن-ویدئو به-صوتی مشترک،. تولید صحنههای شنیداری با صدای روی صفحه و خارج از صفحه است،.
اما آنها به صداهای غیر گفتاری محدود میشوند و توانایی تولید یا ادغام گفتار انسان را ندارند. برای غلبه بر این محدودیتها،.
OmniSonic را معرفی میکنیم،. یک چارچوب انتشار مبتنی بر تطبیق جریان که بهطور مشترک بر روی ویدئو و متن مشروط شده است.
دارای TriAttn-DiT است معماری که سه عملیات متقاطع را برای پردازش صدای محیطی روی صفحه،. صدای محیط خارج از صفحه و شرایط گفتار بهطور همزمان انجام میدهد،.
با مکانیزم دروازهای Mixture-of-Experts (MoE) که بهطور تطبیقی سهم آنها را در طول تولید متعادل میکند. علاوه بر این،.
ما UniHAGen-Bench را میسازیم،. یک معیار جدید با بیش از هزار نمونه که سه سناریوی محیط گفتار روی صفحه/خارج از صفحه نمایش.
را پوشش میدهد. آزمایشهای گسترده نشان میدهد که OmniSonic بهطور مداوم از روشهای پیشرفته در هر دو معیارهای عینی و ارزیابیهای.
انسانی بهتر عمل میکند و پایهای قوی برای تولید صوتی جهانی و جامع ایجاد میکند. صفحه پروژه: این آدرس https CVPR 2026 صدا (cs.
SD)؛ بینایی کامپیوتری و تشخیص الگو (cs. CV)؛ چند رسانهای (cs.
MM) استناد بهعنوان: (یا v1 [cs. SD] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:. Weiguo Pian [مشاهده ایمیل] [v1] دوشنبه،.
6 آوریل 2026،. 01:.
43:. 00 UTC (5,.
159 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
