TL;DR
- چکیده:.
- پیشرفتهای اخیر در تولید ویدیو قابل توجه بوده است و مدلها را قادر میسازد تا ویدیوهای بصری جذابی.
- را با صدای همگامسازی شده تولید کنند.
چه اتفاقی افتاد
چکیده:. پیشرفتهای اخیر در تولید ویدیو قابل توجه بوده است و مدلها را قادر میسازد تا ویدیوهای بصری جذابی.
را با صدای همگامسازی شده تولید کنند. در حالی که معیارهای تولید ویدیوی موجود معیارهای جامعی را برای کیفیت بصری ارائه میدهند،.
آنها فاقد ارزیابی قانع کننده برای تولید صوتی-تصویری هستند،. به ویژه برای مدلهایی که هدفشان تولید خروجیهای صوتی-تصویری هماهنگ است.
برای رفع این شکاف،. VABench را معرفی میکنیم،.
یک چارچوب معیار جامع و چند بعدی که برای ارزیابی سیستماتیک قابلیتهای تولید همزمان صوتی و تصویری طراحی. شده است.
VABench شامل سه نوع کار اصلی است:. متن به صوتی-تصویری (T2AV)،.
تصویر به صوتی-تصویری (I2AV) و تولید صوتی و تصویری استریو. همچنین دو ماژول ارزیابی اصلی را ایجاد میکند که 15 بعد را پوشش میدهد.
این ابعاد بهطور خاص شباهتهای زوجی را ارزیابی میکنند (متن-ویدئو،. متن-صوت،.
ویدئو-صوت)،. همگام سازی صوتی-تصویری،.
یکنواختی لب-گفتار،. و جفتهای پاسخگویی صوتی و تصویری (QA) با دقت تنظیم شده،.
و غیره. علاوه بر این،.
VABench هفت دسته محتوای اصلی را پوشش میدهد:. حیوانات،.
صداهای انسان،. موسیقی،.
صداهای محیطی،. صداهای فیزیکی همزمان،.
صحنههای پیچیده و جهانهای مجازی. ما یک تجزیه و تحلیل سیستماتیک و تجسم نتایج ارزیابی را ارائه میکنیم،.
با هدف ایجاد استاندارد جدیدی برای ارزیابی مدلهای تولید ویدیو با قابلیتهای صوتی همزمان و ترویج. پیشرفت همه جانبه این زمینه.
صفحه، 25 شکل بینایی کامپیوتری و تشخیص الگو (cs. CV)؛ صدا (cs.
SD) استناد بهعنوان: (یا v2 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Bohan Zeng [مشاهده ایمیل] [v1] چهارشنبه،.
10 دسامبر 2025،. 03:.
57:. 29 UTC (13,.
374 KB) [v2] دوشنبه،. 6 آوریل 2026،.
13:. 16:.
33 UTC (12,. 297 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
