TL;DR
- چکیده:.
- دوبله ویدیو به دقت محتوا،.
- عروض رسا،.
چه اتفاقی افتاد
چکیده:. دوبله ویدیو به دقت محتوا،.
عروض رسا،. آکوستیک با کیفیت بالا و همگام سازی لبی دقیق نیاز دارد،.
اما رویکردهای موجود در هر چهار جبهه با مشکل مواجه هستند. برای پرداختن به این مسائل،.
DiFlowDubber را پیشنهاد میکنیم،. اولین چارچوب دوبله ویدیویی که بر اساس یک ستون فقرات تطبیق جریان گسسته با یک استراتژی آموزشی دو.
مرحلهای جدید ساخته شده است. در مرحله اول،.
یک سیستم تبدیل متن به گفتار صفر شات (TTS) از قبل بر روی اجسام در مقیاس بزرگ آموزش. داده شده است،.
که در آن یک معماری قطعی ساختارهای زبانی را به تصویر میکشد،. و ماژول جریان گسسته (DFPA) عروض بیانی و ویژگیهای آکوستیک واقعی را مدلسازی میکند.
در مرحله دوم،. ما انطباق زمانی سازگار با محتوا (CCTA) را برای انتقال دانش TTS به حوزه دوبله پیشنهاد میکنیم:.
همگامساز آن هم ترازی متقابل وجهی را برای گفتار همگامسازی لب اعمال میکند. بهطور مکمل،.
Face-to-Prosody Mapper (FaPro) عروضی را بر روی حالات صورت شرایط میدهد،. که سپس خروجیهای آن با خروجیهای Synchronizer ترکیب میشوند تا جاسازیهای چندوجهی غنی و ظریفی ایجاد کنند که.
همبستگیهای عروضی-محتوا را ثبت میکند،. و DFPA را برای تولید عروض بیانی و آکوستیک بیان میکند.
آزمایشها روی دو مجموعه داده معیار نشان میدهند که DiFlowDubber از روشهای قبلی در معیارهای ارزیابی چندگانه بهتر. عمل میکند.
در یافتههای CVPR 2026 پذیرفته شد بینایی کامپیوتری و تشخیص الگو (cs. CV)؛ هوش مصنوعی (cs.
AI)؛ چند رسانهای (cs. MM)؛ صدا (cs.
SD) استناد بهعنوان: (یا v4 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Ngoc Son Nguyen [مشاهده ایمیل] [v1] یکشنبه،.
15 مارس 2026،. 07:.
53:. 23 UTC (8,.
690 KB) [v2] سه شنبه،. 17 مارس 2026،.
05:. 01:.
44 UTC (8,. 684 KB) [v3] جمعه،.
27 مارس 2026،. 07:.
22:. 39 UTC (8,.
684 KB) [v4] جمعه،. 3 آوریل 2026،.
07:. 45:.
32 UTC (8,. 716 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
