TL;DR
- چکیده: مدلهای زبان بزرگ صوتی و تصویری (AVLLM) بهعنوان رابطهای یکپارچه برای درک چندوجهی در حال ظهور هستند.
- ما اولین مطالعه تفسیرپذیری مکانیکی AVLLM را ارائه میکنیم،.
- که چگونگی تکامل و ترکیب ویژگیهای صوتی و بصری از طریق لایههای مختلف یک AVLLM برای تولید خروجیهای.
چه اتفاقی افتاد
چکیده: مدلهای زبان بزرگ صوتی و تصویری (AVLLM) بهعنوان رابطهای یکپارچه برای درک چندوجهی در حال ظهور هستند. ما اولین مطالعه تفسیرپذیری مکانیکی AVLLM را ارائه میکنیم،.
که چگونگی تکامل و ترکیب ویژگیهای صوتی و بصری از طریق لایههای مختلف یک AVLLM برای تولید خروجیهای. متن نهایی را تحلیل میکند.
ما متوجه شدیم که اگرچه AVLLMها معنایی صوتی غنی را در لایههای میانی رمزگذاری میکنند،. اما این قابلیتها تا حد زیادی در تولید متن نهایی زمانی که صدا با دید در تضاد است.
ظاهر نمیشوند. تحلیلهای کاوشگر نشان میدهد که اطلاعات صوتی نهفته مفیدی وجود دارد،.
اما لایههای همجوشی عمیقتر بهطور نامتناسبی امتیاز بازنماییهای بصری را دارند که تمایل به سرکوب نشانههای صوتی دارند. ما بیشتر این عدم تعادل را در آموزش دنبال میکنیم:.
رفتار صوتی AVLLM به شدت با مدل پایه زبان بینایی آن مطابقت دارد،. که نشاندهنده همسویی محدود اضافی برای نظارت صوتی است.
ما یافتهها یک سوگیری اساسی روش را در AVLLM نشان میدهند و بینش مکانیکی جدیدی را در مورد. اینکه چگونه LLMهای چندوجهی صدا و بینایی را ادغام میکنند،.
ارائه میدهند. یافتههای CVPR هوش مصنوعی (cs.
AI)؛ صدا (cs. SD) استناد بهعنوان: (یا v1 [cs.
AI] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite (در انتظار ثبت نام) تاریخچه ارسال از:.
Ramaneswaran Selvakumar [مشاهده ایمیل] [v1] جمعه،. 3 آوریل 2026،.
00:. 48:.
49 UTC (14,. 633 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
