TL;DR
- چکیده:.
- مدلهای زبان بزرگ چندوجهی (MLLM) به موفقیت چشمگیری دست یافتهاند،.
- با این حال آنها همچنان مستعد توهمات مربوط به ادراک در کارهای دقیق هستند.
چه اتفاقی افتاد
چکیده:. مدلهای زبان بزرگ چندوجهی (MLLM) به موفقیت چشمگیری دست یافتهاند،.
با این حال آنها همچنان مستعد توهمات مربوط به ادراک در کارهای دقیق هستند. این آسیبپذیری از یک محدودیت اساسی ناشی میشود:.
استدلال آنها تا حد زیادی به حوزه زبان محدود میشود و ورودی بصری را بهعنوان مقدمهای ایستا و. استدلالگرا به جای یک شرکتکننده پویا در نظر میگیرد.
در نتیجه،. مدلهای فعلی بهعنوان ناظران منفعل عمل میکنند و قادر به بررسی مجدد جزئیات بصری برای پایهگذاری حالتهای استدلال.
در حال تکامل خود نیستند. برای غلبه بر این،.
ما V-Reflection را پیشنهاد میکنیم،. چارچوبی که MLLM را از طریق مکانیزم بازتاب بصری «فکر کن،.
سپس نگاه کن» به یک بازپرس فعال تبدیل میکند. در طول استدلال،.
حالتهای نهفته بهعنوان کاوشگرهای پویا عمل میکنند که بهطور فعال فضای ویژگیهای بصری را مورد بازجویی قرار میدهند،. و هر مرحله استدلال را برای شواهد حیاتی تکلیف پایهگذاری میکنند.
رویکرد ما کار میکند یک استراتژی تقطیر دو مرحلهای اول،. ماژول فشرده سازی هدایت شده با جعبه (BCM) اهداف پایدار پیکسل به پنهان را از طریق زمین گذاری.
فضایی صریح ایجاد میکند. در مرحله بعد،.
یک ماژول فشرده سازی خودرگرسیون پویا (DAC) حالتهای پنهان مدل را در کاوشگرهای پویا ترسیم میکند. که نقشه ویژگیهای بصری جهانی را مورد بازجویی قرار میدهد.
با تقطیر تخصص فضایی معلم BCM به دانشآموز DAC، V-Reflection توانایی بومیسازی شواهد حیاتی وظیفه را درونی میکند. در طول استنتاج،.
هر دو ماژول کاملاً غیرفعال میمانند و رمزگشایی اتورگرسیو کاملاً سرتاسری را در فضای پنهان با کارایی بهینه. حفظ میکنند.
آزمایشهای گسترده،. اثربخشی V-Reflection ما را در شش معیار مبتنی بر ادراک نشان میدهد،.
و بهطور قابلتوجهی شکاف درک دقیق را کاهش میدهد. تجسمها تأیید میکنند که استدلال نهفته بهطور مستقل شواهد بصری حیاتی کار را بومیسازی میکند.
مقاله اصلی 14 صفحه به همراه 7 صفحه تکمیلی بینایی کامپیوتری و تشخیص الگو (cs. CV)؛ هوش مصنوعی (cs.
AI) استناد بهعنوان: (یا v1 [cs. CV] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Jiazhou Zhou [مشاهده ایمیل] [v1] سهشنبه،.
31 مارس 2026،. 03:.
57:. 56 UTC (25,.
337 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
