TL;DR
- v1 نوع اعلام:.
- متقاطع چکیده:.
- از آنجایی که مدلهای زبان بینایی (VLM) بهطور فزایندهای در پشتیبانی تصمیمگیری بالینی استفاده میشوند،.
چه اتفاقی افتاد
v1 نوع اعلام:. متقاطع چکیده:.
از آنجایی که مدلهای زبان بینایی (VLM) بهطور فزایندهای در پشتیبانی تصمیمگیری بالینی استفاده میشوند،. بیش از دقت مورد نیاز است:.
دانستن اینکه چه زمانی به پیشبینیهای آنها اعتماد کنیم به همان اندازه حیاتی است. با این حال،.
یک بررسی جامع و سیستماتیک در مورد اعتماد بیش از حد این مدلها بهطور قابل توجهی در. حوزه پزشکی کمیاب است.
ما این شکاف را از طریق یک مطالعه تجربی جامع از کالیبراسیون اطمینان در VLMها،. شامل سه خانواده مدل (Qwen3-VL،.
InternVL3،. LLaVA-NeXT)،.
سه مقیاس مدل (2B--38B)،. و استراتژیهای تحریک چندگانه تخمین اطمینان،.
در سه پاسخ به سؤالات بصری پزشکی (VQA) بررسی میکنیم. مطالعه ما سه یافته کلیدی به دست میدهد:.
اول،. اعتماد به نفس بیش از حد در خانوادههای مدل باقی میماند و با مقیاسگذاری یا تلقین،.
مانند انواع زنجیرهای از فکر و اعتماد کلامیحل نمیشود. دوم،.
ساده پس از آن رویکردهای کالیبراسیون،. مانند مقیاس گذاری Platt،.
خطای کالیبراسیون را کاهش میدهد و بهطور مداوم از استراتژی مبتنی بر سریع بهتر عمل میکند. سوم،.
به دلیل یکنواختی (سخت) آنها،. این روشهای کالیبراسیون پسهک ذاتاً در بهبود کیفیت متمایز پیشبینیها محدود هستند و AUROC را در همان سطح.
باقی میگذارند. با انگیزه این یافتهها،.
ما کالیبراسیون آگاه از توهم (HAC) را بررسی میکنیم که سیگنالهای تشخیص توهم مبتنی بر بینایی را بهعنوان. ورودیهای مکمل برای اصلاح تخمینهای اطمینان ترکیب میکند.
ما متوجه شدیم که استفاده از این سیگنالهای توهم،. هم کالیبراسیون و هم AUROC را بهبود میبخشد،.
با بیشترین دستاوردها در مورد سؤالات باز. بهطور کلی،.
یافتههای ما کالیبراسیون post-hoc را بهعنوان یک روش استاندارد برای استقرار VLM پزشکی بر روی تخمینهای اطمینان خام. پیشنهاد میکند،.
و سودمندی عملی سیگنالهای توهم را برای فعال کردن استفاده مطمئنتر از VLM در پزشکی برجسته میکند. VQA.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
