TL;DR
- چکیده:.
- ناوبری صوتی و تصویری (AVN) به یک عامل تجسم یافته نیاز دارد تا با استفاده از صدای بینایی.
- و دو گوش،.
چه اتفاقی افتاد
چکیده:. ناوبری صوتی و تصویری (AVN) به یک عامل تجسم یافته نیاز دارد تا با استفاده از صدای بینایی.
و دو گوش،. به سمت منبع صدا حرکت کند.
یک چالش اصلی در محیطهای صوتی پیچیده ایجاد میشود،. جایی که نشانههای دوگوشی بهطور متناوب غیرقابل اعتماد میشوند،.
بهویژه زمانی که به دستههای صوتی قبلاً شنیده نشده تعمیم میدهند. برای پرداختن به این موضوع،.
ما RAVN (ناوبری صوتی و تصویری آگاه از قابلیت اطمینان) را پیشنهاد میکنیم،. چارچوبی که ادغام متقابل وجهی را بر اساس نشانههای قابلیت اطمینان مشتقشده از صدا،.
تنظیم میکند و به صورت پویا ادغام ورودیهای صوتی و تصویری را کالیبره میکند. RAVN یک دلیل هندسه آکوستیک (AGR) را معرفی میکند که با نظارت پروکسی هندسی آموزش داده شده.
است. با استفاده از یک هدف NLL گاوسی ناهمگون،.
AGR پراکندگی وابسته به مشاهده را بهعنوان یک نشانه قابلیت اطمینان عملی میآموزد و نیاز به ی هندسی. را در طول استنتاج از بین میبرد.
در ضمن معرفی میکنیم مدولاسیون هندسی آگاه از قابلیت اطمینان (RAGM)،. که نشانه آموخته شده را به یک دروازه نرم تبدیل میکند تا ویژگیهای بصری را تعدیل.
کند و در نتیجه تضادهای چند وجهی را کاهش دهد. ما RAVN را در SoundSpaces با استفاده از محیطهای Replica و Matterport3D ارزیابی میکنیم،.
و نتایج نشاندهنده بهبودهای مداوم در عملکرد ناوبری،. با استحکام قابلتوجه در تنظیمات صدای ناشنیده چالشبرانگیز است.
مقاله اصلی (6 صفحه). پذیرفته شده برای انتشار توسط کنفرانس مشترک بین المللی در شبکههای عصبی (IJCNN 2026) صدا (cs.
SD)؛ هوش مصنوعی (cs. AI)؛ پردازش صدا و گفتار (eess.
AS) استناد بهعنوان: (یا v1 [cs. SD] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Yinfeng Yu [مشاهده ایمیل] [v1] پنجشنبه،.
2 آوریل 2026،. 07:.
26:. 46 UTC (970 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
