TL;DR
- v1 نوع اعلام:.
- جدید چکیده:.
- استقرار سریع چارچوبهای منبعباز توسعه سیستمهای چندعاملی مدرن را بهطور قابلتوجهی پیشرفت داده است.
چه اتفاقی افتاد
v1 نوع اعلام:. جدید چکیده:.
استقرار سریع چارچوبهای منبعباز توسعه سیستمهای چندعاملی مدرن را بهطور قابلتوجهی پیشرفت داده است. با این حال،.
فضاهای اقدام گسترده،. از جمله قرار گرفتن در معرض امتیازات کنترل نشده و تعاملات پنهان بین سیستمی،.
چالشهای امنیتی شدیدی را ایجاد میکند. بهطور خاص،.
تزریق سریع غیرمستقیم (IPI)،. که دستورالعملهای مخرب را در محتوای شخص ثالث پنهان میکند،.
میتواند اقدامات غیرمجاز مانند استخراج دادهها را در طول عملیات عادی ایجاد کند. در حالی که ارزیابیهای امنیتی کنونی عمدتاً بر معیارهای تک چرخشی مجزا تکیه میکنند،.
آسیبپذیریهای سیستمیک این عوامل در محیطهای پویا پیچیده بهطور جدی مورد بررسی قرار نگرفتهاند. برای پر کردن این شکاف،.
ما بهطور سیستماتیک شش استراتژی دفاعی را در برابر چهار بردار حمله پیچیده IPI در 9 ستون فقرات. LLM ارزیابی میکنیم.
مهمتر از همه،. ما ارزیابی خود را انجام میدهیم بهطور کامل در محیطهای پویا چند مرحلهای فراخوانی ابزار.
برای گرفتن سطح حمله واقعی عوامل مستقل مدرن. با حرکت فراتر از نرخ موفقیت دودویی،.
تجزیه و تحلیل چند بعدی ما شکنندگی مشخصی را نشان میدهد. تزریقهای پیشرفته تقریباً تمام دفاعهای پایه را با موفقیت دور میزنند،.
و برخی از کاهشدهندههای سطحی حتی عوارض جانبی معکوس ایجاد میکنند. علاوه بر این،.
در حالی که عاملها دستورالعملهای مخرب را تقریباً آنی اجرا میکنند،. حالات داخلی آنها آنتروپی تصمیمگیری غیرعادی بالایی را نشان میدهد.
با انگیزه این تردید پنهان، مهندسی بازنمایی (RepE) را بهعنوان یک استراتژی تشخیص قوی بررسی میکنیم. با استخراج حالتهای پنهان در موقعیت ابزار ورودی،.
ما نشان دادیم که مدار شکن مبتنی بر RepE با موفقیت اقدامات غیرمجاز را قبل از اینکه عامل. انجام دهد،.
شناسایی و رهگیری میکند و به دقت تشخیص بالایی در ستونهای مختلف LLM دست مییابد. این مطالعه محدودیتهای دفاع IPI فعلی را نشان میدهد و یک الگوی بسیار کاربردی برای ساخت معماریهای چند.
عاملی انعطافپذیر ارائه میکند.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
