TL;DR
- چکیده:.
- در حالی که روشهای جدید خودکار قرمز تیمینویدبخش افشای سیستماتیک آسیبپذیریهای مدل هستند،.
- اکثر رویکردهای موجود به گردشهای کاری مشخص شده توسط انسان متکی هستند.
چه اتفاقی افتاد
چکیده:. در حالی که روشهای جدید خودکار قرمز تیمینویدبخش افشای سیستماتیک آسیبپذیریهای مدل هستند،.
اکثر رویکردهای موجود به گردشهای کاری مشخص شده توسط انسان متکی هستند. این وابستگی به جریانهای کاری طراحی شده دستی از تعصبات انسانی رنج میبرد و کاوش در.
فضای طراحی گستردهتر را گران میکند. ما AgenticRed را معرفی میکنیم،.
خط لوله خودکاری که از یادگیری درون زمینهای LLMها برای طراحی و اصلاح سیستمهای Red-teaming بدون دخالت. انسان استفاده میکند.
AgenticRed به جای بهینهسازی خطمشیهای مهاجم در ساختارهای از پیش تعریفشده،. تیم قرمز را بهعنوان یک مشکل طراحی سیستم در نظر میگیرد و بهطور مستقل سیستمهای تیم قرمز خودکار.
را با استفاده از انتخاب تکاملی و دانش نسلی تکامل میدهد. سیستمهای Red-teaming که توسط AgenticRed طراحی شدهاند،.
بهطور مداوم از روشهای پیشرفته پیشی میگیرند و نرخ موفقیت حمله (ASR) 96% را در Llama-2-7B به دست. میآورند.
98 ٪ در Llama-3-8B و 100 ٪ در Qwen3-8B در HarmBench. رویکرد ما سیستمهای قرمز-تیمینگ قوی و پرسوجو را ایجاد میکند که به شدت به جدیدترین مدلهای اختصاصی منتقل.
میشوند و به یک ASR 100% چشمگیر در GPT-5. 1، DeepSeek-R1 و DeepSeek V3.
2 دست مییابند. این کار الگوریتمهای تکاملی را بهعنوان یک رویکرد قدرتمند برای ایمنی هوش مصنوعی برجسته میکند که میتواند با.
مدلهای به سرعت در حال تکامل همگام شود. وب سایت: این آدرس https هوش مصنوعی (cs.
AI)؛ محاسبات عصبی و تکاملی (cs. NE) استناد بهعنوان: (یا v3 [cs.
AI] برای این نسخه) https:. // شده توسط arXiv از طریق DataCite تاریخچه ارسال از:.
Jiayi Yuan [مشاهده ایمیل] [v1] سه شنبه،. 20 ژانویه 2026،.
02:. 10:.
22 UTC (2,. 995 KB) [v2] پنجشنبه،.
29 ژانویه 2026،. 18:.
19:. 27 UTC (3,.
436 KB) [v3] جمعه،. 3 آوریل 2026،.
05:. 27:.
04 UTC (2,. 350 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
