TL;DR
- چکیده:.
- رفتار فریبکارانه در سیستمهای هوش مصنوعی دیگر تئوری نیست:.
- مدلهای زبانی بزرگ بهطور استراتژیک بدون تولید عبارات نادرست گمراه میکنند،.
چه اتفاقی افتاد
چکیده:. رفتار فریبکارانه در سیستمهای هوش مصنوعی دیگر تئوری نیست:.
مدلهای زبانی بزرگ بهطور استراتژیک بدون تولید عبارات نادرست گمراه میکنند،. استراتژیهای فریبنده را از طریق آموزش ایمنی حفظ میکنند و فریبکاری را در تنظیمات چندعاملی هماهنگ میکنند.
در حالی که قانون هوش مصنوعی اتحادیه اروپا استقرار سیستمهای هوش مصنوعی فریبنده را ممنوع میکند،. به صراحت تحقیق و توسعه را مستثنی میکند و فضایی ضروری اما بدون ساختار را ایجاد میکند که.
در آن هیچ چارچوب مشخصی بر نحوه انجام تحقیقات فریبکاری یا مقیاس ریسک با قابلیتها نظارت نمیکند. این مقاله یک چارچوب سطوح تحقیقات فریب (DRL) را پیشنهاد میکند،.
یک سیستم طبقهبندی برای تحقیقات الگوریتم فریبنده که بر روی سیستم سطح ایمنی زیستی مورد استفاده در تحقیقات. بیولوژیکی مدلسازی شده است.
چارچوب DRL تحقیقات را بر اساس مشخصات ریسک به جای قصد محقق طبقه بندی میکند و مکانیسم. های فریبنده را در پنج مورد ارزیابی میکند.
ابعاد مبتنی بر چارچوب اخلاقی AI4People: مفهوم ستون، شدت، برگشت پذیری، مقیاس و آسیب پذیری. طبقهبندی از رویکرد «بالاترین ابعاد برنده» پیروی میکند،.
که یکی از چهار سطح خطر را با حفاظتهای تجمعی از اسناد استاندارد در DRL-1 تا اعلانهای نظارتی. و ممیزیهای امنیتی شخص ثالث در DRL-4 اختصاص میدهد.
یک دستور توسعه دوگانه در DRL-3 و بالاتر مستلزم آن است که روشهای تشخیص و کاهش در کنار. هر قابلیت فریبنده توسعه داده شوند.
ما این چارچوب را برای هشت مطالعه موردی در هر چهار سطح اعمال میکنیم و نشان میدهیم که. اعتبار زیستمحیطی مکانیسم فریبنده بهعنوان یک شاخص ثابت و غیر مستقل از سطح طبقهبندی ظاهر میشود.
چارچوب DRL برای پر کردن شکاف حاکمیتی بین استقرار منظم و تحقیقات بدون ساختار طراحی شده است و. از برنامههای کاربردی مفید و تحقیقات دفاعی پشتیبانی میکند.
تحت شرایطی که تدابیر امنیتی متناسب با احتمال آسیب است. کامپیوتر و جامعه (cs.
CY) استناد بهعنوان: (یا v1 [cs. CY] برای این نسخه) https:.
// شده توسط arXiv از طریق DataCite تاریخچه ارسال از:. Jason Starace [مشاهده ایمیل] [v1] سه شنبه،.
10 مارس 2026،. 20:.
30:. 27 UTC (46 KB).
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
