TL;DR
- عوامل هوش مصنوعی – سیستمهایی که قادر به استدلال،.
- برنامهریزی و عمل هستند – در حال تبدیل شدن به یک پارادایم رایج برای برنامههای کاربردی.
- هوش مصنوعی در دنیای واقعی هستند.
چه اتفاقی افتاد
عوامل هوش مصنوعی – سیستمهایی که قادر به استدلال،. برنامهریزی و عمل هستند – در حال تبدیل شدن به یک پارادایم رایج برای برنامههای کاربردی.
هوش مصنوعی در دنیای واقعی هستند. از دستیاران کدنویسی گرفته تا مربیان سلامت شخصی،.
صنعت در حال تغییر از پاسخگویی به سوالات تک شات به تعاملات پایدار و چند مرحلهای است. در حالی که محققان مدت هاست از معیارهای ثابت برای بهینهسازی دقت مدلهای یادگیری ماشین سنتی استفاده میکنند،.
نمایندگان لایه جدیدی از پیچیدگی را معرفی میکنند. برخلاف پیشبینیهای مجزا،.
عاملها باید تعاملات پایدار و چند مرحلهای را انجام دهند که در آن یک خطا میتواند در سراسر. یک گردش کار آبشاری کند.
این تغییر ما را وادار میکند که فراتر از دقت استاندارد نگاه کنیم و بپرسیم:. واقعاً چگونه این سیستمها را برای عملکرد بهینه طراحی میکنیم؟
پزشکان اغلب بر اکتشافات تکیه میکنند،. مانند این فرض که "عوامل بیشتر بهتر هستند"،.
با این باور که افزودن عوامل تخصصی بهطور مداوم نتایج را بهبود میبخشد. بهعنوان مثال،.
«کارگزاران بیشتر تنها چیزی است که نیاز دارید» گزارش داد که مقیاسهای عملکرد LLM با تعداد عامل محاسبه. میشود،.
در حالی که تحقیقات مقیاسبندی مشارکتی نشان میدهد که همکاری چندعاملی «. اغلب از طریق استدلال جمعی از هر فرد پیشی میگیرد.» در مقاله جدید خود،.
«به سوی علم سیستمهای عامل مقیاسپذیر»،. ما این فرض را به چالش میکشیم.
از طریق یک ارزیابی کنترلشده در مقیاس بزرگ از 180 پیکربندی عامل،. ما اولین اصول مقیاسگذاری کمیرا برای سیستمهای عامل به دست میآوریم،.
که نشان میدهد رویکرد «عوامل بیشتر» اغلب به سقف برخورد میکند،. و حتی میتواند عملکرد را کاهش دهد،.
اگر با ویژگیهای خاص کار هماهنگ نباشد. تعریف ارزیابی «عاملی» برای درک اینکه چگونه عاملها مقیاس میشوند،.
ابتدا تعریف کردیم که چه چیزی یک کار را «عاملی» میکند. معیارهای استاتیک سنتی دانش یک مدل را اندازهگیری میکنند،.
اما پیچیدگیهای استقرار را در بر نمیگیرند. ما استدلال میکنیم که وظایف عاملی به سه ویژگی خاص نیاز دارند:.
تعاملات چند مرحلهای پایدار با یک محیط خارجی. جمعآوری اطلاعات تکراری تحت قابلیت مشاهده جزئی.
اصلاح استراتژی تطبیقی بر اساس بازخورد محیطی. ما پنج معماری متعارف را ارزیابی کردیم:.
یک سیستم تک عاملی (SAS) و چهار نوع چندعاملی (مستقل،. متمرکز،.
متمرکز،. غیرمتمرکز،.
از جمله ترکیبهای مستقل،. متمرکز،.
ترکیبی،. غیرمتمرکز).
Finance-Agent (استدلال مالی)، BrowseComp-Plus (ناوبری وب)، PlanCraft (برنامهریزی) و Workbench (استفاده از ابزار). معماریهای عامل به صورت زیر تعریف میشوند:.
Single-Agent (SAS):. یک عامل انفرادی که تمام استدلالها و استدلالها را اجرا میکند.
اقدامات متوالی با یک جریان حافظه یکپارچه. مستقل:.
چندین عامل بهطور موازی روی وظایف فرعی بدون برقراری ارتباط کار میکنند،. نتایج را فقط در انتها جمع میکنند.
متمرکز:. یک مدل "hub-and-spoke" که در آن یک ارکستر مرکزی وظایف را به کارگران محول میکند و خروجی.
های آنها را ترکیب میکند. به اشتراک گذاری اطلاعات و رسیدن به اجماع.
ترکیبی:. ترکیبی از نظارت سلسله مراتبی و هماهنگی همتا به همتا برای متعادل کردن کنترل مرکزی با اجرای انعطاف.
پذیر. نتایج:.
افسانه «نمایندگان بیشتر» برای تعیین کمیت تأثیر قابلیتهای مدل بر عملکرد عامل،. معماریهای خود را در سه خانواده مدل پیشرو ارزیابی کردیم:.
OpenAI GPT،. Google Gemini،.
و Anthropic Claude. نتایج یک رابطه پیچیده بین قابلیتهای مدل و استراتژی هماهنگی را نشان میدهد.
همانطور که در شکل زیر نشان داده شده است،. در حالی که عملکرد بهطور کلی با مدلهای توانمندتر روند صعودی دارد،.
سیستمهای چندعاملی یک راهحل جهانی نیستند - آنها بسته به پیکربندی خاص میتوانند عملکرد را بهطور قابل. توجهی افزایش دهند یا بهطور غیرمنتظرهای کاهش دهند.
نتایج زیر عملکرد پنج معماری را در حوزههای مختلف، مانند مرور وب و تحلیل مالی، مقایسه میکند. نمودارهای جعبه نشان دهنده توزیع دقت برای هر رویکرد است،.
در حالی که درصدها نشان دهنده بهبود (یا کاهش) نسبی تیمهای چندعاملی در مقایسه با خط. پایه تک عاملی است.
این دادهها نشان میدهند که در حالی که افزودن عاملها میتواند دستاوردهای عظیمیرا در کارهای موازیسازی به. همراه داشته باشد،.
اغلب میتواند منجر به کاهش بازده - یا حتی افت عملکرد - در گردشهای کاری متوالیتر شود. اصل همسویی در وظایف موازیسازی مانند استدلال مالی (بهعنوان مثال،.
عوامل متمایز میتوانند بهطور همزمان روندهای درآمد،. ساختار هزینه و مقایسه بازار را تجزیه و تحلیل کنند)،.
هماهنگی متمرکز عملکرد را تا 80. 9 ٪ نسبت به یک عامل بهبود بخشید.
توانایی تجزیه مشکلات پیچیده به وظایف فرعی به عوامل اجازه میدهد تا بهطور موثرتری کار کنند. جریمه متوالی برعکس،.
در کارهایی که نیاز به استدلال متوالی دقیق دارند (مانند برنامهریزی در PlanCraft)،. هر نوع چندعاملی ما عملکرد را 39 تا 70 درصد کاهش دادیم.
در این سناریوها،. هزینههای ارتباطی،.
فرآیند استدلال را تکه تکه میکند و «بودجه شناختی» کافی برای کار واقعی باقی نمیگذارد. گلوگاه استفاده از ابزار ما یک "معادل هماهنگی ابزار" را شناسایی کردیم.
از آنجایی که وظایف به ابزارهای بیشتری نیاز دارند (بهعنوان مثال،. یک عامل کدنویسی با دسترسی به بیش از 16 ابزار)،.
"مالیات" هماهنگ کردن چندین عامل بهطور نامتناسبی افزایش مییابد. معماری بهعنوان یک ویژگی ایمنی شاید برای استقرار در دنیای واقعی مهمترین رابطه بین معماری و قابلیت اطمینان.
یافتیم. ما تقویت خطا را اندازهگیری کردیم،.
سرعتی که یک اشتباه توسط یک عامل به نتیجه نهایی منتشر میشود. ما دریافتیم که سیستمهای چندعاملی مستقل (عواملی که بدون صحبت به صورت موازی کار میکنند) خطاها را.
17. 2 برابر افزایش میدهند.
بدون مکانیزمیبرای بررسی کار یکدیگر، خطاها بررسی نشدند. سیستمهای متمرکز (با یک ارکستراتور) این تقویت را فقط تا 4.
4 برابر داشتند. ارکستراتور بهطور موثر بهعنوان یک "گلوگاه اعتبارسنجی" عمل میکند و خطاها را قبل از انتشار آنها تشخیص.
میدهد. یک مدل پیشبینیکننده برای طراحی عامل با حرکت فراتر از گذشتهنگر، یک مدل پیشبینی (R^2 = 0.
513) ایجاد کردیم که از ویژگیهای کار قابل اندازهگیری مانند تعداد ابزار و تجزیهپذیری برای پیشبینی اینکه کدام. معماری بهترین عملکرد را دارد،.
استفاده میکند. این مدل به درستی استراتژی هماهنگی بهینه را برای 87 درصد از پیکربندیهای وظایف نامرئی شناسایی میکند.
این نشان میدهد که ما به سمت علم جدیدی از مقیاسگذاری عامل حرکت میکنیم. توسعهدهندگان بهجای حدس زدن اینکه آیا باید از گروهی از عوامل یا یک مدل قدرتمند استفاده کنند،.
اکنون میتوانند به ویژگیهای وظیفهشان،. بهویژه وابستگیهای متوالی و تراکم ابزار آن،.
برای تصمیمگیری اصولی مهندسی نگاه کنند. نتیجهگیری از آنجایی که مدلهای بنیادی مانند Gemini به پیشرفت خود ادامه میدهند،.
تحقیقات ما نشان میدهد که مدلهای هوشمندتر جایگزین نیاز به سیستمهای چندعاملی نمیشوند،. بلکه آن را تسریع میکنند،.
اما فقط زمانی که معماری درست باشد. با حرکت از اکتشافی به اصول کمی،.
میتوانیم نسل بعدی عوامل هوش مصنوعی را بسازیم که نه تنها تعدادشان بیشتر است،. بلکه هوشمندتر،.
ایمنتر و کارآمدتر هستند. قدردانی ما میخواهیم از نویسندگان و همکاران خود از Google Research،.
Google DeepMind و دانشگاه به خاطر مشارکتشان در این کار تشکر کنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
