TL;DR
- بیشتر بحثهای یادگیری مستمر در هوش مصنوعی بر یک چیز متمرکز است: به روز رسانی وزن مدل.
- اما برای عوامل هوش مصنوعی، یادگیری میتواند در سه لایه متمایز اتفاق بیفتد: مدل، مهار و زمینه.
- درک تفاوت، طرز فکر شما را در مورد ساختن سیستمهایی که در طول زمان بهبود مییابند، تغییر میدهد.
چه اتفاقی افتاد
بیشتر بحثهای یادگیری مستمر در هوش مصنوعی بر یک چیز متمرکز است: به روز رسانی وزن مدل. اما برای عوامل هوش مصنوعی، یادگیری میتواند در سه لایه متمایز اتفاق بیفتد: مدل، مهار و زمینه.
درک تفاوت، طرز فکر شما را در مورد ساختن سیستمهایی که در طول زمان بهبود مییابند، تغییر میدهد. سه لایه اصلی سیستمهای عامل عبارتند از: مدل: مدل وزن خود را دارد.
این به کدی اشاره دارد که عامل را هدایت میکند،. و همچنین به هر دستورالعمل یا ابزاری که همیشه بخشی از هارنس هستند.
Context:. زمینه اضافی (دستورالعملها،.
مهارتها) که خارج از هارنس زندگی میکند و میتواند برای پیکربندی آن استفاده شود. مثال شماره 1:.
نگاشت این یک عامل برنامهنویسی مانند Claude Code:. Model:.
claude-sonnet:. Claude-sonnet،.
و غیره /skills,. mcp.
json مثال شماره 2: نگاشت این به OpenClaw: Model: manyHarness: Pi + some دیگر زمینههای عامل داربست: SOUL. md، مهارتهایی از clawhub وقتی در مورد یادگیری مستمر صحبت میکنیم، اکثر مردم بلافاصله به سراغ مدل میروند.
اما در واقعیت - یک سیستم هوش مصنوعی میتواند در هر سه این سطوح یاد بگیرد. یادگیری مستمر در لایه مدل وقتی اکثر مردم در مورد یادگیری مستمر صحبت میکنند،.
این همان چیزی است که بیشتر به آن اشاره میکنند:. بهروزرسانی وزنهای مدل.
تکنیکهای بهروزرسانی این شامل SFT، RL (مانند GRPO) و غیره است. یک چالش اصلی در اینجا فاجعهآمیز است،.
زمانی که یک مدل کار جدید را فراموش میکند یا چیزهای جدیدی را بهروزرسانی میکند. قبلا میدانستند این یک مشکل تحقیقاتی باز است.
وقتی افراد برای یک سیستم عامل خاص،. مدلهای آموزشی انجام میدهند (مثلاً میتوانید مدلهای کدکس OpenAI را بهعنوان آموزشدهی شده برای عامل Codex خود مشاهده.
کنید)،. تا حد زیادی این کار را برای سیستم عامل بهعنوان یک کل انجام میدهند.
در تئوری،. میتوانید این کار را در سطحی دقیقتر انجام دهید (مثلاً میتوانید یک LORA برای هر کاربر داشته باشید).
اما در عمل این کار بیشتر در سطح عامل انجام میشود. همانطور که قبلاً تعریف شد،.
هارنس به کدی اشاره دارد که عامل را هدایت میکند،. و همچنین به هر دستورالعمل یا ابزاری که همیشه بخشی از مهار است.
با محبوبیت بیشتر هارنسها، مقالات متعددی در مورد نحوه بهینهسازی هارنسها صحبت شده است. یکی از اخیراً Optimization-End: Optim-H است.
مهارها. ** ایده اصلی این است که عامل در یک حلقه در حال اجرا است.
شما ابتدا آن را روی دستهای از کارها اجرا میکنید و سپس آنها را ارزیابی می. کنید.
سپس تمام این گزارشها را در یک سیستم فایل ذخیره میکنید. سپس یک عامل کدگذاری را اجرا میکنید تا به این ردیابیها نگاه کند،.
و تغییراتی را در کد مهار پیشنهاد میدهد. مشابه یادگیری مداوم برای مدلها، این کار معمولاً در سطح عامل انجام میشود.
در تئوری میتوانید این کار را در سطحی دقیقتر انجام دهید (مثلاً یک مهار کد متفاوت برای هر. کاربر یاد بگیرید).
یادگیری مستمر در لایه زمینه "Context" خارج از مهار قرار دارد و میتواند برای پیکربندی آن استفاده. شود.
زمینه شامل مواردی مانند دستورالعملها، مهارتها، حتی ابزارها است. معمولاً به این حافظه نیز گفته میشود.
همین نوع زمینه در داخل مهار نیز وجود دارد (بهعنوان مثال،. مهار ممکن است دارای مهارتهای سیستم پایه باشد).
تمایز این است که آیا بخشی از مهار است یا بخشی از پیکربندی. زمینه یادگیری را میتوان در چندین سطح مختلف انجام داد.
زمینه یادگیری را میتوان در سطح عامل انجام داد - عامل یک "حافظه" پایدار دارد و پیکربندی. خود را در طول زمان به روز میکند.
یک مثال عالی OpenClaw است که SOUL. md خود را دارد که در طول زمان به روز میشود.
زمینه یادگیری بیشتر در سطح مستاجر (کاربر،، تیم و غیره) انجام میشود. در این مورد هر مستاجر زمینه خود را دریافت میکند که در طول زمان به روز می.
شود. مثالها عبارتند از Hex's Context Studio، Decagon's Duet، Sierra's Explorer.
شما میتوانید همچنین ترکیب و مطابقت! بنابراین میتوانید عاملی با بهروزرسانیهای زمینه سطح عامل، بهروزرسانیهای زمینه سطح کاربر، و بهروزرسانیهای زمینه سطح داشته باشید.
این بهروزرسانیها را میتوان به دو روش انجام داد: بعد از آن در یک کار آفلاین. مشابه بهروزرسانیهای مهار - برای استخراج اطلاعات بینش و بهروزرسانی زمینه، روی دستهای از ردیابیهای اخیر اجرا کنید.
این همان چیزی است که OpenClaw آن را "رؤیاپردازی" مینامد. در مسیر داغ بهعنوان عامل در حال اجرا است.
عامل میتواند تصمیم بگیرد (یا کاربر میتواند از او بخواهد که) حافظه خود را در حین. کار بر روی وظیفه اصلی به روز کند.
بعد دیگری که در اینجا باید در نظر گرفت این است که به روز رسانی حافظه چقدر واضح. است.
آیا کاربر از عامل ترغیب میکند که به خاطر بسپارد،. یا عامل بر اساس دستورالعملهای اصلی در خود مهار به خاطر میآورد؟
مقایسه ردیابیها هسته هستند همه این جریانها توسط ردیابیها تامین میشوند - مسیر اجرای کامل کاری که یک. عامل انجام داد.
LangSmith پلت فرم ما است که (از جمله موارد دیگر) به جمع آوری ردیابیها کمک میکند. سپس میتوانید از این ردیابیها به روشهای مختلف استفاده کنید.
اگر میخواهید مدل را بهروزرسانی کنید،. میتوانید ردیابیها را جمعآوری کنید و سپس با شخصی مانند Prime Intellect برای آموزش مدل خود کار کنید.
اگر میخواهید مهار را بهبود بخشید،. میتوانید از LangSmith CLI و LangSmith Skills استفاده کنید تا به یک عامل کدنویس اجازه دسترسی به این.
ردیابیها را بدهید. این الگو نحوه بهبود Deep Agents (منبعباز،.
مدل آگنوستیک،. مهار پایه عمومی) را روی نیمکت ترمینال بهبود دادیم.
اگر میخواهید در طول زمان زمینه را بیاموزید (چه در سطح عامل،. کاربر،.
یا) - پس مهار عامل شما باید این را پشتیبانی کند. Deep Agents - مهار انتخابی ما - این را به روشی آماده تولید پشتیبانی میکند.
برای مثالهایی از نحوه انجام حافظه در سطح کاربر،. یادگیری پسزمینه و موارد دیگر،.
مستندات را در آنجا ببینید. به خبرنامه ما بپیوندید به روز رسانیهای تیم و انجمن LangChain ایمیل خود را وارد کنید در.
حال پردازش درخواست شما. موفقیت آمیز!
لطفا صندوق ورودی خود را بررسی کنید و برای تایید اشتراک خود روی پیوند کلیک کنید. با عرض پوزش، مشکلی پیش آمد.
لطفا دوباره امتحان کنید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
