TL;DR
- در این پست،.
- سیذارت میشرا شارما،.
- محقق تیم دیسکاوری،.
چه اتفاقی افتاد
در این پست،. سیذارت میشرا شارما،.
محقق تیم دیسکاوری،. نحوه اعمال جریانهای کار کدگذاری عاملی چند روزه - اوراکلهای آزمایشی،.
حافظه پایدار،. و الگوهای هماهنگسازی - را برای کارهای محاسباتی علمیحتی خارج از حوزه خود توضیح میدهد.
از آنجایی که مدلها در طول یک سال گذشته بهطور قابلتوجهی در کارهای افق طولانی بهتر شدهاند،. روش جدیدی برای کار پدیدار شد:.
به جای درگیر شدن با هر جزئیات،. میتوانیم هدف سطح بالا را مشخص کنیم و تیمیاز نمایندگان را برای کار مستقل تنظیم کنیم.
این امکان را فراهم میکند تا پروژههایی را در چند ساعت تکمیل کنیم که ممکن است روزها،. هفتهها یا حتی ماهها طول بکشد.
انواع خاصی از وظایف علمیبه خوبی در این مدل قرار میگیرند،. بهعنوان مثال،.
پیادهسازی مجدد یک حل کننده عددی،. تبدیل علمیقدیمی نرمافزاری که به یک گویش قدیمیفرترن به زبانی مدرن نوشته شده است و یک.
پایگاه کد بزرگ را در برابر پیادهسازی مرجع اشکالزدایی میکند. اینها وظایفی هستند که در آنها کار به خوبی انجام میشود،.
معیارهای موفقیت واضح هستند،. و نظارت انسانی میتواند گاه به گاه و نه مستمر باشد.
پروژه کامپایلر C Anthropic نسخهای از این را نشان داد،. جایی که کلود در حدود 2000 جلسه برای ساخت یک کامپایلر C که قادر به کامپایل کردن هسته.
لینوکس بود،. کار کرد.
این پست نحوه تنظیم یک الگوی مشابه برای کارهای محاسباتی علمیبا استفاده از کد کلود،. با در نظر گرفتن یک آزمایشگاه معمولی دانشگاهی را شرح میدهد.
بهعنوان یک مثال عینی، من با استفاده از Claude Opus 4. 6 برای پیادهسازی یک نسخه قابل تمایز از حلکننده کیهانی بولتزمن قدم خواهم زد.
این کد عددی است که ویژگیهای آماری درخشش پس از انفجار بزرگ - پسزمینه مایکروویو کیهانی یا CMB. را پیشبینی میکند.
این کار را با تکامل جفت شده انجام میدهد معادلات فوتونها،. باریونها،.
نوترینوها و ماده تاریک در جهان اولیه. حلکنندههای بولتزمن مانند CLASS و CAMB قطعات اصلی زیرساخت علمیدر کیهانشناسی هستند که به ما اجازه میدهند.
مدلهای کیهانی را با استفاده از دادههای بررسیهایی مانند پلانک و رصدخانه سیمونز محدود کنیم. یک نسخه قابل تمایز - نسخهای که میتواند گرادیانها را از طریق حل کننده کامل.
منتشر کند - استفاده از روشهای استنتاج مبتنی بر گرادیان را امکان پذیر میکند و تخمین. پارامتر را بهطور چشمگیری سرعت میبخشد.
نوشتن آن در JAX در اینجا یک تناسب طبیعی است،. زیرا به ما تمایز و سازگاری خودکار با شتابدهندهها (مانند GPU) را اساساً رایگان میدهد.
قابل توجه است که این کار در حوزه علمیاصلی من نیست - من با ابزارها و علم. آشنایی سطح بالایی دارم،.
اما تخصص لازم برای تکمیل آن را در هر بازه زمانی معقولی ندارم. گروههایی که این تخصص را دارند،.
راهحلهای متفاوتی را در آن ساخته اند JAX با زیر مجموعهای از ویژگیهای موجود. در CLASS.
این تلاشها معمولا نشان دهنده ماهها تا سالها زمان پژوهشگر است. نکته در اینجا این بود که ببینیم آیا یک عامل میتواند با حداقل هدایت از یک متخصص غیردامنه.
بیشتر پیش برود یا خیر. از سوی دیگر،.
یک حلکننده بولتزمن،. یک خط لوله عمیقاً جفت شده است - یک خطای عددی کوچک یا تقریب ضعیف در مدلسازی نحوه.
ترکیب مجدد جهان اولیه میتواند همه چیز را بهطور نامحسوس به سمت پایین دست تغییر دهد. بنابراین به مجموعهای متفاوت از مهارتهای عامل نیاز دارد.
اشکال زدایی نیاز به ردیابی علّی در کل زنجیره و ترسیم از دانش دامنه دارد،. که ممکن است برای یک عامل منفرد که به صورت متوالی کار میکند،.
در صورت لزوم،. عوامل فرعی ایجاد میکند و از پیادهسازی مرجع برای تقسیم اختلافات استفاده میکند،.
مناسبتر است. ما از یک خوشه HPC در حال اجرا استفاده خواهیم کرد.
برنامه زمانبندی کار SLURM بهعنوان محیط محاسباتی ما است،. اما ایدههای اصلی - یک فایل پیشرفت،.
یک اوراکل آزمایشی،. یک دستور نماینده با قوانین واضح - صرف نظر از جایی که Claude Code را اجرا میکنید.
اعمال میشود. طرحی را پیش نویس کنید و به صورت محلی تکرار کنید.
قابل تحویل و زمینه مرتبط این دستورالعملها باید در یک فایل CLAUDE. md واقع در دایرکتوری ریشه قرار گیرند.
کلود با این فایل بهطور خاص رفتار میکند،. آن را در متن نگه میدارد و به آن برای طرح کلی ارجاع میدهد.
مهمتر از همه،. کلود میتواند این دستورالعملها را همانطور که کار میکند ویرایش کند،.
و آنها را برای کارهای آتی بهروزرسانی کند. تلاش برای نوشتن حل کننده برای رسیدن به این هدف،.
من اهداف سطح بالای پروژه را مشخص کردم - دستیابی به برابری کامل ویژگیها با اجرای CLASS. مرجع در حالی که کاملاً قابل تمایز است،.
و داشتن هدف دقت 0. 1 ٪ در برابر CLASS در تحویلهای علمیاصلی - و با کلود تکرار کردم تا زمانی.
که طرح رضایت بخش به نظر برسد. با توجه به اینکه 0.
1% سطح توافق معمولی بین دو کد متعارف بولتزمن CLASS و CAMB است،. به نظر میرسد این یک هدف علمیخوب است.
حافظه در جلسات فایل پیشرفت، که طبق قرارداد ما در اینجا CHANGELOG. md مینامیم، حافظه بلند مدت قابل حمل عامل است که بهعنوان نوعی یادداشت آزمایشگاهی عمل میکند.
در CLAUDE. md، به کلود دستور داده شد که پیشرفت را در این فایل پیگیری کند.
یک فایل پیشرفت خوب ممکن است وضعیت فعلی،. وظایف تکمیل شده،.
رویکردهای ناموفق و چرایی کار نکردن آنها،. جداول دقت در نقاط بازرسی کلیدی و محدودیتهای شناخته شده را ردیابی کند.
رویکردهای شکست خورده مهم هستند - بدون آنها،. جلسات متوالی دوباره همان بن بستها را امتحان خواهند کرد.
یک ورودی ممکن است به این صورت باشد:. "با استفاده از Tsit5 برای ODE اغتشاش،.
سیستم خیلی سفت است. به Kvaerno5 تغییر مکان داد.
" در اینجا تغییراتی برای مثال در حال اجرا است که این عناصر را نشان میدهد. اوراکل آزمایشی در حالی که اکتشافات علمیبازتر از طریق عاملها مطمئناً در افق است،.
کار علمیمستقل طولانیمدت امروزه به شدت به این بستگی دارد که عامل راهی برای دانستن اینکه آیا. در حال پیشرفت است یا خیر.
برای کد علمی،. این میتواند یک پیادهسازی مرجع،.
یک هدف به وضوح قابل اندازهگیری،. یا یک مجموعه آزمایشی موجود باشد.
همچنین میتواند مفید باشد که به نماینده دستور دهید مجموعه آزمایشی را گسترش دهد و آزمایشها را همانطور. که کار میکند،.
برای جلوگیری از رگرسیون اجرا کند. در کار مثالی من،.
به کلود دستور داده شد تا با استفاده از منبع CLASS C بهعنوان مرجع،. آزمایشهای واحد را بسازد و بهطور مداوم اجرا کند.
پیادهسازی. عامل باید متعهد شود و بعد از هر واحد کاری معنی دار تلاش کند.
این به شما یک تاریخچه قابل بازیابی میدهد اگر مشکلی پیش بیاید،. پیشرفت را به صورت محلی قابل مشاهده میکند،.
و از گم شدن کار جلوگیری میکند اگر،. برای مثال،.
تخصیص محاسباتی شما در اواسط جلسه تمام شود. در عمل، این میتواند مجموعهای از دستورالعملها در CLAUDE.
md باشد، بهعنوان مثال. "تعهد کنید و پس از هر واحد کار معنی دار انجام دهید.
"تستهای pytest/ -x -q" را قبل از هر commit اجرا کنید. هرگز کدی را که تستهای قبولی موجود را شکست میدهد، متعهد نکنید.
" بهطور معمول ارگونومیکتر است که به سادگی از یک نمونه محلی از Claude Code برای SSH. درخواست کنید و دستورات را برای شما اجرا کنید.
این همچنین برای همه چیزهایی که در زیر توضیح داده شده است اعمال میشود حلقه اجرا همانطور. که در بالا ذکر شد،.
اغلب مفید است که ابتدا برنامه را به صورت محلی تکرار کنید تا زمانی که برنامهای داشته. باشید که معقول به نظر برسد و در CLAUDE.
md کدگذاری شود. از آنجا،.
یک جلسه کد Claude را در داخل یک مالتی پلکسر ترمینال مانند tmux در یک گره محاسباتی شروع. کنید،.
به نماینده بگویید پایگاه کد شما را کجا پیدا کند و اجازه دهید بپزد. از آنجایی که جلسه در داخل tmux اجرا میشود،.
میتوانید لپتاپ خود را جدا کنید،. ببندید،.
و گهگاه پیشرفت را بررسی کنید (در مورد حلکننده Boltzmann،. بهعنوان مثال در هنگام انتظار برای قهوه،.
در GitHub روی گوشی خود بررسی میکنم). در یک خوشه HPC ممکن است از طریق زمانبندی SLURM یک گره درخواست کنید،.
و یک نمونه اسکریپت شغلی کد در یک جلسه Clmaude ممکن است شبیه به جلسهی کارکردن کار با. یک tmux باشد.
موارد زیر منبع. راضی است که در مسیر درست است.
میتوانید هر زمان که میخواهید بررسی کنید،. هدایت کنید،.
یا کار جدیدی را شروع کنید،. با استفاده از چیزی مانند:.
srun --jobid=JOBID --overlap --pty tmux attach -t claudeThe Ralph loop:. با افزایش توانایی مدلها،.
نیاز به هماهنگی سفارشی کمتری مانند مهندسی سریع،. RAG یا محتوا دارند.
با این حال،. در یک نقطه زمانی معین،.
ارائه سطحی از داربست بهعنوان ارتقای قابلیت میتواند مفید باشد. برای مثال،.
مدلهای فعلی ممکن است از تنبلی عاملی رنج ببرند – وقتی از آنها خواسته میشود یک کار پیچیده. و چند قسمتی را تکمیل کنند،.
گاهی اوقات میتوانند بهانهای برای توقف قبل از اتمام کار پیدا کنند. کل کار («دییر شده، بیایید فردا دوباره برگردیم؟»).
برای دور زدن این موضوع،. یک الگوی ارکستراسیون مفید حلقه رالف است که اساساً یک حلقه for است که هنگام ادعای تکمیل،.
عامل را به متن بازمیگرداند و میپرسد آیا واقعاً انجام شده است یا خیر. این میتواند برای کارهای طولانیمدت مفید باشد،.
زیرا نماینده اذعان میکند که کار مطابق با مشخصات نیست،. و تا زمانی که انجام شود به کار ادامه میدهد.
الگوهای مشابه دیگر عبارتند از GSD (و انواع خاص دامنه) و همچنین فرمان Native-to-Claude Code /loop. Ralph را میتوان از طریق / پلاگین نصب کرد.
یک اعلان فراخوانی معمولی در Claude Code میتواند شبیه/ralph-loop:. ralph-loop باشد:.
«لطفاً به کار روی کار ادامه دهید تا زمانی که معیار موفقیت دقت 0. 1 درصد در کل محدوده پارامتر به دست آید».
--max-interations 20 --completion-promise "DONE"در اینجا،. کلود تا 20 بار تکرار میکند تا زمانی که تضمین کند که کار با یک طلسم "انجام.
شد". نتیجه کلود در طول چند روز روی پروژه از ابتدا کار کرد و با اجرای CLASS مرجع در.
خروجیهای مختلف آن به توافق زیر درصد رسید. من از کلود خواستم تا دقت برخی از خروجیهای اصلی کد - طیفهای مختلف قدرت زاویه.
ای CMB - را در طول پروژه بازسازی کند و همچنین نقاط عطف در طول توسعه را برچسب. گذاری کند.
این طرح زیر را نشان میدهد و مسیر رسیدن به دقت زیر درصد را نشان میدهد. مسیر رسیدن به دقت زیر درصد در طول زمان زمانی که عامل بر روی پایه کد کار میکرد.
مسیر توسعه عامل تا حدودی نامرتب بود. بهعنوان مثال،.
شکافهای واضحی در پوشش آزمایشی آن وجود داشت - برای مدتی فقط کد را در یک نقطه پارامتر. واحد آزمایش میکرد و بهشدت مساحت سطح اشکالگیر آن را کاهش میداد.
همچنین میتواند اشتباهات ابتدایی انجام دهد،. مانند رد کردن روی سنجهها یا صرف ساعتها برای تعقیب اشکالاتی که کیهانشناس فوراً تشخیص میدهد،.
اما به پیشرفت مداوم به سمت هدف اعلامشده دقت زیر درصد ادامه میدهد. یک اثر جانبی پروژه این بود که من اطلاعات شگفتانگیزی در مورد حلکنندههای بولتزمن و فیزیک آنها با.
تماشای تاریخچه git commit یاد گرفتم. این پروژه از حوزه علمیاصلی من نشأت نمیگیرد،.
اما به دنبال پیشرفت تدریجی کلود و جستجوی چیزهایی که من نمیشناختم،. راهی مؤثر برای به وجود آمدن علم شد.
گزارش تعهد مانند یادداشتهای آزمایشگاهی از یک پست دکتری سریع و فوقاللفظی خوانده میشود. در حالی که حلکننده بهدستآمده درجه تولید ندارد (بهعنوان مثال،.
اجرای CLASS مرجع را با دقت قابل قبولی در هر رژیم مطابقت نمیدهد)،. نشان میدهد که توسعه مبتنی بر عامل میتواند ماهها یا حتی سالها کار محقق را به روز فشرده.
کند. این نوع زمان فشردهسازی را به چند روز تغییر میدهد.
یک تجربه جهانی در هوش مصنوعی تحقیق این است که یک آزمایش (مثلاً یک دوره تمرینی) را در. یک شب اجرا کنید و سپس از دیدن نتایج در صبح رضایت داشته باشید.
عدم اجرای آزمایش هزینه فرصت دارد. این روزها، عدم اجرای نمایندگان احساس میکند که هزینهای نیز دارد.
اگر محاسبات و پروژههایی با معیارهای موفقیت بهخوبی تعریفشده دارید،. هر شب که نمایندگانی برای شما کار نمیکنند،.
پیشرفت احتمالی روی میز باقی میماند. تشکر و قدردانی ما از اریک کادرر-آبرامز برای بررسی همتا،.
و همچنین Xander Balwit،. Ethan Dyer،.
و Rebecca Hiscott برای ارائه محتوای مفید در زبان Emotion و مدل مفهومیبزرگشان تشکر میکنیم. از کلود استفاده میکند:.
یافتههای شاخص اقتصادی آنتروپیک بیشتر بخوانید گزارش شاخص اقتصادی آنتروپیک:. منحنیهای یادگیری پنجمین گزارش شاخص اقتصادی آنتروپیک،.
استفاده از کلود را در فوریه 2026،. با تکیه بر وضعیت اقتصادی مورد مطالعه قرار میدهد.
چارچوب اولیه در گزارش قبلی ما معرفی شد. بیشتر بخوانید.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
