TL;DR
- مقدمه در طول سال گذشته، مدلهای زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند.
- مدلهای مرزی مانند Kimi K2.
- 5، GLM 5، و Qwen 3.
چه اتفاقی افتاد
مقدمه در طول سال گذشته، مدلهای زبان بزرگ به سرعت در مقیاس و قابلیت گسترش یافته اند. مدلهای مرزی مانند Kimi K2.
5، GLM 5، و Qwen 3. 5 اکنون با صدها میلیارد پارامتر و پنجرههای زمینهای که به میلیونها توکن کشیده میشوند،.
کار میکنند،. که استدلال طولانی مدت،.
گردش کار عاملی و استفاده از ابزار پیچیده را امکانپذیر میسازد. از آنجایی که این مدلها توانمندتر میشوند،.
استنتاج کارآمد به یکی از حیاتیترین چالشهای سیستم در استقرار LLM تبدیل شده است. رمزگشایی گمانهزنی یکی از موثرترین تکنیکها برای تسریع تولید LLM است.
با رمزگشایی گمانهزنی،. یک مدل پیشنویس سبک وزن چندین توکن را پیشروی میکند،.
در حالی که یک مدل هدف بزرگتر آنها را در یک پاس رو به جلو تأیید میکند. هنگامیکه پیشبینیها پذیرفته میشوند،.
چندین توکن میتوانند بهطور همزمان تولید شوند که توان عملیاتی و تأخیر را بهبود میبخشد. رویکردهای اخیر مانند MTP (Multi Token Prediction) و EAGLE-3 نشان میدهد که مدلهای پیش نویس خوب.
آموزش دیده میتوانند شتاب ثابتی را ارائه دهند. یکی از جنبههای مهم آموزش مدل پیش نویس،.
انتقال اطلاعات از مدل هدف به مدل پیش نویس از طریق حالتهای پنهان میانی است. با بزرگتر و بزرگتر شدن مدلهای frontier-LLM،.
یک گلوگاه سیستم جدید معرفی میشود:. انتقال کارآمد حجم عظیمیاز حالتهای پنهان تولید شده توسط مدل هدف به مدل پیش نویس.
بهعنوان مثال، EAGLE-3 به 3 لایه از حالتهای پنهان مدل هدف متکی است. هنگام آموزش یک مدل پیشنویس EAGLE-3 برای Kimi K2.
5، یک نمونه آموزشی با توکن 128K به 7 گیگابایت حالت پنهان از مدل هدف نیاز دارد. در مقیاس مجموعه داده، این میتواند به شدت بزرگ شود.
خطوط لوله موجود معمولاً یکی از دو رویکرد را دنبال میکنند. یکی از گزینهها این است که حالتهای پنهان را از پیش محاسبه کرده و آنها را.
روی دیسک ذخیره کنید،. که منجر به نیازهای ذخیره سازی انبوه و فشار شدید I/O میشود.
دیگری گزینه این است که استنتاج و آموزش را برای ایجاد حالتهای پنهان در حین آموزش مدل. پیش نویس،.
مکان یابی کنید،. از تحقق دیسک جلوگیری میکند،.
اما نیاز به قرار گرفتن مدل هدف با کارگر آموزش پیش نویس است،. که فشار حافظه GPU قابل توجهی را معرفی میکند.
برای رسیدگی به این چالشها، TorchSpec را معرفی میکنیم، یک چارچوب بومیمشعل برای آموزش رمزگشایی گمانهزنی تفکیکشده. TorchSpec سیستم استنتاجی را که حالتهای پنهان را ایجاد میکند از سیستم آموزشی که آنها را.
مصرف میکند جدا میکند. به جای نوشتن حالتهای پنهان روی دیسک،.
آنها مستقیماً از گروه موتور استنتاج به گروه کارگر آموزشی از طریق یک فروشگاه مرکزی Mooncake از طریق. RDMA (دسترسی به حافظه مستقیم از راه دور) یا TCP پخش میشوند.
این طراحی فضای ذخیرهسازی دیسک را حذف میکند در حالی که به منابع استنباط و آموزش اجازه میدهد. بهطور مستقل مقیاس شوند.
با TorchSpec، یک پیش نویس Kimi K2. 5 EAGLE-3 را با موفقیت آموزش دادیم مدل با 1500 ساعت GPU H200،.
مقیاس بندی تا 600 هزار نمونه آموزشی،. 6 میلیارد توکن.
مدل پیش نویس عملکرد قوی را نسبت به معیارهای مختلف نشان میدهد:. *مدل پیش نویس آموزش دیده با lookahead=4 با آموزش مدل پیش نویس،.
توان خروجی بیش از 60% در سایز دسته 1،. 30% در سایز دسته 8،.
و 26% در سایز دسته 16 با توجه به 3 توکن بهبود مییابد. پس زمینه امروزه دو رویکرد رایج برای آموزش رمزگشایی حدسی وجود دارد:.
استنتاج آموزش در محل آماده سازی حالتهای پنهان آفلاین هر کدام در مقیاس متوسطی کار میکنند،. اما با افزایش اندازه مدل پیش نویس و طول زمینه،.
مشکل دارند. در آموزش هممکانی، مدل هدف و مدل پیشنویس پردازندههای گرافیکی یکسانی دارند.
مدل هدف یک پاس رو به جلو را اجرا میکند تا حالتها و لجیتهای پنهان. را تولید کند که بلافاصله توسط مدل پیش نویس برای آموزش مصرف میشود.
این رویکرد به دلیل جفت شدن تنگاتنگ بین مدلهای هدف و پیش نویس،. چندین محدودیت را معرفی میکند:.
خرد کردن سخت:. استراتژی موازی مدل پیش نویس به مدل هدف گره خورده است.
بهعنوان مثال،. اگر مدل هدف از TP=4 استفاده میکند،.
مدل پیش نویس نیز باید دقیقاً از 4 رتبه استفاده کند،. حتی اگر پیکربندی متفاوت برای معماری کوچکتر آن کارآمدتر باشد.
آموزش و استنتاج بهطور مستقل مقیاسپذیر نیستند:. چارچوبهای هممحل کنونی معمولاً فاقد پشتیبانی از اشتراکگذاری متقابل گره هستند و آموزش را به GPUهای درون.
یک گره محدود میکند. مهمتر از آن، استنباط و آموزش با همان مقدار منابع محدود شده اند.
فشار حافظه:. مدل هدف بخش بزرگی از حافظه GPU را اشغال میکند و آموزش مدل پیش نویس با حافظه.
محدود باقی میماند. تجزیه و تحلیل حافظه برای تمرین همزمان با Kimi K2.
5 (پارامتر 1T MoE(Mixture-of-Experts)،. 384 متخصص،.
~575 گیگابایت وزن مدل):. پردازنده گرافیکی مجموع حافظه (8 پردازنده گرافیکی) وزن مدل تکه تکه پردازنده گرافیکی باقیمانده در هر GPU 8×H200.
1128 گیگابایت ~ 575 گیگابایت ~ 72 گیگابایت ~69 گیگابایت 8×H100 640 گیگابایت ~ 8 گیگابایت اگرچه مدل. پیشنویس معمولاً کوچک است،.
روشهای آموزشی پیشرفته مانند تست زمان آموزش (TTT) به استفاده از حافظه بالایی نیاز دارد زیرا فعالسازیهای میانی. را برای چندین مرحله گمانهزنی حفظ میکند.
انباشت فعال سازی باعث افزایش ردپای کلی حافظه میشود. با 8 گیگابایت حافظه، ما فقط میتوانیم با طول زمینه 4096 تمرین کنیم.
رویکرد آفلاین حالتهای پنهان را از مدل هدف از قبل محاسبه میکند،. آنها را روی دیسک سریال میکند و بعداً برای آموزش مدل پیشنویس بارگذاری میکند.
این استنتاج را از آموزش جدا میکند،. اما یک چالش ذخیره سازی قابل توجه را معرفی میکند - به ویژه برای مدلهای بزرگ.
با زمینههای طولانی. تجزیه و تحلیل ذخیره سازی برای Kimi K2.
5 (hidden_size=7168,. vocab_size=163,.
840):. هر نمونه در طول زمینه = 131072 توکن:.
تانسور شکل نوع D اندازه حالتهای پنهان (3 لایه aux) (131072,. 21504) bf16 5.
25 گیگابایت آخرین حالتهای پنهان (131072, 7168) 1. 75 گیگابایت شناسههای ورودی (131072،) int64 1 مگابایت مجموع در هر نمونه ~ 7.
0 گیگابایت توجه:. لاجیتهای هدف را میتوان از آخرین حالتهای پنهان از طریق lm_head دوباره محاسبه کرد،.
بنابراین نیازی به ذخیره سازی ندارند. با این حال،.
نیازهای ذخیره سازی به سرعت مقیاس میشوند:. اندازه مجموعه داده ذخیره سازی مورد نیاز است 10000 نمونه 70 ترابایت 30000 نمونه 210 ترابایت 100000 نمونه.
700 ترابایت در این مقیاس،. سیستمهای فایل توزیعشده با فشار سنگینی مواجه میشوند،.
بهویژه زمانی که چندین دوره آموزشی فرضی بهطور همزمان انجام میشوند،. که هر کدام برای پهنای باند I/O رقابت میکنند.
سربار سریال سازی و سریال زدایی نیز بهطور قابل توجهی سرعت آموزش را کاهش میدهد. TorchSpec: آموزش مدل پیش نویس تفکیک شده TorchSpec رویکرد متفاوتی دارد: استنتاج و آموزش کاملاً تفکیک شده.
مدل هدف روی پردازندههای گرافیکی استنتاج اختصاصی اجرا میشود،. مدل پیشنویس روی پردازندههای گرافیکی آموزشی جداگانه آموزش میدهد و دادههای تانسور از طریق یک پروتکل شبکه پرسرعت.
RDMA یا TCP از طریق فروشگاه Mooncake بین آنها جریان مییابد. این معماری به چالشهای کلیدی که در بالا اشاره شد میپردازد:.
مقیاس بندی مستقل و انعطاف پذیر. استنتاج و تعداد GPUهای آموزشی کاملاً مستقل هستند و به موتورهای استنتاج بیشتری برای توان تولید حالتهای.
پنهان بالاتر اجازه میدهند،. یا GPUهای آموزشی بیشتری برای اشتراکگذاری FSDP بزرگتر و دستههای جهانی بزرگتر اضافه میکنند.
حافظه کامل برای آموزش پردازندههای گرافیکی آموزشی کاملاً به مدل پیشنویس اختصاص داده شدهاند و حافظه موجود را. برای توالیهای طولانی و دستههای بزرگ به حداکثر میرسانند.
بدون سربار ذخیره سازی حالتهای پنهان مستقیماً از استنتاج به آموزش از طریق RDMA/TCP جریان مییابند. هیچ دادهای روی دیسک بارگذاری نمیشود و فشار سیستم فایل و هزینههای سریال سازی را.
از بین میبرد. چرا کیک ماه؟
Mooncake که در اصل توسط Moonshot AI و دانشگاه Tsinghua توسعه داده شد،. یک موتور انتقال است که برای مدیریت کش KV در ارائه خدمات LLM تولید شده است.
از آن زمان به یک جامعه پر رونق در اکوسیستم PyTorch تبدیل شده است. Mooncake از طریق پروتکلهای مختلف شبکه انتقال دادههای متقاطع گرهای با توان عملیاتی بالا را انجام میدهد و.
چرخه حیات حافظه را مدیریت میکند. اینها دقیقاً قابلیتهایی هستند که TorchSpec برای انتقال حالتهای پنهان از GPUهای استنتاج به GPU.
ها بهطور کارآمد و قابل اعتماد نیاز دارد. خواص کلیدی که کیک ماه را یک تناسب طبیعی میکند: RDMA + TCP با یک API یکپارچه.
انتقال با نرخ نزدیک به خط در خوشههای InfiniBand/RoCE. زمانی که RDMA در دسترس نباشد، بدون نیاز به تغییر کد، از طریق TCP کار میکند.
GPU Direct RDMA. دادهها را مستقیماً به حافظه GPU منتقل میکند و مرحلهبندی CPU را دور میزند – زمانی که هر.
نمونه آموزشی شامل گیگابایت حالتهای پنهان باشد،. بسیار مهم است.
نقل و انتقالات بدون کپی تانسورها در بافرهای حافظه پین شده از پیش ثبتشده بستهبندی میشوند و مستقیماً. منتقل میشوند - بدون سریال یا کپی میانی.
قابلیت اطمینان درجه تولید آزمایش شده در نبرد از طریق استقرار تولید در مقیاس بزرگ،. به TorchSpec یک پایه پایدار برای آموزش طولانی مدت چند گره میدهد.
پشتیبانی از زمینه طولانی با حافظهای که بهطور کامل به مدل پیش نویس اختصاص داده شده است،. TorchSpec از طولهای دنبالهای پشتیبانی میکند که دستیابی به آنها با رویکردهای همزمان در آموزش.
EAGLE-3 غیرممکن است. بهعنوان مثال، Kimi K2.
5 72 گیگابایت حافظه را در یک رویکرد آموزشی مشترک مصرف میکند. با نگاهی به 4 و آموزش تفکیکشده،.
یک واحد پردازش گرافیکی H100 میتواند روی توالیهای ورودی تا 44 هزار توکن آموزش ببیند،. و یک واحد پردازش گرافیکی B200 میتواند تا 200 هزار توکن مقیاسپذیر باشد.
فراتر از تفکیک،. TorchSpec یک پیادهسازی بومیموتور استنتاج را اتخاذ میکند:.
حالتهای پنهان مستقیماً توسط موتورهای استنتاج در تولید تولید میشوند. این انتخاب طراحی دو مزیت کلیدی دارد:.
ترازبندی آموزش استنباط:. قالب بندی قالب،.
توکن سازی و هستهها کاملاً تراز هستند. هیچ شکافی بین محیط آموزشی و محیط استقرار وجود ندارد.
پشتیبانی از مدل بومیاز طریق موتور:. پشتیبانی از معماری مدل هدف جدید به حداقل تغییرات در سمت آموزشی نیاز دارد.
در حال حاضر TorchSpec از vLLM و SGLang پشتیبانی میکند و پشتیبانی TensorRT LLM به زودی ارائه. میشود.
اگر موتور استنتاج از یک مدل پشتیبانی میکند،. TorchSpec میتواند یک مدل پیشنویس برای آن خارج از جعبه آموزش دهد.
این شامل:. معماری مدل جدید (MoE،.
چند وجهی،. و غیره) مدلهای کوانتیزه (FP8،.
INT4،. و غیره) توجه کم،.
انواع RoPE (جاسازیهای موقعیت چرخشی) و سایر ویژگیهای خاص مدل با رمزگشایی آموزش دهید مدلهای پیشنویس. اغلب زمانی بهترین عملکرد را دارند که بر روی توزیع توکن مدل هدف آموزش داده شوند.
یک رویکرد رایج این است که دستورات اصلی مجموعه داده را حفظ کنیم و پاسخها را با. مدل هدف بهعنوان مرحله آماده سازی برای آموزش بازسازی کنیم.
با این حال، این فرآیند دو مرحلهای میتواند برای محققان و مهندسان دردسر ایجاد کند. با طراحی بومیموتور خود،.
میتوانیم خروجیها را به صورت خودکار از ورودیهای سریع در طول آموزش تولید کنیم. مطالعه موردی: آموزش مدل EAGLE-3 برای Kimi K2.
Kimi K2. 5 یک سناریوی آموزشی چالش برانگیز ارائه میدهد که ارزش رویکرد تفکیک شده را نشان میدهد.
چالش مقیاس مدل: Kimi K2. 5 به حداقل پردازندههای گرافیکی 8×H200 یا 16×H100 فقط برای ارائه مدل مورد نظر نیاز دارد و در.
صورت استنتاج،. حافظه بسیار محدودی برای آموزش مدل پیشنویس باقی میگذارد.
زمینه طولانی: Kimi K2. 5 بارهای کاری عاملی و استدلالی با زمینه طولانی را هدف قرار میدهد،.
که به آموزش در توالی تا 200000 توکن نیاز دارد. واژگان بزرگ: با واژگان 163840 توکن و بعد پنهان 7168.
راهحل TorchSpec با TorchSpec، توصیه میکنیم Kimi K2. 5 را روی پردازندههای گرافیکی 8×H200 بهعنوان یک موتور استنتاج اختصاصی استفاده کنید و مدل پیشنویس EAGLE-3 را.
بر روی پردازندههای گرافیکی 8×H200 دیگر آموزش دهید. خوشه استنتاج دارای حافظه کامل برای ارائه و ایجاد حالتهای پنهان است.
کلاستر آموزشی دارای حافظه کامل GPU برای مدل پیش نویس است که امکان آموزش طولانی مدت در 100000. توکن با 600 هزار نمونه داده را فراهم میکند.
اسکریپتها: ما دو اسکریپت خارج از جعبه را برای آموزش یک مدل پیش نویس Kimi K2. 5 ارائه میدهیم:.
– 3 گره 8xH100 با استنباط TP=16 و آموزش TP=8:. kimi-k25-3node-h100 – 2 گره 8xH200 با استنتاج TP=8 و آموزش TP=8:.
kimi-k25-2node-h200 مجموعه دادههای آموزشی:. مجموعه دادههای ترکیبی خود را منبعباز میکنیم:.
kimi-600k-training-dataset. مدل پیش نویس: ما مدل پیش نویس خود را منبعباز میکنیم: kimi-k2.
5-eagle3. نقشه راه TorchSpec در حال توسعه فعال است.
زمینههای کلیدی که ما روی آنها کار میکنیم:. بهبود پوشش مدل:.
ما قصد داریم از مدلهای محبوب مانند Minimax M2. 5، Qwen 3.
5 و آموزش مداوم لایه MTP از GLM 5 پشتیبانی کنیم. آموزش توالی بسته بندی شده:.
چندین توالی کوتاهتر را در یک نمونه آموزشی قرار دهید تا استفاده از GPU را به حداکثر. برسانید و ضایعات padding را کاهش دهید،.
به ویژه برای مجموعه دادههایی با ورودیهای با طول متغیر. الگوریتمهای آموزشی اضافی:.
فراتر از EAGLE-3 گسترش دهید تا از دیگر رویکردهای آموزشی رمزگشایی نظری مانند DFlash،. MTP پشتیبانی کنید،.
و دامنه معماریهای مدل پیش نویس را که TorchSpec میتواند آموزش دهد،. گسترش دهید.
ادغام موتور:. با سایر موتورهای استنتاج محبوب (مانند TensorRT LLM) ادغام شود تا کاربران بتوانند هر موتوری را که به.
بهترین وجه با پشته استقرار آنها سازگار است وصل کنند. تصدیق از تیمها و همکاران زیر تشکر میکنیم:.
تیم و انجمن TorchSpec:. *Yubo Wang،.
*Yinghui Liu،. Shirley Wu،.
Junxiong Wang،. Qingyang Wu،.
Bobbie Bie،. Fan Yin،.
Chao Wang،. Weicong Wu،.
Jue Wang تیم کیک ماه:. *جیاکی لیائو،.
مینگشینگ ژانگ.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
