TL;DR
- بیش از 50 درصد از کاربران مدل هوش مصنوعی به زبانهای غیرانگلیسی صحبت میکنند،.
- با این حال قوانین مقیاسبندی در دسترس عموم عمدتاً بر زبان انگلیسی متمرکز هستند.
- این عدم تعادل شکاف مهمیرا در تحقیقات عمومی ایجاد میکند و سازندگان مدل را موظف به ارائه.
چه اتفاقی افتاد
بیش از 50 درصد از کاربران مدل هوش مصنوعی به زبانهای غیرانگلیسی صحبت میکنند،. با این حال قوانین مقیاسبندی در دسترس عموم عمدتاً بر زبان انگلیسی متمرکز هستند.
این عدم تعادل شکاف مهمیرا در تحقیقات عمومی ایجاد میکند و سازندگان مدل را موظف به ارائه. خدمات به میلیاردها کاربر بینالمللی و چند زبانه میکند،.
بدون راهنمایی مبتنی بر داده برای تصمیمگیریهای توسعه کلیدی در مورد کارایی،. کیفیت و هزینه در هنگام ساختن برای زبانهای غیر انگلیسی یا با مخلوطهای زبانی خاص.
چند زبانه بودن» که در ICLR 2026 ارائه خواهد شد، هدف ما رفع این شکاف است. ما بزرگترین مطالعه پیشآموزشی چندزبانه عمومیرا تا به امروز ارائه میکنیم که شامل 774 دوره آموزشی در.
مدلهای پارامتری 10M-8B است. این شامل دادههای بیش از 400 زبان و ارزیابی در 48 زبان است.
در نتیجه این مطالعه،. ما برآورد میکنیم همافزایی بین 1400 جفت زبان و معرفی قوانین مقیاسبندی انتقال تطبیقی (ATLAS) برای ساخت.
مدلهای چندزبانه که پزشکان را قادر میسازد تا ترکیب زبانها را در دادههای آموزشی با اندازه مدل بهطور. موثر متعادل کنند.
ATLAS:. یک قانون مقیاس بندی واحد که با مخلوطهای چند زبانه سازگار است ATLAS یک رویکرد ساده و.
عملی برای تعیین اندازه مدل بهینه،. حجم دادهها و مخلوط زبان برای آموزش است.
برخلاف قوانین مقیاسگذاری سنتی که بر تنظیمات تک زبانه تمرکز دارند،. ATLAS این توصیهها را برای محیطهای پیچیدهتر و چند زبانهتر ارائه میکند.
این بهطور خاص عملکرد یک زبان مقصد (بهعنوان مثال،. کاتالان) را با استفاده از دادهها از چندین زبان مختلف بهینه میکند.
ATLAS این اصول قانون مقیاسگذاری سنتی را از طریق سه جزء گسترش میدهد:. یک ماتریس انتقال بین زبانی که برای شناسایی بهترین زبانها برای آموزش با هم استفاده میشود.
قانون مقیاسبندی که راهنماییهایی را در مورد گسترش کارآمد اندازه مدل و دادهها با افزایش تعداد زبانهای پشتیبانیشده. ارائه میدهد.
آزمایشهای چند زبانه (با استفاده از مجموعه MADLAD-400 با بیش از 750 اجرا در بیش از 400. زبان) و سه منبع داده متمایز را شامل میشود:.
1) زبان مقصد،. 2) زبانهای انتقال مشابه بر اساس تحلیل تجربی (بهعنوان مثال،.
کاتالان ممکن است شامل زبانهای لاتین مانند اسپانیایی،. پرتغالی و ایتالیایی باشد)،.
و 3) همه زبانهای دیگر. این رویکرد جدید قانون را قادر میسازد تا بفهمد که هر منبع در واقع چقدر به زبان مقصد.
کمک میکند یا مانع آن میشود،. قابلیتی که قوانین قبلی از آن پشتیبانی نمیکردند.
ارزیابی ما از مجموعه دادههای MADLAD-400 برای ارزیابی اینکه ATLAS عملکرد یک مدل را در اندازههای مدل جدید،. مقادیر متفاوت دادههای آموزشی یا ترکیبهای زبانی جدید پیشبینی میکند،.
استفاده کردیم. برای انجام این کار،.
ما عملکرد را با استفاده از از دست دادن واژگان حساس در بیش از 750 اجرا مستقل در. تنظیمات تک زبانه،.
دوزبانه و انبوه چند زبانه اندازهگیری میکنیم. ارزیابیهای ما نشان میدهد که ATLAS بهطور مداوم از کارهای قبلی بهتر عمل میکند.
برای شش زبان - انگلیسی (EN)،. فرانسوی (FR)،.
روسی (RU)،. چینی (ZH)،.
هندی (HI) و سواحیلی (SW) - ما تحلیل کردیم که چگونه ATLAS اندازه مدل بهینه (N) و اندازه. داده (D) را باید مقیاسبندی کرد.
هنگامیکه ما این مسیرهای مقیاس بهینه را در بین زبانها مقایسه کردیم، دو مشاهده انجام دادیم. منحنیها بهطور قابل توجهی مشابه به نظر میرسند،.
اما آموزش با واژگان چند زبانه یا دادههای کاملاً چند زبانه همراه با مالیات بر بهره وری. محاسبه است - به ویژه برای انگلیسی.
زبانهای کم منبع نشان میدهد با تمام شدن دادهها به سمت بالا خم میشود. و مدل در تلاش برای یادگیری از تکرار دادهها است.
ATLAS به صراحت این اثرات را مدل میکند. نقشه انتقال بین زبانی سپس،.
همافزایی زبان به زبان و تداخل را در مقیاس اندازهگیری کردیم،. و ماتریسی تولید کردیم که میزان آموزش زبان A به زبان B کمک میکند (یا به آن آسیب.
میزند). نتایج ما نتایج بسیار شهودی را نشان میدهد:.
نروژی عمدتاً توسط سوئدی و آلمانی،. مالایی توسط اندونزیایی و عربی توسط عبری کمک میشود.
انگلیسی،. فرانسوی و اسپانیایی مفیدترین زبانهایی هستند که احتمالاً به دلیل کیفیت ذاتی،.
ناهمگونی و کمیت متن در این زبانها که در وب یافت میشوند،. مفیدترین زبانها هستند.
تجزیه و تحلیل نشان میدهد که بزرگترین پیشبینیکننده انتقال مثبت اشتراکگذاری یک خط و/یا خانواده زبان (مثلاً خط. لاتین) است که از نظر آماری با p <.
001 معنیدار است. انگلیسی به بسیاری از زبانها، اما نه همه، کمک میکند.
و انتقال همیشه متقارن نیست (A میتواند بیشتر از B به A کمک کند). این اندازهگیریها «قوزها» را به گزینههای ترکیبی زبان مبتنی بر داده تبدیل میکنند.
رمزگشایی "نفرین چندزبانگی" با قوانین مقیاس بندی واضح «نفرین چندزبانگی» پدیدهای است که در آن مدلهایی که بر. روی چندین زبان آموزش دیدهاند،.
به دلیل ظرفیت محدود مدل،. با هر زبان جدید،.
عملکردشان کاهش مییابد. ما این مشکل را با یک قانون مقیاسبندی رسمیمیکنیم که نه تنها اندازه مدل (N) و مقدار.
دادههای آموزشی (D) بلکه تعداد زبانهای موجود در آن داده (K) را در نظر میگیرد. با تطبیق این قانون با بسیاری از آزمایشها،.
متوجه شدیم که در حالی که افزودن زبانها مالیات بر ظرفیت ملایمیرا به همراه دارد،. درجه بالایی از انتقال مثبت وجود دارد.
این بدان معناست که اگر میخواهیم مدلی را آموزش دهیم که دو برابر زبانها (2·K) را پشتیبانی کند،. باید اندازه مدل را 1.
18 برابر و کل دادهها را 1. 66x افزایش دهیم.
این معادل 83 درصد از دادهها در هر یک از زبانهای 2K است. اگرچه دادههای کمتری برای هر زبان وجود دارد،.
اما هم افزایی مثبت حاصل از یادگیری در همه آنها به این معنی است که محدودیتهای ظرفیتی که. باعث کاهش عملکرد میشوند،.
جبران میشوند. زمان پیشآموزش در مقابل تنظیم دقیق یک ایست بازرسی چند زبانه برای ده زبان،.
ما دو مسیر را برای دریافت بهترین مدل مقایسه میکنیم:. (الف) آموزش از ابتدا روی زبان مقصد یا (ب) تنظیم دقیق از یک ایست بازرسی چند زبانه قوی.
"یونیمکس". گزینه (ب) احتمالاً بهترین عملکرد را با حداقل محاسبات اضافی خواهد داشت،.
زیرا این مدل در حال حاضر در بین زبانها بسیار قوی است. با این حال،.
اگر بتوان مدل را برای مدت طولانیتری آموزش داد،. گزینه (الف) اغلب میتواند نتایج بلندمدت بهتری به همراه داشته باشد.
هدف ما این است که بر اساس مقدار محاسبهای که سازنده مدل باید خرج کند،. نقطه متقاطع بین دو منحنی آموزشی را پیدا کنیم.
نتایج ما نشان میدهد که تنظیم دقیق زودهنگام برنده میشود،. اما قبل از تمرین زمانی پیشی میگیرد که بتوانید به اندازه کافی توکن تهیه کنید.
در اجراهای ما،. متقاطع معمولاً بین ~144B و 283B توکن (وابسته به زبان) برای مدلهایی با پارامترهای 2B رخ میدهد.
بعد، نقطه متقاطع را بهعنوان تابعی از اندازه مدل رسم کردیم. این یک بتن میدهد،.
قانون کلی آگاه از بودجه:. اگر توکن و بودجه محاسبه شما کمتر از نقطه متقاطع اندازه مدل شما است،.
از یک ایست بازرسی چند زبانه شروع کنید. در غیر این صورت، پیش تمرین از ابتدا معمولاً به پایان میرسد.
توجه داشته باشید که آستانههای دقیق به مدل پایه و مخلوط بستگی دارد. خودتان آن را امتحان کنید ATLAS با حرکت فراتر از مقیاس بندی انگلیسی محور،.
نقشه راه را برای توسعه دهندگان مدل جهانی ارائه میدهد. میتوان آن را مستقیماً با کمک به توسعهدهندگان در مقیاس مدلهای زبانی فراتر از انگلیسی به کار برد:.
آیا قصد دارید یک مدل چندزبانه یا غیرانگلیسی جدید آموزش دهید؟ از شکل 1 یا جدول C.
1 از مقاله استفاده کنید تا به قوانین مقیاس بندی بالقوه بر اساس واژگان یا انتخابهای آموزشی. پی ببرید.
ترکیب آموزشی جدیدی را انتخاب میکنید؟ با ماتریس انتقال (شکل 2) مشورت کنید تا زبانهای مبدأ را انتخاب کنید که بهطور تجربی به.
اهداف شما کمک میکنند - به ویژه آنهایی که اسکریپت/خانواده یکسانی دارند. آیا یک مدل جدید با زبانهای بیشتری آموزش میدهید؟
با بخش 5 مشورت کنید تا مشخص کنید چگونه میتوانید اندازه مدل و اندازه داده خود را. به بهترین نحو گسترش دهید تا اثرات نفرین چند زبانه بودن را کاهش دهید.
محاسبات محدود است؟ با بخش 6 مشورت کنید تا تصمیم بگیرید که آیا باید یک مدل چندزبانه را دقیق تنظیم کنید.
یا از ابتدا آموزش دهید. امیدواریم این کار نسل جدیدی را قادر سازد مدلهای چند زبانه که به میلیاردها غیر انگلیسی زبان خدمت.
میکنند. قدردانیها ما از لوک زتلمویر،.
کاترین آرنت و استلا بیدرمن برای بحثهای مفید در مورد مقاله تشکر میکنیم. ما از بیائو ژانگ و خاویر گارسیا برای بحثهای فنی و بازخورد درباره دستورالعملهای اولیه تشکر میکنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
