TL;DR
- در OpenAI،.
- ما معتقدیم هوش مصنوعی باید منصفانه،.
- ایمن و آزادانه در دسترس باشد تا افراد بیشتری بتوانند از آن برای حل مشکلات سخت،.
چه اتفاقی افتاد
در OpenAI،. ما معتقدیم هوش مصنوعی باید منصفانه،.
ایمن و آزادانه در دسترس باشد تا افراد بیشتری بتوانند از آن برای حل مشکلات سخت،. ایجاد فرصتها و بهرهمندی در زمینههایی مانند سلامت،.
علم،. آموزش،.
کار و زندگی روزمره استفاده کنند. ما معتقدیم که دسترسی دموکراتیک به هوش مصنوعی بهترین راه رو به جلو است:.
نه هوش مصنوعی که مزایا یا کنترل آن در دست عدهای معدودی متمرکز است،. بلکه هوش مصنوعی که افراد بیشتری میتوانند به آن دسترسی پیدا کنند،.
درک کنند و به شکلگیری آن کمک کنند. این دلیل اصلی وجود OpenAI Model Spec است.
مدل Spec (در یک پنجره جدید باز میشود) چارچوب رسمیما برای رفتار مدل است. این تعریف میکند که چگونه میخواهیم مدلها دستورالعملها را دنبال کنند،.
تضادها را حل کنند،. به آزادی کاربر احترام بگذارند،.
و در طیف گستردهای از جستارهایی که کاربران روزانه از آنها میپرسند،. ایمن رفتار کنند.
بهطور گستردهتر،. تلاش ما این است که رفتار مدل مورد نظر را صریح کنیم:.
نه فقط در داخل فرآیند آموزشی،. بلکه به شکلی که کاربران،.
توسعهدهندگان،. محققان،.
سیاستگذاران و عموم مردم واقعاً میتوانند بخوانند،. بررسی کنند،.
و بحث کنند. مشخصات مدل ادعایی نیست که مدلهای ما در حال حاضر کاملاً به این شیوه رفتار میکنند.
از بسیاری جهات، توصیفی است، اما همچنین هدفی است برای جایی که میخواهیم رفتار مدل پیش برود. ما از آن برای شفافتر کردن رفتار مورد نظر استفاده میکنیم،.
بنابراین میتوانیم نسبت به آن آموزش دهیم،. در مقابل آن ارزیابی کنیم و در طول زمان آن را بهبود دهیم.
این پست پیشینهای را که در خود مشخصات مدل وجود ندارد،. از جمله فلسفه و مکانیزم پشت آن به اشتراک میگذارد:.
نحوه ساختار آن،. چرا این انتخابهای ساختاری را انجام دادیم،.
و چگونه آن را در طول زمان مینویسیم،. پیادهسازی میکنیم و تکامل میدهیم.
مشخصات مدل بخشی از رویکرد گستردهتر OpenAI برای هوش مصنوعی ایمن و پاسخگو است. در حالی که چارچوب آمادگی بر ریسکهای ناشی از قابلیتهای مرزی و تدابیر حفاظتی مورد نیاز در هنگام.
افزایش آن خطرات تمرکز میکند،. مدل Spec به مواردی متفاوت اما مکمل اشاره میکند.
سوال: مدلهای ما چگونه باید در طیف وسیعی از موقعیتها رفتار کنند. با بزرگنمایی بیشتر،.
هدف انعطافپذیری هوش مصنوعی پرداختن به چالش اجتماعی گستردهتر کمک به جامعه برای گرفتن مزایای هوش مصنوعی پیشرفته. و در عین حال کاهش اختلالات و خطرات نوظهور با استقرار سیستمهای توانمندتر است.
در مجموع،. هدف این طرحها کمک به انتقال تدریجی،.
تکراری و دموکراتیک به AGI است:. به افراد و مؤسسات زمان میدهد تا سازگار شوند،.
در عین حال ایجاد پادمانها،. مکانیسمهای مسئولیتپذیری و درک عمومیمورد نیاز برای همسو نگه داشتن هوش مصنوعی قدرتمند با منافع انسانها.
وضوح عمومیدر مورد رفتار مدل هم برای عدالت و هم ایمنی اهمیت دارد. این برای انصاف مهم است زیرا مردم باید بدانند که چگونه و چرا هوش مصنوعی با آنها اینگونه.
رفتار میکند - و بتوانند نگرانیهای مربوط به انصاف را در صورت بروز شناسایی،. زیر سوال ببرند و به آنها رسیدگی کنند.
و برای ایمنی مهم است زیرا همانطور که سیستمهای هوش مصنوعی توانمندتر میشوند،. مردم و مؤسسات به انتظارات واضحتری برای نحوه رفتارشان،.
معاوضههایی که در آنها تجسم میکنند و اینکه چگونه این انتخابها میتوانند در طول زمان بهبود یابند،. نیاز دارند.
این نوع خوانایی همچنین از انعطاف پذیری پشتیبانی میکند و به افراد بیشتری چیز مشخصی برای بررسی،. سؤال و بهبود میدهد.
از اولین نسخه در سال 2024،. مدل Spec بهطور قابل توجهی تکامل یافته است،.
زیرا ما در مورد ترجیحات و نیازهای کاربر بیشتر میآموزیم،. گسترش مییابد تا قابلیتهای بیشتر را پوشش دهد و با آنها سازگار شود،.
و از بازخورد عمومیدر مورد رفتارهای مدل و مشخصات مدل یاد میگیریم. در روح استقرار تکراری،.
مدل Spec یک سند در حال تکامل است که هم مقادیر پسزمینه و هم قوانین صریح و خوانا. را پوشش میدهد - همراه با فرآیندی برای اصلاح عناصر فردی همانطور که از استقرار و بازخورد در.
دنیای واقعی یاد میگیریم. ما همچنین در مکانیزمهای بازخورد عمومیمانند همسویی جمعی سرمایه گذاری میکنیم کمک کنید تا بشریت.
بر نحوه استفاده از هوش مصنوعی و نحوه شکل گیری رفتار هوش مصنوعی کنترل داشته باشد. از نظر داخلی،.
یک ستاره شمالی برای رفتار مورد نظر و یک چارچوب مشترک برای آموزش،. ارزیابی و حکومت به ما میدهد.
از نظر خارجی،. یک نقطه مرجع عمومی ایجاد میکند که مردم میتوانند از آن برای درک رویکرد ما،.
نقد آن و کمک به بهبود آن در طول زمان استفاده کنند. مدل Spec از چندین نوع مختلف راهنمایی مدل تشکیل شده است.
که عمدی است. بخشهای مختلف رفتار مدل باید به روشهای مختلف مدیریت شوند،.
و یک سند عمومیمفید باید بیش از صرفاً فهرست کردن قوانین را انجام دهد. مدل Spec با هدف سطح بالا آغاز میشود:.
توضیح واضحی از آنچه که میخواهیم برای آن در سطح سیستم بهینهسازی کنیم،. و چرا.
این مقدمه سه هدف را برای نحوه برنامهریزی ما برای دنبال کردن مأموریت خود روشن میکند:. بهطور تکراری،.
کاربران را با استفاده از مدلهای خطرناک به کار میبریم تا مدلهای خود را توسعه دهیم. کاربران یا دیگران نگهداری میکنند مجوز فعالیت OpenAI سپس توضیح میدهد که چگونه ما در مورد متعادل.
کردن این اهداف در عمل فکر میکنیم،. و این مبادلات را به اندازه کافی ملموس میکند تا از اصول دقیقتری که در ادامه میآید پشتیبانی.
کند. مهمتر اینکه، این مقدمه دستور مستقیمیبرای مدل نیست.
سود بردن از انسانیت هدف OpenAI است، نه هدفی که میخواهیم مدلهایمان بهطور مستقل دنبال کنند. در عوض،.
ما میخواهیم مدلها از زنجیره فرمانی پیروی کنند که شامل مشخصات مدل و دستورالعملهای قابل اجرا از OpenAI،. توسعهدهندگان و کاربران میشود - حتی زمانی که برخی افراد ممکن است با نتیجه در یک مورد خاص.
موافق نباشند. ما فکر میکنیم که این تعادل درستی است زیرا ما برای استقلال انسان و آزادی فکری ارزش قائل.
هستیم. اگر ما مدلهایی را آموزش میدادیم که بر اساس دیدگاه خودمان درباره آنچه برای جامعه خوب است تصمیم.
بگیرند که از کدام دستورالعمل پیروی کنیم،. OpenAI در موقعیتی قرار میگرفت که اخلاق را در سطح بسیار گستردهای قضاوت میکرد.
گفتنی است، مقدمه هنوز اهمیت دارد. هنگامیکه ابهامیدر نحوه اعمال مدل Spec وجود دارد، مقدمه باید به حل آن کمک کند.
مدل Spec همچنین شامل تعهدات عمومیاست که فراتر از رفتار مدل قابل اندازهگیری مستقیم است و. قصد آموزش و محدودیتهای استقرار را دارد.
برای مثال،. اصول خط قرمز ما (در یک پنجره جدید باز میشود) شامل تعهدی است که در استقرارهای شخص اول.
مانند ChatGPT،. هرگز از پیامهای سیستم برای به خطر انداختن عمدی عینیت (در پنجره جدید باز میشود) یا اصول مرتبط.
استفاده نخواهیم کرد. و هیچ هدف دیگری (در یک پنجره جدید باز میشود) تعهداتی را در مورد اهداف ما برای بهینهسازی.
پاسخهای مدل برای منافع کاربر و نه درآمد یا زمان غیرمفید در محل انجام میدهد. هسته اصلی مدل Spec Chain of Command است:.
چارچوبی برای تصمیمگیری اینکه کدام دستورالعملها باید در یک موقعیت خاص اعمال شوند. همچنین نحوه برخورد مدل با دستورالعملهای نامشخص،.
بهویژه در Agent را پوشش میدهد تنظیماتی که در آن انتظار میرود جزئیات بهطور مستقل پر شود. و در عین حال اثرات جانبی دنیای واقعی را به دقت کنترل میکند.
ایده اصلی در پس تصمیمگیری که کدام دستورالعمل باید اعمال شود ساده است. دستورالعملها میتوانند از منابع مختلفی از جمله OpenAI، توسعه دهندگان و کاربران ارائه شوند.
این دستورالعملها میتوانند در تضاد باشند. زنجیره فرماندهی توضیح میدهد که چگونه مدل باید آن درگیریها را حل کند.
این ساختار به ما امکان میدهد مجموعه نسبتاً کوچکی از قوانین غیرقابل غلبه را در کنار مجموعه. بزرگتری از پیش فرضها تعریف کنیم.
این روشی است که ما سعی میکنیم آزادی کاربر و کنترل توسعهدهنده را در محدودیتهای ایمنی به حداکثر. برسانیم.
قوانین سخت،. مرزهای صریحی هستند که توسط کاربران یا توسعهدهندگان قابل لغو نیستند (در اصطلاح مدل Spec،.
این دستورالعملهای سطح «ریشه» یا «سیستم» هستند). آنها عمدتاً بازدارنده هستند،.
و نیاز به مدلهایی برای اجتناب از رفتارهایی دارند که میتواند منجر به خطرات فاجعه آمیز. یا آسیب فیزیکی مستقیم،.
نقض شود. قوانین، یا تضعیف زنجیره فرماندهی.
ما انتظار داریم هوش مصنوعی به یک فناوری اساسی برای جامعه تبدیل شود،. مشابه زیرساختهای اینترنتی اولیه،.
بنابراین تنها زمانی قوانینی را وضع میکنیم که میتوانند آزادی فکری را محدود کنند که معتقد باشیم برای. طیف گستردهای از توسعهدهندگان و کاربرانی که با آن تعامل خواهند داشت ضروری هستند.
در مدل Spec،. Stay in bounds(در یک پنجره جدید باز میشود) حاوی قوانین سختی است که به خطرات ایمنی واقعی در.
دنیای واقعی رسیدگی میکند،. و اصول زیر ۱۸ سال (در پنجره جدید باز میشود) لایههایی روی پادمانهای اضافی برای کاربران زیر ۱۸.
سال است. پیشفرضها نقطه شروع قابل لغو هستند: «رفتار دستیار زمانی که کاربر بهترین حدس یا توسعهدهنده را ترجیح نمیدهد».
ما از پیشفرضها استفاده میکنیم تا رفتار را در مقیاس قابل پیشبینی و کنترل کنیم،. بنابراین افراد میتوانند هر بار بدون نوشتن یک مجموعه دستورالعمل سفارشی،.
پیشبینی کنند که چه اتفاقی میافتد. پیشفرضها قابلیت هدایت را حفظ میکنند:.
کاربران و توسعهدهندگان میتواند صریحاً لحن،. عمق،.
قالب و حتی نقطه دید را در محدودههای ایمنی هدایت کند. پیشفرضهای سطح راهنما (مانند لحن یا سبک) به گونهای طراحی شدهاند که بهطور ضمنی قابل هدایت باشند،.
در حالی که پیشفرضهای سطح کاربر (مانند صداقت و عینیت) لنگرهایی برای اعتماد و پیشبینیپذیری هستند و تنها. با دستورالعملهای صریح میتوان آنها را نادیده گرفت.
آنها نباید بی سر و صدا بر اساس ارتعاشات حرکت کنند. اگر کاربر موضع واقعی متفاوتی بخواهد، دستور صریح تغییر را شفاف و خوانا نگه میدارد.
این پیشفرضها در جستوجوی حقیقت با هم منعکس میشوند (در یک پنجره جدید باز میشود)،. بهترین کار را انجام دهید (در یک پنجره جدید باز میشود)،.
و استفاده از سبک مناسب (در پنجره جدید باز میشود)،. از جمله هنجارهای مربوط به صداقت و عینی بودن،.
اجتناب از تقلب و هنجارهای تعاملی مانند مستقیم بودن و متن مناسب از گرمیو حرفهای بودن استفاده. میکند.
کمک میکند تا مدلها (و انسانها) آن را بهطور مداوم در مناطق خاکستری اعمال کنند. این کمکها عبارتند از:.
روبریکهای تصمیمگیری که به مدل کمک میکند تا در مناطق خاکستری،. بدون تظاهر به وجود یک قانون مکانیکی،.
انتخابهای ثابتی داشته باشد. بهعنوان مثال،.
راهنمای مدل Spec در مورد کنترل عوارض جانبی (در یک پنجره جدید باز میشود) ملاحظاتی مانند به. حداقل رساندن اقدامات غیرقابل برگشت،.
متناسب نگه داشتن اقدامات با هدف،. کاهش غافلگیری بد،.
و ترجیح دادن رویکردهای برگشت پذیر را فهرست میکند،. که باید در مقابل اهداف دیگر مانند تکمیل سریع و مؤثر کار متعادل شود.
مثالهای مشخصی باید نشان دهد که چگونه در عمل اعمال میشود. اینها نمونههای سریع و پاسخ کوتاهی هستند که معمولاً شامل یک پاسخ سازگار و غیرمنطبق هستند،.
اغلب در یک اعلان سخت در نزدیکی یک مرز تصمیم مهم. هدف شبیهسازی یک مکالمه کاملا واقعی نیست.
ساختن است تمایز کلیدی روشن است،. و این کار را به گونهای انجام دهیم که سبک مورد نظر پاسخ را نیز نشان دهد.
ما تعداد نمونهها را نسبتاً کم نگه میداریم و بر آموزندهترین آنها تمرکز میکنیم. مجموعههای ارزیابی گستردهتر به پوشش بیشتر قسمتهای بلند کمک میکنند.
مشخصات یک رابط است، نه یک پیادهسازی. رفتاری را که میخواهیم توصیف میکند، نه تمام جزئیات نحوه تولید آن رفتار را.
ما سعی میکنیم از تثبیت آن به جزئیات پیادهسازی،. مانند قالبهای توکن داخلی یا دستور العمل آموزشی دقیق برای یک رفتار خاص اجتناب کنیم،.
زیرا ممکن است این جزئیات حتی زمانی که رفتار مورد نظر تغییر نمیکند،. تغییر کند.
مخاطبان اصلی Model Spec مدل نیستند،. بلکه انسانها هستند:.
این مدل به کارمندان،. کاربران،.
توسعهدهندگان،. محققان و سیاستگذاران OpenAI کمک میکند تا رفتار مورد نظر را درک کنند،.
بحث کنند و درباره آن تصمیم بگیرند. Spec همچنین مدل را توصیف میکند، نه کل محصول را.
با استفاده ما تکمیل میشود خط مشیها،. که انتظارات ما را در مورد نحوه استفاده افراد از API و ChatGPT مشخص میکند.
سیستمیکه کاربران با آن تعامل دارند،. بیش از خود مدل را شامل میشود:.
ویژگیهای محصول مانند دستورالعملها و حافظه سفارشی،. نظارت،.
اجرای خطمشی،. و لایههای دیگر همگی مهم هستند.
ایمنی بسیار بیشتر از رفتار مدل است و ما به دفاع در عمق اعتقاد داریم. و Spec یک نوشته کامل از کل پشته آموزشی ما یا هر تمایز سیاست داخلی نیست.
هدف گرفتن تمام جزئیات نیست. این است که مهمترین تصمیمات رفتاری را قابل درک کنیم،.
به نحوی که کاملاً با رفتار مدل مورد نظر ما مطابقت داشته باشد. دلایل متعددی وجود دارد که به جای اینکه فرض کنیم خواننده - یا مدل - میتواند همه.
چیز را از چند هدف سطح بالا استنتاج کند،. این مقدار را در Spec قرار دهیم.
اول اینکه، مدل Spec یک ابزار شفافیت و پاسخگویی است. برای تشویق معنادار طراحی شده است بازخورد عمومییک هدف عمومیواضح به افراد کمک میکند تا.
تشخیص دهند که آیا یک رفتار یک اشکال است یا یک ویژگی. این به آنها یک نقطه مرجع پایدار برای نقد و بازخورد مشخص میدهد.
به همین دلیل است که ما Spec Model را با منبعباز (در یک پنجره جدید باز میکند). و تکرار در عمومیرا انتخاب میکنیم.
از زمان انتشار اول،. تغییرات زیادی بر اساس بازخورد عمومی ایجاد شده است که از طریق مکانیسمهای مختلفی از جمله فرمهای بازخورد،.
انتقادات عمومیو تلاشهای عمدی برای جمعآوری ورودیهای دموکراتیک جمعآوری شده است. دوم، مدل Spec یک ابزار هماهنگی در OpenAI است.
این به افراد در تحقیقات،. محصول،.
ایمنی،. خطمشی،.
حقوقی،. کامها و سایر کارکردها واژگان مشترکی برای بحث در مورد رفتار مدل و مکانیزمیبرای پیشنهاد و بررسی.
تغییرات میدهد. سوم،.
سیاستهای صریح میتوانند محدودیتهای عملی را در زمینه هوشمندی مدل و زمان اجرا جبران کنند و رفتار را. قابل پیشبینیتر کنند.
هر چند این با گذشت زمان کمتر صادق میشود،. برخی از سیاستها با هدف جبران هوش ناکافی،.
که در آن مدلها ممکن است بهطور قابل اعتماد رفتار صحیح را از اصول سطح بالاتر استخراج. نکنند،.
انجام میشود. بهعنوان مثال،.
واضح و مستقیم باشید (در یک پنجره جدید باز میشود) به مدلهای قبلی توصیه کرد که. کار خود را قبل از بیان پاسخ برای مشکلات چالش برانگیز که نیاز به محاسبات دارند نشان دهند،.
اما امروزه مدلهای ما بهطور طبیعی این رفتار را از طریق یادگیری تقویتی یاد میگیرند. سایر خطمشیها به زمینه محدود در زمان اجرا میپردازند:.
دستیار فقط میتواند به آنچه در تعامل فعلی قابل مشاهده است تکیه کند و به ندرت از وضعیت. کامل کاربر،.
قصد،. استفاده پایین دستی یا اقدامات حفاظتی خارج از مدل اطلاع دارد.
در این موارد،. حتی اگر مدلها بتوانند با تحقیق و تفکر کافی،.
رفتار صحیح را تشخیص دهند،. ویژگیها کارایی و پیشبینیپذیری را بهبود میبخشد و بسیاری از قضاوتها را به راهنمایی فشرده میکند.
که تنوع بین اعلانهای مشابه را کاهش میدهد و درک رفتار را برای کاربران و محققان بهطور یکسان. آسانتر میکند.
در نهایت، هدف مدل Spec فهرست کاملی از سیاستهای سطح بالا مربوط به ارزیابی و اندازهگیری است. اگر میخواهید ارزیابی کنید که آیا یک مدل مطابق خواسته رفتار میکند،.
داشتن یک فهرست عمومیاز دستهبندیهای عمده رفتاری که به آنها اهمیت میدهید مفید است. این وسوسهانگیز است که فکر کنید یک مدل به اندازه کافی توانا باید بتواند رفتار صحیح را از.
فهرست کوتاهی از اهداف مانند «مفید و ایمن بودن» استنتاج کند. حقیقتی در آن وجود دارد.
در حوزههایی با معیارهای موفقیت عینی، مانند ریاضی، هوش اغلب میتواند جایگزین قوانین جزئی شود. اما بهطور کلی، رفتار مدل مانند حل یک مسئله ساده ریاضی نیست.
مدلها اغلب در فضاهای خاردارتر عمل میکنند،. جایی که هیچ پاسخ اخلاقی صحیحی وجود ندارد که همه بتوانند روی آن توافق کنند.
برای یک مدل چه معنایی دارد برای مثال،. "مفید و ایمن" بودن بسیار وابسته به زمینه و محصول تصمیمگیری ذاتاً پر ارزش است.
هوش به تنهایی به شما نمیگوید که در مورد اخلاق و ارزشها چه معایبی انجام دهید. بنابراین حتی زمانی که مدلها در هوش بهبود مییابند،.
ما هنوز برای درک و راهنمایی قضاوتهای ارزشی / یعنی اینکه در یک نمونه معین «اخلاقی عمل کنیم». به کار نیاز داریم.
و بسیاری از دلایل داشتن یک مدل Spec حتی زمانی که مدلها بسیار توانمندتر میشوند مرتبط باقی میمانند:. ما هنوز به یک هدف عمومینیاز داریم که افراد بتوانند با هم هماهنگ شوند،.
راهی برای ارزیابی اینکه آیا رفتار با نیات ما مطابقت دارد یا خیر،. و مکانیزمیبرای بازنگری در قوانین همانطور که یاد میگیریم.
اگر تنها قانون این است که «مفید و ایمن باشید»،. هیچ مکانیسمیوجود ندارد که انسانها بتوانند بهوسیله آن بحث کنند،.
برای مثال،. مرزهای مدل باید از ارائه کدام محتوا خودداری کند و همه این تصمیمها را به مدل واگذار کند.
مدلها توانمندتر، عاملیتر و گستردهتر میشوند، هزینه ابهام افزایش مییابد. این امر یک چارچوب رفتاری روشن را مهمتر میکند، نه کمتر.
در حالی که یک قانون اساسی مکتوب میتواند اصول سطح بالا و همچنین قوانین مشخص را ارائه. دهد،.
نمیتواند همه موارد احتمالی را که ممکن است پیش بیاید و نیاز به راهنمایی دارد،. پیش بینی کند.
سیستمهای حاکمیت واقعی نیز به ماشین آلات تفسیری،. شفاف سازی و احکام صریح برای حل و فصل موارد آشفته یا مسائل پیش بینی نشده نیاز دارند.
قوانین منتشر شده به ذینفعان مختلف کمک میکند تا حتی در صورت مخالفت با یکدیگر هماهنگ شوند. و با الزام به صریح بودن هرگونه تغییر،.
تغییرات را محدود میکنند. مدل Spec تمام این نقشها را ایفا میکند:.
بیانیه اصول،. چارچوب رفتار عمومی،.
و فرآیندی برای تغییر مشخصات در طول زمان. که مسائل مربوط به رفتار مدل همیشه به قوانین صریح قابل تقلیل خواهد بود.
همانطور که سیستمها مستقلتر میشوند،. قابلیت اطمینان و اعتماد بهطور فزایندهای به مهارتها و تمایلات گستردهتر بستگی دارد:.
برقراری ارتباط خوب با عدم قطعیت،. احترام به دامنه استقلال،.
اجتناب از غافلگیری بد،. ردیابی نیت در طول زمان،.
و استدلال خوب در مورد ارزشهای انسانی در زمینه. هنگام نوشتن مدل Spec، طیفی بین همه توصیفکنندهها و مدلهای رفتاری ایدهآل وجود دارد.
هدف آینده دور ما سعی میکنیم تعادلی ایجاد کنیم،. معمولاً حدود 0-3 ماه جلوتر از زمان حال را هدف قرار میدهیم.
بنابراین، مدل Spec اغلب در حداقل چند زمینه توسعه فعال جلوتر از مدل باقی میماند. این نشان دهنده نقش مشخصات مدل بهعنوان توصیفی از رفتار مورد نظر است.
باید ما را در جهتی منسجم راهنمایی کند،. در حالی که همچنان در کاری که قبلا انجام میدهیم یا داریم،.
ثابت میمانیم برنامههای کوتاه مدت بتن برای پیادهسازی. مشخصات مدل از طریق یک فرآیند داخلی باز توسعه یافته است.
هر کسی در OpenAI میتواند درباره آن نظر دهد یا تغییراتی را پیشنهاد کند،. و بهروزرسانیهای نهایی توسط مجموعه گستردهای از ذینفعان متقابل تأیید میشوند.
در عمل،. دهها نفر مستقیماً به متن کمک کردهاند،.
و بسیاری دیگر در تحقیقات،. مهندسی،.
محصول،. ایمنی،.
خطمشی،. حقوقی،.
کامنتها،. امور جهانی و سایر کارکردها اهمیت دارند.
ما همچنین از انتشارات عمومیو بازخورد یاد میگیریم که به آزمایش فشار این انتخابها در استقرار واقعی. کمک میکند.
هیچ کس نمیتواند مجموعه کاملی از رفتارها،. فرآیند آموزش،.
و پیامدهای پایین دستی را در ذهن خود جای دهد،. اما با بسیاری از مشارکت کنندگان و بازبینان متقابل ما میتوانیم کیفیت را بهبود بخشیم و اعتماد.
به نفس را افزایش دهیم. یک شگفتی خوشایند این است که اجماع واقعی این است که اغلب ممکن است - به خصوص زمانی.
که ما خود را مجبور میکنیم تا مبادلات را دقیقاً بنویسیم تا اختلاف نظرها مشخص شود. مشخصات مدل نیز در خلاء نوشته نمیشود.
بسیاری از آنچه در آن به پایان میرسد،. خلاصهای از کار گستردهتر در مورد رفتار،.
ایمنی و سیاست است. بسیاری از مدل Spec-writing واقعاً ترجمه هستند:.
کار موجود را در نظر بگیرید و بدون از دست دادن هدف اصلی،. سادهتر،.
سازگارتر،. دهیشدهتر و در دسترستر کنید.
مدلهای تولیدی ما به دلایل مختلفی هنوز مشخصات مدل را کاملاً منعکس نمیکنند. آموزش مدل ممکن است از بهروزرسانیهای Model Spec عقب بماند.
این رفتاری را توصیف میکند که ما در حال تلاش برای آن هستیم،. بنابراین میتواند جلوتر از آنچه آخرین مدل ما برای انجام آن آموزش دیده است باشد.
ما سخت تلاش میکنیم تا از این امر اجتناب کنیم،. و وقتی این اتفاق میافتد،.
آن را بهعنوان یک اشکال جدی در نظر میگیریم - با کار برای تنظیم رفتار یا مدل تنظیماتی. که آنها را در یک راستا قرار میدهد.
آموزش هرگز نمیتواند فضای همه رفتارهای ممکن را بهطور کامل پوشش دهد. استفاده واقعی شامل یک دنباله طولانی از زمینهها و موارد لبه است که فقط در مقیاس نشان.
داده میشوند،. و هیچ فرآیند آموزشی نمیتواند همه چیز را پوشش دهد.
یک مدل به دلایل ناخواسته میتواند خروجیهای «درست» را در آموزش تولید کند،. که میتواند منجر به رفتار ناخواسته در موقعیتهای جدید شود که با آنچه در آموزش دیده میشود متفاوت.
است. تکنیکهایی مانند همسویی مشورتی کمک میکنند، اما آنها راهحل کاملی نیستند.
بهطور کلی،. این واقعیت که مدل Spec طیف گستردهای از رفتارهای مورد نظر را توصیف میکند به این.
معنی نیست که یک روش واحد برای آموزش همه آنها وجود دارد. جنبههای مختلف رفتار - پیروی از دستورالعملها،.
مرزهای ایمنی،. شخصیت،.
بیان کالیبرهشده عدم قطعیت،. و موارد دیگر- اغلب به تکنیکهای متفاوتی نیاز دارند و حالتهای شکست متفاوتی دارند.
مدل Spec کمک میکند تا درک و نقد رفتار مورد نظر آسانتر شود،. اما اجرای خوب آن هم یک هنر و هم یک حوزه فعال تحقیقاتی باقی میماند.
در کنار این پست،. مدل Spec Evals (در یک پنجره جدید باز میشود):.
مجموعه ارزیابی مبتنی بر سناریو که تلاش میکند تا حد ممکن ادعاهای موجود در مدل Spec را. با تعداد کمینمونه پوشش دهد.
این به ما کمک میکند ردیابی کنیم که رفتار مدل و مدل Spec ممکن است خارج از تراز. باشند،.
و به ما کمک میکند بررسی کنیم که آیا مدلها مشخصات مدل را آنطور که ما در نظر. داریم تفسیر میکنند یا خیر.
این ارزیابیها تنها بخشی از یک استراتژی ارزیابی گستردهتر است که همچنین شامل ارزیابیهای هدفمندتر در بسیاری از. ابعاد رفتار،.
از جمله حوزههای ایمنی خاص،. صداقت و تقوا،.
شخصیت و سبک،. و قابلیتها است.
به وبلاگ همراه مراجعه کنید برای جزئیات در مورد ارزیابیها و نحوه تفسیر آنها،. پست (در یک پنجره جدید باز میشود).
بهطور خلاصه،. ما معتقدیم که این نتایج نشاندهنده بهبودهای واقعی و گسترده در همسویی مدل در طول زمان است -.
اگرچه آنها همچنین تأثیر کوچکی را به دلیل اندازهگیری مدلهای قدیمیتر در برابر سیاستهای اخیر نشان میدهند. در عمل، بیشتر بهروزرسانیهای Spec توسط مجموعهای تکراری از ورودیها هدایت میشوند: مسائل عمومیو بازخورد.
سردرگمیها، موارد لبه یا حالتهای خرابی - چه در زبان مدل Spec یا در رفتار مدلهای ما. مشکلات داخلی.
الگوهایی که در طول توسعه و آزمایش مشاهده میکنیم،. از جمله ابهاماتی که در آن تفاسیر منطقی مختلف منجر به رفتارهای متفاوت میشود.
بهروزرسانیهای خطمشی رفتار و ایمنی. هنگامیکه محدودیتها یا تعهدات سطح بالاتر تغییر میکنند،.
مشخصات باید آن ساختار جدید را به وضوح منعکس کند. قابلیتها و محصولات جدید.
همانطور که مدلها توانایی بیشتری برای رفتارهای جدید پیدا میکنند و ما محصولات جدیدی را منتشر. میکنیم،.
ما میخواهیم که مدل Spec در محتوا و پوشش خود ادامه داشته باشد - بهعنوان مثال،. افزودن قوانین برای تعاملات چندوجهی(در یک پنجره جدید باز میشود)،.
عوامل مستقل(در یک پنجره جدید باز میشود) و کاربران زیر ۱۸ سال(در یک پنجره جدید باز میشود). چند اصل طراحی نحوه نگارش و تجدیدنظر در مشخصات و دقت مدل را راهنمایی میکنند.
«صادق باش» یک ارزش خوب است، اما یک روش تصمیمگیری کامل نیست. مشخصات مدل باید اختلافات را تشدید کند، نه اینکه آنها را در پشت زبان موافق پنهان کند.
در جایی که عملی است،. باید به صراحت تعارضات احتمالی بین قوانین را مطرح کرده و راهنمایی یا مثالهایی در مورد چگونگی.
حل آنها ارائه دهیم. برای مثال،.
دروغ نگو (در یک پنجره جدید باز میشود) یک درگیری بالقوه با گرم باش (در یک پنجره. جدید باز میشود) را فرا میخواند،.
توضیح میدهد که دستیار باید از هنجارهای ادب پیروی کند،. در حالی که از دروغهای سفید که میتواند به تقلب تبدیل شود (در یک پنجره جدید.
باز میشود) کوتاهی کند و بر خلاف این باشد. بهترین منافع کاربر.
قوانین ماهوی. یک خواننده باید بتواند یک درخواست واقع بینانه دریافت کند و پاسخی را ارائه دهد که خواننده دیگری.
به وضوح در داخل یا خارج از خطوط تشخیص دهد (حتی اگر در حاشیه وجود داشته باشد). نمونههایی که سیگنال را به نویز به حداکثر میرساند.
نمونههای خوب اغلب برای توسعه یک بهروزرسانی مشخصات با کیفیت بسیار مهم هستند. مثالها باید به هدایت مشکلات در تعیین رفتار مدل کمک کنند،.
تضادهای دشوار را آشکار کنند و موضع روشنی در مورد چگونگی حل آنها اتخاذ کنند. ثانیاً،.
آنها باید تلاش کنند تا نمونههایی از لحن و سبک دلخواه باشند که انتقال آن در نثر. دشوار است.
استحکام. ما سعی میکنیم از مثالهایی با ابهام یا پیچیدگی اضافی اجتناب کنیم،.
بنابراین تضاد اصلی و حل مورد نظر واضح است. سازگاری و دهی واضح.
ما در تلاش هستیم تا قوانین مدل Spec کاملاً با یکدیگر و با یکدیگر سازگار باشند رفتار مدل. مورد نظر ما،.
و برای اینکه دهی کلی سند را واضح و قابل دسترس کنیم. مشخصات مدل این ادعا نیست که ما بتوانیم هر چیزی را که مهم است یادداشت کنیم،.
یا اینکه مدلها همیشه به هدف میرسند. این ادعا است که رفتار مورد نظر به اندازه کافی مهم است که واضح،.
قابل اجرا و قابل تجدید نظر باشد. سه معیار موفقیت ما را راهنمایی میکند که چگونه آن را تکامل دهیم.
افراد داخل و خارج از OpenAI میتوانند انتظارات دقیقی در مورد رفتار داشته باشند و زمانی که. رفتار آنها را شگفت زده میکند میتوانند به متن اشاره کنند.
مدل Spec میتواند برای طراحی ارزیابیها،. تشخیص حوادث،.
و تصمیمگیری ثابت در مورد محصول استفاده شود - نه فقط برای بیان ارزشها. قابلیت تجدیدنظر.
مدل Spec میتواند همانطور که یاد میگیریم،. بدون تبدیل شدن به یک هدف متحرک ناپایدار،.
تکامل یابد. همانطور که مدلها و محصولات تکامل مییابند،.
انتظار داریم که مدل Spec همگام با قابلیتهای جدید و زمینههای استقرار،. گسترش و شفاف شود.
را هدف این است که مشخصات رفتاری را منسجم،. قابل آزمایش و همسو با مأموریت خود در حصول اطمینان از اینکه AGI به نفع تمام بشریت است،.
حفظ کنیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
