TL;DR
- OpenAI ما تلاشهای اثبات خود را برای First Proof به اشتراک میگذاریم،.
- یک آزمایش چالش ریاضی اگر هوش مصنوعی بتواند اثباتهای قابل بررسی را در مورد مشکلات دامنه تولید کند.
- ما یک مدل داخلی را برای همه 10 مسئله First Proof (در پنجره جدید باز میشود) اجرا کردیم،.
چه اتفاقی افتاد
OpenAI ما تلاشهای اثبات خود را برای First Proof به اشتراک میگذاریم،. یک آزمایش چالش ریاضی اگر هوش مصنوعی بتواند اثباتهای قابل بررسی را در مورد مشکلات دامنه تولید کند.
ما یک مدل داخلی را برای همه 10 مسئله First Proof (در پنجره جدید باز میشود) اجرا کردیم،. یک چالش ریاضی در سطح پژوهش که برای آزمایش اینکه آیا سیستمهای هوش مصنوعی میتوانند تلاشهای اثبات درست.
و قابل بررسی را تولید کنند یا خیر. برخلاف ریاضیات با پاسخ کوتاه یا رقابتی،.
این مسائل نیازمند ایجاد استدلالهای سرتاسری در حوزههای تخصصی است و صحت بدون بررسی تخصصی دشوار است. نویسندگان مسائل اثبات اول متخصصان پیشرو در زمینههای مربوطه خود هستند،.
و حداقل یکی از مشکلات سالها قبل از یافتن راهحلهای نویسندگان باز بود. یک دپارتمان آکادمیک که همپوشانی قابل توجهی با حوزههای موضوعی دارد،.
میتواند بسیاری از مشکلات را در یک هفته حل کند. ما تلاشهای اثباتی خود را به اشتراک گذاشتیم (در پنجرهای جدید باز میشود) شنبه،.
14 فوریه 2026،. ساعت 12:.
00 صبح PT. بر اساس بازخورد کارشناسان،.
ما معتقدیم که حداقل پنج مورد از تلاشهای اثبات مدل (مشکلات 4،. 5،.
6،. 9،.
و 10) شانس بالایی برای درست بودن دارند و چندین مورد دیگر همچنان تحت بررسی هستند. ما در ابتدا معتقد بودیم که تلاش ما برای مشکل 2 احتمالا درست بوده است.
بر اساس تفسیر رسمیاثبات اول و تجزیه و تحلیل بیشتر جامعه، اکنون معتقدیم که نادرست است. ما از تعامل سپاسگزاریم و مشتاقانه منتظر ادامه بررسی هستیم.
مجموعه کامل تلاشهای اثبات ما را میتوانید در اینجا پیدا کنید (در یک پنجره جدید باز میشود). پیشچاپ شامل هر ده تلاش اثباتی،.
بهعلاوه یک ضمیمه جدید با الگوها و نمونههای سریع است که هدف آن شبیهسازی تعاملات دستی ما با. مدلها در طول فرآیند است.
ما معتقدیم تحقیقات مرزی جدید شاید مهمترین راه برای ارزیابی قابلیتهای مدلهای هوش مصنوعی نسل بعدی باشد. معیارها مفید هستند،.
اما آنها میتوانند برخی از سختترین بخشهای تحقیق را از دست بدهند:. حفظ زنجیرههای طولانی استدلال،.
انتخاب انتزاعهای درست،. رسیدگی به ابهام در بیانهای مسئله،.
و تولید استدلالهایی که از بررسی کارشناسانه جان سالم به در میبرند. چالشهای مرزی مانند First Proof به ما کمک میکنند تا آن قابلیتها را در تنظیماتی که صحت آن.
برای تأیید بیاهمیت است و حالتهای شکست آموزنده هستند،. آزمایش کنیم.
«ما در حال حاضر در حال آموزش یک مدل جدید هستیم که تمرکز اصلی آن افزایش سطح دقت. در تفکر آن است،.
با این هدف که مدل بتواند ساعتهای زیادی بهطور مداوم فکر کند و در نتیجهگیریهای خود بسیار مطمئن. بماند.
از قبل توانسته بود دو تا از مسائل را حل کند (#9 و #10) با آموزش،. توانایی آن را افزایش داد و در نهایت حداقل سه مورد را حل کرد.
بیشتر زمانی که شماره 6 و سپس،. دو روز بعد،.
شماره 4 را حل کرد،. به خصوص خوشحال شدیم،.
زیرا آن مشکلات از زمینههایی آشنا برای بسیاری از ما بود. بسیار باورنکردنی است که ببینیم یک مدل روز به روز بهطور ملموستر باهوشتر میشود.» – جیمز آر.
لی (محقق OpenAI، استدلال) ما مدل را با نظارت محدود انسانی اجرا کردیم. وقتی نسخههایی از مدل را در طول آموزش پیشنهاد میکردیم،.
گاهی اوقات پیشنهاد میکردیم استراتژیهایی را دوباره امتحان کنیم که در تلاشهای قبلی مفید به نظر میرسیدند. برای برخی از تلاشها،.
پس از دریافت بازخورد،. از مدل متخصص خواستیم که بخشهایی از بازخورد را آسانتر کند.
برای تأیید،. ما همچنین یک رفت و برگشت بین این مدل و ChatGPT را برای تأیید،.
قالببندی و استایل انجام دادیم ارزیابی ما مشتاقانه منتظر بحث با دهندگان First Proof در مورد یک چارچوب. آزمایش و ارزیابی دقیقتر برای تکرارهای آینده هستیم.
این کار بر اساس نتایج قبلی از مدلهای استدلال مرزی در ریاضیات و علوم استوار است. در ژوئیه 2025،.
در المپیاد بین المللی ریاضی با یک مدل استدلال همهمنظوره (35/42 امتیاز) به عملکرد سطح مدال طلا رسیدیم. (در پنجرهای جدید باز میشود).
در نوامبر 2025،. «آزمایشهای اولیه در تسریع علم با GPT-5» را به اشتراک گذاشتیم،.
مجموعهای از مطالعات موردی که در آن GPT-5 به محققان کمک کرد تا در زمینههای ریاضی،. فیزیک،.
زیستشناسی و سایر زمینهها پیشرفت ملموسی داشته باشند،. همراه با محدودیتهایی که مشاهده کردیم.
و اخیراً، ما یک همکاری فیزیک را گزارش کردیم که در آن GPT-5. 2 یک عبارت کاندید را برای فرمول دامنه گلوئون پیشنهاد کرد که سپس بهطور رسمیتوسط یک مدل.
داخلی اثبات شد و توسط نویسندگان تأیید شد. ما مشتاقانه منتظریم تا تعامل عمیقتر با جامعه در مورد چگونگی ارزیابی استدلال در سطح تحقیق،.
از جمله بازخورد کارشناسان در مورد این تلاشها،. و ما هیجان زده هستیم که این قابلیتهای جدید را در مدلهای عمومیآینده در دسترس.
قرار دهیم.
چرا مهم است
اهمیت این خبر در این است که روی استفاده واقعی از AI و تصمیمگیری سازمانی اثر میگذارد.
منبع
لینک منبع اصلی در کارت و صفحه مقاله نمایش داده میشود.
