夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI
OpenAI最新模型曝光了,在2025年國際數學奧林匹克競賽(IMO)上達到了金牌水平!
IMO被公認為全球最頂尖的數學競賽,每年只有不到8%的參賽者能夠獲得金牌。而現在,一個AI模型做到了。
新模型最終成績:新模型在總共6道題中成功解決了5道,獲得35分(滿分42分),超過了今年的金牌線。

OpenAI員工Alexander Wei還透露,GPT-5即將釋出,但IMO金牌模型是一個實驗性研究,在幾個月內都沒有計劃釋出。
他特別強調,這次成功並非依靠針對特定任務的狹隘方法,而是在通用強化學習和測試時計算擴充套件方面取得了新突破。

與此同時,第三方機構的開原始碼中被發現GPT-5-reasoning-alpha-2025-07-13的字樣。

這段程式碼被挖出來後很快就被刪除或隱藏,結合OpenAI在新模型釋出前會找第三方機構進行安全測試的慣例——
種種跡象表明,GPT-5離我們不遠了。
35分斬獲金牌,解題過程完全模擬人類考試
具體來看OpenAI的實驗性新模型,這次評測可不是隨便做個題那麼簡單。
OpenAI團隊讓模型在與人類選手完全相同的條件下參加考試:兩場各4.5小時的考試,不能使用任何工具或聯網,只能閱讀官方題目陳述,然後用自然語言寫出證明過程。

最終成績出來了:模型在6道題中成功解決了5道,獲得35分(滿分42分),穩穩超過了今年的金牌線。
今年IMO的金牌分數線正好是35分,這個成績放在人類選手中也是妥妥的金牌水平。今年約600名參賽者中,只有5人拿到了滿分。
更讓人印象深刻的是評分過程的嚴謹性。每道題的解答都由三位前IMO獎牌獲得者獨立評分,只有在三人達成一致意見後才確定最終分數。
這次突破的意義不止於成績,正如研究團隊所說,IMO問題需要的是一種全新水平的持續創造性思維。
從推理時間跨度來看,AI的進步速度簡直讓人瞠目結舌:從GSM8K(頂尖人類約需0.1分鐘)到MATH基準測試(約1分鐘),再到AIME(約10分鐘),現在終於攻克了IMO(約100分鐘)這個需要長時間深度思考的難題。
更重要的是,IMO的答案是難以驗證的多頁證明,這與之前那些有明確正確答案的數學題完全不同。OpenAI團隊表示,他們突破了傳統強化學習中依賴明確可驗證獎勵的正規化,創造出了能夠像人類數學家一樣構建精巧論證的模型。

唯一沒能攻克的是第六題——這道被參賽者稱為“最終Boss”的組合數學難題:
有一個2025×2025的單位正方形網格。瑪蒂爾達希望在網格上放置一些矩形塊,這些塊的大小可能不同,使得每個塊的每一條邊都位於網格線上,並且每個單位正方形最多被一個塊覆蓋。求瑪蒂爾達需要放置的最小塊數,使得網格的每一行和每一列都恰好有一個單位正方形未被任何塊覆蓋。

去年IMO題目中,谷歌用Alphaproof和AlphaGeometry完成了四道題,未完成的兩道也屬於組合數學。
不過這一次,DeepMind研究員Archit Sharma在OpenAI宣佈後回覆:“恭喜!搶在我們前面宣佈了——第6題是新的基準了嗎?”
但這條推文很快就被刪除了。
這個小插曲引發了網友們的各種猜測:莫非Google的模型也達到了類似水平。

如果感興趣的話,還可以進一步檢視OpenAI公開的AI解題過程,連結在文末獲取。

引發圈內熱議,陶哲軒發表長評
OpenAI模型斬獲IMO金牌的訊息一齣,AI圈炸開了鍋。不過,在一片讚歎聲中,也出現了一些不同的聲音。
其中最受關注的,當屬數學界頂尖學者陶哲軒的表態,他在社交媒體上針對此事發表了長篇評論。
陶哲軒指出,雖然多家AI公司都聲稱在IMO題目上取得了好成績,但由於缺乏統一的測試環境和標準,很難進行公平比較。
人們很容易將當前AI的能力視為一個單一的量化指標——要麼能搞定某件事,要麼就完全不行。但其實不是這樣,AI到底有多厲害,這得看給它多少資源、多少輔助手段以及不同的結果呈現方式,種種因素影響下,AI能力能差出好幾個量級。

他特別強調:“在沒有預先公佈方法論的情況下,不會對任何自我報告的AI競賽表現發表評論。”

陶哲軒用生動的比喻列舉了多項AI可能採取的措施:
給學生幾天時間來完成每道題,而非用四個半小時解答三道題。(稍微延伸一下:給學生的時間仍只有四個半小時,但領隊將他們放入某種昂貴且耗能巨大的時間加速裝置,在這段時間裡,學生們會經歷數月甚至數年的時光。)
考試開始前,領隊將題目改寫成學生更易理解的形式。
領隊讓學生可以無限制使用計算器、計算機代數軟體、形式化證明輔助工具、教科書,或者擁有上網搜尋的許可權
領隊讓6名學生組成的團隊共同攻關同一道題,就各自的部分進展和遇到的瓶頸進行交流。
領隊給學生提示可行的解題方向,若發現有學生在明知不太可能成功的方向上耗費過多時間,便會進行干預。
團隊的6名學生都提交了解答,但領隊只挑選出“最佳”解答提交給競賽,其餘的則棄之不用。
若團隊中沒有任何一名學生得出令人滿意的解答,領隊就完全不提交任何解答,悄無聲息地退出競賽,且無人知曉他們曾參與過。
而這些措施均改變了競賽形式從而影響題目難度。

與此同時,數學競賽評測平臺MathArena釋出了獨立評測結果。
在他們的測試中,即使是表現最好的Gemini 2.5 Pro也只獲得了13分(31%),遠低於銅牌線19分。

測試使用了best-of-32的選擇策略,即對於每個模型的解答,首先生成32份回應,隨後藉助“大語言模型評審系統”對這些回應進行評估,兩兩比對選出更優答案。
每份最終的模型答案生成成本至少為3美元,其中Grok-4模型每份答案的成本超過20美元,但即便如此,仍然沒有任何模型能達到獲獎牌的水平。
MathArena團隊也同步更新了OpenAI宣佈實驗模型拿到IMO金牌的訊息:
無法驗證這些結果是如何實現,期待該模型的釋出以及使用MathArena基準進行獨立評估。

雖然OpenAI模型拿金牌的方法論未公開,但也有不少網友表示,不看過程,結果同樣具有意義。

OpenAI團隊對自己的成果充滿信心。
參與此專案的研究員Alexander Wei回憶說:“2021年,我的博士導師讓我預測2025年7月AI在數學上的進展,我當時預測MATH基準測試能達到30%(還覺得其他人都太樂觀了)。結果現在我們拿到了IMO金牌。”

OpenAI新模型解題過程:https://github.com/aw31/openai-imo-2025-proofs/
參考連結:[1]https://twitter.com/alexwei_/status/1946477742855532918[2]https://x.com/btibor91/status/1946532308896628748[3]https://social.vivaldi.net/@[email protected]/114881418791593328[4]https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/[5]https://matharena.ai/imo
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —


🌟 點亮星標 🌟