機器之心編輯部
昨天,OpenAI 官宣了一個重磅訊息:他們的一個推理模型在國際數學奧林匹克(IMO)競賽中獲得了金牌水平的表現。

官宣該訊息的 OpenAI 研究科學家 Alexander Wei 表示,在評估過程中,研究團隊嚴格按照人類選手的比賽規則進行測試:模型需要在兩個 4.5 小時的考試環節中,在沒有任何工具或網路輔助的情況下,閱讀官方題目並撰寫自然語言證明。

在評估中,該模型成功解決了 2025 年 IMO 六道題目中的五道,獲得了 35 分(滿分 42 分)的成績,足以獲得金牌。每道題目都由三位前 IMO 獎牌獲得者獨立評分,並在達成一致後確定最終分數。

在該訊息公佈後,整個 AI 社群都為之振奮。Alexander Wei 還曬出了 OpenAI 新模型生成的證明過程。

證明過程連結:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在 Alexander Wei 發帖之前不久,各家 AI 模型剛被曝出在 IMO 中表現不佳,得分最高的 Gemini 2.5 Pro 得分僅為 13 分,OpenAI 的 o3(high)則拿了 7 分。OpenAI 新模型成績的官宣讓這一事件出現了驚人的反轉。


不過,在這些訊息發酵後不久,數學家陶哲軒站了出來,勸大家「謹慎看待」。他認為,如果沒有嚴格控制、標準化的測試條件,我們就無法用一種有意義的方式來比較 AI 模型與人類,並表示自己「不會評論任何在競賽前未公開其方法的自我報告的 AI 競賽結果」。這引發了大家對於 AI 模型實際進展的思考。

陶哲軒:謹慎看待各大 AI 模型的 IMO 成績
陶哲軒在部落格中寫道:
人們很容易把當下 AI 的能力當成一個「一刀切」的單一指標:任務 X 要麼在現有工具的能力之內,要麼不在。實際上,AI 的能力差距可以拉開好幾個數量級,具體取決於給它什麼資源、輔助方式,以及大家如何彙報自己的結果。
我用一個比喻來說明這一點。就取剛結束的國際數學奧林匹克(IMO)競賽做例子。
標準賽制是:每個國家派 6 名高中生參賽,由一名領隊(通常是職業數學家)帶隊。兩天裡,選手每天 4.5 小時用紙筆獨立解答 3 道難題;考試期間選手之間、選手與領隊之間不得交流,只能請監考員澄清題意。閱卷時領隊為學生辯護,但並不直接參與做題。能拿到金牌(今年分數線 35/42,即 6 題裡完美做出 5 題)被視為高中生極高的數學成就。
但是,如果我們透過各種方式改變奧林匹克競賽的形式,思考一下其難度會發生什麼變化:
-
給學生幾天時間來完成每道題目,而不是在四個半小時內完成三道題。(稍微延伸一下這個比喻,想象一個科幻場景:學生仍然只有四個半小時,但領隊將他們置於某種昂貴且高耗能的時間加速機器中,在此期間學生們經歷了數月甚至數年的時間。)
-
考試開始前,領隊以一種學生認為更容易處理的形式重寫題目。
-
領隊允許學生無限制地使用計算器、計算機代數系統、形式化證明助手、教科書,或使用網際網路搜尋。
-
領隊讓六名隊員組成的團隊同時解決同一個問題,並就各自的部分進展和遇到的死衚衕進行溝通。
-
領隊向學生提示可能有效的方法,並在某個學生花費太多時間在一個他們知道不太可能成功的方向上時進行干預。
-
團隊中的六名學生都提交解答,但領隊只選擇「最佳」解答提交給競賽,而將其餘的丟棄。
-
如果團隊中沒有一個學生得出滿意的解答,領隊則完全不提交任何解答,並悄悄退出比賽,他們的參與記錄也無從知曉。
在上述每一種形式中,提交的解答從技術上講仍然是由高中參賽選手生成的,而非領隊。然而,學生們在競賽中報告的成功率可能會因這些形式上的改變而受到顯著影響;一個在標準考試條件下可能連銅牌水平都達不到的學生或團隊,在上述某些修改後的形式下,反而可能達到金牌水平。
因此,在缺乏一種非參賽團隊自選的、受控的測試方法論的情況下,人們應該警惕將不同 AI 模型在 IMO 這類競賽中的表現,或將這些模型與人類參賽者的表現進行「同類比較」。
與此相關的是,對於任何未在賽前披露其方法論的、自我報告的 AI 競賽表現結果,我將不予置評。
網友:能寫幾頁紙的證明本身就值得關注
對於陶哲軒提出的質疑,網友展開了廣泛討論。首先需要指出,陶哲軒在帖子中提到的挑戰 IMO 的 AI 模型可能不是特指 OpenAI 的模型,因此裡面指出的一些問題對於 OpenAI 來說可能並不完全適用。

比如,從 OpenAI 的宣告來看,他們似乎沒有使用工具呼叫。

不過,有人反駁說,模型在訓練期間就記住了整個網際網路的語料,即使不呼叫工具,讓他們和無法訪問網際網路的人類學生相比也不夠公平。

還有人指出,這些問題其實並不值得糾結。從 OpenAI 的這個模型中,我們應該看到的是:AI 已經能夠在一個「難以驗證」的領域進行超過一個小時的推理並給出正確答案了。

所謂的「難以驗證」,相對的是容易驗證,比如像 AIME(美國數學競賽體系中的高階邀請賽)中的數學題,每題答案為 000-999 之間的整數,無需證明過程,僅填數字。對於這類問題,我們很容易用標準答案來訓練模型,用強化學習等方法來教會模型解決這類問題。但對於長達多頁的證明,我們一直缺乏明確的訓練正規化。這也是 OpenAI 的研究最令人好奇的地方。

在關於該模型的討論中,OpenAI 推理研究主管 Noam Brown 也專門指出了這一點,而且明確表示他們「還有很大的空間來進一步提升測試時的計算能力和效率」。


如果 OpenAI 真的掌握了讓模型解決「難以驗證」的問題的訓練方法,他們是不是又往前走了一大步?

目前,這些問題尚無定論。OpenAI 的做法也非常神秘:他們提到最近會發布 GPT-5,但又明確指出這個拿到 IMO 金牌的模型不是 GPT-5。這個模型的面世可能還要等幾個月。

One more thing:領導神秘模型的 Alexander Wei 是誰?
這個拿到 IMO 金牌的推理模型來自 Alexander Wei 領導的一個小組。Noam Brown 提到,在新模型中,Alexander Wei 採取了一個鮮有人相信的想法,並利用它取得了極少人認為可能實現的結果。

Alexander Wei 專注於 LLM 的推理能力提升,特別是在數學推理和自然語言證明生成方面。他還曾獲得國際資訊學奧林匹克(IOI)金牌。

他於 2023 年獲得加州大學伯克利分校的計算機科學博士學位,師從 Nika Haghtalab、Michael I. Jordan 及 Jacob Steinhardt。此前,他於 2020 年在哈佛大學完成了計算機科學的本碩學習。他的研究曾榮獲 SODA 最佳學生論文獎和 INFORMS 拍賣與市場設計領域的 Rothkopf 獎。

加入 OpenAI 之前,Wei 博士曾先後在 Meta AI (FAIR)、Microsoft Research 及 D. E. Shaw 公司積累了豐富的研究與行業經驗。

在 Meta AI (FAIR) 期間,他參與研發了在策略遊戲《外交》(Diplomacy) 中達到人類頂尖水平的 AI 系統 CICERO,該成果發表於 2022 年的《Science》雜誌。
Alexander Wei 小組的工作給最近深陷挖腳危機的 OpenAI 注入了一針強心劑,Noam Brown 似乎也有意藉此向外界傳遞一個重要訊號:OpenAI 依然是一個前沿技術實驗室,其擁有的技術比其他實驗室提前幾個月。只有在這裡工作,你才能在第一時間接觸到這些東西。你同意他的看法嗎?

參考連結:https://x.com/alexwei_/status/1946477754372985146
https://x.com/polynoamial/status/1946478252496695523
https://mathstodon.xyz/@tao/114881420636881657

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]