OpenAI自封奧數金牌被全網爆錘!網友怒斥炒作,數學大神公開質疑,封神還是碰瓷?

最近,一件大事在科技圈和數學圈炸開了鍋。
OpenAI 宣佈,他們的人工智慧模型,在世界最頂級的數學競賽(IMO)中,考出了相當於金牌的成績。
簡單來說,就是 AI 學會做數學奧賽題了,而且還是世界冠軍水平。
這本該是展示 AI 技術實力的一個高光時刻,沒想到,訊息一齣,慶祝的香檳還沒開,全網的口水仗就先打了起來。
一則技術喜報,迅速演變成了一場巨大的爭議風波,主要集中在三個問題上:
時機對嗎? OpenAI 沒有像其他 IMO 要求的 AI 公司一樣,在閉幕式結束一週後宣佈成績,是不是在搶這群高中生的風頭,失了體面?
金牌真嗎? OpenAI 的「神秘模型」參加的比賽不是 IMO 官方邀請的,而評委又是自己請的,這個「金牌」的含金量,到底有多少?
比賽公平嗎? 讓一個能瞬間呼叫海量資源的 AI,和苦學十幾年的人類孩子在同一個維度下比較,這本身是不是就不公平?
這背後,到底發生了什麼?我們一層層來看。
IMO (International Mathematical Olympiad)國際數學奧林匹克競賽
OpenAI 做了什麼,為什麼引發了爭議
風波的第一個引爆點,是釋出時間。
7 月 19 日,OpenAI 研究員 Alex Wei 在 X 平臺發文,稱其實驗性大模型在 IMO 數學競賽中取得了金牌級別的成績。
6 道題做對 5 道,得分 35/42,金牌標準是 35 分,銀牌標準是 28 分;
模型在不借助外部工具的標準考試環境下完成,無網路,相同的時間限制和僅限一次的提交限制等;
評分標準則是由 3 位前 IMO 金牌得主打分並達成共識,Alex 在自己的 GitHub 上公佈了模型的答題文字;
使用的不是即將釋出的 GPT-5,而是一個內部未命名的獨立實驗模型,且在未來幾個月之內都不會發布具有這種能力的模型;

上下滑動檢視更多內容;此次 IMO 競賽題目,以及 OpenAI 撰寫的使用自然語言、清晰明確的題目答案。
Alex 稱這是「AI 推理能力的一次重大跨越」,並強調模型的通用性,即此次使用的模型,沒有針對奧數專項訓練,它的優異的表現是來自通用的推理能力。他特別提到為什麼這件事是個「大事件」:
IMO 問題與過去的基準相比,需要一個新的持續創造性思維水平。在推理時間範圍內,我們現在已經從 GSM8K(頂尖人類約 0.1 分鐘)→ MATH 基準(約 1 分鐘)→ AIME(約 10 分鐘)→ IMO(約 100 分鐘)。
然而,爭議就是從 Alex Wei 這則 OpenAI 在 IMO 拿到金牌級別成績帖子的「釋出時間」開始。
熱議帖子,原文連結:https://x.com/Mihonarium/status/1946880931723194389
X 上有人引用曾經 IMO 金牌得主 Joseph Myers 的評論圖片發文,
國際數學奧林匹克要求人工智慧公司不要搶孩子們的風頭,並在閉幕式後一週再公佈結果。而 OpenAI 在閉幕式之前就宣佈了結果。
IMO 協調員 Joseph Myers 評論截圖,內容為與 IMO 相關人員交流時均表示 OpenAI 此次做法不合時宜。
Joseph Myers 在評論中也說,
在IMO 2025年,評審團和協調員普遍認為,AI開發者在IMO比賽前後(例如在閉幕派對之前)宣佈與IMO相關的成績是不合適的。通常,協調員的觀點是,相關公告應至少在閉幕典禮後一週釋出,因為比賽的重點應放在人類參賽者的成就上,而AI的報告不應分散大家的注意力。
博主還引用了另外一家參與 IMO 測試的數學超級智慧 AI 公司Harmonic 的發文,來證實 IMO 的規則。
為了維護學生競賽的神聖性,IMO 理事會已要求我們和其他參與的主要 AI 公司,直到 7 月 28 日為止暫不釋出我們的結果。
這一下,OpenAI 被推上了「不尊重賽事」的風口浪尖。網友指責他們為了搶一個頭條,破壞了賽事的儀式感,讓那些頂著巨大壓力參賽的年輕人的成就黯然失色。
有網友直接評論說,「今年參與真實競賽的青少年選手,在極高的壓力下完成答題、面對真實評審、承擔名次榮譽,他們成就理應獲得充分尊重,而不應該是被 OpenAI 搶走了風頭。」
不過,OpenAI 研究員 Noam Brown 隨後澄清,
1. 我們是在閉幕式結束後釋出的訊息,閉幕式是直播的,可以證明他們的釋出時間。2. 他在發帖前提前告知了一位 IMO 組織者,後者請求 OpenAI 等閉幕式結束再發,OpenAI 也確實遵守了這個請求。
儘管如此,「搶跑」、「不體面」的標籤還是貼在了 OpenAI 身上。如果說這還只是程式和溝通上的誤會,那接下來的爭議,則直指這次「金牌」的含金量本身。
誰的舞臺?誰的規則?誰說了算?
更大的質疑在於,這塊「金牌」是誰認證的?
雖然 Alex Wei 在帖子裡面,包括後面 OpenAI 轉發的時候,都是小心地稱模型達到「金牌水平」(gold medal-level performance),並沒有說「獲得金牌」或「贏得比賽」,但在社交媒體傳播中,還是被簡化為「AI 贏得金牌」。
因為 IMO 是有專門邀請相關的 AI 公司參與競賽,例如前文提到的 Harmonic 等 AI 公司,但是 OpenAI 不在官方邀請參賽的名單之上。
也就是說 OpenAI 並沒有正式註冊參賽,也沒有將結果提交 IMO 評審機構進行評分,而是選擇了邀請三位前金牌得主「打分」。
有評論指出,三位前金牌得主並非官方協調員,OpenAI 的測試過程也未公開,只是內部驗證,沒有像其他 AI 挑戰(如前幾天與 Psyho 的程式大戰)那樣接受第三方驗證。
說白了,這更像一場內部測試,而非公開挑戰。儘管模型可能確實解決了問題,但一套不公開、不透明的流程,讓其「金牌級別」的說法顯得有些「自賣自誇」。
雖然夾雜著「釋出時間搶跑,爭奪孩子們的風頭」以及「所謂的金牌結果不可信」等爭議,還是有不少的網友選擇支援 OpenAI,認為這不但無害,反而帶來了更多關注。
一位網友說,「OpenAI 的帖讓我第一次點進去看今年誰拿了金牌,以前我從不關心。」
也有 AI 工程師表示,「這不是搶了學生風頭,而是讓大家都對 IMO 更感興趣。」
陶哲軒:AI 解題成功≠與人類平等
所以 OpenAI 這一波操作,是不是真的「越界」了,光為了秀自己的實力,全然不顧「孩子們」的感受。
陶哲軒在 IMO 閉幕式現場發言
作為此次 IMO 金牌得主頒獎嘉賓的陶哲軒,也在 Mastodon 上髮長文。雖然他沒有直接談論此次 OpenAI 的爭議,但他分享了自己的觀點是,
AI能力存在著極為廣泛的差距,差距可能達到幾個數量級,這取決於提供的資源和輔助支援,以及如何獲得報告結果。

上下滑動檢視更多內容;陶哲軒帖子內容及部分評論,原文連結:https://mathstodon.xyz/@tao/114881418225852441
他拿這次的 IMO 競賽舉例,把 AI 取得的成績類比為選手在時間加速器中答題了多個月,而不是人類標準比賽裡面的固定時間,同時 AI 能夠允許他們提前重寫題目、用無限工具解題、多人協作、丟棄失敗樣本、只上交最好答案等。
他最後也總結說,與其糾結於分數高低,不如先問一句:比賽規則公平嗎?
在沒有一個控制測試方法的情況下,應該小心不要將各種 AI 模型在 IMO 等比賽中的表現進行簡單的比較,也不應將這些模型與人類選手進行直接對比。我也不會評論任何沒有提前披露方法論的自我報告的AI比賽成績。
六月份,陶哲軒曾在 Lex Fridman 的播客中預測 AI 不會在國際數學奧林匹克競賽(IMO)中取得高分。他建議研究人員目標定得稍低一些。「有較小規模的比賽,有些比賽的答案是一個數字,而不是長篇證明」。
拋開關於釋出時間和評分標準的技術性爭論,整場風波的核心,更像是一種集體情緒的真實寫照,
我們,或許還未準備好接受這個趨勢。
這個趨勢就是,眼看著 AI 從圍棋棋盤,到程式設計賽場,如今又兵臨城下,來到了代表著最年輕一代智力光芒的 IMO 數學賽場。
我們可以爭論評價標準是否統一,可以辯駁 AI 擁有不平等的資源,但這些都無法改變一個最根本的事實。
AI 只會越來越強,我們曾經引以為傲的一座座智力堡壘,正在被它逐一攻破。
OpenAI 這次引發的爭議,或許就是人類與 AI 共存時代的一個縮影,
一邊是瘋狂進化的技術,一邊是需要時間調適的人類。
還值得關注的是,就像 Alex Wei 在推文的最後說的一樣,他向所有的參賽者表示祝賀,並表示現在 OpenAI 的很多研究員都是來自曾經 IMO 數學競賽的選手。
而在此次 IMO 競賽中,中國隊選手獲得了團體第一,全員金牌!第二名是美國隊,其中大部分也是華裔選手。
結合最近矽谷 AI 人才爭奪戰的華人比例,先不說 OpenAI 這個神秘的模型到底行不行,但是我看在數學這方面,我們一定行。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取#AI有用功,解鎖更多 AI 新知👇
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章