編輯:Panda、陳陳
最近,AI 在數學和程式設計上的能力飛躍令人瞠目結舌 —— 在不少任務上,它已經悄然超越了我們大多數人類。而當它面對真正的專家,會發生什麼?
Epoch AI 最近安排了一場硬仗:他們請來了 40 位數學家組成 8 支戰隊,與 OpenAI 的 o4-mini-medium 模型正面對決,考題來自高難度的 FrontierMath 資料集。
結果令人出乎意料:8 支人類隊伍中,只有 2 支打敗了 AI。也就是說,o4-mini-medium 以 6:2 的比分擊敗了由數學專家組成的「人類代表隊」。Epoch AI 得出的結論是:「雖然 AI 還未明顯達到超人級水平,但或許很快了。」

這場比賽引起了不少關注,有人認為 Gemini 2.5 Pro 深度思考就是 AI 明確超越人類的轉折點,但也有人為人類打抱不平,認為對人類專家而言,4.5 小時不足於解答高難度數學題。對此你有什麼看法呢?

下面就來具體看看這場「人機數學大戰」吧。
人類在 FrontierMath 上的表現如何?
FrontierMath 是 Epoch AI 去年釋出的一個基準,旨在測試 AI 數學能力的極限。其中包含 300 道題,難度從本科生高年級水平到連菲爾茲獎得主都覺得難的水平都有。
為了確定人類的基準,Epoch AI 在麻省理工學院組織了一場競賽,邀請了大約 40 名優秀的數學本科生和相關領域專家參賽。參賽者被分成 8 個團隊,每個團隊 4 到 5 人,任務是在 4.5 小時內解答 23 道題,過程中可以使用網際網路。
之後,他們與目前在 FrontierMath 基準上表現最好的 AI 系統進行了較量,即 o4-mini-medium。
結果如何?o4-mini-medium 的表現優於人類團隊的平均水平,但低於所有團隊的綜合得分(至少有一支團隊成功解答的問題的比例)。因此,AI 在 FrontierMath 上的表現還未達到明顯的超人類水平 —— 但 Epoch AI 認為它們很快就會達到。
下圖展示了人類與 AI 的成績概況,詳細的競賽結果可在此電子表格中檢視:https://docs.google.com/spreadsheets/d/11vysJj6_Gv8XE9U9qb2bq9PLqwW0Cj1HwFAA7lnl-LA/edit?usp=sharing

o4-mini-medium 在 FrontierMath 人類基準競賽中得分為 22%,高於平均水平(19%),但低於所有團隊的總得分(35%)。需要注意的是,o4-mini-medium 成功解答的問題都至少有一支人類團隊成功解答。
然而,這些資料僅基於 FrontierMath 中一個不具代表性的小子集 —— 那麼這對整體人類基準意味著什麼呢?
Epoch AI 認為在 FrontierMath 上最具參考價值的「人類基準」應該在 30% 到 50% 之間,但遺憾的是,這個數字只是估測的,並不明晰。
下面,Epoch AI 簡要解釋了關於這個人類基準結果的四個方面,包括它的來源及其含義。
1. 參與者並不能完全代表前沿數學水平
為確保研究結果的高質量,參與人員需展現出卓越的數學能力。例如,符合條件者需具備數學相關博士學位,或本科階段擁有極其突出的數學競賽獲獎記錄。
該研究將參與者分為 8 個小組,每組 4 至 5 人,並確保每個團隊在任一特定領域至少配備一名學科專家。這些學科專家可能是在該領域擁有研究生學位或正在攻讀博士學位的人,並將該學科列為他們的首選領域。
2. 競賽的目標是檢驗推理能力,而非一般知識
比賽過程更注重考查 AI 的推理能力,而非掌握了多少知識。
因而,FrontierMath 題庫涵蓋數論、微分幾何等需要進行推理的領域,但在現實中,沒有人類能同時精通所有這些學科的前沿進展。

完整 FrontierMath 基準測試所包含的領域
前面已經強調,FrontierMath 最核心的最佳化目標是 AI 系統是否具備數學推理能力。
為了獲得更具參考價值的人類基準,該研究選取了 7 道基礎題(適合優秀本科生解答)和 16 道進階題(針對參與專家定製),這些題目分為四個子類:(1) 拓撲學,(2) 代數幾何,(3) 組合數學,(4) 數論。
評分機制為,答對一道進階題得 2 分,答對一道基礎題僅得 1 分。此外,在五大領域(基礎題類別加上四個進階題子類)中,每個領域至少答對一個問題即可額外獲得一分。
最終,獲得第一名獎勵 1000 美元,第二名獎勵 800 美元,第三名獎勵 400 美元。其他參賽者將獲得 150 美元的獎金,以鼓勵他們的積極參與。
3. 「人類基準」的定義比較模糊
結果顯示,這些團隊通常能解決 13% 到 26% 的問題,平均為 19%。o4-mini-medium 解決了大約 22% 的競賽問題。
然而,與具備完備知識儲備的理想團隊相比,當前統計的人類基準平均分可能在一定程度上被低估了。
一種解決方案是,如果八支人類隊伍中有任何一支給出了正確答案,則認為該問題已正確回答。這樣做可以將人類效能提升至約 35%。
但是考慮到 o4-mini-medium 是在 pass@1 的設定下進行評估的。因此人類在本次比賽中的表現可能介於這兩個範圍之間,大約在 20% 到 30% 之間。
然而,如果想要在通用基準上建立以人為基準的模型,還需要解決第二個問題。具體來說,競賽題的難度分佈與完整的 FrontierMath 資料集不同,如下表所示。

FrontierMath 競賽和完整基準測試中問題的難度分佈。競賽中的 General(普通)問題是 1 或 2 級問題,而 Advanced(高階)問題則全部是 3 級。
因此,該研究將結果按難度等級劃分,並根據完整基準測試的難度分佈對總分進行加權。這樣一來,基於每隊平均值的人工基準得分將提升至約 30%,而基於「多次嘗試」方法的人工基準得分將提升至約 52%。
遺憾的是,這種調整方法是否真的有效依然存疑,因為應用相同的權重意味著 o4-mini-medium 在基準測試中的得分約為 37%(而 Epoch AI 的完整基準測試評估結果為 19%)。這可能是因為相對於完整基準測試中同等級的平均問題,比賽中的 1/2 級問題相對較容易,但事後也很難進行調整。
4. 這意味著什麼
AI 在 FrontierMath 上還未超越人類,但可能很快就會超越,這意味著什麼?
首先,雖然我們現在知道 o4-mini-medium 的得分與人類團隊相差無幾(至少在當前的比賽限制下),但我們並不知道模型是如何做到的。AI 的答案是猜出來的嗎?它們使用的方法與人類的方法相比如何?Epoch 表示未來會發布更多相關資訊。
其次,就算人類的相關基準確實是在 30-50% 左右,Epoch AI 也同樣認為 AI 很可能在今年年底前明確超越人類。
需要注意的是,由於比賽的形式,人類的表現可能被低估了。例如,如果有更多的時間,人類的表現很可能會大幅提升。o4-mini-medium 完成每道題大約需要 5-20 分鐘,而人類通常需要更長的時間。
例如,參與我們賽後調查的參賽者平均在他們最喜歡的測試題上花費了大約 40 分鐘的時間。
機器學習任務的相關研究也表明,人類擁有更佳的長期擴充套件行為 ——AI 的表現會在一段時間後停滯不前,但人類的表現卻能持續提升。同樣值得注意的是,FrontierMath 上的問題並非直接代表實際的數學研究。
但總的來說,Epoch AI 認為這是一條有用的人類基準,有助於將 FrontierMath 的評估置於實際情境中。
參考連結
https://epoch.ai/gradient-updates/is-ai-already-superhuman-on-frontiermath
https://x.com/EpochAIResearch/status/1926031207482953794

© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]