谷歌AI解決IMO中84%的幾何問題,o1一道沒做對!Nature:AI已超過金牌得主平均水平

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI
谷歌DeepMind最新數學AI,一舉解決了2000-2024年IMO競賽中84%的幾何問題。
AlphaGeometry2論文釋出,在總共50道題中完成了42道,相比去年的一代多完成了15道。
作為對比,純語言模型OpenAI o1和Gemini Flash Thinking一道都解決不了。
Nature發文評價:DeepMind AI粉碎了數學難題,達到金牌得主水平,與頂級人類選手相當。
就比如說2024年競賽中的第四題,AlphaGeometry2完成它只需要19秒
如圖所示,這道題要求證明∠KIL和∠XPY的合等於180°(藍色表示)。
AlphaGeometry2構造的輔助線用紅色表示,E是BI延長線上的點,使得∠AEB=90°,透過E點一步得到了幾對相似三角形,最終完成證明。
通訊作者Thang Luong分享了更瘋狂的一道題,來自IMO Shortlist 2009。
根據谷歌諮詢的IMO教練,此問題以前僅有數值解。
但AlphaGeometry2巧妙地構造出了複雜的輔助結構(紅色表示),給出優雅的證明,這些輔助點的位置都是神經網路預測的。

AlphaGeometry2四大升級

根據論文介紹,AlphaGeometry2取得大幅提升主要來自於4項升級:
– 擴充套件版的領域專用語言
– 升級版的符號推理引擎DDAR2
– 全新的搜尋演算法SKEST
– 更強大的語言模型

擴充套件幾何領域專用語言

AlphaGeometry1中的領域專用語言只包含9個基本“謂詞”,包括相等、垂直、平行、共線、共圓等。
這足以覆蓋2000-2024年所有IMO幾何問題中66%的情況,但無法表示線性方程、點/線/圓的移動,以及“計算某個角度”等常見問題。
在進行補充之後,覆蓋率從66%提高到88%。
藉助領域專用語言,AlphaGeometry系統可以做到自動形式化和自動生成示意圖。
這樣一來,只剩下12%涉及3D幾何、不等式、非線性方程和可數的多個點問題。
對於這些問題,AI只能跳過,在圖中標記為“Not attempted”。

更強大、更快的符號推理引擎DDAR2

符號引擎推理是AlphaGeometry的核心元件,稱為DDAR(Deductive Database

Arithmetic Reasoning,演繹資料庫算術推理)。
它基於給定的一組核心初始事實,計算所有可推導事實的集合,遵循一組固定的演繹規則迭代地將新事實新增到集合中,直到不能再新增為止。
DDAR既負責生成語言模型的訓練資料,在測試時也負責搜尋推理步驟。
DDAR2有三個主要改進:
增加處理兩個名稱不同但座標相同的點的能力。   
更快的演算法:提取所有關鍵規則並硬編碼,把最壞情況的時間複雜度從8次方減少到三次方級別;捨棄了關於角度和距離的顯式規則,改為自動完成。
更快的程式碼實現,從Python改成C++,在AMD EPYC 7B13 64核CPU上快了300倍。

全新的搜尋演算法SKEST

多個配置不同的搜尋樹並行執行,透過知識共享機制相互啟發,從而更高效地尋找證明路徑。
在每個搜尋樹中,一個節點包括一次輔助結構構造和符號引擎的嘗試。
如果成功了,所有搜尋樹便會終止。
如果失敗了,這次嘗試成功證明的事實會被記錄到共享事實庫中,事實對同一搜尋樹中的其他節點以及不同搜尋樹中的節點都可能有用。

更強大的語言模型:最新Gemini

AlphaGeometry2的語言模型採用最新的Gemini架構,設計了三種訓練方法:
  • 在領域專用語言的自定義分詞器上從頭預訓練
  • 在自然語言上微調預訓練的數學版Gemini
  • 用額外的影像輸入從頭開始多模態訓練。
透過實驗得出如下結論:
分詞器和訓練資料,都不是關鍵因素
  • 較小詞彙表的分詞器和通用Gemini分詞器,取得了相似的結果
  • 自然語言訓練和領域專用語言訓練,也是相似的結果
視覺資訊和圖示對解決幾何問題並不重要,幾何問題解決的核心在於代數推理,而不是幾何推理。
  • 單獨使用多模態模型,沒有顯著提高系統的能力
  • 多模態模型生成的輔助點與其他模型不同,透過知識共享和其他模型組合起來可以提高整體效能

One More Thing

雖然現在AlphaGeometry2已經有了獲得金牌的能力,但他不開源。
對這個領域感興趣的團隊還有機會哦~
最後,2025年的IMO競賽將於7月份在澳大利亞舉行。

論文地址:

https://arxiv.org/pdf/2502.03544

參考連結:

[1]

https://x.com/lmthang/status/1887928665100665111
[2]https://www.nature.com/articles/d41586-025-00406-7#ref-CR2

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章