谷歌Agent深夜顛覆數學界!陶哲軒聯手,解決300年難題或迎“AlphaGo時刻”

今天凌晨,Google DeepMind 重磅推出了耗時一年半研究的智慧體—— 「AlphaEvolve」,一個由 Gemini 驅動的通用科學智慧體。
不止能解決 300 年數學難題,還用於發現新演算法、改進晶片設計。

數學家陶哲軒也參與了這項工作:

釋出後,網友給出超高評價:這是“AlphaEvolve 是數學界的 AlphaGo‘第 37 步’時刻”!

何為 AlphaGo 的‘第 37 步’時刻”?
2016 年,谷歌 DeepMind 開發的 AlphaGo 和世界圍棋冠軍李世石進行對決。在第二盤比賽中,AlphaGo 在第 37 手下出了人類圍棋高手前所未見的一步(即“Move 37”)。這一手完全跳出了傳統圍棋棋手的思維,被許多圍棋專家當場認為是“失誤”或“怪手”。但隨著比賽程序,這步棋展現出了極高的深度和遠見,成為了 AlphaGo 最終獲勝的關鍵轉折點。
所以,“第 37 步時刻”象徵著 AlphaEvolve 在數學上已經開始展現出類似 AlphaGo 當年那種突破性的創造力,能夠做出人類未曾想到的、甚至是重大意義的發現。
DeepMind 科學負責人 Pushmeet Kohli 也在 x 上猛猛宣傳了下 AlphaEvolve:

除了用來解決數學難題,公司已經將 AlphaEvolve 應用到了實際工作中。比如,優化了新一代 AI 晶片(TPU)的設計方案,以及提高了 Google 全球計算資源的利用效率,節省了約 0.7% 的總資源消耗。它產生了顯著的實際效果
AlphaEvolve 目前的戰績如何呢,據 DeepMind 研究團隊自述:

目前 AlphaEvolve 被用於攻克數學分析、組合學、幾何學等領域的開放性難題。
  • 75% 的情況下,AlphaEvolve 能夠重現已知的最優解;
  • 在 20% 的情況下,甚至能夠發現超越現有記錄的全新最優方案,
  • 在其餘 5% 的案例中,其生成的解法則略遜於已知最優水平。
除了推進數學和演算法發現的前沿,AlphaEvolve 在真實場景中也開始發光發熱了,谷歌目前已將 AlphaEvolve 應用於其計算生態系統(資料中心、硬體、軟體),來提升整體效率:
  • 資料中心排程: 發現一種啟發式演算法,將全球計算資源利用效率平均提高 0.7%。
  • 硬體設計: 提出 Verilog 重寫方案最佳化 AI 加速器(TPU)電路,已整合到即將釋出的 TPU 產品中,加速定製晶片設計。
  • AI 訓練與推理:
    • 最佳化矩陣運算,將 Gemini 架構關鍵核心加速 23%,縮短 Gemini 訓練時間 1%,節省計算成本並減少工程時間。
    • 最佳化低階 GPU 指令,將 FlashAttention 核心加速高達 32.5%

矩陣乘法,56 年來首次進步

AlphaEvolve 非常貼近“科學家智慧體”的概念,因為其能主動提出解決複雜數學難題的新思路。
首次,將 4×4 矩陣乘法從 49 次運算減少到 48 次,是 56 年來首次實現,超越了 Strassen 於 1969 年提出的、長期以來被認為是標杆的經典演算法
在計算機科學中,矩陣乘法是最基礎且計算密集的運算之一,為了證明推動前沿的能力,研究團隊讓 AlphaEvolve 試圖最佳化矩陣計算。
傳統的矩陣計算對於兩個 n×n 的矩陣 A 和 B,需要 O(n^3)次標量乘法(例如,2×22×2 矩陣需 8 次乘法)。當矩陣規模較大時,這種計算複雜度在時間效率上存在瓶頸。
1969 年科學家 Volker Strassen 發現,透過分治策略和減少乘法次數,可以降低矩陣乘法的時間複雜度。於是,他提出了一種遞迴演算法:
將兩個 2×22×2 矩陣的乘法從傳統的 8 次乘法減少到 7 次,同時透過增加加法和減法的計算來彌補這一差異。
這一思想被擴充套件後,最終矩陣計算的時間複雜度降低至 O(nlog⁡27)≈O(n2.81)O(nlog27)≈O(n2.81),成為首個突破立方時間複雜度的矩陣乘法演算法。
而在此任務中,AlphaEvolve 經過系統性探索後成功發現了一種用於計算 4×4 複數矩陣乘法的高效演算法—僅需 48 次標量乘法
如下表所示:

表中總結了計算 𝑚×𝑛 矩陣與 𝑛×𝑝 矩陣乘積所需的標量乘法次數上限,即對應三維張量的秩。AlphaEvolve 針對多種矩陣維度組合⟨𝑚, 𝑛, 𝑝⟩進行了迭代分析測試,對於所有測試的引數組合且 𝑚, 𝑛, 𝑝 ≤ 5 的情況,AlphaEvolve 發現的演算法要麼匹配、要麼超越了當前已知的最優解決方案。

對於諸如⟨3,4,7⟩、⟨4,4,4⟩以及⟨4,4,8⟩等特定維度組合,AlphaEvolve 發現的演算法創新性地運用了複數乘法原理,這些演算法不僅適用於複數矩陣,也可高效應用於實數矩陣的精確乘法。

這一成果顯著超越了 Strassen 於 1969 年提出的、長期以來被認為是標杆的經典演算法,重新整理了該領域的已知最佳結果。

300 年的接吻數問題

接吻數問題(Kissing Number Problem)是離散幾何領域的一個經典難題,難點在於確定在 N 維歐幾里得空間中,最多有多少個互不重疊的單位球可以同時與一個位於中心的單位球相切。
這個問題自 17 世紀提出以來,已困擾數學界長達三百餘年。

在 d 維空間中,這個最大數量被稱為 d 維接吻數(d-dimensional kissing number)。對於 d = 11,此前已知的最佳下界是 592 。
為了證明 11 維接吻數的下界比 592 更多,AlphaEvolve 找到了一組由 593 個 11 維向量構成的集合,這些向量經過適當的縮放後,滿足成為有效接吻構型中心點的幾何條件:
  1. 所有點到原點的距離(範數)相等,記為 C:||p_i|| = C,對所有 i 成立。
  2. 任意兩點之間的距離嚴格大於這些點的範數:mini≠j ||p_i – p_j|| > C。
基於這一發現,透過將所有點以 2/C 的比例進行縮放,得到新的點集 {q_i = (2/C) * p_i}。
此時,新的點滿足 ||q_i|| = (2/C) * ||p_i|| = (2/C) * C = 2,且 mini≠j ||q_i – q_j|| = (2/C) * mini≠j ||p_i – p_j|| > (2/C) * C = 2。這樣就獲得了 593 個 11 維點 q_i,它們距原點距離為 2,且相互之間的距離均大於 2。
以這些點為中心放置單位球,它們將恰好與位於原點的單位球相切(距離為 2),同時彼此之間互不重疊(距離大於 2)。這個構型直接證明了在 11 維空間中可以存在至少 593 個單位球同時與一箇中心單位球相切而不重疊,從而確立了 11 維接吻數的下界為 593(大於原本的 592 個)。

AlphaEvolve 如何實現

AlphaEvolve 透過自動化計算流程與大語言模型的協同作用,採用進化演算法框架迭代最佳化,逐步提升候選程式在預定義評估指標上的表現。主要由三個部分組成:
  • 大語言模型:負責理解問題背景和需求,綜合已有知識及先前的探索結果,並生成新的候選演算法或對現有程式碼進行變異
  • 自動評估器:接收和執行候選演算法,根據預定義的評估指標對其進行量化評分,為進化過程提供反饋訊號。
  • 進化框架:迭代改進所發現的最佳演算法,並重新組合不同解決方案的想法,以找到更好的演算法

AlphaEvolve 的進化迴圈由使用者提供的初始程式模板、評估函式及可選配置啟動。使用者需預先定義一個評估函式 h ,該函式以固定輸入/輸出介面執行,將生成的解決方案對映為一組標量指標。
例如,在數學問題中,h 可能僅需驗證圖的屬性並返回其大小作為分數;而在機器學習任務中,h 可能需要執行完整的模型訓練與測試流程以量化效能。

透過執行以下步驟實現演算法進化:
  1. 提示取樣:從程式資料庫中抽取歷史解決方案,結合使用者提供的上下文,構建結構化的 Prompt 以引導 LLM 生成修改建議。
  2. 程式碼變異:LLM 根據提示生成差異指令(Diffs),對初始程式的指定元件(如最佳化器、損失函式或超引數)進行修改,形成新程式;
  3. 效能評估:評估器執行新程式並呼叫評估函式 h 計算得分,篩選更好的方案;
  4. 資料庫更新:保留優質程式至程式資料庫,驅動後續迭代。
Deepmind 將智慧體設計成多模型的協同策略,可以更換為市面上不同的 SOTA LLMs。根據效能對比,AlphaEvolve 的效能與其所使用的 LLM 的能力高度相關—採用效能越強的 LLM,智慧體在演算法發現和最佳化任務上的表現越出色。
目前 Deepmind 的 AlphaEvolve 上的探索結合了自家雙子座 Gemini 2.0 系列的兩個變體,既能最大化評估的想法數量,同時也能保留由重大改進的潛力和整體發現過程:
  • Gemini 2.0 Flash:憑藉低延遲,速度快的特性,在單位時間內生成大量候選修改方案,提升進化搜尋的探索廣度
  • Gemini 2.0 Pro:透過更強的生成能力,提供偶爾的高質量建議,推進進化搜尋並可能帶來突破。

結語

Google DeepMind 團隊強調,AlphaEvolve 的核心方法論具備高度通用性,其理論適用範圍覆蓋所有能夠將問題解決方案形式化表達為演算法。
而這樣的能力使其成為一個有潛力的專家能力增強工具—能夠顯著減少他們在特定最佳化任務上的投入,從而解放精力聚焦於更具戰略價值的創新工作。
但是,外部研究人員對此成果也提出了審慎的看法。

美國俄亥俄州立大學的 AI 研究人員 Huan Sun 表示:
在更廣泛的社群進行測試之前,我會保持謹慎的態度,謹慎對待當前的報告結果。
牛津大學數學與 AI 研究人員 Simon Frieder 肯定了 AlphaEvolve 在特定數學問題上能夠極大地提升解題速度,但同時也指出:
該系統目前主要適用於那些能夠透過程式碼或明確演算法結構表達的問題,這可能限制了其應用範圍的廣度。個人更傾向於等待類似能力的開源工具出現,而非依賴 DeepMind 可能隨時修改或撤回的專有系統。
Simon 的發言其實牽連到了一個很引人深思的問題:AI 工具在整個科學發現鏈條中位置。
目前很多重要的、待解決的難題,其挑戰往往在於如何將一個模糊或高度複雜的實際問題轉化為一個可計算、可形式化的演算法問題
即使,目前科學發展的進度是可以在某種形態上將演算法問題形式化,但是如果依賴工具解決看似已經被清晰定義為演算法的問題,那麼這些其實還是原始、未被形式化的問題的答案就會受到限制。
在實際研究中,底層的最佳化發現(就像 AlphaEvolve 在矩陣乘法上的突破)本身就可能激發新的概念和研究方向。依賴外部黑箱工具可能切斷這種從底層發現到高層概念的研究迴路。
家人們怎麼看呢 ~ 歡迎評論區和我們一起討論 ~
參考文獻https://x.com/GoogleDeepMind/status/1922669321559347498https://arstechnica.com/ai/2025/05/google-deepmind-creates-super-advanced-ai-that-can-invent-new-algorithms/https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdfhttps://mp.weixin.qq.com/s/Ut-g63SKJ6LR11_8RydaYg

相關文章