矩陣乘法新突破!XX^T原來可以更快!RL助力搜尋,世界紀錄又被提升了5%

深圳市大資料研究院、香港中文大學(深圳)研究團隊最新研究發現,

這類特殊的矩陣乘法可以進一步加速,並在強化學習與組合最佳化技術的結合下發掘出了一種新的演算法,節省 5% 的乘法數量。

  • 論文標題:XXCan Be Faster
  • 論文連結:https://arxiv.org/abs/2505.09814
該成果在國際社交媒體平臺 X 引發熱烈討論,並引起 MIT、斯坦福、哈佛及 Google DeepMind 科學家的廣泛關注。

背景

矩陣乘法最佳化堪稱計算機科學領域的「珠穆朗瑪峰」。自 1969 年 Strassen 演算法橫空出世以來,這個充滿組合爆炸可能性的數學迷宮就持續考驗著人類智慧的邊界。
Google DeepMind 為此專門投入四年心血,先後推出 AlphaTensor、AlphaEvolve 等機器學習系統來攻克這一難題。這就像短跑運動員將百米紀錄從 9.58 秒推進到 9.57 秒——每個 0.01 秒的突破背後,都是對計算理論極限的重新定義。

(矩陣乘以自身的轉置)這類特殊的矩陣乘法廣泛存在於各類資料科學的實際應用中,實際應用包括:

  • 5G 與自動駕駛定製晶片設計
  • 線性迴歸與資料分析
  • 大語言模型訓練演算法(Muon、SOAP)

 這類操作每分鐘在全球執行數萬億次,假如能減少該操作的計算量,對能耗開銷可以帶來相當可觀的節省。令人驚訝的是,相比於普適的矩陣乘法 AB,研究者對於 

 這類的特殊矩陣乘法的關注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了帶有特殊結構的 AB 矩陣乘法,但他們尚未彙報任何關於 

 的結果。

透過觀察

 運算的特殊結構,該團隊發現 

 的計算確實存在加速空間!

主要貢獻

在 AI 技術的輔助下,研究團隊發掘了新演算法(RXTX),以讓 

 這一常見的底層操作減少 5% 的運算量,這可以進一步轉換成節省 5% 的能耗以及時間(特別的,能耗開銷主要由乘法運算數量決定)。值得一提的是,RXTX 的 5% 加速不僅對超大規模矩陣成立,對小規模矩陣也成立,比如:RXTX 對 4×4 矩陣 X 僅需 34 次乘法運算。此前最先進的 Strassen 演算法需要 38 次乘法(減少 10% 運算量)。

乘法運算量複雜度分析

研究團隊對乘法運算量的複雜度進行了分析。分析結果表明,RXTX 的漸進常數 26/41≈0.63,較先前最優值 2/3≈0.66 降低 5%。

總運算量(乘法+加法)複雜度分析

研究團隊進一步提供了總運算量(乘法+加法)的複雜度分析。分析結果表明,當 n≥256 時,RXTX 的總加法與乘法次數也少於現有最優方案,且漸進意義下約有 5% 的穩定提升。

核心技術

該方法屬於基於神經網路的大鄰域搜尋方法框架:
  • 利用強化學習策略生成候選雙線性乘積
  • 構建組合問題一(MILP-A):將目標表達式構建為候選乘積的線性組合
  • 構建組合問題二(MILP-B):篩選能完整表達 

     結果的最小乘積集

這是 DeepMind 的 AlphaTensor 方法的一種變體——透過使用組合求解器,行動空間被縮小了一百萬倍。以下為研究團隊提供的 2*2 矩陣的簡單例子:

總結

本文針對 

 這類特殊矩陣乘法提出了創新性加速方法,透過引入 AI 方法設計出新型演算法「RXTX」,成功實現了總運算量 5% 的最佳化。這一突破不僅從理論上拓展了人類對計算複雜度邊界的認識,也為相關領域的演算法最佳化提供了新的研究正規化。

鑑於 

 矩陣在多個學科領域的基礎性作用,本研究成果有望為實際應用場景帶來顯著的能耗最佳化。然而,新演算法的工程化應用仍面臨硬體適配和記憶體管理等關鍵挑戰,其產業化落地尚需學術界與工業界的持續協同攻關。要實現新演算法的全方面落地,仍然面臨諸多挑戰,可謂任重道遠。

參考資料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章