

這類特殊的矩陣乘法可以進一步加速,並在強化學習與組合最佳化技術的結合下發掘出了一種新的演算法,節省 5% 的乘法數量。

-
論文標題:XXt Can Be Faster
-
論文連結:https://arxiv.org/abs/2505.09814

背景

(矩陣乘以自身的轉置)這類特殊的矩陣乘法廣泛存在於各類資料科學的實際應用中,實際應用包括:
-
5G 與自動駕駛定製晶片設計 -
線性迴歸與資料分析 -
大語言模型訓練演算法(Muon、SOAP)

這類操作每分鐘在全球執行數萬億次,假如能減少該操作的計算量,對能耗開銷可以帶來相當可觀的節省。令人驚訝的是,相比於普適的矩陣乘法 AB,研究者對於

這類的特殊矩陣乘法的關注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了帶有特殊結構的 AB 矩陣乘法,但他們尚未彙報任何關於

的結果。

運算的特殊結構,該團隊發現

的計算確實存在加速空間!
主要貢獻

這一常見的底層操作減少 5% 的運算量,這可以進一步轉換成節省 5% 的能耗以及時間(特別的,能耗開銷主要由乘法運算數量決定)。值得一提的是,RXTX 的 5% 加速不僅對超大規模矩陣成立,對小規模矩陣也成立,比如:RXTX 對 4×4 矩陣 X 僅需 34 次乘法運算。此前最先進的 Strassen 演算法需要 38 次乘法(減少 10% 運算量)。


乘法運算量複雜度分析


總運算量(乘法+加法)複雜度分析


核心技術
-
利用強化學習策略生成候選雙線性乘積 -
構建組合問題一(MILP-A):將目標表達式構建為候選乘積的線性組合 -
構建組合問題二(MILP-B):篩選能完整表達 結果的最小乘積集

總結

這類特殊矩陣乘法提出了創新性加速方法,透過引入 AI 方法設計出新型演算法「RXTX」,成功實現了總運算量 5% 的最佳化。這一突破不僅從理論上拓展了人類對計算複雜度邊界的認識,也為相關領域的演算法最佳化提供了新的研究正規化。

矩陣在多個學科領域的基礎性作用,本研究成果有望為實際應用場景帶來顯著的能耗最佳化。然而,新演算法的工程化應用仍面臨硬體適配和記憶體管理等關鍵挑戰,其產業化落地尚需學術界與工業界的持續協同攻關。要實現新演算法的全方面落地,仍然面臨諸多挑戰,可謂任重道遠。
參考資料
