
人工智慧對計算的需求,正以一種近乎貪婪的速度膨脹。幾年前我們還在驚歎於“ChatGPT”帶來所謂的奇點時刻;如今,智慧體(Agentic AI)、物理 AI、空間智慧等新概念已初現端倪,將算力競賽推向了從量變到質變的拐點。
當成千上萬的晶片被連線在一起,我們面對的已不再是簡單的加法。通訊的瓶頸、效率的衰減、穩定性的挑戰……任何一塊短板都可能成為阻礙 AI 前行的巨大障礙。行業似乎陷入了一種“暴力美學”的迷思:堆砌更多的硬體,就能解決一切問題嗎?
歷史或許早已寫下答案。
全功能 GPU 的發展本身就是一部從專用走向通用的演進史。計算單元從最初只能加速單一任務,演進到能夠靈活處理圖形、計算、AI 等多模態任務的全功能 GPU,每一次效能飛躍都源於系統層面的重構,而非將各種專用 GPU 簡單“拼接”。因此,面向未來 3-5 年的 AI 基礎設施,不再滿足於硬體的線性疊加,而需要一場系統級創新。
在 2025 WAIC 現場,我們試圖尋找一個可能的答案,摩爾線程給出的答案值得關注。

就在 WAIC 前夕,摩爾線程舉辦了一場技術分享會。他們提出了一個頗具啟發性的基礎設施形態——“AI 工廠”。它並非指代一堆冰冷的機器,而是一個被精心設計的、用以高效穩定地“生產”智慧的超級系統。這一理念,正試圖為行業的集體困惑提供一個系統性的解法。
構建一座高效的“AI 工廠”,是一項系統級工程,需要層層解構,從最底層的單顆晶片出發,逐級向上,直至整個叢集的穩定執行。每一步都缺一不可,最終呈現乘法效應。
摩爾線程為此提出了一則效率公式,同樣可以作為構建這座“AI 工廠”的指導藍圖:
AI 工廠生產效率 = 加速計算通用性 × 單晶片有效算力 × 單節點效率 × 叢集效率 × 叢集穩定性
這五個要素,構成了一個從點到面、從內到外的邏輯遞進,展示了系統性工程創新的完整路徑。
首先,系統創新的起點,就是計算單元的通用性。
未來的 AI 應用遠不止於自然語言或影像,具身智慧、物理 AI、世界模型等前沿方向,對算力的需求是多維度的。它們不僅需要強大的 AI 計算,還需要圖形渲染來模擬環境、物理模擬來與現實世界互動、高畫質影片編解碼來處理視覺資訊。
因此,真正的“全功能 GPU”,必須從“功能引擎”和“計算精度”兩個維度來考量。摩爾線程的 GPU 單晶片設計同時集成了 AI 計算加速、圖形渲染、物理模擬和科學計算及超高畫質影片編解碼能力,正是為了應對這種複雜需求。
而在精度上,其支援從 FP64 到 INT8 的完整譜系,尤其是對 FP8 混合精度的支援,被認為是其關鍵佈局之一。這背後,是其自研的 MUSA(元計算統一系統架構)在提供支撐。
MUSA 架構透過硬體資源池化及動態資源排程技術,試圖突破傳統 GPU 功能單一的限制。更重要的是,為了充分挖掘單顆晶片的效能,MUSA 在晶片內部解決了計算、記憶體和通訊三大核心問題。
在計算層面,摩爾線程的 AI 加速系統(TCE/TME)全面支援 INT8/FP8/FP16/BF16/TF32 等多種混合精度計算。
值得注意的是,摩爾線程是國內首批實現 FP8 算力量產的 GPU 廠商。去年,其成功復現 DeepSeek-V3 混合精度訓練的實踐證明,摩爾線程 FP8 混合精度能把 671B 大模型的視訊記憶體佔用砍掉 40%,訓練時間再省 20-30%,而且 loss 曲線幾乎不變。
摩爾線程的 FP8 技術透過快速格式轉換、動態範圍智慧適配和高精度累加器等設計,在保證計算精度的同時,可將 Transformer 計算效能提升約 30%。這相當於在國內將一條被驗證的技術路徑,修成了更易於通行的“高速公路”。

記憶體系統方面,摩爾線程則透過多精度近存規約引擎、低延遲 Scale-Up、通算並行資源隔離等技術,節省了 50% 的頻寬,降低了 60% 的延遲。
在通訊層面,傳統架構中,計算單元往往需要分出部分資源處理通訊任務,這是一種無形的“算力稅”。摩爾線程獨創的 ACE(非同步通訊引擎)正是為了解決這個問題,透過將通訊任務解除安裝到專用引擎,可減少 15% 的計算資源損耗。

加上其 MTLink 2.0 互聯技術,為單顆晶片的效能釋放和未來的大規模擴充套件奠定了基礎。

當多顆強大的晶片集成於一個伺服器節點,如何讓它們高效協同,而非相互掣肘?答案在於軟體。MUSA 全棧系統軟體扮演了“指揮官”的角色,從多個維度釋放硬體潛能。
其中,MUSA 驅動和執行時庫透過任務排程最佳化,將其核函式啟動時間縮短至業界水平的 50%。

在運算元庫層面,其 GEMM 運算元算力利用率達到 98%,Flash Attention 運算元利用率突破 95%,這些數字背後是極致的演算法與硬體協同最佳化。

同時,在當前大模型分散式訓練過程中,主要瓶頸是通訊。DeepSeek V3 報告中就曾呼籲,硬體廠商提供的晶片是否能做一個單獨的通訊硬體來解除安裝通訊,避免通訊跟計算去搶 SM 計算單元。對此,摩爾線程的通訊庫 MCCL 則實現了 RDMA 網路 97% 的頻寬利用率。

最後,對 Triton 等主流框架的相容,降低了開發者的遷移成本,使得生態融合更為順暢。
當單個節點擴充套件到數千節點的叢集時,“通訊牆”和管理複雜性就成為主要挑戰。叢集的高效能和高穩定性,便像一枚硬幣的兩面,共同決定了“AI 工廠”能否持續“量產”先進模型。
在叢集效率方面,摩爾線程自研的 KUAE 計算叢集,透過整合資料、模型、張量、流水線和專家並行(5D 並行)技術,試圖化解大規模訓練的複雜性。
其 Simumax 工具,能在訓練開始前自動搜尋最優並行策略,如同在建橋前進行精密的風洞測試,精準模擬 FP8 混合精度訓練與運算元融合,為 DeepSeek 等模型縮短訓練週期提供科學依據。

而針對大模型訓練中頻繁的斷點續訓問題,其 CheckPoint 加速方案利用 RDMA 技術,將百 GB 級備份恢復時間從數分鐘壓縮至 1 秒,提升 GPU 的有效利用時間。

在叢集穩定性方面,摩爾線程提出的“零中斷容錯技術”則更具顛覆性。
傳統模式下,單點故障可能導致整個訓練任務中斷。而該技術在故障發生時僅隔離受影響的節點組,其餘節點繼續訓練,備機無縫接入。

這一方案使 KUAE 叢集有效訓練時間佔比超過 99%,為長週期、大規模的訓練任務提供了穩定保障。
透過這五步遞進軟硬體的深度協同,摩爾線程將全功能 GPU 通用加速計算的效能潛力,轉化為工程級的訓練效率與可靠性保障,最大化釋放到節點、叢集乃至萬卡級“AI 工廠”,並在每一步用系統級設計消除傳統擴充套件瓶頸。
那麼,這座精心設計的“AI 工廠”究竟能帶來什麼?
最直接的影響,是為當前相對混亂的算力建設現狀,梳理出一條清晰的主線:跳出對“萬卡”“千 P”等引數的盲目崇拜,迴歸到對通用性、效率、穩定性協同需求的本質,並用系統性設計去實現它。
在現實應用中,這座“工廠”已經開始生產智慧。此次 WAIC 展覽上,在大模型訓練和推理、智慧製造、物理模擬等領域,我們看到了摩爾線程與合作伙伴落地的多個案例。

例如,在大模型訓練方面,KUAE2 智算叢集支援最高 10240 顆 GPU 並行,FP8 混合精度下 GEMM 利用率與 BF16 精度接近,訓練效能保持行業主流水平。
在大模型推理方面,升級後的 GPU 在計算、通訊、訪存方面同步最佳化,執行 671B 引數的 DeepSeek R1 推理時單路解碼速度約 100 token/s。
在智慧製造領域,摩爾線程與雪浪雲聯合推出面向裝備製造的圖零大模型及相關智慧體,覆蓋工藝、生產和運維環節,形成從底層算力到上層應用的國產化技術路徑。
在物理模擬領域,硒鉬·秋月白 AI 這一 AI for Science 大模型平臺面向電氣工程、流體力學等場景,整合任務規劃、多模態資料分析及物理反演功能,可在全功能 GPU 支援下將模擬效率提升百倍並保持精度。
這些都是企業降本增效、加速核心科技國產化程序必須撿起的“六便士”。

但“AI 工廠”的價值遠不止於此。對於 AGI 以及人機共存的未來暢想,是牌桌上所有玩家心中共同的“月亮”。
在具身智慧、生命科學等前沿領域,一個通用、高效、穩定的算力底座,是探索從虛擬走向現實、從數字走向生命的關鍵。這些探索性應用,正是“AI 工廠”最具想象力的產出。
例如,在具身智慧領域,摩爾線程已經聯合合作伙伴推出具身智慧高效能算力擴充套件模組,基於 MUSA 架構的擴充套件模組相容 ROS 等系統,搭載低功耗 AI SoC,支援本地執行 DeepSeek 等模型,適配機器人、無人平臺。

在關乎所有人類命運的生命科學領域,摩爾線程則聯合國內頂尖科研機構,基於國產 SPONGE、DSDP 及全功能 GPU,執行分子動力學、分子對接及 AlphaFold 等模型,實現計算與 AI 協同。
總而言之,摩爾線程提出的“AI 工廠”理念,不僅能很好地解決當下算力痛點,而且長期來看,其更可貴之處在於提供了一種系統性的思維方式。
它提醒我們,想要抵達 AGI 的終點,需要的不僅是更強大的“肌肉”(硬體),更是更智慧的“大腦”(系統設計)。這或許是在當前算力競賽的迷霧中,一個值得行業深入思考和借鑑的方向。