國產GPU跑滿血DeepSeek，已經可以100tokens/s了！

金磊發自 WAIC量子位 | 公眾號 QbitAI

放眼當下，到底哪個晶片跑滿血DeepSeek是最快的？

答案很意外——不是你以為的英偉達，而是一家國產GPU。

因為現在它的速度，已經直接來到了100 tokens/s！

這個速度相比國外GPU的50 tokens/s和國內的15 tokens/s，已經稱得上是快上了一個數量級。

若是將三者放在一起同時執行，效果會更加一目瞭然。

當中間的國產GPU以行雲流水之勢給出了完整準確答案之際，兩邊的“選手”則是還在深度思考過程中：

那麼這個國產GPU到底是誰？

不賣關子，它就是摩爾線程。

但這時肯定有很多小夥伴會問了，從成立到現在不到5年時間，摩爾線程的何以取得如此速度。

在量子位瞭解完其在“算力之道”的全貌之後發現，答案，遠比“做出一顆更快的晶片”要宏大和深刻。

已經造了個AI超級工廠

沒錯，這是因為摩爾線程在搞算力這件事兒上，已經給自家打造了一個AI超級工廠（AI Foundry）。

提到Foundry這個單詞，很多人第一反應或許就是造晶片時的“晶圓廠”，它的價值取決於於生產晶片的良率、產能和工藝先進性。

但AI超級工廠，它並非指代一個物理上生產晶片的晶圓廠，而是一個類比的概念：

這個AI工廠的進化，就像升級製程一樣，絕不是改改某個單一技術就完事兒了，而是一個系統性、全方位的變革。

它要求整個技術棧“脫胎換骨”：從最底層的晶片架構必須革新、到叢集的整體架構得巧妙設計，再到軟體層面——演算法怎麼調更聰明，資源排程怎麼跑更高效，每一個環節都至關重要。

正是這種從根兒上動起來的基礎設施大改造，才能真正釋放AI算力，實現大規模“生產”和“迭代”前沿AI大模型。

需要強調的一點是，要建成這樣一座超級工廠，絕非暴力地將成千上萬張顯示卡堆砌在一起這麼簡單。

它需要五大核心要素的緊密耦合與協同進化，缺一不可；

這個AI工廠的產能，用一套公式可概括為：

AI工廠生產效率 = 加速計算通用性 × 單晶片有效算力 × 單節點效率 × 叢集效率 × 叢集穩定性

摩爾線程正是圍繞這五大要素，構建了技術護城河。

全功能GPU：超級工廠的基石

AI超級工廠的基石，指的是一顆具備強大通用性的“全功能GPU”。因為回顧算力的進化史，其實就是一部全功能GPU的發展史。

從最初只能加速3D圖形的“顯示卡”（VGA Card），到開放程式設計介面、允許開發者創造無限可能的“現代圖形處理器”，再到被廣泛應用於超算、深度學習、區塊鏈等領域的通用計算平臺，GPU的每一次飛躍，都源於其通用性的拓展。

單一功能的加速器，如早期的3D加速卡或今天的某些專用AI晶片（ASIC），雖然在特定任務上效率極高，但其靈活性差、程式設計困難，無法適應AI模型日新月異、應用場景層出不窮的發展趨勢。

一個AI模型可能既需要處理語言，也需要理解影像，甚至要進行物理世界的模擬。如果工廠的“機床”只能處理一種任務，那麼它很快就會被淘汰。

因此，摩爾線程從創立之初就堅持打造真正的全功能GPU，既要“功能完備”，也要“精度完整”。

首先是“功能完備”，即晶片內部集成了四大核心引擎：

AI計算加速引擎：不僅能做推理，更能做訓練，實現訓推一體。
先進的3D圖形渲染引擎：支援DX12等現代圖形API，滿足遊戲、AIGC、數字孿生等視覺計算需求。
物理模擬與科學計算引擎：這是常被忽視卻至關重要的一環。未來的Agentic AI、空間智慧都需要與物理世界互動，強大的科學計算能力是連線數字世界與物理世界的橋樑。
超高畫質影片編解碼引擎：AI的計算結果最終需要透過視覺和聽覺呈現給人類，高畫質、低延遲的流媒體處理能力是人機互動體驗的保證。

其次，“全計算精度”覆蓋。從FP32、FP16到業界前沿的FP8，乃至更低精度的INT8/INT4，完整的精度支援讓開發者可以根據不同任務的需求，在效能和精度之間找到最佳平衡點。

特別是在大模型訓練中，混合精度訓練已是標配，而摩爾線程是國內極少數能夠提供FP8訓練能力的平臺。“全功能”和“全精度”能力，確保了摩爾線程的GPU這座“機床”能夠承接各類AI模型生產訂單。

MUSA統一系統架構：超級工廠的“總設計師”

如果說全功能GPU是工廠的機床，那麼MUSA就是整個工廠的“總設計師”。一個卓越的頂層架構，能夠決定一家公司未來十年甚至更長時間的技術路線和發展潛力。

MUSA的核心理念是“一個架構，萬千應用”（One Architecture for Many Applications）。它採用創新的多引擎、可伸縮、可配置的統一系統架構，將GPU內部的計算、通訊、記憶體、排程等功能進行頂層設計和統一管理。

先來看可伸縮，顧名思義，MUSA架構是可以根據不同客戶、不同市場的需求，快速裁剪出最佳化的晶片配置，大幅降低了新品晶片的開發成本。

其次，資源全域性共享，簡單說，就是把所有硬體資源——像計算核心、記憶體、通訊這些——都打通，變成一個大資源池，然後用智慧排程靈活分配。

這招兒直接解決了大問題：以前那種單引擎GPU，多個任務一起跑的時候特別容易卡。現在好了，所有資源大家共享，按需取用！

再例如，統一程式設計介面與指令集，開發者只需學習一套API和程式設計模型，就能驅動MUSA架構下所有的硬體引擎，極大地降低了開發門檻，提升了開發效率。

除此之外，MUSA架構內部包含了多個摩爾線程自研的核心技術。

例如，專門為FP8設計的“Transformer引擎”，使其FP8的訓練效能相比沒有該引擎的方案能提升30%；獨創的ACE非同步通訊引擎，可以讓計算和通訊並行不悖，解決了傳統架構中通訊會佔用計算資源的痛點，減少了15%的計算資源損耗，將GPU的算力釋放；自研的MTLink2.0互聯協議，實現了GPU之間高效、低延遲的通訊，提供了高出國內行業平均水平60%的頻寬，為大規模叢集部署奠定了堅實基礎。

MUSA架構的先進性，確保了摩爾線程的每一顆晶片都不是孤立的算力單元，而是一個高度協同、管理高效的“作戰小組”，有效提升每顆晶片有效算力，為整個AI超級工廠提供了堅實的、可擴充套件的算力底座。

MUSA全棧系統軟體：超級工廠的“作業系統”與“工具箱”

再好的硬體，若是沒有高效的軟體，同樣也無法發揮其全部潛力。因此，摩爾線程打造了與MUSA硬體架構深度耦合的全棧軟體系統，它在AI超級工廠中扮演著“作業系統”和“開發者工具箱”的角色。

這個軟體棧可以說是覆蓋了從底層驅動到上層應用框架的方方面面：

高效驅動：摩爾線程的驅動經過深度最佳化，核函式啟動時間縮短50%，任務派發延遲極低，可以一次性併發處理上千個任務，領先業界水平。
核心運算元庫：對標國際大廠的cuDNN，摩爾線程的muDNN在運算元層面進行了大量最佳化，GEMM運算元算力利用率達98%，Flash Attention 運算元算力利用率突破95%。

通訊效能躍升：MCCL訓練通訊庫實現RDMA網路97%頻寬利用率；基於非同步通訊引擎最佳化計算通訊並行，叢集效能提升10%。
生態相容與Triton支援：透過MUSIFY等工具，實現了對PyTorch、TensorFlow等主流AI框架的無縫支援。尤其值得一提的是，基於Triton-MUSA編譯器 + MUSA Graph 實現DeepSeek R1推理加速1.5倍，全面相容Triton等主流框架。
完善的開發者套件：提供了一整套涵蓋效能分析（Profiler）、除錯、調優、一鍵部署等功能的工具鏈，如同一個“百寶箱”，讓開發者能夠洞察硬體執行的每一個細節，榨乾硬體的每一分效能。

這套全棧系統軟體，確保了開發者不僅能“用起來”，更能“用得好”，將MUSA硬體架構的強大能力順暢地傳遞到上層應用，是連線硬體與演算法的關鍵樞紐。並且透過MUSA全棧系統軟體的最佳化，摩爾線程實現了“單節點計算效率”全面提升。

KUAE計算叢集：超級工廠的“生產車間”

單卡、單節點的效能再強，也無法完成動輒千億、萬億引數大模型的訓練。AI超級工廠必須以大規模叢集的形式存在。為此，摩爾線程構建了誇娥（KUAE）大規模智慧計算叢集。

誇娥計算叢集遠非簡單的伺服器堆疊，它是一個軟硬一體化的系統工程，相當於AI大模型的“生產車間”：

軟硬一體化設計：從伺服器節點、交換機到機櫃，再到上層的叢集管理軟體、任務排程系統，全部進行了協同設計和最佳化。
創新5D並行訓練：摩爾線程整合資料並行（DP）、流水線並行（PP）、張量並行（TP）等所有主流的並行訓練策略，全面支援Transformer等主流架構，並能根據模型特點自動搜尋和推薦最優的並行方案。
端到端訓練最佳化：覆蓋了從資料預處理、模型預訓練、強化學習、微調到驗證評估的全流程，提供一站式服務。
效能模擬工具（Simumax）：自主研發的Simumax工具面向超大規模叢集自動搜尋最優並行策略，精準模擬FP8混合精度訓練與運算元融合，為DeepSeek等模型縮短訓練週期提供科學依據。
高效Checkpoint：針對大模型穩定性難題，創新CheckPoint加速方案利用RDMA技術，將百GB級備份恢復時間從數分鐘壓縮至1秒，提升GPU有效算力利用率。

透過誇娥計算叢集，摩爾線程將單點的GPU效能優勢，成功擴充套件到了千卡、萬卡乃至更大規模的叢集層面，構建起了一個真正具備強大“生產力”的AI超級工廠。並且透過實測，KUAE 2大規模智算叢集，在不同架構模型的MFU，已經達到了行業領先水平。

零中斷容錯技術：超級工廠的“安全生產協議”

對於一個需要7×24小時不間斷執行的AI超級工廠來說，穩定性壓倒一切。一次意外的宕機，可能意味著數百萬美元的損失和數週工作的付諸東流。因此，摩爾線程開發了獨有的“零中斷容錯技術”，這是保障工廠穩定執行的“安全生產協議”。

傳統的容錯機制，在硬體（如GPU卡）發生故障時，需要暫停整個訓練任務，人工替換硬體，再從最近的Checkpoint恢復，整個過程耗時耗力。而摩爾線程的零中斷技術則完全不同：

零中斷容錯技術：當某個節點變慢或出現故障時，僅隔離受影響節點組，其餘節點繼續訓練，備機無縫接入，全程無中斷。這一方案使KUAE叢集有效訓練時間佔比超99%，大幅降低恢復開銷。
多維度訓練洞察：透過多維度的資料監控和AI預測模型，系統能夠提前感知到哪些節點可能會成為“慢節點”，並進行預警或隔離，實現動態監測與智慧診斷，異常處理效率提升50%；
叢集自檢及排程最佳化：在訓練任務開始前，系統會自動對整個叢集進行“體檢”，確保所有軟硬體都處於最佳狀態，如同飛機起飛前的安全檢查，訓練成功率提高10%，為大規模AI訓練提供穩定保障。