摩爾線程技術分享日干貨!打造“AI超級工廠”、原生支援FP8、DeepSeekR1推理加速150%

打造“AI超級工廠”!摩爾線程五大核心技術,破局大模型訓練效率。
作者 |  ZeR0
編輯 |  漠影
芯東西7月26日報道,在世界人工智慧大會開幕前夕,國內GPU企業摩爾線程重磅披露其完整AI技術佈局。
面對生成式AI爆發下的大模型訓練效率瓶頸,摩爾線程正透過系統級工程創新,構建新一代AI訓練基礎設施,為AGI時代打造生產先進模型的“超級工廠”
這座“AI工廠”的產能,由五大核心要素的公式:
AI工廠生產效率 = 加速計算通用性 × 單晶片有效算力 × 單節點效率 × 叢集效率 × 叢集穩定性
摩爾線程創始人兼CEO張建中表示,摩爾線程是國內極少數原生支援FP8的GPU廠商,也是國內極少數具備FP8大模型訓練的平臺。
這座“AI工廠”不僅有高效的模型訓練,還具備極致的推理驗證能力。基於自研MUSA技術棧,摩爾線程構建覆蓋大語言模型、視覺、生成類模型的全流程推理解決方案,打造實現“訓練-驗證-部署”的無縫銜接。
根據現場演示,其旗艦產品MTT S5000滿血跑DeepSeek R1模型推理,速度達到100 tokens/s,非常快,已經達到行業領先。
摩爾線程還重磅預熱:將於今年10月舉辦首屆MUSA開發者大會,邀全球開發者共建生態。
01.
打造先進AI工廠,
摩爾線程解密五大核心要素
前沿AI模型正以驚人的速度迭代,從GPT系列、Gemini到DeepSeek、Qwen的快速更新,模型訓練迭代時間已縮短至不足3個月。豐富的模型,快速的更新,對新一代高效能AI計算基礎設施提出迫切要求。
對此,摩爾線程提出“AI工廠”,要實現從底層晶片架構創新、叢集整體架構的最佳化到軟體演算法調優和資源排程系統的全面升級,以推動AI訓練從千卡級向萬卡級乃至十萬卡級規模演進。
摩爾線程以全功能GPU通用算力為基石,透過先進架構、晶片算力、單節點效率、叢集效率最佳化、可靠性等協同躍升的深度技術創新,旨在將全功能GPU加速計算平臺的強大潛能,轉化為工程級的訓練效率與可靠性保障。
1、全功能GPU,實現加速計算通用性
計算功能的完備性與精度完整性是支撐多元場景的核心基石。
摩爾線程以自主研發的全功能GPU為核心,構建了“功能完備”與“精度完整”的通用性底座,全面覆蓋從AI訓練、推理到科學計算的全場景需求。
(1)單晶片覆蓋多場景:基於MUSA架構的突破性設計,GPU單晶片即可整合AI計算加速(訓推一體)、圖形渲染(2D+3D)、物理模擬和科學計算、超高畫質影片編解碼能力,充分適配AI訓推、具身智慧、AIGC等多樣化應用場景。
(2)精度樹立行業標杆:支援從FP64至INT8的完整精度譜系,原生支援FP8大模型訓練及推理,並透過FP8混合精度技術,在主流前沿大模型訓練中實現20%~30%的效能躍升,為國產GPU的算力效率樹立行業標杆。
(3)前瞻支援模型演進:技術體系不僅滿足大模型時代的高效計算需求,更為世界模型和新興AI架構的演化提供前瞻性支撐。
2、自研MUSA架構,提升單晶片有效算力
摩爾線程基於自研MUSA架構,透過計算、記憶體、通訊三重突破,顯著提升單GPU運算效率。
(1)創新架構突破傳統限制:採用創新的全功能、多引擎、可配置、可伸縮GPU架構,透過硬體資源池化及動態資源排程技術,構建了全域性共享的計算、記憶體與通訊資源池,允許面向目標市場快速裁剪出最佳化的晶片配置,大幅降低了新品晶片的開發成本,在保障通用性的同時顯著提升了資源利用率。
(2)計算效能顯著提升:AI加速系統(TCE/TME)全面支援INT8/FP8/FP16/BF16/TF32等多種混合精度計算。其中FP8技術透過快速格式轉換、動態範圍智慧適配、高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算效能提升約30%。
(3)記憶體最佳化:透過多精度近存規約引擎、低延遲Scale-Up、通算並行資源隔離等技術,記憶體系統實現了50%的頻寬節省和60%的延遲降低,有效提升資料傳輸能力。
(4)通訊效率最佳化:獨創的ACE非同步通訊引擎減少了15%的計算資源損耗;MTLink2.0互連技術提供了高出國內行業平均水平60%的頻寬,為大規模叢集部署奠定了堅實基礎。
3、MUSA全棧系統軟體,提升單節點計算效率
摩爾線程透過MUSA全棧系統軟體實現關鍵技術突破,推動AI工廠從單點創新轉向系統級效能提升。其核心創新包括:
(1)任務排程最佳化:核函式啟動(Kernel Launch)時間縮短50%。
(2)極致效能運算元庫:GEMM運算元算力利用率達98%,Flash Attention運算元算力利用率突破95%。
(3)通訊效能提升:MCCL通訊庫實現RDMA網路97%頻寬利用率;基於非同步通訊引擎最佳化計算通訊並行,叢集效能提升10%。
(4)低精度計算效率革新:FP8最佳化與行業首創細粒度重計算技術,顯著降低訓練開銷。
(5)開發生態完善:基於Triton-MUSA編譯器 + MUSA Graph實現DeepSeek-R1推理加速1.5倍,全面相容Triton等主流框架。
4、自研KUAE計算叢集,最佳化叢集效率
單節點效率達到新高度後,下一個挑戰是如何實現大規模叢集的高效協作。
摩爾線程自研KUAE計算叢集透過5D大規模分散式平行計算技術,實現上千節點的高效協作,推動AI基礎設施從單點最佳化邁向系統工程級突破。
(1)創新5D並行訓練:整合資料、模型、張量、流水線和專家並行技術,全面支援Transformer等主流架構,顯著提升大規模叢集訓練效率。
(2)效能模擬與最佳化:自研Simumax工具面向超大規模叢集自動搜尋最優並行策略,精準模擬FP8混合精度訓練與運算元融合,為DeepSeek等模型縮短訓練週期提供科學依據。
(3)秒級備份恢復:針對大模型穩定性難題,創新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,提升GPU有效算力利用率。
基於平湖架構KUAE2智算叢集,無論千卡或更大規模,在每個應用場景都能做到比國外主流產品更高的效能和效率,達到行業領先水平。
5、零中斷容錯技術,提升叢集的穩定性和可靠性
在構建高效叢集的基礎上,穩定可靠的執行環境是“AI工廠”持續產出的保障。特別在萬卡級AI叢集中,硬體故障導致的訓練中斷會嚴重浪費算力。
摩爾線程創新推出零中斷容錯技術,故障發生時僅隔離受影響節點組,其餘節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE叢集有效訓練時間佔比超99%,大幅降低恢復開銷。
同時,KUAE叢集透過多維度訓練洞察體系實現動態監測與智慧診斷,異常處理效率提升50%,讓使用者看得見和管理得到每一個訓練叢集的每一片GPU;結合叢集巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。
02.
MUSA軟件棧如何助力KUAE叢集
三大亮點技術詳解
摩爾線程GPU計算軟體開發總監吳慶分享了MUSA軟體棧的主要亮點技術。
1、MUSA驅動和執行時庫,KUAE叢集堅實底座
推理場景對Kernel延時非常敏感。極致高效的MUSA驅動和執行時庫,具有高效率的任務排程能力,使使用者的Kernel launch開銷極致縮減。
(1)即時任務下發:透過軟硬協同,將核函式啟動延遲降低到業界平均水平的1/2。
(2)批次任務下發:批次下發計算和通訊任務,將近千次下發開銷最佳化為單次,減少GPU等待時間。
(3)引擎間依賴解析:GPU是多引擎可配置的,不同引擎之間要做依賴解析、互動同步,平湖支援硬體解析引擎間的依賴做同步,不再回到host,任務流之間的依賴解析延時可以大幅降低至1.5μs,優於業界頭部算力卡。
(4)調優工具介面MUPTI:專門用於效能分析和事件追蹤,幫助開發者最佳化MUSA應用程式,可基於MUPTI開發第三方的各種豐富工具。
(5)GPU錯誤轉存功能(GPU Core Dump,GCD):高效定位疑難Bug,不需要去排程大量的叢集和人力反覆去復現“曇花一現”的錯誤,用於在GPU程式崩潰或發生錯誤時生成詳細的資訊(類似CPU程式Core Dump),精確儲存錯誤,提供一個log,極大提升MUSA核函式崩潰、非法視訊記憶體地址訪問、硬體錯誤等問題定位的效率。
2、MUSA運算元庫生態日趨完善,效能與廣度兼備
運算元庫的效率直接關乎分散式叢集的訓練效率。MUSA運算元庫不僅追求極致效能,還相容覆蓋廣度和相容性。
MUSA運算元庫生態會提供三大運算元庫:極致效能muDNN、易用MUTLASS、MUSA AI Tensor Engine開源推理運算元庫。
muDNN,是一款極致效能的開箱即用標準運算元庫,完整覆蓋常見的前向和反向運算元。其中最主要的特性是支援完整的XMMA,支援Tensor Core全精度及所有量化模式,以及常用的神經網路運算元操作。
一般來說,矩陣乘的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘運算元效率可以做到98%。Flash Attention運算元因為多了softmax等操作,基於國際一流水平廠商的Flash Attention 3論文裡提到的效率大約是75%,muDNN的Flash Attention可以做到95%。
影響FP8 GEMM運算元效率的重要因素是scale模式,scale是為了避免精度損失做的一個精細化的縮放因子,常見的有Per-Tensor、Per-Block,DeepSeek V3用的是Per-Block。
吳慶打了個比方,Per-Tensor scale是整個張量共用一個縮放因子,相當於一面牆刷一個顏色,很好刷;Per-Block scale則是每個小的矩陣塊共用一個縮放因子,相當於一面牆有很多小方塊,每個方塊單獨一個顏色,刷牆的複雜度要高很多,會比一個顏色刷一面牆效率低10%-20%。
摩爾線程透過軟硬協同的深度演算法最佳化、指令編排,做到了Per-Block跟Per-Tensor  FP8 GEMM計算效率幾乎相當,差距不到2%。
MUTLASS,是一個高效能的線性代數模板庫,可極大降低在MUSA環境中自定義運算元的開發工作量,相當於提供了一個可供二次開發的模板。
MUTLASS已在Github上開源,支援平湖架構所有特性,包括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原語全面支援,同時提供高效能矩陣乘、卷積運算元實現,可在Kernel裡呼叫模板庫就可以進行二次開發,摩爾線程也提供Attention最最佳化的示例,給使用者打樣,可以參考提供的最佳實踐,去開發自定義的各種Attention的變種。
MUSA AI Tensor Engine,是摩爾線程即將釋出的面向大語言模型的開源推理運算元庫,可幫助開發者快速搭建自定義推理引擎。
MUSA AI Tensor Engine,是摩爾線程即將釋出的面向大語言模型的開源推理運算元庫,可幫助開發者快速搭建自定義推理引擎。 該運算元庫提供使用者友好的Python API,進一步降低開發者使用門檻,無需花太多時間學習MUSA C,只要會Python就可以把MTX這個庫用起來;未來會支援豐富的後端,包括模板庫,對標PTX虛擬指令集去開發的極致運算元庫,也支援類Triton的DSL。
3、高效能集合通訊庫及通算並行,避免通訊搶佔計算核心資源
大模型分散式訓練的主要瓶頸是通訊。摩爾線程在MTT S5000上支援MTLINK 2.0,配備GPU非同步通訊引擎,實現了高效能通訊技術與計算高度並行。
最近十幾年,隨著模型規模增加,分散式叢集規模也在增加,通訊瓶頸會越來越明顯。DeepSeek V3報告中呼籲硬體廠商提供的晶片能不能做一個單獨的通訊硬體來解除安裝通訊,避免通訊跟計算去搶SM計算單元。
平湖設計階段遠早於DeepSeek V3釋出的時間,彼時摩爾線程已洞察到行業痛點,並提供瞭解決方案——在GPU上增加了一個非同步通訊引擎。
MTT S5000伺服器拓撲每節點有8張GPU,透過MTLINK 2.0全互連,每張GPU與其他7張GPU都有直連匯流排。
每個GPU上配置的非同步通訊引擎是原生支援豐富的reduce操作,支援常用的reduce操作有ADD、MIN、MAX(累加、最小值、最大值)等操作,支援Float、FP16、BF16等資料型別,可直接透過MTLink進行C2C跨系統的資料通訊。
其ACE透過Zero Copy技術進一步提升效能。一般的集合通訊會把資料buffer複製到通訊buffer裡,再去進行C2C通訊。Zero Copy則避免了在本地上的D2D的複製,直接把資料buffer做跨卡通訊。
摩爾線程在衡量集合通訊庫效能的時候主要是兩大核心指標:通訊延遲、通訊頻寬。
基於全互聯(FC8)拓撲的高效通訊演算法,可大幅降低通訊延遲。全互聯拓撲中GPU兩兩互連,在All Reduce場景中可以把其他GPU的資料一次性拿過來,理論上FC8演算法相比Ring演算法,7步通訊可變成1步完成。在單機8卡All Reduce延遲場景的實測也差不多,Ring演算法大概是53us,用FC8演算法可降低至7.8us,將近縮減至1/7,顯著提升了模型推理效能。
頻寬方面,Ring演算法與FC8演算法效率相當,以Ring演算法為例,摩爾線程把FC8拆成了7個通訊環,每個通訊環結合通訊Kernel的最佳化,基於MTLink2.0 + FC8拓撲,節點內充分利用全互聯的拓撲優勢,可做到單機8卡All Reduce頻寬利用率接近85%,與國際第一的廠商在軟體效率上對齊,實現高效的Scale-up通訊。
高效Scale-out跨節點通訊方面,摩爾線程結合通訊庫做了網絡卡拓撲感知與自適應最佳化,每個GPU都能在PCIe拓撲上找到延遲和頻寬效率最高的網絡卡埠進行RDMA通訊,還額外開發了一個外掛Smart NIC Adaptor,在配置4張雙口網絡卡時,可實現和8張單口網絡卡一樣的RDMA通訊效率。
經測試,其All Reduce頻寬可以做到194GB/s,RDMA通訊頻寬利用率達到97%,而一般RDMA通訊頻寬利用率約在80%-85%。
除了延遲和頻寬之外,摩爾線程還做了非同步通訊引擎的通訊最佳化。
MPC是計算核心。傳統做法是通訊也走MPC,就要分走一部分的計算單元。ACE則可以把通訊部分解除安裝到單獨的通訊引擎上,不跟MPC搶計算資源,同時在無資料依賴時完全做到overlap,透過最佳化,結合MT Transformer Engine,在Llama模型上端到端計算通訊效能可提升10%左右。
03.
基於FP8的國產萬卡訓練,
摩爾線程軟硬體如何撐起行業需求?
摩爾線程副總裁王華給基於FP8的國產萬卡訓練劃了3個重點:
1、大模型訓練需要更強大的智算叢集;2、低精度可有效提升訓練效率;3、可靠性對大規模訓練至關重要。
大模型需要大叢集已是行業共識,不必贅述。
用更低精度的資料型別進行訓練,相當於實現了算力翻倍。精度降低一半,能帶來的優勢是算力翻倍,視訊記憶體佔用、視訊記憶體頻寬、傳輸頻寬消耗減半。
但低精度替換隻能部分進行,無法完全替代。一些精度敏感環節,如非線性函式/歸一化操作,仍需保留高精度計算。
從技術演進來看,精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發展。近兩年,FP8訓練技術取得多項進展。
DeepSeek-V3使用了FP8混合精度訓練,主要策略有:前向和後向傳播的3次GEMM使用FP8,啟用值的快取和傳輸使用FP8,Embedding、啟用函式等模組使用高精度浮點數,主權重、權重梯度、最佳化器狀態使用高精度浮點數。
摩爾線程的全功能GPU,是率先支援FP8的國產GPU,對FP8的訓練提供了軟硬體支援,基於摩爾線程軟體棧,成功復現了DeepSeek-V3滿血版訓練。
其軟體棧開源了3個元件:
(1)提供MUSA後端加速支援的Torch-MUSA:PyTorch的MUSA外掛,最新版本率先在國產GPU上實現了對FP8資料型別的完整支援。
(2)混合並行訓練框架MT-MegatronLM:支援FP8混合精度訓練、高效能muDNN庫和MCCL通訊庫。
(3)MT-TransformerEngine:主要用於Transformer的高效訓練和推理最佳化,支援FP8混合精度訓練,透過運算元融合、並行加速等技術提升訓推效率。
經實驗,基於摩爾線程KUAE叢集,在Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,採用FP8混合訓練可以帶來20%~30%的效能提升,且引入FP8前後loss曲線基本一致。在採用FP8訓練方面,摩爾線程GPU計算卡與國際主流計算卡的精度對比基本吻合。
在Scaling Factor的選擇上,摩爾線程也做了許多探索,例如:amax的統計資訊表明,Per-Tensor的Scaling Factor適合採用Delayed Scaling策略,而Per-Block則適合採用JIT Scaling策略。
摩爾線程還用自家GPU計算卡做了Smooth SwiGLU論文的復現,發現透過Smooth SwiGLU可以有效降低outlier的影響。
此外,摩爾線程開源的模擬模擬器Simumax可用於大規模叢集訓練,支援多種並行策略、多種模型架構、各種最佳化策略以及並行策略、超參、最佳化策略的自動掃描。
最後,大規模叢集訓練的可靠性非常重要。
摩爾線程做了很多相關工作,進行全生命週期管理監控:
(1)訓練檢查(起飛、飛行、落地):起飛檢查是在訓練開始前,對硬軟體和通訊的檢查,自動替換故障節點;飛行檢查中,發現訓練亞健康問題;落地檢查是停掉訓練後,定位故障節點,提取故障上下文。
(2)慢節點探測:分散式訓練中慢節點會拖慢整個訓練的速度;起飛檢查階段節點兩兩配對,檢查小負載的執行時間;訓練階段統計每個節點計算和通訊執行的時間。
(3)容錯訓練:大規模訓練場景使用大量節點,會導致訓練故障率指數級升高;同步模式轉成非同步模式,單節點故障就不會影響整體訓練;還有高效的故障發現與恢復機制。
04.
結語:國產AI計算基礎設施,
已具備規模化、高效率、高可靠模型生產能力
摩爾線程以打造先進的“AI工廠”為目標,憑藉全功能GPU的通用計算能力、創新的MUSA架構、最佳化的MUSA軟體棧、自研的KUAE叢集、零中斷容錯技術五大核心要素,構建起高效的“AI工廠”,為AI大模型訓練提供了強大而可靠的基礎設施支援。
“只有這樣的組合,才能確保每一個環節都做到最好,100%  X  100%  X  100%,才能確保100%的成功率,也是業界最好的效率。”張建中說。
依託AI工廠,摩爾線程成功構建起覆蓋”訓練-推理-部署"全流程的高效體系。這標誌著國產計算基礎設施,已具備支撐AGI時代規模化、高效率、高可靠模型生產的關鍵能力。
從圖形渲染基石到AI算力引擎,摩爾線程正以“KUAE+MUSA”為智算業務核心,推動全功能GPU驅動的AI技術在物理模擬、AIGC、科學計算、具身智慧、智慧體、醫療影像分析、工業大模型等關鍵領域的應用與部署。


相關文章