

作者 | 中國AI算力大會
6月26日,2025中國AI算力大會在北京熱烈召開。從國產AI算力的突圍與崛起,到智算中心深層軟硬體技術創新解決算力落地產業難題,近30位重量級嘉賓與會帶來致辭、報告、演講和對話,全方位解構DeepSeek引爆的AI算力變局。
摩爾線程副總裁王華在主會場以《基於FP8的國產叢集訓練》為題進行了主題演講。在演講中他提到2020至2025年間,大模型訓練的算力需求激增近1000倍 ,而驅動力來自引數規模與資料量雙向增長。
王華認為,大叢集和FP8成為大模型現階段的最強需求。對此,他圍繞大模型算力需求、混合精度訓練、FP8訓練技術演進等方面進行了深入淺出地剖析闡釋。
此外,王華還分享道,摩爾線程提供包括FP8在內的全精度算力,構建了支援多種不同資料型別的混合精度訓練方案,還可以提供萬卡叢集開箱即用的產品,可以滿足大模型的算力需求,並大幅提升其訓練效果。
以下為王華的演講實錄精華:
01.
5年,大模型訓練算力需求增長千倍
首先來看一下大型訓練需求的趨勢。2020年,算力需求訓練需求最高是在1023flops。到25年,訓練算力需求最高的是xAI的Grok3,算力需求差不多到了1026flops。從1023到1026,算力需求增長了1000倍。

增長主要來自兩個方面:一是模型引數。大模型的模型引數規模是在不斷增加的,最近的模型動轍都是數千億甚至到萬億的引數規模;第二是訓練資料量。早期訓練資料量可能到幾百B,稍微多一點到1T,但現在基本都是十幾T。
所以,算力需求和模型引數數量與訓練資料量的乘積成正比,而這兩個維度的增長,帶來模型訓練算力需求的大幅增長。
再舉一個例子,比如,Llama 3 70B大概是在1024flops左右,然後更大一點Llama 3 405B在1025flops左右,GPT 4也在1025左右,早期的Llama 2大概在1023flops左右。雖然Llama 2與Llama 3的模型引數和模型結構比較類似,但是因為Llama 2的訓練資料量低一個數量級,所以它要求的算力也會低一個數量級。

不只是算力,這些大規模訓練所需要的叢集也越來越大。為了校正所需要的算力,用H100的千卡、五千卡到萬卡量級的叢集來作類比。表格中的資料是按照MFU算的,當然不同模型的引數大小對MFU有影響,另外叢集規模增大之後由於加速比效應,MFU會下降,所以這裡只是大致的估算。
這個量級中,DeepSeek V3的算力需求大概在3.4×1024flops。在千卡叢集上,1024的訓練時間大概是97天,五千卡叢集需要22天,到萬卡級別就只需要13天了。再舉一個例子,Qwen 3 235B,雖然模型引數小一些,但因為資料集更大,它的實際算力會更高,所以Qwen 3 235B計算量約為4.75×1024flops。再看一下訓練時間,這個計算量在千卡叢集上需要136天,五千卡上是37天,到萬卡就只需要18天。這是兩個比較典型的國內MOE模型的例子。
再比如說Llama 3 370B,這是比較典型的Dense模型(稠密模型),訓練數量也差不多在1024flops左右,訓練時間也與Qwen 3差不多。
更大的模型,比如GPT 4,訓練數量有1025flops,這幾乎是千卡不可能完成的任務,到這個量級基本需要萬卡級別的叢集來支撐。尤其是現在大模型的訓練引數基本都在向著萬億發展,數量級十分巨大,所以後續訓練需要的算力也會非常大。
02.
混合精度訓練
緩解算力需求激增難題
為了解決算力需求,摩爾線程採用混合精度訓練的方法。在整個模型訓練過程中,識別出對精度要求不高的操作,將其替換為低精度計算。
更低精度帶來的優勢,首先體現在算力層面:精度降低一半,算力翻倍,同時視訊記憶體佔用、視訊記憶體頻寬及傳輸頻寬消耗均減半。本質上,採用更低精度的資料型別進行訓練,相當於實現了算力的翻倍。但需注意,低精度替換隻能部分進行,無法完全替代,精度敏感的環節仍需保留高精度計算。因此,降低精度可在一定程度上提升算力或降低模型訓練的算力需求。

在精度策略的設計上,可從兩個維度考量:第一個維度是模型權重。以相同算力條件為例,對比多引數低精度模型與少引數高精度模型,如100B引數規模的FP16模型和200B引數規模的FP8模型,從數學表達能力來看,其可表達的理論空間是等價的。
但當前行業趨勢更傾向於優先擴充套件模型引數規模。這是因為模型訓練中實際使用的精度範圍僅佔理論值域的一部分,造成“精度空間浪費”,而增大引數規模能有效提升模型效果。
從行業技術演進來看,精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發展。此前業界對FP8的應用尚處探索階段,而DeepSeek已將其成功應用於模型訓練,預計未來會有更多模型採用FP8精度。
03.
FP8訓練挑戰解析:數值範圍侷限
與精度損失引發的梯度問題
FP8訓練面臨什麼挑戰?首先我們看一下不同浮點數的值域。因為指數位不同,取值範圍其實差別很大。比如BF16,忽略正負號,可以看到值域靠低端的部分可以到2-126,然後高階的可以到2127。FP16的值域會小很多,但有十位尾數,值域靠低端部分接近2-14,然後高階部分是六萬多。
FP8有E4M3和E5M2兩種,可以看到,E4M3的取值範圍其實非常窄,只有2-6到448,E5M2跟FP16類似,但其實跟現在廣泛用的BF16比,取值範圍還是小很多。這裡面有兩個因素,一個是取值範圍,一個是精度。
取值範圍就是剛剛講到的從小數到大數的範圍,因為FP8的數值範圍小,很可能在計算過程中遇到數值上溢和下溢的問題,如此就會帶來一個典型問題:梯度爆炸和梯度消失。
精度就是尾數部分能夠表達的數量。精度低會帶來舍入誤差的問題。例如在做數值轉換的時候,可能BF16能表示的數在FP8裡就會丟失掉一些小數。另外就是一個大數加一個很小的數,由於小數部分太小了,兩者就相當於沒加,這樣就會造成資訊丟失,對模型訓練過程會帶來梯度無法更新的問題。
04.
FP8訓練技術不斷演進,
4大創新攻克低精度核心難題
這兩年FP8訓練技術取得多項進展,已經應用在一些模型的訓練中。
模型訓練中不同操作對精度的需求是不一樣的:
1、矩陣乘操作:作為兩數相乘的基礎運算,FP8的數值範圍易於控制,可透過值域限定避免溢位,對精度要求較低;
2、累加與規約操作:矩陣乘中隱含的累加過程(尤其大矩陣運算時多數相加)存在值域溢位風險,對精度要求處於中等水平;
3、非線性函式運算:如指數函式等場景,數值易快速超出值域,對精度要求最高。
基於此,訓練中可對不同操作採用差異化精度策略,透過中間過程的量化與反量化實現精度適配。
Tensor Core技術提供了混合精度運算的硬體支援。自2017年引入以來,該技術持續進化,現可支援以FP8格式矩陣為輸入,透過硬體級混合精度運算輸出高精度矩陣結果。
此外,訓練框架也在支援混合精度訓練。例如在BF16與FP32的混合訓練中,多數操作採用BF16執行,但權重更新時會切換至FP32,透過維護FP32權重副本確保訓練穩定性。
還有就是Tensor Scaling(張量縮放)技術。在進行高精度向低精度轉換時,由於值域範圍不同,會出現資訊丟失問題。因此在資料型別轉換前,需先將高精度值域乘以Scaling Factor(縮放因子)引數,使其縮放到低精度值域範圍內,以此確保轉換過程中儘可能減少資料丟失。
Scaling Factor的選擇可以有不同的策略。在時間維度上來看可以是在量化前直接計算,也可以採用基於歷史資料的Delayed Scaling Factor(延遲縮放因子)。
從顆粒度來看,既可以對整個 Tensor 應用統一的Scaling Factor,也能進行更精細的選擇,比如Per-Channel(逐通道)縮放,甚至還能進一步細化到Per-Channel的子區域。DeepSeek在其論文中提及,他們採用的是Per-Block(逐塊)的縮放策略。
簡單說一下DeepSeek的論文。DeepSeek-V3就使用了FP8混合精度訓練,其中主要採用了以下策略:
1、前向和後向傳播的3次GEMM使用FP8;
2、啟用值的快取和傳輸使用FP8;
3、Embedding、啟用函式等模組使用高精度浮點數;
4、主權重、權重梯度、最佳化器狀態使用高精度浮點數。
05.
摩爾線程全棧支援FP8訓練,
效能提升20%~30%,對標主流水平
那我們說回到摩爾線程在採用FP8訓練上面的一些工作。
首先,摩爾線程的全功能GPU計算卡在精度上的支援非常全面,摩爾線程是國內少數可以支援FP8精度的GPU供應商。不同計算精度可以用在圖形、計算等不同場景,摩爾線程計算卡的優勢就是支援全精度計算。
第二點就是在叢集方面的工作。摩爾線程可以說是在叢集這一方面投入很大的國產GPU公司。我們的誇娥(KUAE)智算集群系列產品可以讓客戶實現開箱即用,已經做到千卡規模,可支援萬卡,未來還會向著更大規模叢集前進。
在這一整個過程中,我們積累了很多實踐。摩爾線程搭建了完整的軟硬體棧,從硬體設計到叢集管理、排程等全部包含。在大規模叢集的運維方面也積累了豐富的經驗。在大規模訓練時,經常會出現計算錯誤、卡異常等情況,如何快速定位出現故障的部分將其替換是很重要的。我們採用了分散式的故障監測方法,實現分鐘級的故障定位和恢復。
另外還有支援FP8訓練的摩爾線程軟體棧。我們開源了3個元件:提供MUSA後端加速支援的Torch-MUSA、混合並行訓練框架MT-MegatronLM以及主要用於Transformer的高效訓練和推理最佳化的MT-TransformerEngine。基於摩爾線程軟體棧,我們成功復現了DeepSeek-V3滿血版訓練。
在此之上我們做了一系列的實驗,基於我們自己的誇娥(KUAE)叢集,在效能方面,在Llama3 8B、Qwen、DeepSeek-V2 16B以及V3 30B上,目前採用FP8混合訓練可以帶來20%~30%的效能提升,且引入FP8前後loss曲線基本一致,在採用FP8訓練方面,摩爾線程的GPU計算卡與國際主流的卡做精度對比也基本吻合。
此外,摩爾線程在Scaling Factor的選擇上也做了許多探索,例如:amax的統計資訊表明Per-Tensor的Scaling Factor適合採用Delayed Scaling策略,而Per-Block則適合採用JIT Scaling策略。我們還用摩爾線程GPU計算卡做了Smooth SwiGLU論文的復現,我們發現,透過Smooth SwiGLU可以有效降低outlier的影響。
今天我給大家彙報的內容就是這些,謝謝。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
