華為+DeepSeek,推理效能創新高!技術報告也公佈出來了

金磊 發自 凹非寺量子位 | 公眾號 QbitAI
部署超大規模MoE這件事,國產晶片的推理效能,已經再創新高了——
不僅是“英偉達含量為0”這麼簡單,更是效能全面超越英偉達Hopper架構!
而做到這一點的,正是華為昇騰;具體而言,共包含兩個產品:
  • CloudMatrix 384超節點
    部署DeepSeek V3/R1,在50ms時延約束下單卡Decode吞吐突破1920 Tokens/s
  • Atlas 800I A2推理伺服器
    部署DeepSeek V3/R1,在100ms時延約束下單卡吞吐達到808 Tokens/s,可支援靈活的分散式部署
之所以能夠這般,是因為華為昇騰所採取的“以數學補物理”——這種透過數學理論、工具、演算法和建模等方式,來彌補硬體和工藝的侷限性,實現最大化發揮晶片和系統能力效果。
華為昇騰還不只是“官宣”一下而已,後面更會是全面開源
不僅已經將昇騰在超大規模MoE模型推理部署的技術報告分享了出來,在一個月時間內,還會把實現這些核心技術的相關程式碼也都會陸續開源出來。
那麼接下來,我們就來深入瞭解一下華為昇騰背後的技術實力。

在華為昇騰上推理DeepSeek

在深挖華為昇騰背後技術創新之前,我們且需瞭解一下為什麼要這麼做。
從2017年Google提出的Transformer架構,到2025年DeepSeek V3/R1的爆紅,大語言模型的重心正在從訓練開發轉向推理應用落地。
推理能力不僅是大模型能力的“試金石”,各大企業已從 “拼模型引數” 轉向 “拼推理效率”:
誰能讓大模型在實際應用中跑得更快、更穩、更省資源,誰就能在商業化浪潮中搶佔先機。
然而,以6710億引數的DeepSeek V3為例,這類超大規模MoE模型雖然強大,卻給硬體帶來三大 “成長煩惱”:
  1. 記憶體壓力山大
    一個模型包含257個專家,每個專家 “體重” 2.5G,普通64GB記憶體的AI硬體根本 “扛不動”,必須依賴叢集協作。
  2. 通訊開銷爆炸
    專家分佈在不同晶片上,資料傳輸耗時甚至超過計算時間,就像團隊成員頻繁開會溝通,效率大打折扣。
  3. 架構創新的 “甜蜜負擔”
    例如 “多頭隱式注意力機制(MLA)” 雖然壓縮了資料空間,卻導致中間變數激增,對晶片的計算能力提出更高要求。
面對這些挑戰,華為團隊從運算元、模型和框架三方面入手,基於昇騰硬體特性,開發了一整套面向叢集的大規模專家並行解決方案。
在硬體部署上,華為團隊根據不同硬體配置——CloudMatrix 384超節點和Atlas 800I A2推理伺服器,針對性地採取了不同的部署最佳化策略。為解耦Prefill和Decode階段的時延約束,昇騰採用PD分離部署方式。
在框架側,昇騰基於vLLM框架,適配DP和EP等多種並行策略,透過Prefill排程分桶、靈衢互聯與分層傳輸等技術來降低排程開銷,最佳化請求下發、排程策略等環節,提升系統性能。
在模型方面,昇騰採用A8W8C16量化策略,其中A8W8使用INT8,C16使用BF16,並針對不同機型進行差異化部署。

針對CloudMatrix 384超節點,其強大的組網能力大幅降低了通訊耗時,釋放了昇騰晶片的算力。
團隊採用大規模EP並行部署,Prefill使用16卡,Decode使用144卡,其中128卡部署路由專家,16卡部署共享專家,MLA部分採用DP部署。
儘管存在時延約束、頻寬搶佔、排程開銷、負載不均等因素影響,最終在50ms時延下,單卡decode吞吐達到1920 Token/s。
針對機群規模較小但部署更加靈活的Atlas 800I A2伺服器,華為團隊採用多節點互聯的方式進行部署。
作為示例,華為團隊使用2機16卡進行Prefill,4機32卡進行Decode,每卡部署8個路由專家和1個共享專家,MLA部分採用DP並行,並針對性地使用在真實負載下效能更優的AllGather/ReduceScatter的通訊方案。
透過各種策略最佳化,在100ms時延下,單卡吞吐達到808 Tokens/s。

還有更多最佳化技術

推理框架最佳化方面,針對高併發場景下單點API Server這一效能瓶頸,華為團隊設計了API Server橫向擴充套件方案,採用水平擴充套件技術提升框架的請求響應能力,顯著降低使用者請求延遲並提高整體服務吞吐量(QPS)。
針對MoE模型中的負載不均問題,基於動態調整專家部署與縮小通訊域、熱專家冗餘部署、即時排程與動態監控機制等核心技術,降低視訊記憶體佔用的同時實現動態負載均衡。
投機推理技術的工程化應用中,如何將其從小批次低時延場景擴充套件至高吞吐量場景,是行業面臨的共性難題。
華為團隊基於昇騰晶片高計算頻寬比的硬體特性,提出FusionSpec投機推理引擎,針對性最佳化多Token預測(MTP)場景下的推理效能:
  • 流程重構
    將投機模型後置於主體模型,直接複用主體模型的輸出結果與控制引數,大幅減少框架耗時,完美適配引數-資料分離(PD 分離)的分散式部署架構;
  • 輕量步間最佳化
    對投機推理場景中的框架和運算元最佳化實現了輕量步間準備,適配多核並行的全非同步框架。
通訊最佳化方面,華為昇騰也有三大妙招。
首先,針對主流張量並行(TP)方案中AllReduce通訊的固有缺陷(通訊次數多、資料量大、冗餘計算顯著),華為團隊推出FlashComm通訊方案,透過集合通訊邏輯重構與運算元位置編排,實現低位元、低維度資料通訊,在降低通訊時延的同時消除冗餘計算,最終實現25%通訊量的降低和10%推理效能的提升。
其次,在FlashComm基礎上,團隊進一步提出層內並行轉換方案,針對Prefill階段的MLA層,透過張量並行(TP)與資料並行(DP)的靈活轉換,消除節點內卡間求和操作,並利用網路低維特性與量化技術壓縮通訊資料量,顯著降低跨卡通訊時延,為大模型分散式推理提供更高效的通訊支撐。
第三,通訊方面的最佳化還有一個併發機制的深度挖掘,包括:
  • 計算通訊併發
    透過Gate函式計算與AllGather通訊的解耦,結合共享專家的資料並行(DP)策略,利用昇騰多流機制實現計算與通訊的併發執行,最大化硬體利用率;
  • 通訊通訊併發
    針對DeepSeek模型的量化場景,將啟用值與scale的傳輸任務並行處理,在不增加頻寬壓力的前提下掩蓋小資料量通訊的啟動開銷;
  • 通訊和權重預併發
    利用通訊階段HBM頻寬低佔用特性,提前將後續運算元權重預取至快取,降低計算階段的資料搬運開銷,實測MLA層計算效能提升10%。
最後,就是在運算元方面的優化了。華為團隊透過以數學補物理,發展了一系列的最佳化技術。
針對MLA運算元中間變數膨脹與計算量激增的挑戰,團隊開展硬體親和性最佳化:
  • 演算法重構:提出AMLA演算法,透過二進位制編碼與存內計算,將乘性計算轉換為加性等價形式,直接在全域性記憶體完成輸出更新,減少資料搬運耗時;
  • 快取策略:透過L1/L2快取精細化管理與K-buffer流水排布,提升快取命中率與計算效率,實現張量計算與向量計算的相互掩蓋;
  • 前序運算元融合:在Prefill與Decode階段分別採用雙流併發與運算元融合技術,結合權重預取、分塊策略及定製指令集最佳化,構建端到端高效計算鏈路。
MoE運算元方面的最佳化則包括:
  • 通算融合運算元:針對EP部署模式下MoE專家的跨卡排程難題,設計MoeDistributeDispatch/Combine運算元,透過 Token 粒度的流水排布與記憶體語義通訊技術,將通訊與計算並行化,減少卡間同步開銷;
  • SMTurbo-CPP技術:針對小資料量通訊效率問題,透過讀寫混合、聚合流水等硬體併發技術,提升AllToAll(v)運算元的吞吐能力,降低Dispatch/Combine場景時延;
  • 細粒度分級流水演算法:基於Atlas 800I A2組網特性,實現節點內/節點間的集合通訊併發執行,大幅提升叢集環境下的頻寬利用率。

效能創新高

在Decode效能測試方面,Atlas 800I A2所採用的方式是:
  • 序列長度為2K輸入+2K輸出和1K輸入+2K輸出兩種情況
  • 在使能MTP進行推理加速的情況下,由於不同測試資料集和業務場景的MTP接受率不同,效能測試結果會有比較大的偏差。因此在計算時延和吞吐的時候預設按照70%接受率來折算。
  • TPOT(Decode平均每Token時延)不超過100ms。
具體表現如下所示:
在Prefill上的測試方法是,單batch輸入序列長度為2K/1K,透過拼batch的方式拼成一共16K序列。對於序列長度是2K,共8 batch拼成一共16K序列的場景,端到端耗時為631ms,卡均吞吐為1622 Tokens/s。
具體表現如下圖所示:
在2025年4月,矽基流動聯合華為雲基於CloudMatrix 384超節點昇騰雲服務和高效能推理框架SiliconLLM,用大規模專家並行最佳實踐正式上線DeepSeek-R1。
該服務在保證單使用者20 TPS(等效50ms時延約束) 水平前提下,單卡Decode吞吐突破1920 Tokens/s,可比肩H100部署效能。
而也正如我們剛才提到的,昇騰在超大規模MoE模型推理部署的技術報告分享了出來了,想要更深入瞭解的小夥伴,可以在文末連結中自取哦(或點選文末【閱讀原文】)~

One More Thing

就在本週,華為昇騰還將舉辦一個技術披露周!
大家可以關注https://gitcode.com/ascend-tribe/ascend-inference-cluster/中每天的上新。
具體詳情放下面嘍,小夥伴們可以蹲一波了~
完整技術報告:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/%E5%8D%8E%E4%B8%BA%E6%98%87%E8%85%BE%E6%9C%8D%E5%8A%A1%E5%99%A8_DeepSeek_V3_R1_%E6%8E%A8%E7%90%86%E9%83%A8%E7%BD%B2%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.pdf
技術部落格:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/ascend-inference-cluster-overview.md
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章