華為+DeepSeek，推理效能創新高！技術報告也公佈出來了

金磊發自凹非寺量子位 | 公眾號 QbitAI

部署超大規模MoE這件事，國產晶片的推理效能，已經再創新高了——

不僅是“英偉達含量為0”這麼簡單，更是效能全面超越英偉達Hopper架構！

而做到這一點的，正是華為昇騰；具體而言，共包含兩個產品：

CloudMatrix 384超節點

部署DeepSeek V3/R1，在50ms時延約束下單卡Decode吞吐突破1920 Tokens/s
Atlas 800I A2推理伺服器

部署DeepSeek V3/R1，在100ms時延約束下單卡吞吐達到808 Tokens/s，可支援靈活的分散式部署

之所以能夠這般，是因為華為昇騰所採取的“以數學補物理”——這種透過數學理論、工具、演算法和建模等方式，來彌補硬體和工藝的侷限性，實現最大化發揮晶片和系統能力效果。

華為昇騰還不只是“官宣”一下而已，後面更會是全面開源。

不僅已經將昇騰在超大規模MoE模型推理部署的技術報告分享了出來，在一個月時間內，還會把實現這些核心技術的相關程式碼也都會陸續開源出來。

那麼接下來，我們就來深入瞭解一下華為昇騰背後的技術實力。

在華為昇騰上推理DeepSeek

在深挖華為昇騰背後技術創新之前，我們且需瞭解一下為什麼要這麼做。

從2017年Google提出的Transformer架構，到2025年DeepSeek V3/R1的爆紅，大語言模型的重心正在從訓練開發轉向推理應用落地。

推理能力不僅是大模型能力的“試金石”，各大企業已從 “拼模型引數” 轉向 “拼推理效率”：

誰能讓大模型在實際應用中跑得更快、更穩、更省資源，誰就能在商業化浪潮中搶佔先機。

然而，以6710億引數的DeepSeek V3為例，這類超大規模MoE模型雖然強大，卻給硬體帶來三大 “成長煩惱”：

記憶體壓力山大

一個模型包含257個專家，每個專家 “體重” 2.5G，普通64GB記憶體的AI硬體根本 “扛不動”，必須依賴叢集協作。
通訊開銷爆炸

專家分佈在不同晶片上，資料傳輸耗時甚至超過計算時間，就像團隊成員頻繁開會溝通，效率大打折扣。
架構創新的 “甜蜜負擔”

例如 “多頭隱式注意力機制（MLA）” 雖然壓縮了資料空間，卻導致中間變數激增，對晶片的計算能力提出更高要求。

面對這些挑戰，華為團隊從運算元、模型和框架三方面入手，基於昇騰硬體特性，開發了一整套面向叢集的大規模專家並行解決方案。

在硬體部署上，華為團隊根據不同硬體配置——CloudMatrix 384超節點和Atlas 800I A2推理伺服器，針對性地採取了不同的部署最佳化策略。為解耦Prefill和Decode階段的時延約束，昇騰採用PD分離部署方式。

在框架側，昇騰基於vLLM框架，適配DP和EP等多種並行策略，透過Prefill排程分桶、靈衢互聯與分層傳輸等技術來降低排程開銷，最佳化請求下發、排程策略等環節，提升系統性能。

在模型方面，昇騰採用A8W8C16量化策略，其中A8W8使用INT8，C16使用BF16，並針對不同機型進行差異化部署。

針對CloudMatrix 384超節點，其強大的組網能力大幅降低了通訊耗時，釋放了昇騰晶片的算力。

團隊採用大規模EP並行部署，Prefill使用16卡，Decode使用144卡，其中128卡部署路由專家，16卡部署共享專家，MLA部分採用DP部署。

儘管存在時延約束、頻寬搶佔、排程開銷、負載不均等因素影響，最終在50ms時延下，單卡decode吞吐達到1920 Token/s。

針對機群規模較小但部署更加靈活的Atlas 800I A2伺服器，華為團隊採用多節點互聯的方式進行部署。

作為示例，華為團隊使用2機16卡進行Prefill，4機32卡進行Decode，每卡部署8個路由專家和1個共享專家，MLA部分採用DP並行，並針對性地使用在真實負載下效能更優的AllGather/ReduceScatter的通訊方案。

透過各種策略最佳化，在100ms時延下，單卡吞吐達到808 Tokens/s。

還有更多最佳化技術

在推理框架最佳化方面，針對高併發場景下單點API Server這一效能瓶頸，華為團隊設計了API Server橫向擴充套件方案，採用水平擴充套件技術提升框架的請求響應能力，顯著降低使用者請求延遲並提高整體服務吞吐量（QPS）。

針對MoE模型中的負載不均問題，基於動態調整專家部署與縮小通訊域、熱專家冗餘部署、即時排程與動態監控機制等核心技術，降低視訊記憶體佔用的同時實現動態負載均衡。

在投機推理技術的工程化應用中，如何將其從小批次低時延場景擴充套件至高吞吐量場景，是行業面臨的共性難題。

華為團隊基於昇騰晶片高計算頻寬比的硬體特性，提出FusionSpec投機推理引擎，針對性最佳化多Token預測（MTP）場景下的推理效能：

流程重構

將投機模型後置於主體模型，直接複用主體模型的輸出結果與控制引數，大幅減少框架耗時，完美適配引數-資料分離（PD 分離）的分散式部署架構；
輕量步間最佳化

對投機推理場景中的框架和運算元最佳化實現了輕量步間準備，適配多核並行的全非同步框架。

在通訊最佳化方面，華為昇騰也有三大妙招。

首先，針對主流張量並行（TP）方案中AllReduce通訊的固有缺陷（通訊次數多、資料量大、冗餘計算顯著），華為團隊推出FlashComm通訊方案，透過集合通訊邏輯重構與運算元位置編排，實現低位元、低維度資料通訊，在降低通訊時延的同時消除冗餘計算，最終實現25%通訊量的降低和10%推理效能的提升。

其次，在FlashComm基礎上，團隊進一步提出層內並行轉換方案，針對Prefill階段的MLA層，透過張量並行（TP）與資料並行（DP）的靈活轉換，消除節點內卡間求和操作，並利用網路低維特性與量化技術壓縮通訊資料量，顯著降低跨卡通訊時延，為大模型分散式推理提供更高效的通訊支撐。

第三，通訊方面的最佳化還有一個併發機制的深度挖掘，包括：

計算通訊併發

透過Gate函式計算與AllGather通訊的解耦，結合共享專家的資料並行（DP）策略，利用昇騰多流機制實現計算與通訊的併發執行，最大化硬體利用率；
通訊通訊併發

針對DeepSeek模型的量化場景，將啟用值與scale的傳輸任務並行處理，在不增加頻寬壓力的前提下掩蓋小資料量通訊的啟動開銷；
通訊和權重預併發

利用通訊階段HBM頻寬低佔用特性，提前將後續運算元權重預取至快取，降低計算階段的資料搬運開銷，實測MLA層計算效能提升10%。

最後，就是在運算元方面的優化了。華為團隊透過以數學補物理，發展了一系列的最佳化技術。

針對MLA運算元中間變數膨脹與計算量激增的挑戰，團隊開展硬體親和性最佳化：

演算法重構：提出AMLA演算法，透過二進位制編碼與存內計算，將乘性計算轉換為加性等價形式，直接在全域性記憶體完成輸出更新，減少資料搬運耗時；
快取策略：透過L1/L2快取精細化管理與K-buffer流水排布，提升快取命中率與計算效率，實現張量計算與向量計算的相互掩蓋；
前序運算元融合：在Prefill與Decode階段分別採用雙流併發與運算元融合技術，結合權重預取、分塊策略及定製指令集最佳化，構建端到端高效計算鏈路。

MoE運算元方面的最佳化則包括：

通算融合運算元：針對EP部署模式下MoE專家的跨卡排程難題，設計MoeDistributeDispatch/Combine運算元，透過 Token 粒度的流水排布與記憶體語義通訊技術，將通訊與計算並行化，減少卡間同步開銷；
SMTurbo-CPP技術：針對小資料量通訊效率問題，透過讀寫混合、聚合流水等硬體併發技術，提升AllToAll(v)運算元的吞吐能力，降低Dispatch/Combine場景時延；
細粒度分級流水演算法：基於Atlas 800I A2組網特性，實現節點內/節點間的集合通訊併發執行，大幅提升叢集環境下的頻寬利用率。

效能創新高

在Decode效能測試方面，Atlas 800I A2所採用的方式是：

序列長度為2K輸入+2K輸出和1K輸入+2K輸出兩種情況
在使能MTP進行推理加速的情況下，由於不同測試資料集和業務場景的MTP接受率不同，效能測試結果會有比較大的偏差。因此在計算時延和吞吐的時候預設按照70%接受率來折算。
TPOT（Decode平均每Token時延）不超過100ms。

具體表現如下所示：

在Prefill上的測試方法是，單batch輸入序列長度為2K/1K，透過拼batch的方式拼成一共16K序列。對於序列長度是2K，共8 batch拼成一共16K序列的場景，端到端耗時為631ms，卡均吞吐為1622 Tokens/s。

具體表現如下圖所示：

在2025年4月，矽基流動聯合華為雲基於CloudMatrix 384超節點昇騰雲服務和高效能推理框架SiliconLLM，用大規模專家並行最佳實踐正式上線DeepSeek-R1。

該服務在保證單使用者20 TPS(等效50ms時延約束) 水平前提下，單卡Decode吞吐突破1920 Tokens/s，可比肩H100部署效能。

而也正如我們剛才提到的，昇騰在超大規模MoE模型推理部署的技術報告分享了出來了，想要更深入瞭解的小夥伴，可以在文末連結中自取哦（或點選文末【閱讀原文】）~

One More Thing

就在本週，華為昇騰還將舉辦一個技術披露周！

大家可以關注https://gitcode.com/ascend-tribe/ascend-inference-cluster/中每天的上新。

具體詳情放下面嘍，小夥伴們可以蹲一波了~

完整技術報告：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/%E5%8D%8E%E4%B8%BA%E6%98%87%E8%85%BE%E6%9C%8D%E5%8A%A1%E5%99%A8_DeepSeek_V3_R1_%E6%8E%A8%E7%90%86%E9%83%A8%E7%BD%B2%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.pdf

技術部落格：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/Overview/ascend-inference-cluster-overview.md

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見