
“模型開發已經從早期的演算法層最佳化,轉向系統工程層面的深度創新。”華為技術專家說道。
如今已經從數字化時代的位元流量轉向 Token 經濟體系。國內 Token 日消耗量從千億級躍升至十萬億級,DeepSeek 等頭部平臺日均處理 6000 億 Token 的實踐,驗證了高吞吐、低時延系統的商業價值。
同時,隨著模型結構從單一架構探索發展為多模態融合創新,大模型的驅動部署模式發生根本轉變。傳統單卡部署已無法滿足大模型高吞吐、高併發的需求,分散式叢集部署成為新常態。以 ChatGPT 和 DeepSeek 為例,使用者規模突破億級的時間從 1 個月壓縮至 7 天,倒逼系統處理能力實現數量級提升。如何提供更高的吞吐能力、更低的時延成為系統,成為各基礎設施廠商的必做題。
DeepSeek 本身已經在 infra 層做了很多最佳化,但在企業部署過程中,華為自己也針對 DeepSeek 的模型做了各種最佳化,幫助企業全面相容和支援應用。
在鯤鵬昇騰開發者大會 2025(KADC2025)舉辦前,華為技術專家向 InfoQ 介紹了其為 DeepSeek 做的調優工作。總體來看,華為針對 DeepSeek 的最佳化主要包括下面三個方面:
-
運算元層面:實現瞭如 MRN 的 PO 融合運算元,提升運算元執行效率;
-
計算與通訊最佳化:進行了低時延通訊最佳化,實現了雙鏈路通訊掩蓋;
-
在計算並行方面,支援多專家並行的動態負載均衡,這專家越多、越細粒度,資源排程的複雜性就越高,華為重點優化了如何將計算資源動態、均衡地分配給不同專家,避免資源一邊空閒一邊過載的情況。
這些既是對 DeepSeek 最佳化路徑的延續和相容,也是在其基礎上的進一步突破。雖然是對 DeepSeek 的最佳化,但在模型架構沒有發生大的變化的前提下都可以複用。華為團隊也表示,會隨著大模型架構演進同時跟進,比如 Qwen3 的調優部署等,同時增加對新技術、新框架、新架構的儲備。
從整體看,華為的大模型訓推底層最佳化策劃也基本是圍繞上述方面展開的。
預訓練方面,華為首先完整復現了幻方的 DualPipe 技術(僅開源了框架,沒有開原始碼),但該方案存在靜態視訊記憶體佔用較高的問題。然後,團隊基於 VirtualPipe 改進的流水方案,透過 warm-up 多個 micro-batches,實現前後向交織通訊掩蓋,同時節省一份靜態權重視訊記憶體。但該方案繼承了 VirtualPipe 的缺陷,即多了一個不小的啟用值記憶體。最後,團隊給出了 DualPipe-V 方案,進一步最佳化視訊記憶體使用,是靜態與動態視訊記憶體佔用最小的方案,已整合至 MindSeed。

記憶體最佳化方面,華為自研了重計算技術。不同於 PyTorch 的 checkpoint 機制,後者無法清除輸出啟用值,重計算技術方案則能清除這部分啟用值,適用於計算量小但啟用值大的操作(如 LayerNorm),可節省多個 GB 視訊記憶體。具體做法是在 FC 層輸出掛載 hook,在前向階段清除啟用值,反向階段觸發 hook 重計算。
系統架構方面,華為也提出並實現業界當前常用的 PD(Prompt Decoder)分離部署。推理過程中,首 token 的生成(Profile 階段)對計算資源的消耗極大,因為需要對所有輸入資料進行完整計算;而之後的 token 生成階段則更多依賴儲存和頻寬。透過 PD 分離部署和 PD 最佳化,來降低了首 token 的延遲並提升整體推理效率。
同時,面對應用日益廣泛的 MOE 架構,華為也做了針對性的底層最佳化。
MOE 架構的核心特點是引入了大量的專家模組和複雜的路由機制。在早期,單個模型中包含幾十個、上百個專家已經算是規模較大的設計。但隨著 MOE 架構的不斷發展與最佳化,主流模型在不斷擴充套件專家數量,DeepSeek V3/R1 已經有 288 個專家,未來專家數量可能還會進一步提升。
這個背景下,模型處理的核心挑戰轉向瞭如何高效地將這些專家模組分佈到多張 GPU 卡上。
傳統方案通常在不同節點之間進行專家通訊,但這引入了通訊瓶頸。以現有主流通訊能力為例,基於原來的 Rookie,單鏈路頻寬最大約為 400Gbps,雙向頻寬為 800Gbps,這樣的通訊能力已遠遠無法滿足 MOE 模型越來越多專家帶來的頻寬需求。
為解決這一瓶頸,華為研發了新的“超節點”架構:透過高速匯流排將上百張 GPU 卡互聯成一個超大節點,所有專家模組被合理地分佈在這些卡上執行。卡與卡之間透過高速匯流排互聯,其中高速匯流排頻寬遠高於傳統乙太網通訊,從而顯著減少了通訊時延,提升訓練吞吐率。採用匯流排互聯的技術實現統一記憶體編輯、統一記憶體語義通訊,通訊機制更加接近語義層面的協同處理,這是整個架構上的創新機制。團隊還做成了 MRN OP 大融合運算元,透過雙流通訊掩蓋、並行通訊以及原來的 HCCI 效能提升,從多個維度進行通訊最佳化。
值得注意的是,超節點結構是通用的,只是更親和 MOE 架構。
另外,基於超節點,針對大模型訓練的負載特徵,華為還自上而下設計了 AI 的智算叢集 Atlas 900 A3 SuperCluster。該叢集在測試中突破 Scale up 物理節點計算瓶頸,讓成百上千個 NPU 以 TB 級頻寬超高速互聯、記憶體統一編址。透過算、網、存等跨域技術協同,進一步提升 Scale Out 的叢集計算效率和可靠性。據悉,Atlas 900 A3 Super Cluster 的平均無故障執行時長從幾小時提升到幾天,訓練效率也提升了 2.7 倍。
目前,華為已在 A3 超節點叢集(256 卡)上完成了對 DeepSeek V3 的訓練最佳化,達到了每卡 1,216 TPS 的吞吐率,MFU 可達 44.57%。值得注意的是,這一成績是在 B16 精度模式下完成的,若使用 FP8 模式,效能還將進一步提升。
據瞭解,華為團隊在過去兩個月內已經將推理效率提升了近 20 倍。實現這一增長的核心技術包括:引入動態專家並行策略,取代傳統張量並行,規避張量並行階段由路由計算量膨脹帶來的視訊記憶體和計算浪費;引入資料並行,相對張量並行,可以解決 DeepSeek MoE 架構中的 KV Cache 跨卡複製問題;提供長序列並行策略,提升在長序列場景下的推理能力。
華為是最早提出“大規模專家並行(大 EP)方案”的團隊之一。目前,無論是頭部大模型的網際網路場景,還是部分運營商場景,大 EP 方案都已開始落地應用。
但專家並行並非是一本萬利的,還會帶來負載均衡方面的挑戰。華為團隊透過靜態、分段及動態均衡負載演算法,重新對專家按照負載進行排序,達到削峰填谷的目的,以保障在推理階段各個卡上專家所處理 token 數量近似,很大程度上規避負載不均衡問題。

近日,華為釋出了 OmniPlacement 演算法,透過分析專家啟用資料來識別熱 / 冷專家,並提出基於計算均衡的最佳化演算法。其特點包括:
-
動態優先順序調整,即時統計專家呼叫頻率,優先將高頻專家部署到強計算節點。
-
通訊最佳化:分析批次啟用模式,減少跨節點通訊延遲。
-
層間差異化部署:根據各層負載特性,靈活配置專家部署策略。
官方介紹,相較 DeepSeek 的 EPLB 演算法,OmniPlacement 在動態適應性、理論收斂性和高併發場景下表現更優,顯著提升資源利用率。在昇騰平臺測試中,OmniPlacement 在理論上可降低約 10% 推理延遲,提升 10% 吞吐量。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
