華為盤古大模型開源,推理方案、基礎程式碼全公開!

整理|華衛
今日,華為正式宣佈開源盤古 70 億引數的稠密模型、盤古 Pro MoE 720 億引數的混合專家模型和基於昇騰的模型推理技術。華為表示,“此舉是華為踐行昇騰生態戰略的又一關鍵舉措,推動大模型技術的研究與創新發展,加速推進人工智慧在千行百業的應用與價值創造。”
根據華為官網顯示:
  • 盤古 Pro MoE 72B 模型權重、基礎推理程式碼,已正式上線開源平臺。
  • 基於昇騰的超大規模 MoE 模型推理程式碼,已正式上線開源平臺。
  • 盤古 7B 相關模型權重與推理程式碼將於近期上線開源平臺。
開源地址:https://gitcode.com/ascend-tribe
盤古 Pro MoE:
昇騰原生的分組混合專家模型
盤古 Pro MoE 模型基於分組混合專家模型(Mixture of Grouped Experts, MoGE)架構構建,總引數量為 720 億、啟用引數量達 160 億,並針對昇騰 300I Duo 和 800I A2 平臺進行系統最佳化。
其中,MoGE 是華為提出的創新架構,旨在從路由機制上實現跨裝置的計算負載均衡。
混合專家模型(MoE)在大語言模型(LLMs)中逐漸興起,該架構能夠以較低計算成本支援更大規模的引數,從而獲得更強的表達能力。這一優勢源於其稀疏啟用機制的設計特點,即每個輸入 token 僅需啟用部分引數即可完成計算。然而,在實際部署中,不同專家的啟用頻率存在嚴重的不均衡問題,一部分專家被過度呼叫,而其他專家則長期閒置,導致系統效率低下。

MoGE 架構設計示意圖
而 MoGE 的核心思想是在專家選擇階段對專家進行分組,並約束 token 在每個組內啟用等量專家,在典型的分散式部署中,每個專家分組對應獨立的計算裝置,從而 MoGE 天然地實現了跨裝置的計算負載均衡,這一設計顯著提升了訓練和推理場景下的系統吞吐量。
據介紹,盤古 Pro MoE 在昇騰 800I A2 上實現了單卡 1148 tokens/s 的推理吞吐效能,並可進一步透過投機加速等技術提升至 1528 tokens/s,顯著優於同等規模的 320 億和 720 億引數的稠密模型;在昇騰 300I Duo 推理伺服器上,其也實現了極具價效比的模型推理方案。
另華為的研究表明,昇騰 NPU 能夠支援盤古 Pro MoE 的大規模並行訓練。多項公開基準測試結果表明,盤古 Pro MoE 在千億內總引數模型中處於領先地位。
超大規模 MoE 模型的
推理部署方案
在 2025 年新年致辭中,華為輪值董事長孟晚舟曾提到:“華為十多個實驗室與合作伙伴的工程師組成團隊,面對天成 AI 集群系統和單晶片效能的工程挑戰,應用了數學補物理、非摩爾補摩爾、系統補單點等思想,在散熱、供電、高速、高密及大晶片在板可靠性等工程領域進行突破。”
當前,華為公佈並開源相關程式碼的昇騰超大規模 MoE 模型推理部署方案,正是沿著這一思路,包括以下幾個方面的核心技術能力:
  • 從點到面的推理框架側最佳化技術
  • 把數學最優實現變為物理最優的 FlashComm 通算最佳化技術
  • 把序列計算變成四流併發的通算極致掩蓋技術
  • 以加法代乘法昇騰 MLA 最優實現
  • 硬體感知親和的大量創新運算元
其中,OmniPlacement 是一種高效負載均衡演算法,透過專家重排、層間冗餘部署和近即時排程,在 3 個 token 推理步驟內實現近 90% 的專家均衡,大幅提升 MoE 推理效能。
在大模型推理最佳化領域,投機推理作為一種極具潛力的技術路徑,透過引入輕量模型或外部知識資料,為大模型生成推理草稿,解碼階段一次推理多個 token,提升了計算密度。以 DeepSeek V3/R1 模型為例,其創新性地引入 MTP(Multi-Token Prediction)投機層,有效實現了投機推理技術的落地。投機推理在模型解碼階段的高計算密度天然匹配昇騰高算力頻寬比的特點,為充分發揮這一優勢,在低時延大併發場景下實現高吞吐,華為提出了投機推理框架 FusionSpec,持續提升 MTP 在昇騰上的推理效能,並使得 MTP 部分框架耗時從 10ms 左右降為 1ms。
OptiQuant 是一個基於華為昇騰晶片模型量化演算法的精度解決方案,設計了層間自動混精、自動混合校準、離群值抑制、可學習的截斷和 SSZW 引數量化演算法,在 DeepSeek R1/V3 大模型推理場景中,實現了 INT8 量化模式與 FP8 的模型推理精度持平,而且進一步發揮了 Atlas 800I A2 和 CloudMatrix384 叢集推理硬體效能。
FlashComm 系列技術透過三大創新實現“以數學補物理”的突破,用於解決大模型推理過程中面臨的通訊瓶頸:
  • FlashComm: 大模型推理中的 AllReduce 通訊最佳化技術。將 AllReduce 基於通訊原理進行拆解,並結合後續計算模組進行協同最佳化。
  • FlashComm2:大模型推理中以存換傳的通訊最佳化技術。在保持計算語義等價的前提下,實現 ReduceScatter 和 MatMul 運算元的計算流程重構。
  • FlashComm3: 大模型推理中的多流並行技術。充分挖掘昇騰硬體的多流併發能力,實現 MoE 模組的高效並行推理。
在熱門開源模型的實測中,FlashComm 技術展現出驚人的工程落地能力:在 Atlas 800I A2 上用兩節點 16 卡部署 DeepSeekV3/R1 的場景下,採用 FlashComm 通訊方案,Prefill 階段端到端時延減少了 22%~26%。在 Atlas 800I A2 上採用單節點 8 卡部署 Llama 3.1-70B 的 A8W8 量化模型時,採用 FlashComm 通訊方案,在不同併發下,Decode 階段端到端時延減少了 4% 至 14%。
隨著大語言模型的引數規模持續擴大,其推理過程對計算資源的需求持續增加,部署模式已從單卡演進到單節點再逐步演進為多卡多節點協同計算。在此過程中,華為希望透過最佳化一系列關鍵運算元來提升硬體效率:
  • AMLA:以加代乘的高效能昇騰 MLA 運算元。針對昇騰最佳化 MLA 運算元,效能優於 FlashMLA 實現。
  • 大模型推理中昇騰運算元融合技術與設計原理。首次披露了基於昇騰的融合運算元的設計原則。
  • SMTurbo:面向高效能原生 LoadStore 語義加速。介紹了基於 CloudMatrix384 叢集的 Load/Store 語義加速方案。
此外,華為圍繞盤古模型和昇騰平臺開展軟硬協同系統最佳化,在系統側構建 H2P 分層混合並行最佳化、TopoComm 拓撲親和通訊最佳化、DuoStream 多流融合通算掩蓋等技術,實現最優分散式並行推理提高計算效率;在運算元側設計開發 MulAttention 融合計算、SwiftGMM 融合計算、MerRouter 融合計算等運算元融合技術,充分釋放昇騰晶片的算力。基於上述昇騰親和的系統最佳化,Pangu Pro MoE 的推理效能提升 6~8×。
   7B 模型優於 Qwen,
靈活切換快慢思考
當前,為追求卓越推理能力而設計的大語言模型(LLM)普遍面臨著巨大的計算成本和推理延遲挑戰,這限制了它們的實際應用與部署。為此,華為提出了 盤古 Embedded,一個在昇騰(Ascend)NPU 上開發的高效大語言模型推理器。
其核心是一個具備“快思慢想”(fast and slow thinking)能力的雙系統框架。該框架透過一個用於常規請求的“快思考”模式和一個用於複雜推理的“慢思考”模式,在延遲和推理深度之間實現了精妙的平衡。此外,模型具備元認知能力,能夠根據任務複雜度自動選擇最優模式。我們透過一個創新的兩階段訓練框架構建此模型,該框架融合了迭代蒸餾、模型合併以及由多源自適應獎勵系統(MARS)引導的強化學習。
基於該雙系統框架,華為構建了 盤古 Embedded 7B 模型,並在昇騰 NPU 平臺上進行了深度系統最佳化。該模型在單一、統一的架構內實現了快速響應和高質量推理的靈活切換。
華為的研究表明,僅有 70 億引數的盤古 Embedded 在多個權威的複雜推理基準測試中(如 AIME, GPQA 等),其表現優於 Qwen3-8B 和 GLM4-9B 等規模相近的業界領先模型。
參考連結:
https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/FlashComm%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E7%9A%84AllReduce%E9%80%9A%E4%BF%A1%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF.pdf
https://arxiv.org/pdf/2505.22375
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
首屆 AICon 全球人工智慧開發與應用大會(深圳站)將於 8 月 22-23 日正式舉行!本次大會以 “探索 AI 應用邊界” 為主題,聚焦 Agent、多模態、AI 產品設計等熱門方向,圍繞企業如何透過大模型降低成本、提升經營效率的實際應用案例,邀請來自頭部企業、大廠以及明星創業公司的專家,帶來一線的大模型實踐經驗和前沿洞察。一起探索 AI 應用的更多可能,發掘 AI 驅動業務增長的新路徑!
今日薦文
你也「在看」嗎?👇

相關文章