

提醒:更新下載,已領請忽略!
伺服器基礎知識全解終極版(第二版)(共227頁),內容圖文並茂,由淺入深,介紹全面,是世面罕見的伺服器學習資料,內包括伺服器基礎知識、CPU、記憶體、GPU、硬碟、智慧網絡卡等9個章節。本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
—————— 正文開始 ——————
近期,華為公佈了AI基礎設施架構的新進展,推出全球最大規模超節點——基於昇騰 910C 打造的 CloudMatrix 384。華為內部人士稱其為核彈級的產品,或將徹底終結算力焦慮。未來,CloudMatrix超節點可以構建超過萬片的大叢集來提供算力。
據悉,華為CloudMatrix 384在規模、效能和可靠性上對標英偉達GB200 NVL72,並且在某些指標上比英偉達的機架級解決方案更為先進。其工程優勢體現在系統系統級創新,不僅限於晶片層面,更在網路架構、光互連技術和軟體堆疊實現了全方位突破。
儘管華為在晶片製程上落後一代,但其擴充套件解決方案可以說比英偉達、AMD 現有產品領先一代。那麼,華為CloudMatrix 384(CM384)的規格究竟如何?

CloudMatrix 384 由 384 顆昇騰 910C 晶片透過全連線拓撲結構互聯而成。這種設計透過規模效應實現效能躍升:儘管單顆昇騰晶片的效能僅為英偉達 Blackwell GPU 的三分之一,但五倍於後者的晶片數量足以彌補這一差距。
完整的 CloudMatrix 系統現在可以提供300 PFLOP 的密集型 BF16 計算能力,幾乎是 GB200 NVL72 的兩倍。其總記憶體容量超過後者 3.6 倍,記憶體頻寬提升 2.1 倍,標誌著華為及中國 AI 系統能力已全面躋身國際領先行列。
更重要的是,CM384 深度契合中國產業優勢,即依託國產網路裝置構建通訊基礎,透過自主基礎設施軟體保障系統可靠性,隨著良率持續提升,未來可擴充套件至更大規模叢集。
不過,這款產品也存在短板:其功耗達到 GB200 NVL72 的 3.9 倍,每 FLOP 計算功耗高出 2.3 倍,每 TB/s 記憶體頻寬功耗高 1.8 倍,每 TB HBM 視訊記憶體容量功耗亦高出 1.1 倍。不過這些尚未構成實質性技術瓶頸。
中國無能源之憂,唯矽基之困
西方業界的普遍觀點認為,人工智慧發展受限於電力供應,但在國內,情況卻恰恰相反。過去十年間,西方國家主要致力於將以煤炭為主的電力基礎設施轉向更環保的天然氣和可再生能源。而國內的情況截然不同:隨著生活水平提升和持續高強度投資,社會對電力產能的需求巨大。

中國能源結構仍以煤炭為主,但太陽能、水電、風電裝機規模全球領跑,核電部署亦處於加速期。反觀美國,其核電產能仍停滯在1970年代水平。簡單來說,美國升級和擴建能源網路的能力已逐漸喪失,而中國僅在 2011 年至今的十年間,就新增了相當於整個美國電網規模的發電能力。
當能源供給相對充裕時,設計中放棄追求功率密度、轉而透過規模擴張(包括採用光互連技術)來提升算力就成為合理選擇。CM384 系統的設計甚至考慮了機架外的系統級限制。
CloudMatrix 384系統架構
接下來我們將深入解析 CloudMatrix 384 的架構設計,包括Scale Up網路、Scale Out網路、功率預算和成本構成。
完整的 CloudMatrix 系統分佈在 16 個機架上,其中12個計算機架各部署32顆昇騰910C晶片(總計384顆)。在這 16 個機架中,有 4 個機架用於縱向擴充套件交換機。為實現超大規模算力叢集,華為採用跨多機架的Scale Up方案,為此華為不得不使用光學器件,像華為這樣透過全連線架構實現數百顆 GPU 的Scale Up並非易事。

與 DGX H100 NVL256“Ranger”的相似之處
早在 2022 年,英偉達曾釋出 DGX H100 NVL256 “Range” 平臺,但最終因成本過高、功耗超標,且受限於雙層網路架構所需的大量光模組導致可靠性問題,未能投入量產。反觀CloudMatrix Pod需要 6912 個 400G 低功耗光模組(LPO),其中絕大多數用於Scale Up網路。

CloudMatrix 384 Scale Up拓撲解析
核心引數
華為昇騰910C GPU的單向Scale Up頻寬達2800 Gbit/s,與英偉達GB200 NVL72單GPU的7200 Gbit/s頻寬處於同級別技術梯隊。它們在連線方案上呈現顯著差異:英偉達NVL72依賴高密度直連銅纜構建Scale Up網路,華為則採用為每GPU部署7個400G光收發器,以堆疊方式達成2800 Gbit/s的Scale Up頻寬。這種方案雖在成本控制、功耗最佳化及工程實現(氣流管理、安裝維護便利性)方面存在顯著挑戰,但確保了功能指標的達成。
其Scale Up網路採用單層架構實現全GPU互聯,依託16800臺模組化交換機構建單層扁平化拓撲。這些交換機整合華為自研線卡與交換矩陣平面,其資料包噴灑機制類似於博通Jericho3線卡與Arista模組化交換機內Ramon3交換矩陣卡的組合方案。
Scale Up光互聯與無銅設計
部署5000個光模組用於Scale Up時,系統可靠性成為首要挑戰,需配備高質量容錯訓練軟體以應對大規模光模組的潛在故障。
每個CloudMatrix 384 Pod共配置6912個400G光模組/收發器,其中5376個用於Scale Up網路,1536個用於Scale Out網路。單個Pod包含384顆昇騰910C晶片,單晶片Scale Up頻寬達2.8 Tbps,需配置7個400G收發器。384顆GPU總計需384×7=2688個收發器。因採用單層扁平化拓撲,交換機側需映象部署同等數量的光收發器,最終形成 5376 個 400G 收發器(384×7×2)。
成本分析表明,若採用單價低於200美元的400G LPO光模組(功耗約6.5W),Scale Up網路的總體擁有成本(TCO)約為NVL72機架的6倍,功耗更是超過10倍。即便按單GPU維度比較,CloudMatrix方案雖與NVL72成本相當,但功耗是其2倍,而理論算力是後者的30%。

CloudMatrix 384 Scale Out拓撲
CloudMatrix 384採用雙層八軌最佳化拓撲架構。每臺Scale Out的CloudEngine模組化交換機配備768個400G埠,其中384個埠向下連線384個GPU,剩餘 384 個埠向上互聯。
GPU側需384個400G收發器(每GPU配1個);Leaf層因需將半數埠用於上行連線(GPU與Spine層),收發器數量需翻倍。因此,Scale Out網路共需1536(384×4)個400G收發器。
LPO Transceivers
在降低叢集功耗方面,華為採用線性可插拔光模組(LPO)進行光傳輸。LPO 技術透過革新訊號傳輸機制,省略傳統光模組中必需的數字訊號處理器(DSP),直接將電訊號由主機端驅動至光器件進行調製傳輸,從而規避了傳統方案中 “模擬訊號→數字訊號(時序校準 / 恢復)→模擬訊號” 的雙向轉換損耗。
此舉簡化了模組設計,降低30%以上功耗及成本。然而,因需部署大量收發器,CloudMatrix384叢集整體功耗仍顯著高於NVL72。
Chip Level
華為昇騰910B與910C加速器代表了國產GPU的最高水平,在外部技術約束下仍實現了突破性效能表現。但單晶片層面,其效能仍不及英偉達產品。作為 910B 的迭代產品,昇騰 910C 透過 2.5D 封裝技術將兩顆 910B 晶片的中介層(Interposer)集成於單一基板,實現單晶片計算效能與記憶體頻寬的翻倍提升。

系統級功耗預算
由於Scale Up與Scale Out網路大規模採用光收發器,CloudMatrix 384叢集功耗極高。SemiAnalysis估算單個CM384超級節點功耗接近500千瓦,是英偉達GB200 NVL72機架的4倍以上。

單GPU能效對比
從單顆GPU維度看,華為GPU的整體功耗約為英偉達NVL72中B200 GPU的70%-80%。就超級節點整體效能而言,華為的FLOPS比NVL72高出70%,但其架構設計導致每FLOP能耗高出2.3倍;每TB/s記憶體頻寬能耗高出1.8倍;每TB HBM記憶體容量能耗高出1.1倍。

來源:SDNLAB
原文連結:
https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
昇騰920晶片 vs. 英偉達晶片:技術、架構革新與生態博弈 -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

