

提醒:更新下載,已領請忽略!
《伺服器基礎知識全解終極版(第二版)》、SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。由於打包資料持續增加,考慮已買讀者權益價格也即將會隨之上漲,因此,買的早就是優勢。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
快閃記憶體技術、產品和發展趨勢全面解析(第二版)
Infiniband架構和技術實戰(第二版)
知識全解系列
(持續更新中…)
隨著 AI 模型規模持續擴大,單 GPU 訓練已不再可行。當前行業的核心挑戰在於如何將數百甚至數千顆 GPU 互連,構建出像單一系統般協同工作的超級計算系統。英偉達的 DGX SuperPOD 是面向資料中心的下一代 AI 架構,旨在為 AI 模型訓練、推理、高效能計算(HPC)及混合工作負載提供所需算力,在提升預測精度的同時縮短部署週期。本文將深入解析英偉達三代 GPU 互連架構:H100、GH200 與 GB200。
基於 H100 構建 256-GPU SuperPod
在 DGX A100 時代,每個計算節點包含 8 顆 GPU,節點內透過 NVLink 和 NVSwitch 實現互連,而節點間通訊(跨伺服器)則依賴 200Gbps 速率的 InfiniBand(IB)HDR 網路(注:也可替換為 RoCE 網路)。
到了 DGX H100 階段,英偉達將 NVLink 技術從節點內通訊拓展至節點間,推出NVLink 網路交換機。在單個節點內部,NVSwitch 負責處理 GPU 間的本地流量;節點間通訊則由 NVLink 網路交換機接管,這種設計使得 SuperPOD 能夠支援最多 256 顆 H100 GPU 的叢集規模。即使跨 256 顆 GPU 執行資料歸約操作,頻寬仍可達 450 GB/s,與單伺服器內的頻寬水平保持一致。

儘管 H100 SuperPOD 實現了跨節點互連的突破,但其網路架構仍存在限制:DGX H100 節點間僅透過 72 條 NVLink 鏈路連線,導致整個 SuperPOD 網路並非完全無阻塞。
如圖所示,在 DGX H100 系統中,4 個 NVSwitch 僅能為節點間通訊提供 72 條 NVLink 連線。這些鏈路的總雙向頻寬為 3.6TB/s,而 8 顆 H100 GPU 的總雙向頻寬可達 7.2TB/s,這意味著在 NVSwitch 層面存在頻寬資源的超額分配,形成潛在的通訊瓶頸。


基於 H100 的 256-GPU SuperPod
基於GH200和GH200 NVL32 構建 256-GPU SuperPod
2023 年,英偉達宣佈量產其生成式 AI 引擎 DGX GH200。該系統將 H200 GPU(與 H100 的主要差異在於視訊記憶體容量和頻寬)與 Grace CPU 深度整合,實現1 顆 Grace CPU 與 1 顆 H200 GPU 的一一配對。除 GPU 間的 NVLink 4.0 連線外,GH200 還透過 NVLink 4.0 實現 CPU 與 GPU 的高速互連,單鏈路頻寬達 900GB/s,為算力釋放奠定基礎。

在硬體部署層面,GH200 伺服器節點內採用銅纜連線,節點間則依賴光纖通訊。以 256-GPU 規模的 GH200 叢集為例,每顆 GH200 配備 9 個 800Gbps 光模組,每個模組透過兩條 NVLink 4.0 鏈路實現 100GB/s 的頻寬傳輸能力。
DGX GH200 SuperPod 與前代 H100 SuperPod 的核心差異在於:節點內與節點間通訊均採用 NVLink 網路交換機,構建全鏈路高速互連體系。
DGX GH200 節點採用兩層 Fat-tree 架構,每個節點由 8 個 GH200 GPU 和 3 個 NVLink 網路交換機組成,位於第一層。當擴充套件至 256-GPU 規模時,需新增第二層 36 個 NVLink 網路交換機,以確保完全無阻塞的網路。

基於 GH200 的 256-GPU SuperPod
針對機架級叢集最佳化的 GH200 NVL32 方案,單個機架整合 32 顆 GH200 GPU 與 9 個 NVSwitch 托盤(每個托盤包含 2 顆 NVSwitch 晶片)。256 塊 GPU 的 GH200 NVL32 系統需要額外部署36 個第一層 NVLink 網路交換機才能組成 SuperPod。

基於 GB200 NVL72 構建 576-GPU SuperPod
與 GH200 不同,GB200 集成了一個 Grace CPU 和兩個 Blackwell GPU(注:每個 Blackwell GPU 的效能並不完全匹配單個 B200 GPU)。GB200 計算托盤基於英偉達的 MGX 架構設計,每個托盤包含兩個 GB200 模組,相當於兩個 Grace CPU 和四個 GPU。

一個 GB200 NVL72 節點包含 18 個 GB200 計算托盤(36 個 Grace CPU 和 72 個 GPU),以及 9 個 NVLink 網路交換機托盤。每個 Blackwell GPU 配備 18 個 NVLink 連線,而每個 NVLink 網路交換機托盤則配備 144 個 NVLink 埠。因此,需要 9 個 NVLink 網路交換機托盤才能為 72 個 GPU 建立完整的連線。

GB200 NVL72的內部拓撲
根據英偉達官方文件,8個GB200 NVL72單元可以組成一個SuperPod,從而實現576個GPU的超級計算節點。
然而,仔細觀察後發現,GB200 NVL72 節點內的 9 個 NVLink 網路交換機托盤已完全用於連線 72 個 GB200 模組,沒有多餘的 NVLink 埠來擴充套件至更大的雙層交換機架構。
根據英偉達的官方圖表,576-GPU SuperPod 很可能透過 Scale-Out RDMA 網路實現節點間通訊,而不是依賴基於 NVLink 的 Scale-Up 架構。要使用 NVLink 互連 576 個 GPU,每組 72 個 GB200 模組需要 18 個額外的 NVSwitch,這將超出單個機架的物理空間。
英偉達還表示,NVL72 提供單機架和雙機架配置。在雙機架版本中,每個計算托盤連線到單個 GB200 子系統。此雙機架版本可能會使用 NVLink 互連來支援完整的 576 GPU SuperPod。

基於 GB200 的 576-GPU SuperPod
GB200 SuperPod 與完全互聯的 256-GPU H200 架構類似,採用雙層 NVLink 網路交換機結構來支援其 576 個 Blackwell GPU。在第一層,一半的交換機埠專用於連線全部 576 個 GPU,總共需要 144 個 NVLink 網路交換機。在第二層,剩餘的交換機埠用於與第一層的交換機互連,因此需要額外 72 個 NVLink 交換機來構成完整的網路。這種雙層設計確保了高效的 GPU 互聯互通和可擴充套件性。
這一架構不僅突破了前代 H100/GH200 在節點間互連的頻寬瓶頸,更透過 “NVLink 內連 + 高速網路外延” 的方案,為 EB 級資料處理與萬億引數模型訓練提供了可落地的基礎設施方案,標誌著 AI 算力叢集從 “規格堆疊” 邁向 “體系化架構創新” 的新階段。
原文連結:
https://naddod.medium.com/from-h100-gh200-to-gb200-how-nvidia-builds-ai-supercomputers-with-superpod-a8bfa0e702fa
來源:SDNLAB
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

