

眾所周知,在大型模型訓練中,通常採用每臺伺服器配備多個GPU的叢集架構。在上一篇文章《高效能GPU伺服器AI網路架構(上篇)》中,我們對GPU網路中的核心術語與概念進行了詳盡介紹。本文將進一步深入探討常見的GPU系統架構。
獲取清單:
……
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
(持續更新中…)
8臺配備NVIDIA A100 GPU的節點/8臺配備NVIDIA A800 GPU的節點

如上圖所示的A100 GPU拓撲結構中,8塊A100 GPU所組成的拓撲包含以下元件:
-
兩顆CPU晶片(及其兩側相關的記憶體,NUMA架構):中央處理器負責執行通用計算任務。
-
兩塊儲存網路適配卡(用於訪問分散式儲存,具備帶內管理等功能):這些網絡卡用於訪問分散式儲存資源。
-
四顆PCIe Gen4交換晶片:PCIe Gen4是PCIe介面的第四代,提供了更高的資料傳輸速率。
-
六顆NVSwitch晶片:NVSwitch使得GPU與GPU之間能夠以極高的速度直接通訊,這對於大規模深度學習節點和平行計算任務的有效執行至關重要。
-
八塊GPU:A100 GPU作為主要處理單元,負責執行平行計算,尤其適合人工智慧和深度學習工作負載。
-
八塊GPU專用網路適配卡:每塊GPU配備一塊專用的網路適配卡,旨在最佳化GPU之間的通訊,並提升並行處理任務的整體效能。
接下來的部分我們將對這些元件進行詳細解讀。下一張圖片將提供更詳盡的拓撲結構資訊供參考。

儲存網路卡
在GPU架構中,儲存網路卡的定位主要涉及其透過PCIe匯流排與中央處理器(CPU)的連線,以及負責促進與分散式儲存系統的通訊。以下是儲存網路卡在GPU架構中的主要作用:
-
讀寫分散式儲存資料:儲存網路卡的主要功能之一是高效地從分散式儲存系統讀取和寫入資料。這對於深度學習模型訓練過程至關重要,在此過程中頻繁訪問分佈在各處的訓練資料以及將訓練結果寫入檢查點檔案極為重要。
-
節點管理任務:儲存網路卡的功能不僅限於資料傳輸,還包括節點管理任務。這包括但不限於透過SSH(安全外殼協議)進行遠端登入、監控系統性能以及收集相關資料等任務。這些任務有助於對GPU叢集的執行狀態進行監控和維護。
雖然官方推薦使用BF3 DPU,但在實踐中,只要滿足頻寬需求,可以選用其他替代解決方案。例如,為了成本效益考慮,可以考慮使用RoCE;而為了最大限度提升效能,則優先選擇InfiniBand。
NVSwitch 網路結構
在完全網際網路絡拓撲中,每個節點都直接與所有其他節點相連。通常情況下,8塊GPU透過六個NVSwitch晶片以全互聯配置相連線,這一整體也被稱為NVSwitch架構。
在全互聯結構中,每條線路的頻寬取決於單個NVLink通道的頻寬,表示為n * bw-per-nvlink-lane。對於採用NVLink3技術、每條通道頻寬為50GB/s的A100 GPU,在全互聯結構中,每條線路的總頻寬為12 * 50GB/s = 600GB/s。需要注意的是,此頻寬是雙向的,既支援資料傳送也支援接收,因此單向頻寬為300GB/s。
相比之下,A800 GPU將NVLink通道的數量從12減少到了8。因此,在全互聯結構中,每條線路的總頻寬變為8 * 50GB/s = 400GB/s,單向頻寬為200GB/s。
以下是一個由8*A800組成的裝置的nvidia-smi拓撲結構圖示。

-
GPU與GPU之間的連線(左上區域):所有連線均標記為NV8,表示有8條NVLink連線。
-
網路介面卡(NIC)連線:在同一CPU晶片內:標記為NODE,表示無需跨越NUMA結構,但需要穿越PCIe交換晶片。在不同CPU晶片之間:標記為SYS,表示必須跨越NUMA結構。
-
GPU至NIC的連線:在同一CPU晶片內且處於同一PCIe交換晶片下:標識為NODE,表示僅需穿越PCIe交換晶片。
-
在同一CPU晶片內但不在同一PCIe交換晶片下:指定為NNODE,表示需要同時穿越PCIe交換晶片和PCIe主機橋接晶片。
-
在不同CPU晶片之間:標記為SYS,表示需要跨越NUMA結構、PCIe交換晶片,並覆蓋最長距離。
GPU節點互聯架構
以下圖表展示了GPU節點間的互聯架構:

計算網路
計算網路主要用於連線GPU節點,支援平行計算任務之間的協同工作。這包括在多塊GPU之間傳輸資料、共享計算結果以及協調大規模平行計算任務的執行。
儲存網路
儲存網路用於連線GPU節點和儲存系統,支援大規模資料的讀寫操作。這包括將資料從儲存系統載入到GPU記憶體中,以及將計算結果寫回儲存系統。
為了滿足AI應用對高效能的需求,在計算網路和儲存網路上,RDMA(遠端直接記憶體訪問)技術至關重要。在兩種RDMA技術——RoCEv2和InfiniBand之間進行選擇時,需要權衡成本效益與卓越效能,每種選項都針對特定應用場景和預算考慮進行了最佳化。
公共雲服務提供商通常在其配置中採用RoCEv2網路,例如CX配置,其中包含8個GPU例項,每個例項配備8 * 100Gbps。與其他選項相比,只要能滿足效能要求,RoCEv2相對較為經濟實惠。
資料鏈路連線中的頻寬瓶頸

該圖表突出了關鍵連線的頻寬規格:
-
同一主機內GPU之間的通訊:透過NVLink技術,雙向頻寬達到600GB/s,單向頻寬達到300GB/s。
-
同一主機內GPU與其各自網路介面卡(NIC)之間的通訊:採用PCIe Gen4交換晶片,雙向頻寬為64GB/s,單向頻寬為32GB/s。
-
不同主機間GPU之間的通訊:資料傳輸依賴於NIC,頻寬取決於所使用的具體NIC。當前在中國,對於A100/A800型號常用的NIC提供主流的單向頻寬為100Gbps(12.5GB/s)。因此,相較於同一主機內的通訊,不同主機間的GPU通訊效能顯著下降。
200Gbps(25GB/s)接近PCIe Gen4的單向頻寬。400Gbps(50GB/s)超越了PCIe Gen4的單向頻寬。
因此,在此類配置中使用400Gbps的網絡卡並不能帶來顯著優勢,因為要充分利用400Gbps頻寬需要PCIe Gen5級別的效能支援。
8x NVIDIA H100/8x NVIDIA H800 主機
H100主機內部的硬體拓撲結構
H100主機的整體硬體架構與A100八卡系統的架構非常相似,但也存在一些差異,主要體現在NVSwitch晶片的數量和頻寬升級上。
-
在每個H100主機內部,配置了4顆晶片,比A100配置減少了兩顆。
-
H100晶片採用4奈米工藝製造,底部一行配備了18條Gen4 NVLink連線,從而提供了900GB/s的雙向總頻寬。
H100 GPU 晶片

-
該晶片採用尖端的4奈米工藝製造,表明其採用了先進的製造技術。
-
晶片底部一排包含18個Gen4 NVLink連線,提供雙向總頻寬為18條通道 * 每通道25GB/s = 900GB/s。
-
晶片中央藍色區域代表L2快取記憶體,用於儲存臨時資料的高速緩衝區。
-
晶片左右兩側則集成了HBM(高頻寬記憶體)晶片,這些晶片作為圖形記憶體使用,儲存圖形處理所需的資料。
文章來源:
https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html
相關閱讀:
-
Arm架構升級,v9與v8版本有何差異? -
從X86到ARM,跨越CPU架構鴻溝 -
走進芯時代:AI算力GPU行業深度報告 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)”和“儲存系統基礎知識全解(終極版)”pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

