
提醒:已領讀者請忽略!
資料中心4件套姊妹篇已全部發布:可購買“架構師技術全店資料打包彙總(全)”,或單獨購買《伺服器基礎知識全解(終極版 第二版)》、《儲存系統基礎知識全解(終極版)》,《SSD快閃記憶體技術基礎知識全解(終極版)》和《資料中心網路基礎知識全解(精編版)》獲取完整版。
之前購買過“架構師技術全店資料打包彙總(全)(已更新至48本)”的讀者免費發放全店更新(請在發貨的彙總連結下載),或請憑藉購買記錄在微店留言獲取(PDF閱讀版本)。
網路深入技術,請參考《資料中心網路基礎知識全解(精編版)》。

資料中心4件套姊妹篇已全部發布:可購買“架構師技術全店資料打包彙總(全)”,或單獨購買《伺服器基礎知識全解(終極版 第二版)》、《儲存系統基礎知識全解(終極版)》,《SSD快閃記憶體技術基礎知識全解(終極版)》和《資料中心網路基礎知識全解(精編版)》獲取完整版。
之前購買過“架構師技術全店資料打包彙總(全)(已更新至48本)”的讀者免費發放全店更新(請在發貨的彙總連結下載),或請憑藉購買記錄在微店留言獲取(PDF閱讀版本)。
網路深入技術,請參考《資料中心網路基礎知識全解(精編版)》。
在AI 大模型訓練場景中,GPU 數量與模型訓練時長通常呈正比關係。多卡訓練可極大縮短訓練時間,尤其對於千億級甚至萬億級引數規模的大語言模型,智算叢集需支援萬卡及以上的並行能力。智算叢集內網路架構的優劣對 GPU 伺服器內外的集合通訊存在極大影響。
因此,設計大規模、高可靠、低成本、易運維的優質網路架構,對於滿足大模型訓練的大算力、低時延和高吞吐需求具有重要意義。
(1)Clos 網路架構
胖樹(Fat-Tree)Clos 無阻塞網路架構由於其高效的路由設計、良好的可擴充套件性及方便管理等優勢,成為大模型訓練常用網路架構。
對於中小型規模的 GPU 叢集網路,通常採用 Spine-Leaf 兩層架構, 對於較大規模的GPU叢集則使用三層胖樹(Core-Spine-Leaf)進行擴充套件組網,由於網路的層次增加,其轉發跳數與時延也相應增加。

GPU 伺服器接入分為多軌和單軌兩種方式。上圖為多軌接入方式,其 GPU 伺服器上的 8 張網絡卡依次接入 8 臺 Leaf 交換機,該方式叢集通訊效率高,大部分流量經一級 Leaf 傳輸或者先走本地 GPU 伺服器機內代理再經一級 Leaf 傳輸。下圖為單軌接入方式,1 臺 GPU伺服器上的網絡卡全部接入同一臺 Leaf 交換機,該方式叢集通訊效率偏低,但在機房實施佈線中有較大優勢。此外,若 Leaf 交換機發生故障,多軌方式所影響的 GPU 伺服器數量將多於單軌方式。

業內典型的大模型組網架構有騰訊星脈與阿里巴巴 HPN 網路。星脈網路採用無阻塞胖樹(Fat-Tree)拓撲,分為 Cluster-Pod-Block三級。以 128 埠 400G 交換機為例,其中Block為最小單元,各 Block 包含 1024 個 GPU,各 Pod 支援最大 64 個 Block,即 65536 個 GPU。多個 Pod 構成一個 Cluster 叢集,支援 524288 個GPU。

阿里雲大模型訓練網路(HPN,High-Performance Networking)引入一種雙平面兩層架構,每臺 GPU 伺服器配置了 8個 GPU,對應 8 個 NIC,各 NIC 提供 2×200Gbps 頻寬,並上行連線到不同 Leaf 裝置,形成雙平面設計,從而避免單 Leaf 故障對訓練任務的影響。若交換機為 128 埠,每臺 GPU 伺服器分別上行連至 16臺 Leaf,組成一個 Segment(包含 1024 個 GPU)。

每臺 Leaf 預留了額外 8×200G 埠接入 GPU 伺服器,便於 GPU 伺服器發生硬體等故障後可快速替換。Spine 層面連線多個 Segments 組成一個 Pod,每臺Leaf 上行有 60×400G 埠連線 Spine,因此一個 Pod 可容納 15 個Segments,即 15360 個 GPU。對於更大規模的訓練任務,則會涉及到 Core 層面的連線進而組成算力規模更大的 GPU 叢集。阿里根據其訓練任務流量特性,選擇 Spine-Core 之間採用 15:1 的收斂比設計,叢集可支援 245760 個 GPU。
(2)Dragonfly 網路架構
傳統 Clos 樹形架構作為主流的智算網路架構,重點突出其普適性,但在時延與建設成本方面並非最優。在高效能計算網路中,Dragonfly 網路因其較小的網路直徑與較低的部署成本被大量使用。

Dragonfly 可支援超過 27 萬個 GPU 卡,相當於三層 Fat-Tree 架構所容納 GPU 數量的 4 倍以上,而交換機數量及傳輸跳數可降低 20%。儘管 Dragonfly 網路可提供較高的價效比與更低的傳輸時延,但 GPU叢集每次擴充套件都需重新部署鏈路,因此其可維護性相對較差。
(3)Group-wise Dragonfly+網路架構
當規模需求超過十萬卡時,最直接的組網方式是引入無收斂三層Fat-Tree 架構。以單埠為 400G 的 51.2T 盒式交換機為例,三層盒盒盒組網,最大支撐 50 萬+節點組網。然而此架構存在以下兩個主要問題:
1、系統複雜度,三層組網的負載均衡、擁塞控制等網路技術的難度和複雜度將大幅提升;
2、成本和功耗,對比二層 Fat-Tree 組網網路成本和功耗開銷提高。為了應對以上兩個挑戰,在此場景下可以有兩種架構選擇:
架構一為第二層帶收斂的三層 Fat-Tree 架構,即下圖中 L2 層交換機的下行頻寬:上行頻寬為 N:M(N>M)。在同等規模下此架構可降低 L3 層的裝置數量,節省成本和功耗。

架構二為 Group-wise Dragonfly+(GW-DF+)直連架構。如下圖所示,每個 Pod 內裝置透過二層 Fat-Tree 架構互聯。Pod 間,同位置或同號的 L2 裝置兩兩直連。以單埠為 400G 的 51.2T 盒式交換機為例,此架構最大可支援 20 萬+節點規模。如果 L2 替換為框式交換機,規模可超100 萬。

對比二層 Fat-Tree 架構,此架構可大幅提高組網規模;對比三層Fat-Tree 架構,此架構可節省一層交換機帶來的成本和功耗開銷;對比傳統 DF+架構,此架構可避免上下裝置繞行,簡化路由複雜度和提升系統效率。
(4)Torus 網路架構
Torus 網路架構是一種完全對稱的拓撲結構,具備低時延、低網絡直徑等特性,適合集合通訊使用,可顯著降低建設成本。

下圖呈現了一維邊長為 3 的 Torus 及二維邊長為 3 的 Torus 網路。Torus 網路環面拓撲特性可使得其在鄰居節點之間擁有最優通訊效能。然而,Torus 網路擴充套件可能涉及拓撲重新調整,且維護複雜度較高。



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(48本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

