互聯:讓資料中心成為新一代計算單元

作者:NCL
編輯:Siqi
排版:Doro
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 關鍵結論
02 為什麼關注互聯
03 互聯環節的技術趨勢
04 下一代互聯關鍵:Chip-to-Chip
05 伺服器層級的互聯
06 NV 的壟斷優勢將在互聯環節延續
07 重要公司
01.
關鍵結論
02.
為什麼關注互聯
互聯是資料中心除了計算晶片之外的第二大 Capex,我們以 Meta 的 24k-GPU 計算叢集為例進行估算,Compute 部分成本為 68.2%,而互聯佔到了 23.9%,剩餘部分則是儲存、電力等。
要實現下一代 10X 算力的計算叢集規模擴容,目前有兩條路徑:
1)在現有的 Fat-Tree 互聯架構下擴容單交換機介面數,
2)探索新的互聯架構,例如 Dragonfly 架構。
在目前的 Fat-tree 網路架構下,RDMA 組網的叢集最大 GPU 數取決於旗艦 Switch 的介面數。現階段,旗艦交換機有 64 個介面,不考慮延遲和阻塞問題的情況下,三層 Fat-Tree 架構將最多支援 (32x32x64=)65536 個 GPU 組成計算叢集,不過因為 Oversubscription Ratio(過度訂閱比,即某個網路鏈路的頻寬與所連線終端裝置頻寬的比值)的原因,目前 Nvidia 也只能做到 3.2 萬個 GPU 進行穩定執行 LLM 訓練。
NV Quantum-X800 的推出一定程度上緩解了擴容焦慮,作為 B200 同代產品, NV Quantum-X800 提供了 144 個800G 介面,這意味著,基於 NV Quantum-X800 的兩層網路最大組網 GPU 將會是:72×144=10656,三層網路最大組網 GPU 數為:72x72x144=767232,但是 RoCE 陣營預計在接下來兩三年內仍侷限於 64 個介面,IB 在訓練場景的優勢和份額將會擴大。
在切換網路架構上,Dragonfly 被認為是 Fat-free 的下一代架構。Dragonfly 定義了層次化的網路結構,能夠靈活擴充套件節點數,並保證通訊的低延遲。
和 Fat-Tree 比,Dragonfly 的架構也會更適合 MoE 架構,因為 Dragonfly 架構下區域性節點的通訊效率更高,也因此能帶來更高的算力利用率,同時,在相同節點數的網路中,Dragonfly 需要更少的互聯裝置,從而帶來成本和能耗上的優勢。
不過,Dragonfly 的架構還處於探索階段,有訊息稱,NVIDIA 正在探索 Dragonfly 架構下所需的網路配件。預計2027 年以後才會有產品推出。
因此,為了適配下一代模型訓練,擴容仍是資料中心的升級方向。在這一背景下,首先,更多 GPU、更遠距離通訊的特性對互聯效能提出了更高要求,其次,因為計算架構的原因,互聯裝置的需求增速高於叢集規模的增速的, GPU 增加一系列帶來的收發器、Switch 等互聯裝置的需求。如下圖:
如果我們以 Meta 24k-GPU 計算中心的 Capex 推演,在 100k-GPU 資料中心中,互聯的 Capex 佔比變成了 26.1%,提升了 2%+。
03.
互聯環節的技術趨勢
帶來計算中心互聯升級的還有技術側的變化。提升互聯與寬頻的升級的關鍵技術有 CXL(Compute Express Link)、和 CPO(Coherent Processor Optic) ,二者交匯有望成為下一代計算中心的主要變革。
1. HBM 為 GPU和 ASIC 提供高頻寬記憶體,高頻寬能夠支援模型訓練和推理中的大規模平行計算,HBM 雖然提供了高頻寬,但當前的記憶體容量有限;
2. CXL 可以將大容量 DRAM 資源共享給加速器,從而擴充套件 HBM 的有效容量。
3. CPO 作為光互連技術能夠提供更高頻寬、更低延遲的CPU-加速器、加速器-記憶體鏈路。
HBM、CXL 和 CPO 單點技術的突破都在為下一代計算中心和互聯升級,當三者能夠有機結合時,資料中心架構會被重構。
CXL
CXL 由 Intel 和 AMD 在 2019 年提出,它是對上一代計算機硬體傳輸協議 PCIe 的升級,能夠讓各個計算機部件(計算晶片、記憶體、硬碟和互聯裝置等)之間進行高速資料傳輸,讓它們更好的協同工作。
CXL 之於 PCIe 的升級主要體現在:不僅可以提供 PCIe 的傳輸功能,還支援組網,從而增強了各個裝置間的記憶體共享和互操作性,還降低了裝置間的響應延遲、提升了資料傳輸頻寬,更重要的是,CXL 協議下允許對伺服器的每一個部件都分解並池化,CXL 所具備的記憶體池化能力也是 CXL 替代 PCIe 過程中最值得期待的變革性應用。
在伺服器的通訊主要依賴於 PCIe Switch。GPU 能從 CPU 獲取指令和記憶體資料,並透過 NIC 與其他 GPU 進行協作,隨著 GPU 數量的增長,對 PCIeCXL  的需求也會相應遞增,

在常見的伺服器中,這樣的通訊主要依賴 PCIe Switch,GPU 能從從 CPU 獲取指令和記憶體資料,從 NIC 和數萬張 GPU 進行協作。PCIe/CXL Switch 將在未來 3-5 年內以 30% 左右的 CAGR 從 8 億美元擴充套件到 32 億美元左右,目前中高階市場由博通全面壟斷,由前博通部門主管所創立的 Xconn 計劃在 25 年開始大規模量產,Xconn 在實現領先的效能的同時又能提供一定的價效比優勢,作為創業團隊也會在 CXL 環節威脅博通的市場地位。
CPO
CPO(Coherent Processor Optic)是一種基於光學互聯技術的高速晶片間互聯介面規範,CPO 的核心是透過矽光子學技術將傳統互聯介面整合到光學晶片上,用矽片來構建光子收發器裡的所有元件,不僅從原材料角度對傳統設計中的不同元件材料進行替代、整合,製作上也複用了成熟的 CPU 製造工藝,這些都有效降低了光模組(Optical Module)的成本。
憑藉能耗和可擴充套件性優勢,光學元件(Optics)已經在 Sever-to-Server 的互聯上得到應用,例如 Meta 的 VP of Infra 就透露過, Meta 內部的 AI 訓練伺服器叢集已基本採用 Optics,在 NVIDIA 的設計中,有望在 NVLink 6.0-7.0 時實現從電訊號向光訊號的轉化。
伴隨對計算提升,Chip-to-Chip 互聯環節同樣存在光學元件替換傳統銅線通訊的需求,但對 Optics 的體積和成本提出了更進一步的要求,矽光子學的成熟成功解決了這部分問題,預計會成為 Chip-to-Chip 互聯的主流解決方案。
04.
下一代互聯關鍵:Chip-to-Chip
晶片層的互聯涵蓋了  Die-to-Die 和 Chip-to-Chip 兩部分,其中,Die 間互聯解決的是單顆晶片內不同 Die 之間的互聯,例如,是計算晶片公司主要的迭代路徑。Chip-to-Chip 則解決的是單個伺服器節點內的不同獨立晶片之間互聯需求。
Die-to-Die
Die-to-Die 能夠讓不同的單獨的矽晶片直接連線起來,從而在這些矽片之間它們快速共享資料、提升計算效能、降低延遲。Die 間互聯已經成為計算晶片公司主要的迭代路徑。
現階段, Die-to-Die 互聯主要依賴 TSMC 迭代 CoWos 來升級 2.5D 封裝。TSMC COWOS 的目前年收入大概在 40 億美元,市場預期 CoWos 未來會保持 50% 以上的 CAGR,預計未來會是很大的賽道。不過也有市場觀點認為,TSMC 不太可能在落後製程上做過多 Capex 投入,這可能會帶來 CoWos 長期產能不足的風險。
而在 3D 封裝層面,目前 TSMC 和 Intel 只提供了概念性的技術展示,除了巨頭外,我們也關注到例如 Whalechip 這樣的早期團隊在做類似嘗試,並且技術方案更為激進。TSMC 的 3D 封裝最多做到 2 層,但 Whalechip 可以做到 3 層,所以在目前巨頭沒有明顯客戶、技術和產能的明顯優勢下,類似於 Whalechip  這樣的初創公司有機會透過自己的產品聲量獲得一定市場份額、甚至成為巨頭公司的收購標的。
Chip-to-Chip
Chip 間互聯主要涵蓋的是 CPU、GPU 和 Network Interface Card(NIC)之間的互聯,現階段,片間互聯環節的主流技術路徑包括了 PCIe(Peripheral Component Interconnect Express)、NVLink-C2C和Google的TPU ICI(Inter-Chip Interconnect)。
LLM 熱潮帶來對算力需求的升級,算力的可擴充套件性(Scalability)也成為晶片公司的重要競爭指標,NVIDIA 憑藉 NVLink 在模型訓練市場佔據了領先優勢,也驅動計算中心的互聯架構的變化。
•   NVLink
由於 NVIDIA 不滿於 PCIe 的弱效能和過慢的迭代速度,自己研發了 NVLink-C2C 來效能互聯。
NVLink 協議之所能比傳統 Ethernet 協議更快,根本原因是砍掉了 Server-to-Server 架構下的複雜網路功能,例如端到端重試、自適應路由和資料包重新排序等,並將 CUDA 和 NVLink 協議結合,從而實現了極高頻寬和能耗的互聯效能。例如 B100 採用的 NVLink C2C 速率已能做到 1.8TB/s,是 PCIEv5 128GB/s 的 14 倍左右。
Nvidia 在在這個環節的超前佈局也迫使博通的 PCIE Switch 和谷歌 TPU ICI 去追求更極致的效能,甚至採用或收購初創公司的前沿技術實現追趕。
•   Google ICI
Google TPU 則採用了和 Braodcom 合研的 ICI 系統,可以看到,同張主機板上的 4 片 TPU 透過光纜進行互聯,TPU v5p 的互聯速率高達 600GB/s,是 PCIEv5 128GB/s 的 5 倍左右。
Broadcom 所提供業界領先的 HBM PHY 和 SerDes IP 是 Google 選擇 Braodcom 的重要原因,但 TPUv6 預計將採用獨立的互聯晶片,類似於 Ayar Labs 所提供的技術方案,以追求更極致的互聯效能,但其目前正在考量多個替代方案的效能和相容性。
05.
伺服器層級的互聯
和晶片環節的互聯相比,伺服器級別的互聯更多是在存量方案上的升級。
Tray-to-Tray
Tray 間互聯指的是完成同一個機架內多臺伺服器的互聯,在這一環節,主要用的產品有 Leaf Switch 和 NIC(Network Interface Card,網路介面卡)。
在 Datacenter 規模擴大過程中,伺服器數量的增加一定會帶來 NIC 的增長,作為連線計算裝置的 NIC 成為剛需,每臺伺服器都需要一個或多個 NIC,Leaf Switch 的需求則來自超大 datacenter 內更高的頻寬和更低的延遲通訊需求。
•   Tray-to-Tray NIC
每個機架(Rack)通常會配備 2-8 個 RDMA 網絡卡,幫助 GPU 高效接入到數萬卡叢集參與大規模平行計算任務。NVIDIA Mellanox 的 ConnextX-800G 是目前效能最好的網絡卡,能夠支援 800Gbps的資料傳輸速率,因為和 Ethernet 相比, Infiniband 能提供更低的延遲和更高的資料吞吐量,更適配於海量資料傳輸的高效能計算和資料中心場景。
在超大規模的計算叢集中,每個 Rack 都可以看作一箇中小規模的 GPU 叢集,這些 GPU 之間也需要透過高速互聯技術進行資料交換。為了追求極限效能,NVIDIA 為 500 張 GPU 以下規模的中小叢集研發的 NVLink 就可以運用到 Rack 內的互聯上。
NVLink 是專門用於 GPU 連結的高寬頻互聯,支援高達1.8TB/s的傳輸速率。和傳統的PCIe介面相比,NVLink 可以實現更高的頻寬和更低的延遲。
為了追求極限效能,NVIDIA 為 500 張 GPU 以下規模的中小叢集研發了 NVLink,能實現 1.8TB/s 的互聯。在超大規模的計算叢集中,每個 Rack 都可以看作一箇中小規模的 GPU 叢集,這些 GPU 之間也需要透過高速互聯技術進行資料交換,二NVLink在單個伺服器主機板上連線多個GPU,從而在機架內實現高效互聯。
透過下圖我們可以看到,每塊伺服器主機板上有兩個 NVLink 介面(紅圈位置):
在 Cable 的選擇上,因為 Rack 中 GPU 之間的通訊距離並不遠,所以通常會採用成本更低的銅纜作為 ,而這些銅纜也會自帶介面,因此並不需要光收發器(通常一個 800G 的光收發器需要 $1800),所以 CSP 們會盡可能的使用銅纜,因為成本明顯更低。
Digital-to-Analog Converter
Active Electrical Cable with Copper conductors
•   Leaf Switch
Leaf Switch是一種機架(Rack)級交換機,主要用於將同一機架內的多臺伺服器透過高速網路互聯起來。它可以與伺服器的 NIC 對接,從而組成機架內部的高速網路。
在 RoCE和 IB 的組網技術路徑下,Leaf Switch 是必不可少的關鍵元件。
•   NVSwithch
為了增強中小規模 GPU 叢集內部的高速互聯,Nvidia 也推出了NVSwitch交換晶片。NVSwitch 可以被整合在高階GPU 內部,作為單個伺服器節點內部配備多個 GPU 時的高速互聯方案,實現同一伺服器(Server)節點內所有 GPU 之間的超寬直連。
每臺配備 8 個 GPU 的 Server 節點,透過NVSwitch可實現高達 14.4TB/s 的 GPU內部總互聯頻寬。而在標準機架內,通常可以部署 72 個 GPU,為了將這 72 個 GPU 高效互聯,就需要在機架中心部署 9 臺NVSwitch,並透過密密麻麻的NVLink銅線纜將它們連線起來,構建起類似於“GPU叢集內網路”的拓撲。
但 NVSwitch 提供的還只是 GPU 的 server內部直連,但在更高層級上,為了完成整個機架內所有節點之間的高效能互聯,仍需要 Leaf Switch 來完成。因此,NVSwitch 和 Leaf Switch 的組合是異構計算環境中端到端的高效能網路的剛需。
Rack-to-Rack
不同 Rack 之間的互聯現階段基本只能依賴光收發器和光纜進行傳輸。通常距離越長的發信器價格和功耗越高,所以會盡可能選取合適的裝置。
機架(Rack)間互聯是透過 Spine Switch 將 Leaf Switch 連結來完成的。在頂級 AI 訓練叢集中為了確保互聯效能,Spine Switch 和  Leaf Switch 都會使用同款旗艦機型。通常情況下,RDMA 網路中 Spine switch 和 Leaf switch 支援的介面數量對叢集的最大 GPU 數量規模有著直接的關係和制約作用。因此,Spine 和 Leaf switch 技術的迭代和效能提升,對於建構件下一下一代超大規模 GPU 叢集變得很關鍵。
在傳統的 RoCE/IB 架構下,在每個機架最上方都會有一臺叫做 ToR (Top of Rack) 交換機,可以將機架內的伺服器進行互聯。
同時,隨著計算中心規模的擴大,各個 Rack 間物理距離也在不斷拉長,當 rack 之間的距離超過電纜的有效傳輸距離時,Rack-to-Rack 的遠距離高速互聯就需要利用光纖來實現。

因此,在下一代大規模資料中心的搭建中,光收發器和足夠長的光纜將成為必不可少的元件。

•   Rack-to-Rack Switch
因為 Spine Switch(二層網路架構中是 Core Switch)需要負責連線下層Leaf Switch,Spine 和 Core Switch 就需要提供更多埠數量來保證支援連線多個 Leaf Switch,從尺寸和埠密度來看,Spine 和 Core 交換機也就比 Leaf Switch 更大。
•   通常情況下,RDMA 組網的叢集最大 GPU 數和叢集中旗艦 Switch 的介面數相關。
H100 同代的 NV Quantum-2 Switch 是 Nvidia 面向 Leaf Switch 推出的旗艦機型,有 64 個400G 介面,它首先能支援 32 張 GPU 以 400G 組成第一層網路,剩下的 32 個介面將以 400G 去與 Spine Switch 互聯。
為了儘可能組成最大的叢集,每個 Leaf Switch 只會和一個 Spine Switch 做一次連線,也就是說單臺 Spine Switch 最多能和 64 臺 Spine Switch 互聯,也就是兩層網路最大能由(32×64=) 2048 臺 GPU 組成,三層網路能由 (32x32x64=)65536 臺 GPU 組成。
B100 同代的 NV Quantum-X800 有 144 個 800G 的介面,兩層網路最大能由(72×144=)10656 張 GPU 組成,三層網路能由(72x72x144)=767232 張 GPU 組成。
上面計算得出的是理想狀態下 GPU 叢集最大規模,而在實際操作中,為避免互聯過於擁擠導致高頻阻塞,還需要考慮到 Oversubscription Ratio(過度訂閱比,即某個網路鏈路的頻寬與所連線終端裝置頻寬的比值),行業常用的 Oversubscription Ratio 是 3:1 或是 4:1。
例如,對於連線了 32 個GPU節點的Leaf Switch ,為滿足 4:1 的 Oversubscription Ratio 就需要使用 8 到 10 個 400Gbps 埠與每臺 Spine Swithc相連,從確保足夠的頻寬、避免網路擁堵。
不過,由於 GPU 價格昂貴,工程師們通常也會在軟體層面安排好資料流的延遲問題,儘可能地擴大叢集規模,並保證每張卡的效率。
•   Google OCS
除了傳統的電子交換方式,谷歌和博通也為TPU 互連網路研發了基於 OCS (光電路交換)的新型光互連架構。
OCS 是利用微機電系統(MEMS)技術製造的可動態調節角度的微小鏡子陣列,透過調節每個微鏡的角度來切換光訊號的傳輸路徑,進而實現光訊號的交換和互連。這種設計不僅具有頻寬巨大的優勢,而且允許TPU互連網路在Fat Tree和Torus等不同拓撲結構間靈活切換,降低了網路迭代和執行成本。目前,OCS可支援8960個TPU單元以600Gbps的速率實現全互連。作為對比,基於IB(InfiniBand)的電子互連最多可支援 3,2768 個 GPU 以 100Gbps的速率互連,而基於 NVLink 的 GPU 直連方案則能支援最多 576 個 GPU 以 1800Gbps 的高速率互連。
•   關鍵元件:NIC、Transceiver、Cable
下面分別是 NIC、Transceivers、AEC 和 AOC。Rack-to-Rack 因為距離限制通常會使用光纜,但也有不少公司為了成本考量使用 AEC。
目前並沒有這些不同距離裝置的詳細拆分,但是預計主要集中在 DR 以下。
Cluster-to-Cluster
叢集(Cluster) 間的互聯實現主要需要使用極遠距離的 Transceivers, 對其他環節的裝置的影響並不大。
跨叢集訓練需要 Intercluster logical interfaces(LIF),其中,上市公司 NETAPP 很擅長這個,但是它們開發的是儲存的跨雲讀寫,並不確定對 GenAI 的影響。
06.
NV 的壟斷優勢將在互聯環節延續
根據 LightCounting 統計,LLM 在 2023 年的普及讓 IB Switch 的份額得到了躍升,並有機會在未來 5 年內和 RoCE 平分 AI Server 市場。考慮到 RoCE 下的 Ethernet Switch 需求中還包含著大量傳統資料中心業務,所以在純 LLM workload 下,IB 的份額優勢相當明顯。
從目前 Nvida 所規劃的技術路線上看,我更傾向於認為 NVLink+IB 的技術優勢和市場份額在未來 2-3 年內持續擴大。
首先,IB Switch 的介面數比 RoCE 有明顯優勢,這也意味著在訓練叢集拓展上有更大規模優勢。如前文所述,考慮到新一代 IB switch 將介面數從 64 個提升至 144 個,訓練叢集的規模能擴大 10 倍左右,而由於 RoCE 陣營在兩三年內並無法做到類似的技術,所以 GPT-6 等下一代模型的訓練預計都將使用 IB Switch。
使用 NVLink 的推理叢集在推理旗艦模型時有明顯的效能和價效比優勢,RoCE 則不太會被用在推理叢集中。在推理叢集中,NVLink 和 NVSwitch 的組合憑藉比 RoCE 和 IB 強十幾倍的通訊速率,將 72 張 GPU 的記憶體互聯起來,這樣的大記憶體系統能允許更多的模型/資料/使用者請求並行運算,從而達到數十倍的吞吐量、能耗比和價效比,這是 IB/RoCE 都無法企及的。我們預計未來的推理需求將由類似 GB200 的大記憶體叢集用來滿足旗艦模型,由大記憶體單卡(如 B200 或 ASIC)來推理開源模型,並不太會拉動 IB 和 RoCE 的需求。
NVLink 和 IB/RoCE 的協同通訊(Rail-optimzed Network)將鞏固 NV 生態的效能優勢。Rail-optimzed Network 指的是當一 GPU 的通訊渠道擁堵時,可以將資訊透過 NVLink/NVSwitch 傳至同一伺服器內的空閒 GPU,再傳送給目標 GPU。這樣的網路架構將讓 NV 的交換機始終比同代的交換機保持效能優勢,也有助於 NV GPU 比同代 ASIC 保持互聯效能上的領先。
總的來說,儘管市場預計 Nvidia 未來幾年在推理晶片的市佔比將逐步下滑,主要是因為未來單卡便可獨立推理中小模型,但是這並不影響互聯環節的競爭格局,因為未來將只有高階模型的推理需要互聯,而 NVLink 目前只有 TPU ICI 這個對手,考慮到目前 LLM 基於 TPU 所做的生態和最佳化遠不及 NV,我們認為 NV 的壟斷優勢將延續。
07.
重要公司
延伸閱讀

相關文章