GPU巨頭們的新戰場

公眾號記得加星標⭐️,第一時間看推送不會錯過。
來源:內容編譯自theregister
如果您認為人工智慧網路還不夠複雜,那麼 Nvidia、AMD 和英特爾等公司推出的機架式架構將帶來新的複雜性。
與通常使用乙太網或 InfiniBand 的橫向擴充套件網路相比,這些系統核心的縱向擴充套件結構通常採用專有的或至少是新興的互連技術,可為每個加速器提供幾個數量級的更高頻寬。
例如,Nvidia 的第五代 NVLink 互連為每個加速器提供比當今乙太網或 InfiniBand 高 9 倍到 18 倍的總頻寬。
這種頻寬意味著 GPU 的計算和記憶體可以池化,即使它們物理上分佈在多個不同的伺服器上。Nvidia 執行長黃仁勳將 GB200 NVL72 稱為“一塊巨型 GPU”,這可不是開玩笑。
向這些機架規模架構的轉變在很大程度上受到 OpenAI 和 Meta 等模型構建者的需求的推動,它們主要針對超大規模雲提供商、CoreWeave 或 Lambda 等新雲運營商以及需要將其 AI 工作負載保留在本地的大型企業。
考慮到這個目標市場,這些機器的價格不菲。據The Next Platform 估計,單個 NVL72 機架的成本為 350 萬美元。
需要明確的是,實現這些機架級架構的縱向擴充套件架構並非新鮮事物。只是到目前為止,它們很少擴充套件到單個節點之外,並且通常最多支援 8 個 GPU。例如,以下是 AMD 最新發布的MI350 系列系統中的縱向擴充套件架構。
如您所見,每個晶片都以全對全拓撲結構連線其他七個晶片。
Nvidia 的 HGX 設計沿用了其四 GPU H100 系統的基本模板,但為其更常見的八個 GPU 節點增加了四個 NVLink 交換機。雖然 Nvidia表示這些交換機的好處是可以縮短通訊時間,但也增加了複雜性。
隨著向機架規模的轉變,同樣的基本拓撲結構只是簡單地擴大了規模——至少對於 Nvidia 的 NVL 系統而言是如此。對於 AMD 來說,全網狀網路根本不夠用,交換機變得不可避免。
深入探究 Nvidia 的 NVL72 擴充套件架構
我們稍後會深入探討 House of Zen 即將推出的 Helios 機架,但首先我們先來看看 Nvidia 的 NVL72。由於它上市時間較短,我們對它瞭解得比較多。
簡單回顧一下,該機架式系統擁有72 個 Blackwell GPU,分佈在 18 個計算節點上。所有這些 GPU 都透過 18 個 7.2TB/s 的 NVLink 5 交換晶片連線,這些晶片成對部署在 9 個刀鋒伺服器上。
據我們瞭解,每個交換機ASIC都擁有72個埠,每個埠的雙向頻寬為800Gbps或100GB/s。與此同時,Nvidia的Blackwell GPU擁有1.8TB/s的總頻寬,分佈在18個埠上——機架上的每個交換機一個埠。最終的拓撲結構看起來有點像這樣:
這種高速全互連結構意味著機架中的任何 GPU 都可以訪問另一個 GPU 的記憶體。
為什麼要擴大規模?
據 Nvidia 稱,這些海量計算域可顯著提升 GPU 的執行效率。對於 AI 訓練工作負載,這家 GPU 巨頭估計其 GB200 NVL72 系統的速度比同等數量的 H100 系統快 4 倍,儘管在相同精度下,元件晶片的效能僅高出 2.5 倍。
同時,對於推理,Nvidia表示其機架規模配置的速度提高了 30 倍——部分原因是可以採用不同程度的資料、管道、張量和專家並行性來利用所有記憶體頻寬,即使模型不一定受益於所有記憶體容量或計算。
話雖如此,Nvidia 基於 Grace-Blackwell 的機架中 VRAM 為 13.5TB 到 20TB,AMD 即將推出的 Helios 機架中 VRAM 為 30TB 左右,這些系統顯然是為服務於像 Meta(顯然已延遲)兩萬億引數的 Llama 4 Behemoth 這樣的超大模型而設計的,它將需要 4TB 記憶體才能在 BF16 上執行。
不僅模型越來越大,上下文視窗(可以將其視為 LLM 的短期記憶)也越來越大。例如,Meta 的 Llama 4 Scout 擁有 1090 億個引數,並不算特別大——在 BF16 級別上執行時僅需要 218GB 的 GPU 記憶體。然而,其 1000 萬個 token 的上下文視窗則需要數倍於此的記憶體,尤其是在批次大小較大的情況下。
推測 AMD 首款擴充套件系統 Helios
毫無疑問,這就是為什麼 AMD 也在其 MI400 系列加速器中採用了機架式架構。
在本月初的 Advancing AI 大會上,AMD釋出了Helios 參考設計。簡而言之,該系統與 Nvidia 的 NVL72 非常相似,將於明年上市,配備 72 個 MI400 系列加速器、18 個 EPYC Venice CPU 以及 AMD 的 Pensando Vulcano NIC。
關於該系統的細節仍然很少,但我們知道它的擴充套件結構將提供 260TB/s 的總頻寬,並將透過乙太網傳輸新興的 UALink。
如果您還不熟悉,新興的 Ultra Accelerator Link 標準是 NVLink 的開放替代方案,適用於擴充套件網路。Ultra Accelerator Link 聯盟最近於 4 月釋出了其首個規範。
Helios 每塊 GPU 的雙向頻寬約為 3.6TB/s,這將使其與 Nvidia 第一代 Vera-Rubin 機架式系統(也將於明年推出)相媲美。至於 AMD 打算如何實現這一目標,我們只能猜測——我們也這麼做了。
根據我們在 AMD 主題演講中看到的內容,該系統機架似乎配備了五個交換刀片,每個刀片上似乎有兩塊 ASIC。由於每個機架配備了 72 塊 GPU,這種配置讓我們感覺有些奇怪。
最簡單的解釋是,儘管有 5 個交換刀片,但實際上只有 9 個交換 ASIC。要實現這一點,每個交換晶片需要 144 個 800Gbps 埠。這對於乙太網來說略顯不尋常,但與 Nvidia 在其 NVLink 5 交換機上的做法相差無幾,儘管 Nvidia 使用的 ASIC 數量是 NVLink 5 的兩倍,頻寬卻只有 NVLink 5 的一半。
其結果將是與 Nvidia 的 NVL72 非常相似的拓撲結構。
棘手的是,至少據我們所知,目前還沒有能夠提供這種頻寬水平的交換機ASIC。幾周前我們深入研究過的博通Tomahawk 6,其效能最接近,擁有多達128個800Gbps埠和102.4Tbps的總頻寬。
需要說明的是,我們不知道 AMD 是否在 Helios 中使用了 Broadcom——它恰好是少數幾個公開披露的非 Nvidia 102.4Tbps 交換機之一。
但即使 Helios 塞進了 10 顆這樣的晶片,你仍然需要另外 16 個 800Gbps 乙太網端口才能達到 AMD 宣稱的 260TB/s 頻寬。這到底是怎麼回事呢?
我們猜測 Helios 使用的拓撲結構與 Nvidia 的 NVL72 不同。在 Nvidia 的機架式架構中,GPU 透過 NVLink 交換機相互連線。
然而,看起來 AMD 的 Helios 計算刀片將保留 MI300 系列的晶片到晶片網格,儘管有三個網格連結將每個 GPU 連線到其他三個。
當然,這都只是猜測,但數字確實相當吻合。
根據我們的估算,每個 GPU 為節點內網格分配 600GB/s(12 條 200Gbps 鏈路)的雙向頻寬,併為擴充套件網路分配約 3TB/s(60 條 200Gbps 鏈路)的頻寬。也就是說,每個交換刀片的頻寬約為 600GB/s。
如果您覺得埠數量太多,我們預計每個計算刀片將聚合成大約 60 個 800Gbps 埠,甚至可能 30 個 1.6Tbps 埠。這有點類似於英特爾對其Gaudi3 系統的做法。據我們瞭解,實際佈線將整合到盲插式背板中,就像 Nvidia 的 NVL72 系統一樣。所以,如果您之前還在為手動連線機架網路而煩惱,現在您可以放心了。
我們可以看到這種方法的一些好處。如果我們的預測正確,那麼每個 Helios 計算刀片都可以獨立執行。與此同時,Nvidia 有一個單獨的 SKU,名為 GB200 NVL4,專門針對 HPC 應用,它將四個 Blackwell GPU 連線在一起,類似於上圖,但不支援使用 NVLink 進行擴充套件。
但同樣,我們無法保證這就是 AMD 正在做的事情——這只是我們最好的猜測。
擴大規模並不意味著停止擴大規模
您可能會認為,AMD 和 Nvidia 的機架式架構所支援的更大的計算域意味著乙太網、InfiniBand 或 OmniPath — — 是的,它們回來了! — — 將退居次要地位。
實際上,這些可擴充套件網路無法擴充套件到機架之外。Nvidia 的 NVL72 和 AMD 的 Helios 等系統中使用的銅質跨接電纜根本無法達到那麼遠。
正如我們之前所探討的,矽光子技術有潛力改變這一現狀,但該技術在整合方面也面臨著自身的障礙。我們認為,Nvidia 並非出於自身意願而規劃 600kW 機架的發展路線,而是因為它預計這些規模化網路擺脫機架束縛所需的光子技術將無法及時成熟。
因此,如果您需要超過 72 個 GPU(如果您正在進行任何型別的訓練,那肯定需要),您仍然需要一個橫向擴充套件架構。實際上,您需要兩個。一個用於協調後端的計算,另一個用於前端的資料提取。
機架規模似乎也沒有減少所需的橫向擴充套件頻寬。至少對於其 NVL72,Nvidia 本代產品仍堅持 1:1 的 NIC 與 GPU 比例。通常,每個刀片還會配備另外兩個 NIC 或資料處理單元 (DPU) 埠,用於傳統的前端網路將資料移入和移出儲存等等。
這對於訓練來說很有意義,但如果你的工作負載可以容納在單個 72 GPU 的計算和記憶體域中,那麼對於推理來說可能並非絕對必要。劇透:除非你執行的是某個龐大的專有模型,且其細節尚不清楚,否則你很可能可以做到。
好訊息是,我們將在未來 6 到 12 個月內看到一些高基數開關(high radix switches)進入市場。
我們已經提到過博通的Tomahawk 6,它將支援從64個1.6Tbps埠到1024個100Gbps埠的各種頻寬。此外,英偉達的Spectrum-X SN6810也將於明年上市,它將提供多達128個800Gbps埠,並將採用矽光技術。與此同時,英偉達的SN6800將配備512個MPO埠,每個埠速率可達800Gbps。
這些交換機大幅減少了大規模 AI 部署所需的交換機數量。要以 400Gbps 的速度連線 128,000 個 GPU 叢集,大約需要 10,000 臺 Quantum-2 InfiniBand 交換機。而選擇 51.2Tbps 乙太網交換機,則可以有效地將這一數字減半。
隨著轉向 102.4Tbps 交換,這個數字縮減到 2,500,如果您可以使用 200Gbps 埠,則只需要 750 個,因為基數足夠大,您可以使用兩層網路,而不是我們在大型 AI 訓練叢集中經常看到的三層胖樹拓撲。

參考連結

https://www.theregister.com/2025/06/25/rack_scale_networking/
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4077期內容,歡迎關注。
推薦閱讀
加星標⭐️第一時間看推送,小號防走丟

求點贊
求分享
求推薦

相關文章