
👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自nextplatform,謝謝。
高科技公司總是有路線圖。無論他們是否向公眾展示,如果他們處於早期階段,準備在華爾街出售一些股票以賺錢(確切地說是上市),或者與有興趣購買平臺(而不僅僅是解決當前問題的點產品)的關鍵客戶交談,他們總是會向關鍵投資者展示這些路線圖。
當你投資於每臺機架價值數百萬美元的裝置時,你希望知道你購買的是一種能夠在未來持續提供容量和效能改進的方法。因為如果有什麼企業不喜歡的東西,那就是它在關鍵應用程式上遇到了效能或容量上限,不得不等待摩爾定律的出現來解決這個問題。
在晶片及其封裝和系統製造難度越來越大的市場中,路線圖的作用在於降低技術規劃和採用的風險。出於這個原因,IT 公司(尤其是晶片製造商)不願意公開其路線圖。但有時,當風險足夠高時,IT 公司別無選擇,只能公開路線圖,向客戶和競爭對手展示未來道路上的里程碑。
當 Oracle 收購 Sun Microsystems 時,它制定了一份五年路線圖,並且基本上一直沿用。當 GPU 加速計算在 2010 年起飛時,GPU 技術大會剛剛開始,與本週湧向聖何塞的 25,000 名與會者相比,與會人數少了一個數量級,Nvidia 制定了一份四年路線圖,該路線圖在 2013 年進行了修訂,對一些功能進行了重新調整。當 AMD 想要在幾年中斷後重返伺服器 CPU 領域時,它制定了一份持續了幾年的路線圖,但它只公開談論了其晶片的N代和N+1代,就像現在一樣。
Nvidia 在很大程度上擁有 AI 訓練,並且如今在 AI 推理方面佔有很大的份額,尤其是基礎和推理模型。所以你可能會認為路線圖上沒有具體資訊。但 Nvidia 也讓世界上很多人想知道對 AI 計算的需求是否最終會減弱,或者至少會用更便宜的替代品來滿足。此外,作為其最大客戶的所有超大規模和雲構建者也在構建自己的 CPU 和 AI 加速器;公開的路線圖是為了提醒他們 Nvidia 致力於構建比他們更好的系統——並讓我們都知道,這樣我們就可以跟蹤誰在實現他們的里程碑,誰沒有。
Nvidia 的路線圖非常宏大,它擁有 GPU、CPU、縱向擴充套件網路(用於跨 GPU 和有時 CPU 共享記憶體的記憶體原子互連)和橫向擴充套件網路(用於更鬆散地將共享記憶體系統相互連線)。它還有 DPU,即具有本地化 CPU 和有時 GPU 處理的高階 NIC,以下路線圖中未顯示這些產品:

Quantum 系列 InfiniBand 交換機的容量增長也同樣不盡如人意,也沒有入選。對於人工智慧領域來說,InfiniBand 的重要性越來越低,因為人工智慧領域希望能夠進一步擴充套件,而基於 InfiniBand 的相對扁平的網路層次結構則無法實現這種擴充套件。這種古老而具有競爭力的網路協議以及執行該協議的交換機將在未來許多年內用於 HPC,但大多數企業以及超大規模企業和雲構建者都希望回到僅使用乙太網的網路中。
X 軸上的時間有點不準確,這是故意為之。“Blackwell” B100 和 B200 GPU 加速器是去年釋出的,而不是今年,第五代 NVLink 埠和第四代 NVSwitch 也是如此,它們以 1.8 TB/秒的速度驅動 NVLink 埠。“Grace” CG100 Arm 伺服器處理器於 2022 年 5 月釋出,並於 2023 年初開始與“Hopper” H100 GPU 加速器一起出貨,然後於 2024 年底與 H200 記憶體擴充套件踢球器(Nvidia 今天可能稱之為“Hopper Ultra”)一起出貨。Spectrum-X 網路平臺核心的 Spectrum 5 乙太網交換機 ASIC 是去年推出的,但現在正在批量出貨。
可以這麼說,如果該路線圖是談論產品釋出還是產品出貨,那麼它可能更加精確。其目的是讓客戶和投資者瞭解 Nvidia 產品將如何發展,以滿足 Nvidia 聯合創始人兼執行長 Jensen Huang 堅信的市場需求,因為思維鏈模型(通常稱為推理模型)對推理的計算需求異常巨大且出乎意料,因此市場將不斷擴大。
事實證明,思維更像是一位老人自言自語,而不是幼兒園小朋友脫口而出腦海中浮現的第一個答案。而且這需要的計算量至少是任何人想象的 100 倍。所以,朋友們,這種輕鬆的生活方式將繼續下去,但方式可能與你想象的略有不同。
我們才剛剛開始研究推理模型和物理人工智慧——不同型別的模型可以理解世界的物理,一旦給它們提供機器人宿主,它們就可以操縱世界上的物體。

使用 GB300 NVL72,Blackwell Ultra B300 GPU 被換入機架式系統,其機架代號為“Oberon”,具有水平計算和網路滑軌。與 B100 和 B200 一樣,B300 在單個 SXM6 插槽中擁有一對受限光罩的 GPU。目前我們還沒有關於這款 B300 的大量資料,但我們知道它不僅記憶體容量增加了 50%,而且 FP4 效能也增加了 50%,達到 15 千萬億次浮點運算(在密集矩陣上),而 B100 和 B200 為 10 千萬億次浮點運算。因此,B300 不僅僅是記憶體升級,而且看起來時鐘速度也提高了,並且可能還增加了活動流式多處理器的數量。(我們會盡快找到答案。明天將釋出架構簡報。)
綜上所述,GB300 NVL72(應該再次稱為 GB300 NVL144,因為機架中有 144 個 GPU 晶片,黃仁勳也承認了這一點)擁有 1,100 petaflops 的密集 FP4 推理效能和 360 petaflops 的 FP8 訓練效能,比目前正在出貨的 GB200 NVL72 機器高出 50%。GB300 NVL72 將於 2025 年下半年上市。
用於乙太網和 InfiniBand 的 ConnectX-8 SmartNIC 執行速度為 800 Gb/秒,也將於今年晚些時候推出,其速度是之前推出的 ConnectX-7 SmartNIC 中 400 Gb/秒埠的兩倍。
2026 年下半年 – 大約是 GB300 NVL72 機器發貨一年後 – CPU 和 GPU 都將得到巨大提升,其計算引擎以研究銀河系旋轉並發現宇宙充滿暗物質的天文學家 Vera Rubin 的名字命名。
“Vera” CV100 Arm 處理器(我們之所以這樣稱呼它,是因為我們喜歡邏輯命名約定,就像 Nvidia 過去那樣)將擁有 88 個定製 Arm 核心,而這一次 Nvidia 為核心添加了同步多執行緒,以獲得 176 個執行緒。CPU 和與其相連的 GPU 之間的 NVLink C2C 連結將翻倍至 1.8 TB/秒,與 Blackwell GPU 上當前的 NVLink 5 埠速度相匹配。根據上圖的放大圖,我們強烈懷疑 Vera 晶片將具有單片核心晶片和單個 I/O 晶片。看起來 Vera CPU 的主記憶體將略大於 1 TB,如果我們必須猜測的話,可能是 LPDDR6。
“Rubin” R100 GPU 加速器將配備兩個 SXM7 插槽中的受限 GR100 GPU,並配備 288 GB 的 HBM4 記憶體。因此,容量與 B300 Blackwell Ultra 相同,並且與 B300 一樣擁有 8 個 HBM 堆疊。但是透過遷移到 HBM4 記憶體,頻寬將躍升 62.5%,達到 13 TB/秒,跨越這 8 個 HBM 堆疊。
讓我們深入研究其中的每一個,它們的主要特徵在於其計算引擎和 GPU 加速器。
最新平臺基於“Blackwell” B300 GPU(也稱為 Blackwell Ultra),旨在處理超大規模 AI 推理工作負載以及 AI 訓練。B300 將每個 GPU 上的 HBM3E 容量提升 50% 至 288 GB,這是透過遷移到 DRAM 晶片的十二高堆疊(路線圖中為 12S)來實現的,而 B100 和 B200 使用的八高堆疊(8S)最高可達 192 GB。Blackwell 和 Blackwell Ultra GPU 中使用的 HBM3E 記憶體的頻寬保持不變,因為堆疊數量保持不變。
在 GB200 NVL72 機架中(黃仁勳承認應該將其稱為 NVL144,因為它實際上是單個 SXM6 插槽中的兩個不同的 GB100 GPU 晶片),有 36 個 Grace CPU,每個有 74 個核心,每個 Grace 都有一對 B200 掛在上面,總共有 72 個 GPU。CPU 和 GPU 上的 NVLink 5 埠為這三個計算引擎提供了一個共享記憶體池,另一組 18 個 NVSwitch 4 交換機建立了一個共享 GPU 記憶體池,大部分實際的 AI 工作都在這裡完成。

Rubin GPU 插槽將能夠以 FP4 精度處理 50 千萬億次浮點運算——我們不知道它是否支援密集或稀疏矩陣,但我們認為它可能支援密集,因為在上面圖表的其他地方,Nvidia 表示機架規模系統將以 FP4 精度進行推理,以 FP8 訓練進行訓練,以 1.2 千萬億次浮點運算,這是今年晚些時候推出的 GB300 NVL72 系統的 3.3 倍。這款 VR300 NVL144 系統的效能將是當前 GB200 NVL72 的 5 倍,而 GPU 晶片和 CPU 晶片的物理數量相同。
Vera-Rubin NVL144 系統中的效能將透過將 NVLink 7 埠加倍和 NVSwitch 6 交換機切換至 3.6 TB/秒來平衡。
2027 年下半年,GPU 將升級到“Rubin Ultra”,這將把四個受限於光罩的 GPU 晶片放入一個插槽中(可能稱為 SXM8),該插槽擁有 100 petaflops 的 FP4 效能和 1 TB 的 HBM4E 堆疊記憶體。去年的路線圖表明,Rubin Ultra GPU 將有 12 個 HBM4E 記憶體堆疊(12S),但如果您放大本文頂部的新路線圖,您會看到它顯示 16S,大概是 16 個記憶體堆疊。

人們很容易認為 Rubin Ultra GPU(大概稱為 R300)中的每個 HBM4E 堆疊都將堆疊十幾個 DRAM,但計算起來卻行不通。但如果 DRAM 的容量為 8 GB,並且您有 16 個堆疊,並且它們有 8 個高,那麼您將獲得 1,024 TB 的記憶體。所以現在我們知道了。
命名約定中 NVL 後面的數字表示機架中有多少個 GPU 晶片,因此 576 個晶片除以每個 SXM8 插槽 4 個晶片意味著有 144 個 GPU 插槽,這是上述 GB200、GB300 和 VR200 系統的兩倍。每個 CPU 插槽有兩個 GPU 插槽,該架構將在一個機架中擁有 72 個節點,每對 GPU 插槽有一個 CPU 插槽,與以前一樣。
Vera Rubin Ultra VR300 NVL576 系統使用代號為“Kyber”的新型液冷機架,其元件看起來就像過去的商用刀鋒伺服器一樣垂直堆疊。它看起來有八個垂直刀片托架,每個托架有 18 個刀片,我們猜測每個刀片都是一個節點。Kyber 機架的前面似乎沒有任何網路,所以我們認為可能所有網路都在機架後面,而且,我們認為這可能是 Nvidia 將矽光子學放在 GPU 上並透過交換結構將它們相互連線起來的點,這將比使用銅線(如當前的 GB200 系統)更容易、更省力。但我們剛剛對 Buck 進行了影片採訪,他證實,擴充套件網路將保留在銅線上,包括 Kyber 機架。
事情是這樣的。2027 年下半年推出的 VR300 NVL576 的效能將是目前正在加速的 GB200 NVL72 系統的 21 倍。即在 FP4 精度下,AI 推理密集矩陣的每秒 15 百億億次浮點運算,以及 AI 訓練的每秒 5 百億億次浮點運算。機架規模 VR300 NVL576 的機架內 144 TB HBM4E 記憶體的頻寬為 4.6 PB/秒,並且將擁有另外 365 TB 的“快速記憶體”(可能是 LPDDR6)。GPU 將使用 144 個 NVSwitch 交換機透過 NVLink 7 埠進行連線,埠頻寬可能翻倍至 7.2 TB/秒。該機架將配備 576 個 Rubin GR100 GPU 晶片、2,304 個記憶體晶片(容量為 150 TB)和 4,600 PB/秒的總頻寬。它將配備 576 個 ConnectX-9 NIC(埠速率為 1.6 Tb/秒)和 72 個 BlueField DPU(代號未知)。
最後,在 2028 年,“費曼”一代 GPU 的問世將再次讓一切重現。費曼 GPU 以著名而機智的物理學家理查德·費曼 (Richard Feynman) 的名字命名。費曼參與了曼哈頓計劃,在量子物理學方面做出了傑出貢獻,發明了納米技術,破解了瑪雅象形文字程式碼,還演奏了一套出色的邦戈鼓。費曼 GPU 將與 Vera CPU 和 3.2 Tb/秒 ConnectX-10 NIC、204 Tb/秒 Spectrum 7 乙太網交換機以及 7.2 TB/秒 NVSwitch 8 交換機配對使用。
這就是您制定路線圖的方式。
參考連結
https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4069期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

