
👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
年度科技盛宴GTC昨晚正式拉開帷幕。
會上,黃仁勳透露,美國四大雲端龍頭今年已購360 萬個 Blackwell 晶片,預計2028 年資料中心資本支出規模突破1萬億美元。他同時透露,透露,Blackwell 架構的晶片,已經全面投產,客戶的需求令人難以置信。
黃仁勳甚至開玩笑說他是”主要營收破壞者“,因為他貶低了英偉達的舊款Hopper 系列,展示了Blackwell 如何提供比舊款Hopper 系列更好的推理效能。
黃仁勳說,由於這些優勢,當Blackwell 開始批次發貨時,公司甚至無法免費贈送Hopper 產品,但他表示“當科技發展如此之快”且“工作量如此之大”時,最新一代晶片將帶來巨大的好處。
於是,在大會上,黃仁勳正式揭開了英偉達新GPU路線圖。
Blackwell Ultra,今年重點
本屆GTC上,NVIDIA 首先透過其 Blackwell Ultra 平臺升級 Blackwell,提供高達 288 GB 的 HBM3e 記憶體。不過,Nvidia 並未我們期望那樣,透露 Blackwell Ultra 比原版 Blackwell 有多好的資料。
在被記者要求提供更多細節時,英偉達方面表示,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的晶片。Blackwell Ultra GPU 旨在滿足測試時間擴充套件推理的需求,FP4 計算能力提高了 1.5 倍。這是否意味著 B300 是一款物理上更大的晶片,可以在封裝中容納更多張量核心?
而在此前與記者的一次事先簡報會上,Nvidia 透露,單個 Ultra 晶片將提供與 Blackwell 相同的 20 petaflops AI 效能,但現在擁有 288GB 的HBM3e 記憶體,而不是 192GB。同時,Blackwell Ultra DGX GB300“Superpod”叢集將提供與 Blackwell 版本相同的 288 個 CPU、576 個 GPU 和 11.5 exaflops FP4 計算能力,但擁有 300TB 的記憶體,而不是 240TB。

不過,Nvidia 將其新款 Blackwell Ultra 與H100 進行了比較,後者是 2022 年推出的晶片,最初為 Nvidia 的 AI 奠定了基礎,領先的公司可能希望對其進行升級:Nvidia 表示,相較於H100 ,Blackwell Ultra提供 1.5 倍的 FP4 推理能力,可以顯著加快“AI 推理”速度,NVL72 叢集能夠執行 DeepSeek-R1 671B 的互動式副本,只需 10 秒即可給出答案,而 H100 則需要 1.5 分鐘。Nvidia 表示,這是因為它每秒可以處理 1,000 個 token,是 Nvidia 2022 年晶片的十倍。

英偉達在官方新聞稿中表示,NVIDIA GB300 NVL72 採用機架級設計,連線 72 個 Blackwell Ultra GPU 和 36 個基於 Arm Neoverse 的NVIDIA Grace CPU,充當專為測試時間擴充套件而構建的單個大型 GPU。藉助 NVIDIA GB300 NVL72,AI 模型可以訪問平臺增強的計算能力,探索問題的不同解決方案,並將複雜請求分解為多個步驟,從而獲得更高質量的響應。
英偉達指出,GB300 NVL72 預計還將在NVIDIA DGX Cloud上推出,這是一個端到端、完全託管的領先雲 AI 平臺,可透過軟體、服務和 AI 專業知識最佳化效能,以應對不斷變化的工作負載。配備 DGX GB300 系統的NVIDIA DGX SuperPOD 採用 GB300 NVL72 機架設計,為客戶提供交鑰匙 AI 工廠。
與 Hopper 一代相比,NVIDIA HGX B300 NVL16 在大型語言模型上的推理速度提高了 11 倍,計算能力提高了 7 倍,記憶體增加了 4 倍,從而為 AI 推理等最複雜的工作負載提供了突破性的效能。
此外,Blackwell Ultra 平臺還適用於以下應用:
代理式人工智慧,它使用複雜的推理和迭代規劃來自主解決複雜的多步驟問題。人工智慧代理系統超越了指令遵循。它們可以推理、規劃並採取行動來實現特定目標;
物理人工智慧,使公司能夠即時生成合成的、逼真的影片,以大規模訓練機器人和自動駕駛汽車等應用程式。
關於這顆晶片,另一個有趣的點是一些公司將能夠購買單個 Blackwell Ultra 晶片:Nvidia 宣佈推出一款名為 DGX Station 的臺式電腦,該電腦搭載單個 GB300 Blackwell Ultra、784GB 統一系統記憶體、內建 800Gbps Nvidia 網路,以及承諾的 20 petaflops AI 效能。華碩、戴爾和惠普將與 Boxx、Lambda 和 Supermicro 一起銷售臺式電腦版本。

明年的Vera Rubin,下一代的Feynman
但明年,公司將將憑藉其全新的 CPU 和 GPU 平臺(代號為 Rubin 和 Vera)將事情推向新的高度。
Vera Rubin,首次在 2024 年臺北國際電腦展上亮相,目前計劃於 2026 年下半年釋出。這款以著名天文學家命名的 GPU將具有數十TB 的記憶體,並配備名為 Vera 的定製 Nvidia 設計 CPU。
Nvidia 表示,Vera Rubin 將比其前代產品Grace Blackwell有顯著的效能提升,特別是在 AI 訓練和推理方面。
具體而言,該系統有兩個主要元件:一個稱為 Vera 的 CPU 和一個稱為 Rubin 的新 GPU 設計。它以天文學家 Vera Rubin 的名字命名。
首先看其Vera CPU,表示,英偉達表示,Vera 是 Nvidia 的首款定製 CPU 設計,它基於名為 Olympus 的核心設計,將取代當前的 Grace CPU。Vera 將是一個相對較小且緊湊的 CPU,具有 88 個定製 ARM 核心和 176 個執行緒。它還將有一個 1.8 TB/s 的 NVLink 核心到核心介面,用於與 Rubin GPU 連線。
以前,當 Nvidia 需要 CPU 時,它會使用Arm的現成設計。但是,高通、蘋果等已經開發出定製 Arm 核心設計的公司表示,它們能夠實現更加量身定製,並釋放出更好的效能。於是,英偉達也定製了 Vera,他們表示,新設計將比去年的 Grace Blackwell 晶片中使用的 Grace CPU 快兩倍。
其次是Rubin GPU,按照Nvidia所說,Rubin 實際上是兩個 GPU。從 Rubin 開始,Nvidia 表示,當它將兩個或多個晶片組合成一個晶片時,它會將它們稱為獨立的 GPU。來到資料方面,據介紹,Rubin 還將提供 1.2 ExaFLOPS FP8 訓練,而B300只有0.36 ExaFLOPS。總體而言,計算效能提高了 3.3 倍。同時,Rubin還將標誌著從 HBM3/HBM3e 向 HBM4 的轉變,其中 HBM4e 用於 Rubin Ultra。每 GPU 的記憶體容量仍為 288GB,與 B300 相同,但頻寬將從 8 TB/s 提高到 13 TB/s。還將有一個更快的 NVLink,將吞吐量翻倍至 260 TB/s,機架之間的新 CX9 鏈路速度為 28.8 TB/s(頻寬是 B300 和 CX8 的兩倍)。

與CPU搭配後,Vera Rubin 每個晶片可提供 50 petaflops浮點運算的 FP4 推理效能。在完整的 NVL144 機架中配置時,該系統可提供 3.6 exaflops浮點運算的 FP4 推理計算能力,是 Blackwell Ultra 在類似機架配置中的 1.1 exaflops浮點運算能力的 3.3 倍。
上圖是 Rubin NVL144 機架,它將與現有的 Blackwell NVL72 基礎設施相容。下圖中,我們提供了 Blackwell Ultra B300 NVL72 的相同配置資料,以供比較。B300 NVL72 提供 1.1 PFLOPS 密集 FP4 計算,而 Rubin NVL144(同樣擁有 144 個 GPU 晶片)將提供 3.6 PFLOPS 密集 FP4。

黃仁勳還宣佈了將於 2027 年下半年推出的 Rubin Ultra。Rubin Ultra 將採用 NVL576 機架配置,並配備帶有四個標線大小晶片的獨立 GPU,也就是將四個晶片組合成一個晶片,使 Rubin 的速度翻倍,並將其稱為四個 GPU,每個晶片可提供 100 petaflops 的 FP4 精度(一種用於表示和處理 AI 模型中數字的 4 位浮點格式)。
在機架層面,Rubin Ultra 將提供每秒 15 exaflops浮點運算的 FP4 推理計算和每秒 5 exaflops浮點運算的 FP8 訓練效能,比 Rubin NVL144 配置強大約四倍。每個 Rubin Ultra GPU 將包含 1TB 的 HBM4e 記憶體,整個機架包含 365TB 的快速記憶體。

不過,這裡的情況有點奇怪。Nvidia 列出了 4.6 PB/s 的 HBM4e 頻寬,但 576 個 GPU 的頻寬相當於每個 GPU 8 TB/s。這似乎比以前每個 GPU 的頻寬要少,但這可能是四個 GPU 晶片如何連線在一起的一個因素。每四個標線大小的 GPU 還將有 1TB 的 HBM4e,具有 100 PetaFLOPS 的 FP4 計算能力。
NVLink7 介面速度將比 Rubin介面快 6 倍,吞吐量為 1.5 PB/s。CX9 互連也將實現機架間 115.2 TB/s 的 4 倍提升,這可能是透過將鏈路數量增加四倍來實現的。
根據介紹,英偉達下一代未來還有 Feynman GPU。黃仁勳在主題演講中沒有透露 Feynman 架構的細節,該架構以美國理論物理學家理查德·費曼 (Richard Feynman) 命名,它採用了 Vera CPU。Nvidia 計劃在 2028 年某個時候將 Feynman 推向市場,取代 Rubin Vera。

矽光,英偉達掀起新篇章
在談GPU和CPU的同時,英偉達在本屆GTC上還帶來了公司在矽光上的新篇章。
知名媒體The Next Platform表示,談到網路時,規則很簡單。對於大規模分散式、基本不連貫的應用程式的超大規模網路,規則是:儘可能路由,必要時交換(Route when you can, and switch if you must)。對於對延遲和頻寬都敏感的 HPC 和 AI 工作負載,我們堅持古老的格言:儘可能交換,必要時路由(Switch when you can, route if you must)。而對於網路佈線,我們的選擇是:儘可能使用銅線,必要時使用光纖(Copper when you can, fiber when you must)。
當中,Nvidia 機架式 GB200 NVL72 系統背板的大量銅纜能充分說明最後一條原則,該系統由 36 個 MGX 伺服器節點組成,每個節點都有兩個“Blackwell”B200 GPU 加速器與一個“Grace”CG100 Arm 伺服器處理器配對,組成一個共享記憶體計算引擎叢集,該叢集有 36 個 CPU 和 72 個 GPU,使用 NVSwitch 4 互連來建立 CPU 和 GPU 記憶體結構,需要超過 5000 條粗銅纜,由以 224 Gb/秒執行的 NVLink 5 SerDes 直接驅動。由於所有這些通訊都在機架內部進行,因此銅纜足以(雖然很麻煩)在 GPU 之間提供更涼爽、高頻寬的管道,CPU 懸掛在其上。
不過,這種方式也會面臨挑戰,因為你每次將銅線上的頻寬增加一倍,線路上的垃圾也會增加一倍,因此您只能在一半的線路長度上獲得乾淨的訊號。當(不是如果)Nvidia 將其 NVLink 6 埠的頻寬與其下一代“Rubin”GPU 加速器一起增加一倍時,這意味著它只能跨越半個機架的 GPU,如果它們的執行溫度也更高,那麼它可能遠遠少於半個機架。這顯然不是一個目標。
因此,在 GPU 上甚至在 CPU 上切換到 CPO 有了最佳理由,因為未來的“Vera”CPU 上也使用 NVLink 6 埠。無論如何,隨著 AI 推理工作負載的增長,Nvidia 希望將 GPU 的 NUMA 域增加 2 倍或 4 倍,但將其減半。
不過,在本屆的GTC大會上,英偉達並沒有提出針對 GPU 或與之相連的 HBM3E 或 HBM4 記憶體組進行 CPO。不過,他們公佈了其採用矽光子學並在其 Quantum InfiniBand 和 Spectrum Ethernet 系列交換機中部署共封裝光學器件 (CPO) 的計劃,這不僅是一個令人興奮的發展,而且事實證明它將在很大程度上降低資料中心規模 AI 系統中網路的功率需求。
網路中光學器件的功耗巨大,資本支出也巨大。有傳聞稱,我們曾多次聽說,資料中心規模叢集的大部分成本都來自鏈路兩端的光學收發器以及它們之間的光纜。將交換機連線到網路介面卡的一些部件佔網絡成本的 75% 到 80%,而交換機和 NIC 佔另外 20% 到 25%。這聽起來很瘋狂。

從英偉達他們提供的兩張圖表讓我們瞭解到資料中心運營商在使用光鏈路交叉連線資料中心的伺服器和儲存時面臨的問題。

如上圖所示,這是一個基於使用伺服器節點的資料中心,每個伺服器節點中每四個 GPU 配備兩個 CPU(如 GB200 NVL72 機架式 MGX 系統設計),資料中心中有 100000 臺伺服器,因此有 400000 個 GPU。(如果您使用 HGX 設計,它不會完全連線機架內的 GPU 記憶體,而只會連線伺服器節點內的 GPU 記憶體,那麼每四個 GPU 就會有一個 CPU,只需要 50,000 臺伺服器即可容納 400,000 個 GPU,但它佔用的空間只有一半,光收發器也略少。但它佔用的空間是原來的兩倍。)
換而言之,無論如何,Nvidia 選擇的方案將有 240 萬個光收發器,這些可插拔模組插入每個伺服器埠和每個交換機埠,將電訊號轉換為可透過光纖管道傳輸的光訊號。這 240 萬個收發器使用 40 兆瓦的功率,而這些可插拔模組上的雷射器佔其中的 24 兆瓦。
在“傳統”超大規模和雲資料中心中,收發器採用 Clos topology,而不是像 AI 或 HPC 超級計算機那樣採用full fat tree topology,因此在收發器上消耗的功率約為 2.3 兆瓦,如果將數字倒推,則略低於 140000 個此類可插拔模組。收發器數量如此之少的原因很簡單:一臺擁有一兩個 CPU 的伺服器執行 Web 基礎設施甚至搜尋引擎抓取任務時只有一個埠,而 GPU 伺服器則需要為每個 GPU 配備至少一個埠。AI 超級計算機中計算引擎的數量推動了光收發器的使用。
現在,業界提供了一個擺脫它們的完美藉口,Nvidia 正在其下一代 Quantum-X InfiniBand 和 Spectrum-X 交換機上實現這一目標,並且可能最終會在其 Connect-X SmartNIC 和 BlueField DPU 上實現這一目標,正如我們上面指出的那樣,GPU 和 CPU 上的 NVLink 埠以及 NVSwitch 記憶體原子交換機(memory atomic switches)上。

如上圖所示,Nvidia 採用了兩種不同的共封裝光學器件方法,這些方法由 Nvidia 和圖表底部的眾多合作伙伴共同開發。矽光子引擎由 Nvidia 自己建立(Mellanox 在製造可插拔光學器件方面擁有豐富的專業知識),並且為這些交換機 ASIC 建立了一種新的微環調製器 (MRM) 設計,以整合其光學器件。
在 800 Gb/秒埠中轉向 200 Gb/秒訊號通道可能是迫在眉睫的挑戰。僅僅將訊號從交換機 ASIC 傳輸到面板上的埠就需要大量的訊號重定時器(每個埠可能多達兩個),而且正如 Astera Labs 的財務報表所示,成本“肯定會增加”。
Nvidia 還與晶圓廠合作伙伴臺灣半導體制造公司合作,最佳化其自己的光子引擎設計,幷包括高功率(和高效率)雷射器和可拆卸光纖聯結器。
正如您在上圖左側看到的,未來帶有 CPO 的 Quantum-X InfiniBand ASIC 擁有一個單片交換機 ASIC 晶片,該晶片帶有六個不同的 CPO 模組,每個模組都有三個聯結器,總共看起來像 18 個埠,執行速度為 800 Gb/秒,但實際上是 36 個埠(每個插頭似乎有兩個埠)。
顯然,這款 InfiniBand 小型 CPO 模組旨在降低成本,並實現高產量製造。這只是第一步,它不會導致高基數的交換機,因此需要大量的交換機透過伺服器上的 NIC 連線一定數量的 GPU 埠。
Spectrum-X 帶 CPO 具有多晶片設計,用於乙太網交換機 ASIC,具有一個單片資料包處理引擎,由八個 SerDes 晶片組(每側兩個)包裹,然後在角落處有四個未知晶片組,我們不知道它們在做什麼。Spectrum-X CPO 晶片的每一側都有九個埠,總共 36 個埠,執行速度為 800 GB/秒。
在這兩種設計中,SerDes 的執行速度均為每通道 224 Gb/秒,每個埠由四條通道組成,編碼開銷總共損失 96 Gb/秒,因此每個埠的淨速度為 800 Gb/秒。Quantum-X ASIC 上的 SerDes 總共有 72 條通道,Spectrum-X chiplet 系列上的 SerDes 有 144 條通道。
由於所有超大規模企業和雲構建者都希望將乙太網用作其 AI 叢集的後端網路,並且大多數其他新雲和許多 HPC 超級計算中心預計也會效仿,因此 Shainer 重點關注了 Spectrum-X 帶來的好處。
首先,我們來看看 Nvidia 是如何進行 CPO 封裝的,以及效果如何。然後我們再來看看交換機本身。
以下是其示意圖,以及使用整合光學器件和在交換機中使用整合雷射源可以節省多少電量,有趣的是,計算結果顯示的是 1.6 Tb/秒埠,這是資料中心的未來,而不是現在:

如上圖所示,光收發器上的數字訊號處理器耗電 20 瓦,為收發器提供光源的外部調製雷射器耗電 10 瓦。因此,240 萬個收發器共有 30 瓦,用於交叉連線 100,000 臺伺服器和 400,000 個 GPU。當我們進行計算時,我們得到的是 72 兆瓦,而不是 40 兆瓦(這可能是 800 Gb/秒的埠號)。
使用 CPO,交換機盒中有一個連續波雷射源,每個埠消耗 2 瓦功率,光學引擎集成了 Spectrum 交換機 ASIC 使用的相同基板,消耗 7 瓦功率。因此,現在每個埠的功率降低到 9 瓦,跨越 240 萬個鏈路,功率降低到 21.6 兆瓦。根據我們的計算,鏈路功率減少了 3.3 倍。
使用 CPO 不僅可以降低功率,而且由於訊號元件之間的轉換更少,因此整體端到端配置中的噪聲也更少。請看一看:

每次從一個元件跳轉到另一個元件時,都會產生訊號噪聲,而當可插拔光學器件連線到交換機時,收發器和交換機印表機電路板、基板和埠籠之間會有五次轉換,總共會產生 22 分貝的訊號損失。使用 CPO,基板中有一個轉換,用於將交換機 ASIC 連線到矽光子模組,訊號損失僅為 4 分貝。這意味著訊號噪聲降低了 5.5 倍。
所有這些的效果如下:

上圖顯示,在相同的光學功率範圍內,GPU 數量可以增加 3 倍,但正如我們上面所看到的(您也可以從圖表中親眼看出),實際數量是 3.3 倍。值得注意的是,連線任意數量的 GPU 所需的雷射器數量也將減少 4 倍以上。當然,訣竅是將雷射源置於 Quantum-X 和 Spectrum-X 交換機內部,以便在發生故障時輕鬆在現場更換,或者足夠可靠,不用擔心發生故障。因此,帶有 CPO 的 Quantum-X 和 Spectrum-X 交換機將採用液體冷卻,這樣可以讓它們在更冷的溫度下執行,並且不會讓雷射器變得異常。

目前,Nvidia 計劃推出三種不同的交換機,推出共同封裝的光學產品。
第一款是 Quantum 3450-LD,其機箱內有四個 Quantum-X CPO 插槽,以無阻塞方式完全連線,以 800 Gb/秒的速度提供 144 個埠,這些埠的總有效頻寬為 115 Tb/秒。(我們想知道為什麼不是六個,您需要將四個 ASIC 呈現給面板,其中兩個用於將四個 ASIC 聯網在一起。)這款 Quantum-X 交換機將於 2025 年下半年上市。
以下是配有全電纜介面的 Quantum-X 交換機:

兩款採用 CPO 的 Spectrum-X 交換機將需要更長時間才能投入使用,預計要到 2026 年下半年。
Nvidia 的第一款配備 CPO 的乙太網交換機是 Spectrum SN6810,它將配備單個 Spectrum-X CPO 裝置,併為 128 個以 800 Gb/秒執行的埠提供 102.4 Tb/秒的總頻寬。(封裝上顯然有一些額外的 CPO 單元,以提高封裝良率。)Spectrum SN6800 交換機非常出色,擁有 512 個以 800 Gb/秒執行的埠,機箱內的四個 ASIC 總共提供 409.6 Tb/秒的有效總頻寬。不過,我們想知道為什麼機箱中沒有六個 Spectrum-X CPO ASIC,而是四個,以便以無阻塞方式交叉連線它們。
寫在最後
雖然黃仁勳在會上激情慢慢,公司新發布的產品也同樣引起了廣泛討論。而且,據彭博社報道,OpenAI 斥資 1000 億美元建設的星際之門基礎設施專案的首個數據中心綜合體將擁有容納多達 40 萬個 Nvidia 公司強大的 AI 晶片的空間——如果能夠裝滿,它將成為已知最大的人工智慧計算能力叢集之一。
Meta也表示,它計劃在 2024 年底之前擁有相當於 600,000 臺 Nvidia H100(該公司資料中心半導體的上一代產品)的計算能力。專注於 AI 的雲提供商 CoreWeave Inc. 在本月初的公開募股檔案中表示,該公司在 32 個數據中心擁有超過 250,000 個 Nvidia 圖形處理單元。
但是,無論是谷歌聯手MTK打造晶片,還是Meta測試最新訓練晶片,或者是最新的亞馬遜AI晶片服務降價與和英偉達競爭,都在給這家晶片巨頭帶來新的挑戰。
而且,投資者似乎對這一主題演講並不太感興趣。
在主題演講之前,Nvidia的股價約為每股 118 美元,盤中下跌約 1.5%。在美國東部時間下午 3:15 左右收盤後,股價繼續下跌。截至週二午後交易,該股下跌逾 3.4%。
這讓我們不得不發出疑問,GPU巨頭,還能火多久?
附:黃仁勳演講Keynote重點
在演講中,黃仁勳表示,“GTC 從 GeForce 起步”
Jensen 手裡有一臺 GeForce RTX 5090,為了進行比較,還有一臺 RTX 4090。

Jensen 正在展示路徑追蹤環境——其中配備了強大的 AI 來提供升級、去噪等功能。
“生成式人工智慧從根本上改變了計算方式”

AI 現在有了代理——Jensen 稱之為“Agentic”AI。模型可以從網站檢索內容,既可以作為訓練,也可以作為更直接的資訊檢索。
Jensen表示,他們今天還將詳細討論推理人工智慧。
以及“physical AI”,使用AI來幫助模擬和訓練其他AI模型。
“讓 GTC 做大的唯一方法就是發展聖何塞。我們正在努力!”
每年都有更多的人加入,因為人工智慧能夠為更多的人和公司解決更多的問題。
三個基本縮放定律:

訓練前擴充套件、訓練後擴充套件和測試時擴充套件。如何建立、如何訓練以及如何擴充套件?
擴充套件:去年幾乎全世界都犯了錯誤。推理所需的計算量很容易就比去年全世界認為的要多 100 倍。

我們現在有了能夠透過思維鏈和其他技術逐步推理的人工智慧。但生成令牌的底層過程並沒有改變。相反,這種推理需要更多的令牌——高得多,“很容易多 100 倍”。
為了保持模型的響應,每秒所需的計算量同樣很高。
強化學習是過去幾年的重大突破。為人工智慧提供數百萬個不同的示例,讓其逐步解決問題,並在人工智慧做得更好時獎勵(強化)。這相當於數以萬億的Token來訓練該模型。換句話說:生成合成資料來訓練人工智慧。
Jensen表示,硬體銷售行業已經接受了這一舉措。
Hopper 的出貨量在雲服務提供商中名列前茅。Hopper 的巔峰之年與 Blackwell 的第一年相比。

僅一年時間(Blackwell 剛剛開始出貨),NVIDIA 就報告其企業級 GPU 銷量顯著增長。
Jensen預計資料中心的建設投資很快就會達到一萬億美元。

Jensen 認為,我們正看到資料中心建設向加速計算(即 GPU 和其他加速器而不僅僅是 CPU)發展的轉折點。
“計算機已經成為Token的生成器,而不是檔案的檢索器。”這就是 NVIDIA 所說的 AI 工廠。
雖然資料中心中的一切都將加速,但並非所有一切都將是人工智慧。

您還需要物理、生物和其他科學領域的框架。NVIDIA 已將所有這些作為其 CUDA-X 庫的一部分提供。cuLitho 用於計算光刻,cuPynumeric 用於數值計算,Aerial 用於訊號處理等。這是 NVIDIA 在更大行業中的“護城河”。
“我們將於週四在 GTC 舉辦第一屆量子日。”
“CUDA 的安裝基礎現在無處不在”透過使用這些庫,開發人員的軟體可以覆蓋每個人。
Blackwell 比第一代 CUDA GPU 快 50,000 倍以上。
Jensen在隨後的演講中指出,我熱愛我們所做的事情。我更熱愛你們所做的事情。

CSP 喜歡 CUDA 開發人員是 CSP 客戶。
但現在他們要把人工智慧帶到世界其他地方,情況正在發生一些變化。GPU 雲、邊緣計算等都有自己的要求。
在 NV 的眾多小型公告中,幾家公司(思科、T-Mobile 等)正在利用 NVIDIA 的技術(Ariel-Sionna 等)為美國無線電網路構建全棧。
但這只是其中一個行業。自動駕駛汽車也是如此。AlexNet 說服 NVIDIA 全力投入自動駕駛汽車技術。現在他們的技術正在世界各地使用。NVIDIA 製造用於訓練、模擬和自動駕駛汽車的計算機。
NVIDIA 宣佈通用汽車將與 NVIDIA 合作打造其未來的自動駕駛汽車車隊。
“自動駕駛汽車的時代已經到來”
NVIDIA 已讓第三方對所有 700 萬行程式碼的安全性進行了評估。安全性似乎是 NVIDIA 今年汽車業務的關鍵詞。
數字孿生、強化學習、生成多樣化場景等。全部圍繞 NVIDIA Cosmos 構建。使用 AI 創造更多 AI。
現在討論資料中心。

Grace Blackwell 現已全面投入生產。Jensen 正在展示其合作伙伴提供的各種機架系統。
NVIDIA 花了很長時間研究分散式計算——如何縱向擴充套件,然後如何橫向擴充套件。橫向擴充套件很難;因此 NVIDIA 必須首先使用 HGX 和 8 路 GPU 配置進行縱向擴充套件。

Jensen 正在展示 NVL8 系統的構建。重點強調了過去。
為了克服這一問題,NVIDIA 必須重新設計 NVLink 系統的工作方式,以進一步擴大規模。NVIDIA 將 NVLink 交換移出機箱,並將其移至機架單元裝置。“分解式 NVLInk”

現在 NVIDIA 可以在一個機架中提供一個 ExaFLOP(低精度)。

Blackwell GPU 已經突破了標線極限,因此 NVIDIA 透過採用現在的機架級系統而不是單個伺服器來擴大規模。
反過來,所有這些都有助於為人工智慧提供計算效能。不僅用於訓練,還用於推理。

Jensen 展示了大規模計算的推理效能曲線。簡而言之,它是總吞吐量和響應能力之間的平衡。保持系統飽和將最大化令牌吞吐量,但生成單個令牌需要很長時間。時間太長,使用者就會轉向其他地方。
這是典型的延遲與吞吐量的權衡。
因此,對於 NVIDIA 的 CSP 合作伙伴和其他使用 NV 硬體進行推理的客戶來說,為了最大化他們的收入,他們需要仔細選擇曲線上的一個點。通常,理想的點是向上和向右 – 吞吐量和響應能力最高,而不會顯著損害一個以換取另一個的微小改進。
所有這些都需要 FLOPS、記憶體頻寬等。因此 NVIDIA 構建了硬體來提供這些功能。

傳統的 LLM 速度快、效率高,但在 NVIDIA 的婚禮座位用例中卻不盡如人意。浪費了 439 個 token。推理模型可以處理它,但需要超過 8,000 個 token。
要使所有這些效能優異,不僅需要大量硬體,還需要大量最佳化的軟體,直至作業系統,以處理批處理等基本最佳化。
預填充(消化資訊)非常耗費 FLOPS。下一步,解碼,需要耗費大量記憶體頻寬,因為模型需要從記憶體中提取;輸入數萬億個引數。所有這些都是為了產生 1 個 token。
這就是你需要 NVLink 的根本原因。將多個 GPU 整合成一個巨大的 GPU。
然後這可以進行進一步的最佳化。將使用多少個 GPU 來進行預填充和解碼?
公告:NVIDIA Dynamo,分散式推理服務庫。AI Factory 的作業系統。

Jensen 在範圍方面將 Dynamo 與 VMWare 進行了比較。VMWare 是建立在 CPU 系統上的,而 Dynamo 是建立在 GPU 系統上的。
Dynamo 是開源的。
現在回到硬體和效能。Jensen 正在將 NVL8 Hopper 設定與 Blackwell 進行比較。每兆瓦每秒token數與每使用者每秒token數的對比圖。
“只有在 NVIDIA 你才會被數學折磨”
對於服務提供商來說,長時間內擁有大量token就意味著大量收入。請記住吞吐量與響應度之間的權衡。這是 NVIDIA 試圖改變的曲線。
Blackwell 改進了這一點,提供了更好的硬體和對低精度資料格式 (FP4) 的支援。使用更少的能量做與以前相同的事情,從而做更多的事情。
“未來每個資料中心的電力都將受到限制。”“我們現在是一個電力受限的行業”。

Dynamo 讓 Blackwell NVL72 執行速度更快。這是在等功率下,而不是等晶片下。一代速度提升了 25 倍。

現在討論一下帕累託前沿和帕累托最優,以及各種模型配置如何達到曲線上的不同點。
在其他情況下,Blackwell 的效能(等功率)可達到 Hopper 的 40 倍。
“我是主要的收入破壞者。”“有些情況下,Hopper是沒問題的。”

事實就是如此:“買得越多,省得越多。”“買得越多,賺得越多。”
NVIDIA 還討論如何為資料中心構建數字孿生。(畢竟,在 NV 的世界裡,它只是另一家工廠)

最終,使用數字孿生可以提前規劃和最佳化所有這些,然後最終構建一次並快速構建。

Blackwell Ultra NVL72 將於今年下半年出貨。1.1 Exaflops 密集 FP4 推理。2 倍網路頻寬。20TB HBM 系統記憶體。還有一條新的注意指令,效能應該會翻倍。
行業現在正處於必須規劃支出的階段。各公司正在對硬體、設施和 NVIDIA 生態系統做出多年承諾。這就是 Jensen 希望明確 NVIDIA 路線圖的原因。
繼布萊克威爾之後的是發現暗物質的Vera Rubin。

Vera Rubin NVL144,2026 年下半年。Vera Arm CPU + Rubin GPU。
未來,NVIDIA 在談論 NVLink 域時將計算 GPU 裸片,而不是單個 GPU 晶片。因此 NVL144 是 144 個裸片,而不是 144 個晶片。

然後是 2027 年下半年的 Rubin Ultra NVL576。每機架 600KW。15 ExaFLOP。每個 GPU 封裝 1TB HBM4e 記憶體。


Rubin將大幅降低人工智慧計算的成本。
以上就是關於縱向擴充套件的討論。現在是時候討論橫向擴充套件和 NVIDIA 的網路產品了。
Jensen 正在重述 NVIDIA 收購 Mellanox 並進軍網路市場的決定。

CX-8 和 CX-9 即將問世。NVIDIA 希望在 Rubin 時代能夠將 GPU 規模擴充套件到數十萬個。
橫向擴充套件意味著資料中心將達到體育場的大小。銅線連線無法滿足需求。光纖是必需的。而光纖可能非常耗能。因此,NVIDIA 計劃利用共封裝矽光子技術提高光纖網路的效率。

基於一種稱為微環調製器 (MRM:Micro Ring Modulators) 的技術。臺積電採用他們一直在晶圓廠開發的全新 3D 堆疊工藝製造。

Jensen 正在談論當前光纖網路的工作原理,即兩側每個埠都有單獨的收發器。這種方式可靠且有效,但從電到光的轉換(以及從電到光的轉換)會消耗較少的電量。
“每個 GPU 都有 6 個收發器”。這將耗費 180 瓦(每個 30 瓦)的功率和數千美元的收發器費用。
收發器消耗的所有電力都無法用於 GPU。這使得 NVIDIA 無法向客戶銷售更多 GPU。

採用TSMC的COUPE封裝
NVIDIA 將於 2025 年晚些時候推出矽光子 Quantum-X(InfiniBand)交換機,然後在 2026 年下半年推出 Specturm-X(乙太網)交換機。
無需收發器 – 直接光纖輸入。Spectrum-X 交換機上最多有 512 個埠。
節省 6 MW 意味著資料中心可以新增 10 個 Rubin Ultra 機架。

Rubin之後的下一代 GPU 是誰?傳奇人物理查德·費曼 (Richard Feynman)。
現在轉向系統。
到今年年底,100% 的 NVIDIA 軟體工程師將由人工智慧輔助。我們需要一條新的計算機生產線。
宣佈推出 DGX Spark。這是 NVIDIA 之前宣佈的 Project DIGITS 迷你 PC 的最終名稱。
DGX Spark 和 DGX 站。

GPU 加速儲存。NVIDIA 一直與所有主要儲存供應商合作。

戴爾將提供全系列基於 NVIDIA 的系統。
NVIDIA 還宣佈推出新的開源模型:NVIDIA Nemo Llame Nemotron Reasoning。

接下來,談談機器人技術。
“世界嚴重缺乏人力工人”

反過來,這些機器人將透過物理世界的人工智慧模擬進行訓練。

隆重推出 NVIDIA Isaac GROOT N1。


“物理人工智慧和機器人技術發展如此之快。每個人都關注這個領域。這很可能是最大的行業。”
Jensen 正在重述 Omniverse + Cosmos 模擬的工作原理。使用 Cosmos 建立各種環境來幫助訓練。
機器人技術中可驗證的獎勵是什麼?物理學。如果機器人的行為符合物理規律,那麼就可以驗證其準確性。

Blackwell 正在加速發展,但 NVIDIA 已經將目光鎖定在 2025 年底推出的 Blackwell Ultra、2026 年推出的 Vera Rubin、2027 年推出的 Rubin Ultra 和 2028 年推出的 Feynman。

參考連結
https://arstechnica.com/ai/2025/03/nvidia-announces-rubin-ultra-and-feynman-ai-chips-for-2027-and-2028/
https://www.cnbc.com/2025/03/18/nvidia-announces-blackwell-ultra-and-vera-rubin-ai-chips-.html
https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after
https://www.theverge.com/news/631835/nvidia-blackwell-ultra-ai-chip-gb300
https://www.nextplatform.com/2025/03/18/nvidia-weaves-silicon-photonics-into-infiniband-and-ethernet/
https://www.servethehome.com/nvidia-gtc-2025-keynote-live-coverage/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4068期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

