在 AI 計算的競賽中,效率提升正在成為影響市場格局的關鍵變數。Nvidia 的硬體進步和 DeepSeek 等軟體最佳化正在推動推理成本的急劇下降,顛覆整個 AI 生態。2025 年 GTC 大會的核心議題,不再只是“更強的計算能力”,而是“更高的推理效率”——這直接決定了 AI 產業的可擴充套件性和商業化路徑。
然而,這種效率革命也帶來了市場的深層擔憂。隨著推理成本大幅下降,部分投資者開始擔心 AI 硬體市場是否會出現“供過於求”的局面,影響晶片製造商的長期需求。然而,歷史經驗表明,當計算成本下降,計算需求往往會以更快的速度增長,形成典型的“傑文斯悖論”效應——計算力的普及將催生更多應用,進一步推高 AI 產業的整體規模。
在這樣的背景下,Nvidia 正在重新定義 GPU 計算的經濟學,同時開創全新的行業標準 —– 從“買得越多,省得越多”到“省得越多,買得越多”。
本文是Semianalysis的長文解析翻譯。

來源:Nvidia
AI 模型的進展速度大大加快,在過去六個月中,模型的改進速度比前六個月更快。這一趨勢將持續下去,因為三個擴充套件定律疊加在一起並協同工作:訓練前擴充套件、訓練後擴充套件和推理時間擴充套件。今年的 GTC 致力於解決新的擴充套件正規化。
Claude 3.7 展示了軟體工程的驚人效能。Deepseek v3 表明上一代模型功能的成本正在大幅下降,從而推動了進一步的採用。OpenAI 的 o1 和 o3 模型表明,更長的推理時間和搜尋意味著更好的答案。就像訓練前定律的早期一樣,在訓練後新增更多計算以進行這些模型的計算是沒有限制的。今年的 GTC 專注於實現智慧和代幣的爆炸式增長。Nvidia 專注於將推理成本提高 35 倍,以實現模型的訓練和部署。
去年的口號是“買得越多,省得越多”,但今年的口號是“省得越多,買得越多”。Nvidia在硬體和軟體方面的路線圖中提供的推理效率解鎖了推理和代理,以經濟高效的方式部署模型和其他轉型企業應用程式,從而實現廣泛的擴散和部署——這是傑文斯悖論的經典例子。或者用 Jensen 的話來說:“買得越多,賺得越多”。
市場對此感到擔憂。人們擔心的是,DeepSeek 式的軟體最佳化和 Nvidia 驅動的硬體改進不斷增加,導致成本過高,這意味著對 AI 硬體的需求會下降,市場將出現象徵性供過於求的情況。價格確實會影響需求,隨著智慧價格的下降,智慧能力的前沿不斷推進,然後需求就會增加。由於推理成本,當今的能力在成本上受到限制。AI 對我們生活的實際影響仍處於起步階段。隨著成本下降,淨消費反而會增加。
對代幣通縮的擔憂類似於討論光纖泡沫導致的每包網際網路連線成本下降,而忽略了網站和網際網路驅動的應用程式對我們的生活、社會和經濟的最終影響。關鍵區別在於頻寬需求受到限制,而隨著能力的大幅提升和成本的下降,對智慧的需求將無限增長。
Nvidia 提供了支援傑文斯悖論案例的數字。模型現在需要超過 100T 令牌,而推理模型需要的令牌數量是前者的 20 倍,計算量是後者的 150 倍。

測試時計算需要數十萬個 token/查詢,每月有數億個查詢。訓練後擴充套件,即模型的學習階段,每個模型需要數萬億個 token,訓練後的模型有數十萬個。此外,代理 AI 意味著多個模型將共同努力解決越來越難的問題。
Jensen Math 每年都會發生變化
每年,黃仁勳都會為行業制定新的數學規則。詹森數學(詹森是黃仁勳的英文名)以令人困惑而聞名,而今年,我們又發現了第三條新的詹森數學規則,這讓情況更加混亂。
第一條 Jensen 數學規則是,Nvidia 的總體 FLOP 以 2:4 稀疏度與密集 FLOP 來表示,這是真實世界的效能指標 – 這意味著 H100 的 FP16 的 989.4 TFLOP 被引用為 1979.8 1 TFLOP。
Jensen 的第二條數學規則是,頻寬應以雙向方式引用。NVLink5 被引用為 1.8TB/s,因為它的傳輸速度為 900GB/s,接收速度為 900GB/s。這些是為規格表加在一起的,但在網路世界中,標準是引用單向頻寬。
現在,出現了第三條 Jensen 數學規則。GPU 數量是根據封裝中的 GPU 晶片數量而不是封裝數量來計算的。從 Rubin 開始將採用此命名法。第一代 Vera Rubin 機架將被稱為 NVL144,即使系統架構與 GB200 NVL72 相似,具有相同的 Oberon 機架和 72 個 GPU 封裝。第一代 Vera Rubin 機架將被稱為 NVL144,即使系統架構與 GB200 NVL72 相似,具有相同的 Oberon 機架和 72 個 GPU 封裝。這對於每個人來說都會很煩人,並且是一個需要不斷澄清的問題,但遺憾的是,我們都生活在 Jensen 的世界裡。
現在,讓我們回顧一下路線圖。
GPU 和系統路線圖

來源:Nvidia
布萊克韋爾 Ultra B300
來源:Nvidia

Blackwell Ultra 300 已經進行了預覽,與我們去年聖誕節分享的細節相比沒有任何變化。重新討論主要規格:GB300 不會作為主機板出售,而是作為 B300 GPU 出售,該 GPU 位於可裝入口袋的 SXM 模組上,帶有 Grace CPU 以及可裝入口袋的 BGA。效能方面,與 B200 相比,B300 的 FP4 FLOP 密度高出 50% 以上。記憶體容量升級到每包 288GB(8 堆 12-Hi HBM3E),但頻寬仍為 8 TB/s。
這是透過減少許多(但不是全部)FP64 ALU 並用 FP4 和 FP6 ALU 替換它們來實現的。雙精度工作負載主要用於 HPC 和超級計算工作負載,而不是 AI 工作負載。雖然這讓 HPC 社群感到失望,但 Nvidia 正在商業化並強調 AI,這是更重要的市場。
B300 HGX 版本現在稱為 B300 NVL16。它將使用以前稱為“B300A”的 Blackwell 單 GPU 變體,現在更名為“B300”。這是雙晶片 B300 的一半,並且可能會有更多的通訊開銷,因為常規 B300 沒有高速 D2D 介面來連線單個封裝中的 2 個 GPU 晶片。
B300 NVL16 將取代 B200 HGX 外形尺寸,採用 16 個封裝和基板上的 GPU 晶片。為了實現這一點,2 個單晶片封裝被放置在單個 SXM 模組上(其中有 8 個)。目前尚不清楚 Nvidia 為什麼選擇這條路線,而不是堅持使用 8 x 雙晶片 B300;我們懷疑,更小的 CoWoS 模組和封裝基板帶來的產量提高是一個關鍵的動機。請注意,封裝技術將採用 CoWoS-L,而不是 CoWoS-S。這是一個重要的決定。CoWoS-S 的成熟度和產能是單晶片 B300A 的原因。這種轉變表明 CoWoS-L 已經迅速成熟,與 CoWoS-L 不穩定的開局相比,產量已經穩定下來。
這 16 個 GPU 將透過 NVLink 協議進行通訊,並且與 B200 HGX 一樣,兩個 NVSwitch 5.0 ASIC 將位於兩組 SXM 模組之間。
最後,一個新的細節是,與前幾代 HGX 不同,B300 NVL16 將不具備 Astera Labs 的重定時器。然而,一些超大規模計算廠商將選擇採用 PCIe 交換機。這是我們今年 早些時候向 Core Research 訂閱者透露的訊息。
B300 的另一個重要細節是它將引入 CX-8 NIC,該 NIC 提供 4 個 200G 通道,以實現 InfiniBand 800G 的總吞吐量,與當前的 Blackwell CX-7 NIC 相比,網路速度提高了一倍。
Rubin 規格
來源:Nvidia

來源:SemiAnalysis

Rubin 將在臺積電 3nm 上配備兩個光罩大小的計算晶片。這些計算晶片兩側將有兩個 I/O 模組,其中包含用於 NVLink、PCIe 和 NVLink C2C IP 的所有 SerDes,從而釋放主晶片上的空間以進行更多計算。
Rubin 將提供令人難以置信的 50 PFLOP 密集 FP4 計算能力,比 B300 一代提升了三倍多。Rubin 如何實現這一目標?Nvidia 擴充套件了幾個重要方面:
-
如上所述,I/O 晶片釋放了空間,可能有 20-30% 的空間可用於更多的流式多處理器和張量核心。
-
Rubin 將採用 3nm 工藝、定製的 Nvidia 3NP 或標準 N3P 製造。從 Blackwell 一代的 3NP 到 4NP 使邏輯密度有了很大的提高,但 SRAM 幾乎沒有縮小。
-
此外,Rubin 將具有更高的 TDP(我們估計為 1800W),這甚至可以實現更高的時鐘速度。
-
接下來是架構擴充套件。Nvidia 在每一代中都使用越來越大的脈動陣列作為張量核心。我們認為脈動陣列從 Hopper 的 32×32 變為 Blackwell 的 64×64。Rubin 可能會增大到 128×128。更大的脈動陣列提供更好的資料重用和更低的控制複雜性。它們通常更節省面積和功耗。對它們進行程式設計更具挑戰性,因此 Nvidia 不會像 Google 那樣將 TPU 的尺寸做到 256×256。這也不利於製造良率。Nvidia 的標線大小單片晶片具有非常高的引數良率,因為其架構具有內建冗餘和可修復性,具有許多較小的計算單元。有缺陷的計算單元被停用,以便實現良率收集。這與 TPU 不同,TPU 具有更少但非常大的張量核心,它們不具備修復有缺陷的邏輯單元的能力。

來源:SemiAnalysis
Rubin 將再次使用 Oberon 機架架構,就像 GB200/300 NVL72 一樣。它將與 Vera CPU(Grace 的 3nm 繼任者)配對。請注意,Vera 將擁有由 Nvidia 設計的完全定製核心。Grace 嚴重依賴 Arm 的 Neoverse CSS 核心。Nvidia 還擁有一個自定義結構,可讓單個 CPU 核心在需要時訪問更高的記憶體頻寬,而 AMD 和英特爾 CPU 在這方面面臨著重大挑戰。
這就是新命名法的用武之地。儘管新機架有 72 個 GPU 封裝,但其仍將被命名為VR200 NVL144,其中包含 144 個計算晶片(72 個封裝 x 每個封裝 2 個計算晶片)。Nvidia 是一家革命性的公司,他們甚至改變了我們計算 GPU 的方式!
AMD 營銷團隊應該注意。AMD 沒有聲稱 MI300X 系列可以擴充套件到 64 個 GPU 世界規模(每個系統 8 個封裝 x 每個封裝 8 個 XCD 晶片),因此效能被擱置一邊,這是一個關鍵的錯失機會。
Nvidia 的 HBM 容量將保持一代不變,為 288GB,但升級到 HBM4:8 個 12-Hi 堆疊,層密度相同,為 24 GB。升級到 HBM4 可提高頻寬,總頻寬為 13TB/s,主要是因為匯流排寬度加倍至 2048 位寬,引腳速度為 6.5Gbps,這是 JEDEC 標準的當前上限。

來源:SemiAnalysis
它將採用第6代 NVLink,速度翻倍至 3.6TB/s(雙向)。這將透過增加通道數來實現,而 Nvidia 仍將堅持使用 224G SerDes。
回到 Oberon,背板將是相同的銅背板,但我們相信這是隨著每個 GPU 的通道數增加一倍而電纜數量也增加一倍。
在 NVSwitch 方面,NVSwitch ASIC 也將透過加倍通道使聚合頻寬翻倍。
Rubin Ultra規格
來源:Nvidia

Rubin Ultra 是效能真正提升的地方。Nvidia 將從 8 個 HBM 堆疊直接躍升至 16 個。將有一排 4 個標線大小的 GPU,兩側是 2 個 I/O 小晶片。計算面積增加一倍,計算能力增加一倍,達到 100 PFLOP 密集 FP4。HBM 容量將達到 1024GB,是普通 Rubin 容量的 3.5 倍以上。有雙堆疊,但密度和層數也會增加。為了在一個封裝中獲得 1TB 的記憶體,將有 16 個 HBM4E 堆疊和 16 層 32Gb DRAM 核心晶片。
我們認為該封裝將透過基板上的兩個中介層進行拆分,以避免使用單個非常大的中介層(幾乎 8 倍光罩)。兩個中間 GPU 晶片將透過具有 D2D 介面的薄 I/O 晶片相互通訊,並且通訊將透過基板進行。這將需要一個非常大的 ABF 基板,超出當前 JEDEC 封裝尺寸限制(寬度和高度均為 120 毫米)。
該系統總共擁有 365 TB 的快速記憶體/第二層 LPDDR。每個 Vera CPU 都有 1.2 TB 的 LPDDR,總共 86 TB(72 個 CPU),剩下的 2 TB LPDDR 則由每個 GPU 封裝組成。這是自定義 HBM 基片功能的實現。LPDDR 記憶體控制器被放置在基片上以新增這個額外的第二層記憶體,它位於 LPCAMM 模組板上封裝的旁邊。這是 Vera CPU 帶來的第二層記憶體的補充。

來源:SemiAnalysis
這也是我們將看到 Kyber 機架架構引入的時候。
Kyber Rack 架構
其中一個關鍵新功能是 Kyber Rack 架構。Nvidia 透過將機架旋轉 90 度來增加密度。鑑於 NVL576(144 個 GPU 包)配置,這是更大規模世界規模的又一次令人難以置信的密度提升。

來源:Nvidia
讓我們看看 Oberon 機架架構和 Kyber 機架架構之間的主要區別:

來源:SemiAnalysis
-
計算托盤旋轉 90 度,形成墨盒外形尺寸,以實現更高的機架密度。
-
每個機架包含 4 個罐,每個罐包括兩層,每層 18 個計算盒。對於 NVL576,每個計算盒中有一個 R300 GPU 和一個 Vera CPU每個容器總共有 36 個 R300 GPU 和 36 個 Vera CPU這使得 NVLink 世界總規模達到 144 個 GPU(576 個晶片)
-
PCB板背板取代銅纜背板作為機架內GPU和NVSwitches之間的擴充套件鏈路。這種轉變主要是由於在較小的空間內安裝電纜的難度增加。
有趣的是,有跡象表明供應鏈中存在 VR300 NVL1,152(288 個 GPU 封裝)Kyber 機架變體(如果算上上面介紹的 GTC 主題演講中的晶圓,您將計算出 288 個以紅色突出顯示的 GPU 封裝)。我們認為這可能是正在開發的潛在 SKU,它將使機架密度和 NVLink 世界規模從 GTC 2025 上展示的 NVL576(144 個 GPU 封裝)翻倍到未來的 NVL1,152(288 個封裝)。
值得一提的是,還將推出一款新的第7代 NVSwitch。這是新 NVSwitch 首次出現在中端平臺上。這允許更大的交換機聚合頻寬和基數,以在單個域中擴充套件到 576 個 GPU 晶片(144 個封裝),儘管拓撲可能不再是全對全無阻塞軌道最佳化的 1 層多平面拓撲。相反,它可能是一個具有超額訂閱或甚至非封閉拓撲的多平面軌道最佳化的兩層網路拓撲。
Blackwell Ultra 的改進型指數硬體單元
所有型別的注意力機制,例如 flash-attention、MLA、MQA 和 GQA,都需要矩陣乘法(matmuls) 和softmax 函式(逐行縮減和逐元素指數函式)。Matmuls 被稱為 GEMM,即通用矩陣乘法,僅適用於神經網路計算的矩陣乘法方面。
在 GPU 中,GEMM 在張量核心上執行。張量核心每一代都在變得更快,但專注於元素級指數計算(softmax)的多功能單元(MUFU)的效能每一代都沒有提高那麼多。
在 bf16 (bfloat16) Hopper 上,計算注意層中的 softmax 需要佔用 GEMM 週期的 50%。這需要核心工程師進行重疊以“隱藏”softmax 的延遲,這使得編寫核心變得具有挑戰性。

資料來源:Tri Dao @ CUDA Mode Hackathon 2024
在 FP8(浮點)Hopper 上,計算注意層中的 softmax 所消耗的週期數與 GEMM 完全相同。這意味著,如果您根本不進行任何重疊,則注意層將花費兩倍的時間。這大約需要 1536 個週期來計算 matmul,然後需要 1536 個週期來計算 softmax。這就是重疊可以提高吞吐量的地方。由於 softmax 和 GEMM 佔用的週期數相同,因此核心工程師需要最佳化一個完美的重疊核心。現實情況是,不可能實現完美的重疊,並且由於阿姆達爾定律,硬體會損失效能。
我們迄今為止描述的挑戰已在 GPU 的 Hopper 世界中描述過。這個問題也出現在 Blackwell 的第一輪中。Nvidia 使用 Blackwell Ultra 解決了這個問題,他們重新設計了 SM 並添加了指令來改進這個問題。
在 Blackwell Ultra 上,用於計算注意力機制的 softmax 部分的 MUFU 單元與標準 Blackwell 相比提高了 2.5 倍。這將減輕對完美重疊的要求,以隱藏使用 GEMM 計算的 softmax 計算。藉助 MUFU 中的 2.5 倍加速,CUDA 開發人員對重疊具有更高的容忍度,而不會損失注意力核心的效能。

資料來源:Tri Dao @ CUDA Mode Hackathon 2024
這時 Nvidia 的新推理堆疊和 Dynamo 就可以發揮作用了。
推理堆疊和 Dynamo
在去年的 GTC 上,Nvidia 討論了 GB200 NVL72 的更大的 72-GPU 擴充套件世界規模如何使其在 FP8 時比 H200 的推理吞吐量提高 15 倍。

來源:Nvidia
Nvidia 並未放慢步伐。它正在加速推理吞吐量的提升——這一次是在多個方面——在硬體和軟體領域都發布了新訊息。
Blackwell Ultra GB300 NVL72 的 FP4 密集 PFLOP 比 GB200 NVL72 高出 50%,HBM 容量也提高了 50%,這兩項功能都將提高推理吞吐量。路線圖包括 Rubin 一代網路速度的多項升級,這也將顯著提高推理吞吐量。
硬體推理吞吐量的下一次飛躍將伴隨著網路規模的擴大,Rubin Ultra 中的 GPU 晶片將從 Rubin 中的 144 個增加到 576 個。而這還只是硬體方面的改進。
在軟體領域,Nvidia 宣佈推出 Nvidia Dynamo,這是一種開放式 AI 引擎堆疊,專注於簡化部署和擴充套件推理。它有可能顛覆 VLLM 和 SGLang,提供 VLLM 所不具備的多種功能,且效能更高。結合硬體級創新,Dynamo 將再次向右轉變吞吐量與互動性曲線,尤其是提高更高互動性用例的吞吐量。

來源:Nvidia
Dynamo 為當前推理堆疊帶來了幾個新的關鍵功能:
-
智慧路由器
-
GPU 規劃器 -
改進的 NCCL Collective 推理 -
NIXL – NVIDIA 推理傳輸引擎 -
NVMe KV-Cache 解除安裝管理器
智慧路由器
智慧路由器會智慧地將多 GPU 推理部署中的每個令牌路由到預填充和解碼 GPU。對於預填充,這意味著確保傳入的令牌均勻地分配給提供預填充的不同 GPU,以避免在預填充階段對任何給定專家造成瓶頸。
同樣,在解碼階段,確保序列長度和請求在提供解碼服務的 GPU 之間分佈良好且平衡也很重要。一些流量較大的專家也可以由 GPU 規劃器複製,以幫助保持負載平衡。
路由器還在為模型提供服務的每個副本之間進行負載平衡,這是 vLLM 和許多其他推理引擎不支援的。

GPU 規劃器
GPU 規劃器是預填充和解碼節點的自動擴充套件器,可根據一天中自然的需求波動來啟動更多節點。它可以在預填充和解碼節點的 MoE 模型中實現多位專家之間的一定程度的負載平衡。GPU 規劃器啟動更多 GPU,為高負載專家提供更多計算。它還可以根據需要在預填充和解碼節點之間動態重新分配節點,從而進一步最大限度地提高資源利用率。
這還支援改變用於解碼和預填充的 GPU 的比例——這對於深度研究這樣的情況特別有用,因為深度研究需要更多的預填充而不是解碼,因為這些應用程式需要檢視大量的上下文,但只生成相對較少的上下文。

改進的 NCCL Collective 推理
低延遲通訊庫是 Nvidia 集體通訊庫 (NCCL) 中的一組新演算法,可以為較小的訊息大小提供 4 倍的更低延遲,從而顯著提高整體推理吞吐量。
Sylvain 在今年 GTC 上的演講詳細闡述了這些新增功能,概述了允許實現這種改進的一次性和兩次全歸約演算法。
由於 AMD 的 RCCL 庫是 NVIDIA NCCL 的複製版,Sylvain 的 NCCL 重構將繼續擴大 CUDA 護城河,並導致 AMD 的 RCCL 損失數千個工程小時來將 Nvidia 的主要重構同步到 RCCL。雖然 AMD 花費了數千個工程小時來同步 Nvidia 的更改,但 Nvidia 將利用這些時間繼續推進集體通訊軟體堆疊和演算法的前沿。

NIXL – NVIDIA 推理傳輸引擎
要從預填充節點傳輸到解碼節點,需要低延遲高頻寬通訊傳輸庫。NIXL 將使用 InfiniBand GPU-Async Initialized (IBGDA)。目前在 NCCL 中,控制流經過 CPU 代理執行緒,而資料流直接進入 NIC,而無需經過 CPU 緩衝。但使用 IBGDA,控制流和資料流都不需要經過 CPU,而是直接從 GPU 進入 NIC。
NIXL 還將抽象出 CXL、本地 NVMe、遠端 NVMe、CPU 記憶體、遠端 GPU 記憶體和 GPU 之間傳送和接收資料移動的複雜性。

NVMe KVCache 解除安裝管理器
KV-Cache 解除安裝管理器透過將之前使用者對話中的 KVCache 儲存在 NVMe 儲存中而不是丟棄它,可以更高效地執行預填充的整體操作。

當用戶與 LLM 進行持續的多響應對話時,LLM 需要考慮對話中先前的問題和響應,並將它們也作為輸入標記。在簡單的實現中,推理系統將丟棄最初用於生成這些先前問題和響應的 KV 快取,這意味著必須再次計算 KV 快取,重複同一組計算。
相反,使用 NVMe KVCache 解除安裝,當用戶離開時,KVCache 可以解除安裝到 NVMe 儲存系統,直到使用者返回對話。當用戶在對話中提出後續問題時,可以從 NVMe 儲存系統中快速檢索 KVCache,無需再次計算 KVCache。
這樣可以釋放預填充節點的容量來處理更多傳入資料量,或者可以減少所需的預填充部署規模。使用者還將獲得更好的體驗,並縮短首次令牌獲取時間,因為現在檢索 KV 快取所需的時間比計算時間要少得多。

在DeepSeek 的第 6 天 GitHub 說明中,研究人員披露了磁碟上 KV 快取的 KV 快取命中率為 56.3%,這意味著他們的預填充部署可顯著提高效率。我們瞭解到,當用戶進行多輪對話時,此類部署的典型 KV 快取命中率可能在 50-60% 之間。部署此 NVMe 儲存解決方案是有成本的,因為存在一個交叉點,對話足夠短,因此重新計算比重新載入更容易、更便宜,但除此之外,節省的成本是巨大的。
任何關注DeepSeek 開源周的人都會非常熟悉上述所有技術。在 Nvidia 推出更多關於 Dynamo 的文件時,上述內容無疑是快速瞭解這些技術的最佳場所。
所有這些功能的結果是,推理速度全面提升,令人印象深刻。Nvidia 甚至討論了在現有 H100 節點上部署 Dynamo 時的改進。從本質上講,Dynamo 使 DeepSeek 創新民主化,並允許社群中的每個人都能獲得開源模型技術所能提供的最佳成果。這使得每個人(而不僅僅是擁有深度推理部署工程臺的頂級 AI 實驗室)都能部署高效的推理系統。
最後,由於 Dynamo 廣泛處理分解推理和專家並行性,它特別有助於個人複製和更高互動性的部署。當然,擁有許多節點是 Dynamo 充分利用其功能並實現有意義的改進的先決條件。

AI 總擁有成本 – 成本下降
在結束對 Blackwell 的討論後不久,Jensen 強調了這一點,他討論了這些創新如何使他成為“首席收入破壞者”。他進一步強調,Blackwell 的效能比 Hopper 高出 68 倍,成本降低了 87%。Rubin 預計將帶來更多的效能提升——是 Hopper 的 900 倍,成本降低了 99.97%。
顯然,Nvidia 正在不懈地追求進步——正如 Jensen 所說:“當 Blackwell 開始批量出貨時,你甚至無法免費提供 Hoppers”

來源:Nvidia
一段時間以來,我們一直在宣揚類似的資訊——強調在產品週期早期而不是後期部署計算的重要性。在去年 10 月釋出的AI Neocloud Playbook中,我們解釋了這一動態如何加速 H100 租賃價格的下降,這種下降趨勢從 2024 年中期開始加速。很長一段時間以來,我們一直在敦促生態系統優先部署 B200 和 GB200 NVL72 等下一代系統,而不是購買 H100 或 H200。
訂閱了我們的AI Cloud 總擁有成本 (TCO) 模型的客戶已經熟悉了我們期望的代代相傳的生產力飛躍,以及這將如何推動這些晶片的 AI Neocloud 租賃定價,以及最終晶片所有者可以獲得的淨現值。
事實上,我們的 H100 租賃價格預測框架正是 Jensen 所闡述的觀點。我們結合對未來安裝基數、叢集總擁有成本以及未來晶片能力的估計,構建了一條預測價格曲線。到目前為止,該框架具有指導意義。我們於 2024 年 4 月首次向客戶釋出了我們的 H100 租賃價格預測模型——該模型預測了從 2024 年初到今天的 H100 租賃價格,準確率高達 98%。

CPO 插入
來源:Nvidia

在主題演講中,Nvidia 宣佈了其首款共封裝光學 (CPO) 解決方案,該解決方案將部署在其橫向擴充套件交換機中。藉助 CPO,收發器現在被外部雷射源 (ELS) 取代,這些雷射源與直接放置在晶片矽片旁邊的光學引擎 (OE) 一起促進資料通訊。光纖電纜現在不再插入收發器埠,而是插入交換機上的埠,將訊號直接路由到光學引擎。

來源:Nvidia
CPO 的主要優勢是顯著降低功耗,原因如下。就交換機本身而言,由於不再需要數字訊號處理器 (DSP),而且可以使用功率較低的雷射光源,因此可以實現顯著的節省。使用線性可插拔光纖 (LPO) 收發器也可以實現這種節省,但 CPO 還允許更大的交換機基數,從而使網路扁平化一層 – 允許叢集透過使用 CPO 擁有兩層網路,而不是透過使用 DSP 收發器擁有三層網路。這意味著可以消除整個層和交換機組,並享受相關成本和功耗節省的好處 – 事實證明,這幾乎與收發器在功耗方面的節省一樣重要。
我們的分析表明,對於 400k* GB200 NVL72 部署,從基於 DSP 收發器的三層網路轉移到基於 CPO 的兩層網路可節省高達 12% 的總叢集功耗 – 將收發器功耗從計算資源的 10% 降低到僅佔計算資源的 1%。

來源:SemiAnalysis
Nvidia 今天推出了多款基於 CPO 的交換機,包括 Quantum X-800 3400 的 CPO 版本,該產品本身於一年前在 GTC 2024 上首次亮相。它具有 144 個 800G 埠,總吞吐量為 115T,並將包括 144 個 MPO 埠和 18 個 ELS。這款交換機將於 2025 年下半年推出。具有 512 個 800G 埠的 Spectrum-X 交換機也備受關注,因為它可以在高速下允許非常高的基數——從而實現非常快速和平坦的網路拓撲。這款乙太網 CPO 交換機將於 2026 年下半年推出。

來源:Nvidia
儘管今天的釋出具有開創性意義,但我們仍然認為 Nvidia 在 CPO 領域的發展才剛剛起步。我們認為,從長遠來看,CPO 最大的貢獻在於將其部署在擴充套件網路中,它有可能大幅增加 GPU 的擴充套件網路基數和聚合頻寬 – 從而實現更快、更扁平的擴充套件網路,併為擴充套件超過 576 個 GPU 的世界規模開啟大門。我們將在即將釋出的文章中更深入地探討 Nvidia 的 CPO 解決方案。
Nvidia 仍是王者,並將降低你的計算成本
今天,The Information發表了一篇關於亞馬遜將 Trainium 晶片定價為 H100 價格 25% 的文章。與此同時,Jensen 正在談論“在 Blackwell 量產後,你不能免費贈送 H100”。我們認為後一種說法非常有力。技術決定了擁有成本,我們到處(也許除了 TPU)都能看到 Nvidia 路線圖的模仿者。與此同時,Jensen 正在推動技術的發展。
新架構、機架結構、演算法改進和 CPO 是 Nvidia 與其競爭對手之間的技術差異。如今 Nvidia 幾乎在所有方面都處於領先地位,當競爭對手趕上時,他們會在另一個進步方向上向前推進。隨著 Nvidia 繼續其年度節奏,我們預計這種情況將繼續下去。有人說 ASIC 是計算的未來,但我們看到,從 CPU 時代開始,快速改進的通用平臺很難被擊敗。Nvidia 正在用 GPU 再次重建這個平臺,我們預計他們會領先一步。
參考資料
[1] https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/
歡迎掃碼加群參與討論

———END——–
極思 TopMinds 相信認知能夠跨越階層,
致力於為年輕人提供高質量的科技、資本和商業內容。
