深度解讀黃仁勳GTC演講：全方位“為推理最佳化”，“買越多、省越多”，英偉達才是最便宜！

當地時間3月18日週二，英偉達CEO黃仁勳在加州聖何塞舉行的英偉達AI盛會GTC 2025上發表主題演講。美國知名半導體諮詢機構Semianalysis深度解讀黃仁勳GTC演講，詳細闡述英偉達在推動AI推理效能提升方面的最新進展。

市場擔心的是，DeepSeek式的軟體最佳化以及英偉達主導的硬體進步帶來的巨大成本節省，可能導致對AI硬體的需求下降。然而，價格會影響需求，當AI成本降低時，AI能力的邊界不斷被突破，而需求隨之增加。

隨著英偉達在硬體和軟體方面的推理效率提升，使得模型推理和智慧代理的部署成本大幅降低，從而實現成本效益的擴散效應，實際的消費量反而會增加，正如英偉達的口號所說的那樣：“買越多、省越多”。

以下為文章的核心觀點：

推理Token擴充套件：預訓練、後訓練與推理時擴充套件定律協同作用，使得AI模型能力不斷提升。

黃仁勳數學規則：包括FLOPs稀疏率、雙向頻寬計量，以及以封裝中GPU晶片數量計算GPU數量的新規則。

GPU與系統路線圖：介紹了Blackwell Ultra B300、Rubin及Rubin Ultra的關鍵規格與效能改進，強調了新一代產品在效能、記憶體和網路互連上的突破。

推出的推理堆疊與Dynamo技術：透過智慧路由器、GPU規劃器、改進的NCCL、NIXL和NVMe KVCache解除安裝管理器等新功能，極大提升了推理吞吐量和效率。

共封裝光學（CPO）技術：詳述了CPO在降低功耗、提高交換機基數和網路扁平化方面的優勢，以及其在未來規模化網路部署中的潛力。

文章指出，這些創新將顯著降低AI總擁有成本，使得高效推理系統的部署成本大幅下降，並鞏固了英偉達在全球AI生態系統中的領先地位。

以下為Semianalysis深度解讀，全文為AI翻譯：

推理 Token 爆炸

人工智慧模型的進步加速迅猛，在過去六個月裡，模型的提升超過了此前六個月的進展。這一趨勢將持續下去，因為三條擴充套件定律——預訓練擴充套件、後訓練擴充套件和推理時擴充套件——正協同作用，共同推動這一程序。

今年的GTC（GPU技術大會）將聚焦於應對新的擴充套件正規化。

來源：英偉達

Claude 3.7在軟體工程領域展現了驚人的效能。Deepseek v3顯示出上一代模型的成本正在急劇下降，這將進一步推動其應用普及。OpenAI的o1和o3模型證明，延長推理時間和搜尋功能意味著答案質量大幅提升。正如預訓練定律早期所展示的那樣，後訓練階段增加計算資源沒有上限。今年，Nvidia正致力於大幅提升推理成本效率，目標是實現35倍的推理成本改善，從而支援模型的訓練和部署。

去年市場的口號是“買得越多，省得越多”，但今年的口號變成了“省得越多，買得越多”。Nvidia在硬體和軟體方面的推理效率提升，使得模型推理和智慧代理的部署成本大幅降低，從而實現成本效益的擴散效應，這正是傑文斯悖論的經典體現。

市場擔心的是，DeepSeek式的軟體最佳化以及Nvidia主導的硬體進步帶來的巨大成本節省，可能導致對AI硬體的需求下降，市場可能出現Token供過於求的情況。價格會影響需求，當AI成本降低時，AI能力的邊界不斷被突破，而需求隨之增加。如今，AI的能力受限於推理成本，隨著成本下降，實際的消費量反而會增加。

對Token通縮的擔憂類似於討論光纖網際網路每個資料包連線成本下降時，卻忽略了網站和網際網路應用對我們生活、社會和經濟的最終影響。關鍵區別在於，頻寬存在上限，而隨著能力的顯著提升和成本的下降，對AI的需求則可以無限增長。

Nvidia提供的資料支援了傑文斯悖論的觀點。現有模型的Token數超過100萬億，而一個推理模型的Token量是其20倍，計算量則高出150倍。

來源：英偉達

測試時的計算需要數十萬Token/查詢，每月有數億次查詢。後訓練擴充套件階段，即模型“上學”，每個模型需要處理數萬億Token，同時需要數十萬後訓練模型。此外，具備代理能力的AI意味著多個模型將協同工作，解決越來越複雜的問題。

黃仁勳數學每年都在變化

每年，黃仁勳都會推出新的數學規則。今年的情況更為複雜，我們觀察到第三條新的黃仁勳數學規則。

第一條規則是，Nvidia公佈的FLOPs資料以2:4稀疏度（實際上無人使用）計，而真實效能指標是密集FLOPs——也就是說，H100在FP16下被報為989.4 TFLOPs，實際密集效能約為1979.81 TFLOPs。

第二條規則是，頻寬應以雙向頻寬來計量。NVLink5的頻寬被報為1.8TB/s，因為它的傳送頻寬為900GB/s，加上接收頻寬900GB/s。儘管這些資料在規格書中相加，但在網路領域，標準是以單向頻寬計量。

現在，第三條黃仁勳數學規則出現了：GPU數量將按照封裝中GPU晶片的數量計，而非封裝數量。從Rubin系列開始，這一命名方式將被採用。第一代Vera Rubin機架將被稱為NVL144，即使其系統架構與GB200 NVL72類似，只不過採用了相同的Oberon機架和72個GPU封裝。這種新的計數方式雖然讓人費解，但我們只能在黃仁勳的世界中接受這一變化。

現在，讓我們來回顧一下路線圖。

GPU和系統路線圖

來源：英偉達

Blackwell Ultra B300

來源：英偉達

Blackwell Ultra 300已預覽過，細節與去年聖誕節時我們分享的基本一致。主要規格如下：GB300不會以單板形式出售，而是作為B300 GPU出現在一個行動式SXM模組上，同時搭載Grace CPU，也以行動式BGA形式出現。在效能上，B300相對於B200在FP4 FLOPs密度上提升超過50%。記憶體容量升級到每個封裝288GB（8個12-Hi HBM3E堆疊），但頻寬維持在8 TB/s不變。實現這一目標的關鍵在於減少了許多（但不是全部）FP64運算單元，並將其替換為FP4和FP6運算單元。雙精度工作負載主要用於HPC和超級計算，而非AI。雖然這讓HPC群體感到失望，但Nvidia正轉向強調更重要的AI市場。

B300 HGX版本現在稱為B300 NVL16。這將採用之前稱為“B300A”的單GPU版本，現在簡稱“B300”。由於單個B300沒有高速D2D介面連線兩個GPU晶片，可能存在更多通訊間接費用。

B300 NVL16將取代B200 HGX形態，採用16個封裝和GPU晶片在一塊基板上。為實現這一點，每個SXM模組上放置2個單晶片封裝，共8個SXM模組。尚不清楚Nvidia為何不繼續採用8×雙芯B300，而選擇這種方式，我們懷疑這是為了從更小的CoWoS模組和封裝基板中提高產量。值得注意的是，該封裝技術將採用CoWoS-L而非CoWoS-S，這一決策意義重大。CoWoS-S的成熟度和產能是單芯B300A的原因，而這一轉變表明CoWoS-L已迅速成熟，其產率相比起初的低迷已有所穩定。

這16個GPU將透過NVLink協議通訊，與B200 HGX類似，兩塊NVSwitch 5.0 ASIC將位於SXM模組的兩個陣列之間。

新細節是，與以往的HGX不同，B300 NVL16將不再採用Astera Labs的重定時器。不過，一些超大規模雲服務提供商可能會選擇加入PCIe交換機。我們曾在今年早些時候向Core Research訂閱者透露過這一訊息。

另一個重要細節是，B300將引入CX-8 NIC，該網絡卡提供4個200G的通道，總吞吐量達到800G，為InfiniBand提供新一代網路速度，這比現有的CX-7 NIC提升一倍。

Rubin技術規格

來源：英偉達

來源：Semianalysis

Rubin將採用臺積電3nm工藝，擁有兩個reticle-size計算晶片，左右各配備兩個I/O Tile，內建所有NVLink、PCIe以及NVLink C2C IP，以釋放主晶片上更多用於計算的空間。

Rubin提供令人難以置信的50 PFLOPs密集FP4計算效能，比B300的代際效能增長超過三倍。Nvidia如何實現這一點？他們透過以下幾個關鍵向量進行擴充套件：

1、如上所述，I/O晶片釋放的面積可能增加20%-30%，可用於更多的流處理器和張量核。

2、Rubin將採用3nm工藝，可能使用定製的Nvidia 3NP或標準N3P。從3NP到4NP的轉變大幅提升了邏輯密度，但SRAM幾乎沒有縮減。

3、Rubin將具有更高的TDP——我們估計約為1800W，這甚至可能推動更高的時鐘頻率。

4、結構上，Nvidia逐代擴大的張量核systolic array將進一步擴大：從Hopper的32×32到Blackwell的64×64，Rubin可能擴充套件至128×128。更大的systolic array提供了更好的資料複用和較低的控制複雜度，同時在面積和功耗上更高效。儘管程式設計難度增加，但Nvidia憑藉內建冗餘和修復機制實現了極高的引數良率，這使得即使個別計算單元失效，整體效能仍能得到保障。這與TPU不同，後者的超大張量核沒有相同的容錯能力。

來源：Semianalysis

Rubin將繼續使用Oberon機架架構，如同GB200/300 NVL72，並配備Vera CPU——Grace的3nm繼任者。需要注意的是，Vera CPU將採用Nvidia全定製核心，而Grace則嚴重依賴Arm的Neoverse CSS核心。Nvidia還開發了一套定製互連繫統，使得單個CPU核心能訪問更多記憶體頻寬，這一點是AMD和Intel難以匹敵的。

這就是新命名方式的由來。新機架將命名為VR200 NVL144，儘管系統架構與之前的GB200 NVL72類似，但由於每個封裝含有2個計算晶片，總計144個計算晶片（72個封裝×2個計算晶片/封裝），Nvidia正在改變我們統計GPU數量的方式！

至於AMD，其市場營銷團隊需要注意，AMD在宣稱MI300X家族可以擴充套件到64個GPU的規模上存在遺漏（每系統8個封裝×每封裝8個XCD晶片組），這是一個關鍵的市場機遇。

HBM與互連

Nvidia的HBM容量將一代比一代保持在288GB，但升級為HBM4：8個堆疊，每個12-Hi，層密度保持24GB/層。HBM4的應用使得總頻寬得以提升，13TB/s的總頻寬主要得益於匯流排寬度翻倍至2048位，針腳速度為6.5Gbps，符合JEDEC標準。

來源：Semianalysis

NVLink第六代的速度翻倍至3.6TB/s（雙向），這來自於通道數量翻倍，Nvidia仍採用224G SerDes。

回到Oberon機架，背板依然採用銅背板，但我們認為其電纜數量也相應增加，以適應每個GPU通道數量的翻倍。

NVSwitch方面，新一代NVSwitch ASIC也將透過通道數量翻倍來實現總頻寬的翻倍，這將進一步提高交換機的效能。

Rubin Ultra規格

來源：英偉達

Rubin Ultra是效能大幅提升的階段。Nvidia將直接在一個封裝中使用16個HBM堆疊，從8個增加至16個。整個機架將由4個掩模尺寸GPU組成，中間配有2個I/O晶片。計算區域翻倍，計算效能也翻倍至100 PFLOPs密集FP4效能。HBM容量增加到1024GB，超過普通Rubin的3.5倍。採用雙堆疊設計，同時密度和層數也提高。為達到1TB記憶體，封裝中將有16個HBM4E堆疊，每個堆疊有16層32Gb DRAM核心晶片。

我們認為，這種封裝將拆分為兩個互連器放置在基板上，以避免使用一個超大互連器（幾乎8倍於掩模大小）。中間的2個GPU晶片將透過薄型I/O晶片進行互聯，通訊透過基板實現。這需要一個超大ABF基板，其尺寸超出當前JEDEC封裝尺寸限制（寬度和高度均為120mm）。

該系統擁有總計365TB的高速儲存，每個Vera CPU擁有1.2TB LPDDR，共計86TB（72個CPU），這為每個GPU封裝留下約2TB的LPDDR，作為額外的二級記憶體。這是對定製HBM基芯功能的實現。LPDDR記憶體控制器整合在基芯上，為額外的二級記憶體服務，該記憶體位於板上LPCAMM模組上，與Vera CPU所帶的二級記憶體協同工作。

來源：Semianalysis

這也是我們將看到Kyber機架架構推出的時候。

Kyber機架架構

Kyber機架架構的關鍵新特性在於，Nvidia透過將機架旋轉90度來提高密度。對於NVL576（144個GPU封裝）的配置，這是大規模擴充套件網路規模的又一重大提升。

來源：英偉達

讓我們來看一下Oberon機架與Kyber機架的關鍵區別：

來源：Semianalysis

·計算托盤旋轉90度，形成類似於卡盒的形態，從而實現更高的機架密度。

·每個機架由4個筒倉組成，每個筒倉包括兩層18個計算卡。

對於NVL576，每個計算卡中包含一個R300 GPU和一個Vera CPU。

每個筒倉總共有36個R300 GPU和36個Vera CPU。

這使得NVLink的世界規模達到144個GPU（576個晶片）。

·PCB背板取代了銅線背板，作為GPU與NVSwitch之間擴充套件連結的關鍵部件。

這一轉變主要是由於在較小的佔地面積內難以佈置電纜。

來源：英偉達

有跡象表明，供應鏈中出現了VR300 NVL1,152（288個GPU封裝）的Kyber機架變體。如果按照GTC主題演講中提到的晶圓數計算，您將看到紅色標註的288個GPU封裝。我們認為這可能是未來的一款SKU，其機架密度和NVLink世界規模將從展示的NVL576（144個封裝）翻倍至NVL1,152（288個封裝）。

此外，還有一款全新NVSwitch第七代，這一點值得注意。這是第一次引入中平臺的NVSwitch，使得交換機總頻寬和基數都有所提升，可擴充套件到單一域內576個GPU晶片（144個封裝），不過拓撲結構可能不再是全互聯的單級多平面結構，而可能轉為具有過度訂閱的兩級多平面網路拓撲，或甚至採用非Clos拓撲。

Blackwell Ultra改進的指數級硬體單元

各種注意力機制（如flash-attention、MLA、MQA和GQA）都需要矩陣乘法（GEMM）和softmax函式（行歸約和元素級指數運算）。

在GPU中，GEMM運算主要由張量核執行。雖然每代張量核效能不斷提升，但負責softmax計算的多功能單元（MUFU）提升幅度較小。

在bf16（bfloat16）Hopper中，計算注意力層的softmax需要佔用GEMM週期的50%。這要求核心工程師透過重疊計算來“隱藏”softmax的延遲，這使得編寫核心變得異常困難。

來源: Tri Dao @ CUDA Mode Hackathon 2024

在FP8（浮點數8位）的Hopper中，注意力層的softmax計算所需週期與GEMM相同。如果沒有任何重疊，注意力層的計算時間將翻倍，大約需要1536個週期來計算矩陣乘法，再加1536個週期來計算softmax。這就是重疊技術提高吞吐量的關鍵所在。由於softmax和GEMM所需週期相同，工程師需要設計出完美重疊的核心，但現實中很難達到這一理想狀態，根據阿姆達爾定律，完美重疊難以實現，硬體效能因此受損。

在Hopper GPU世界中，這一挑戰尤為明顯，第一代Blackwell也面臨類似問題。Nvidia透過Blackwell Ultra解決了這一問題，在重新設計SM（流多處理器）並增加新的指令後，使MUFU計算softmax部分的速度提升了2.5倍。這將減輕對完美重疊計算的依賴，使得CUDA開發者在編寫注意力核心時有更大的容錯空間。

來源: Tri Dao @ CUDA Mode Hackathon 2024

這正是Nvidia新的推理堆疊和Dynamo技術大顯身手的地方。

推理堆疊與Dynamo

在去年的GTC上，Nvidia討論了GB200 NVL72的大規模GPU擴充套件如何使推理吞吐量較H200在FP8下提升15倍。

來源：英偉達

Nvidia並未放緩步伐，而是在硬體和軟體領域同時加速推理吞吐量的提升。

Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集效能上提升50%，同時HBM容量也提升50%，這兩項均將提高推理吞吐量。路線圖中還包括Rubin系列中網路速度的多項升級，這也將顯著提升推理效能。

下一步硬體在推理吞吐量方面的躍升將來自Rubin Ultra中擴充套件的網路規模，其規模將從Rubin中的144個GPU晶片（或封裝）擴充套件到576個GPU晶片，這只是硬體改進的一部分。

在軟體方面，Nvidia推出了Nvidia Dynamo——一個開放的AI引擎堆疊，旨在簡化推理部署和擴充套件。Dynamo有潛力顛覆現有的VLLM和SGLang，提供更多功能且效能更高。結合硬體創新，Dynamo將使推理吞吐量和互動性之間的曲線進一步右移，尤其是為需要更高互動性的應用場景提供改進。

來源：英偉達

Dynamo引入了多個關鍵新功能：

·Smart Router：智慧路由器能在多GPU推理部署中合理分配每個Token，確保在預載入和解碼階段均衡負載，避免瓶頸。

·GPU Planner：GPU規劃器可以自動調整預載入和解碼節點，依據日內需求波動動態增加或重新分配GPU資源，進一步實現負載均衡。

·改進的NCCL Collective for Inference：Nvidia Collective Communications Library（NCCL）的新演算法使得小訊息傳輸延遲降低4倍，從而顯著提高推理吞吐量。

·NIXL（NVIDIA Inference Transfer Engine）：NIXL利用InfiniBand GPU-Async Initialized（IBGDA）技術，將控制流和資料流均直接從GPU傳輸到NIC，無需透過CPU，極大降低延遲。

·NVMe KV-Cache Offload Manager：該模組允許將KV Cache離線儲存到NVMe裝置，避免在多輪對話中重複計算，從而加速響應並釋放預載入節點容量。

智慧路由器

智慧路由器能在多GPU推理部署中智慧地將每個token同時路由到預載入（prefill）和解碼（decode）GPU上。在預載入階段，確保傳入的tokens均勻分配到各個負責預載入的GPU上，從而避免某個expet引數模組因流量過載而形成瓶頸。

同樣，在解碼階段，確保序列長度和請求在負責解碼的各GPU之間得到合理分配和平衡也十分關鍵。對於那些處理量較大的expet引數模組，GPU規劃器（GPU Planner）還可將其複製，以進一步維持負載平衡。

此外，智慧路由器還能在所有模型副本之間實現負載均衡，這一點是vLLM等許多推理引擎所不具備的優勢。

來源：英偉達

GPU規劃器

GPU規劃器是預載入和解碼節點的自動擴充套件器，可根據一天內需求的自然波動啟動額外節點。它能夠在基於專家模型（MoE）的多個expet引數模組之間實施一定程度的負載均衡，無論是在預載入還是在解碼階段。GPU規劃器會啟動額外的GPU，為高負載expet引數模組提供更多計算能力，並可根據需要在預載入和解碼節點之間動態重新分配資源，從而最大化資源利用率。

此外，它還支援調整用於解碼和預載入的GPU比例——這對像Deep Research這樣的應用尤為重要，因為這類應用需要預載入大量上下文資訊，而實際生成的內容卻相對較少。

來源：英偉達

改進的NCCL集體通訊

Nvidia Collective Communications Library (NCCL)中新增的一組低延遲通訊演算法，可以將小訊息傳輸的延遲降低4倍，從而大幅提升整體推理吞吐量。

在今年的GTC上，Sylvain在演講中詳細介紹了這些改進，重點闡述了單次和雙次全歸約（all-reduce）演算法如何實現這一效果。

由於AMD的RCCL庫實際上是Nvidia NCCL的複製版本，Sylvain對NCCL的重構將持續擴大CUDA的護城河，同時迫使AMD在同步Nvidia重大重構成果上耗費大量工程資源，而Nvidia則可以利用這些時間繼續推進集體通訊軟體堆疊和演算法的前沿發展。

來源：英偉達

NIXL —— Nvidia推理傳輸引擎

為了在預載入節點和解碼節點之間實現資料傳輸，需要低延遲、高頻寬的通訊傳輸庫。NIXL採用InfiniBand GPU-Async Initialized (IBGDA)技術。

目前在NCCL中，控制流經過CPU代理執行緒，而資料流則直接傳輸到網絡卡，無需經過CPU緩衝。而使用IBGDA後，控制流與資料流均可直接從GPU傳輸到網絡卡，無需CPU中轉，從而大幅降低延遲。

此外，NIXL還能將在CXL、本地NVMe、遠端NVMe、CPU記憶體、遠端GPU記憶體及GPU之間傳輸資料的複雜性進行抽象，簡化資料移動流程。

來源：英偉達

NVMe KVCache解除安裝管理器

KVCache解除安裝管理器透過將之前使用者對話中生成的KV快取儲存到NVMe裝置中，而非直接丟棄，來提高預載入階段整體效率。

來源：英偉達

在使用者與大型語言模型（LLM）進行多輪對話時，模型需要將前期問答作為輸入token納入考量。傳統上，推理系統會丟棄用於生成這些問答的KV快取，導致必須重新計算，從而重複同樣的計算過程。

而採用NVMe KVCache解除安裝後，當用戶暫時離開時，KV快取會被解除安裝到NVMe儲存中；當用戶重新提問時，系統可以迅速從NVMe中檢索KV快取，免去了重新計算的開銷。

這不僅釋放了預載入節點的計算能力，使其能夠處理更多的輸入流量，同時還改善了使用者體驗，顯著縮短了從開始對話到接收到第一個token的時間。

來源：英偉達

根據DeepSeek在開源周第6天的GitHub說明，研究人員披露其磁碟KV快取命中率為56.3%，表明在多輪對話中典型的KV快取命中率可達到50%-60%，這對預載入部署效率提升起到了顯著作用。雖然在對話較短時，重新計算可能比載入更便宜，但總體來看，採用NVMe儲存方案所帶來的節約成本是巨大的。

追蹤DeepSeek開源周的朋友對上述技術應該並不陌生。這些技術堪稱快速瞭解Nvidia Dynamo創新成果的絕佳途徑，而Nvidia也將推出更多關於Dynamo的文件。

所有這些新特性共同實現了推理效能的大幅加速。Nvidia甚至討論過，當Dynamo部署在現有的H100節點上時，效能如何進一步提升。基本上，Dynamo使得DeepSeek的創新成果普惠整個社群，不僅限於那些擁有頂尖推理部署工程能力的AI實驗室，所有使用者都能部署高效的推理系統。

最後，由於Dynamo能夠廣泛處理分散推理和專家並行性，它特別有利於單個複製和更高互動性部署。當然，要充分發揮Dynamo的能力，必須有大量節點作為前提，從而實現顯著的效能改進。

來源：英偉達

這些技術共同帶來了推理效能的巨大提升。Nvidia提到，當Dynamo部署在現有的H100節點上時，也能實現顯著的效能改進。換句話說，Dynamo使得整個開源推理技術的最佳成果惠及所有使用者，不僅僅是那些擁有深厚工程背景的頂級AI實驗室。這讓更多的企業能夠部署高效的推理系統，降低整體成本，提高應用的互動性和擴充套件性。

AI總擁有成本下降

在討論完Blackwell之後，黃仁勳強調，這些創新已使他成為“首席收入破壞者”。他指出，Blackwell相比Hopper的效能提升達68倍，使得成本下降了87%。而Rubin預計將實現比Hopper高900倍的效能提升，成本降低99.97%。

顯然，Nvidia正以不懈的步伐推動技術進步——正如黃仁勳所言：“當Blackwell開始大規模出貨時，你甚至不可能把Hopper免費送出。”

來源：英偉達

我們早在去年10月的《AI Neocloud行動指南》中就強調，產品週期早期部署計算能力的重要性，而這正是驅動H100租賃價格從2024年中期開始加速下跌的原因。我們一直呼籲整個生態系統優先部署下一代系統，如B200和GB200 NVL72，而不是繼續採購H100或H200。

我們的AI雲總擁有成本（TCO）模型已經向客戶展示了各代晶片生產率的躍升，以及這種躍升如何推動AI Neocloud租賃價格的變化，進而影響晶片所有者的淨現值。截至目前，我們在2024年初發布的H100租賃價格預測模型準確率達到98%。

來源: AI TCO Model

CPO（共封裝光學）技術

來源：英偉達

在主題演講中，Nvidia宣佈了首個共封裝光學（CPO）解決方案，將其部署於擴充套件交換機中。透過CPO，收發器被外部雷射源（ELS）取代，與直接放置在晶片矽片旁邊的光學引擎（OE）協同工作，實現資料通訊。現在，光纖直接插入交換機上的埠，將訊號路由至光學引擎，而不再依賴傳統收發器埠。

來源：英偉達

CPO的主要優勢在於顯著降低功耗。由於交換機上不再需要數字訊號處理器（DSP），而且可以使用功耗更低的雷射光源，因此實現了顯著的功耗節省。使用線性可插光模組（LPO）也能取得類似效果，但CPO還允許更高的交換機基數，從而將網路結構扁平化——使得整個叢集能夠透過使用CPO實現兩層網路，而非傳統三層網路。這樣不僅降低了成本，也節約了功耗，這種節能效果幾乎和降低收發器功耗一樣顯著。

我們的分析顯示，對於一個400k* GB200 NVL72部署而言，從基於DSP收發器的三層網路轉向基於CPO的兩層網路，總叢集功耗節省最高可達12%，使得收發器功耗從佔計算資源的10%降至僅1%。

來源：Semianalysis

Nvidia今天推出了多款基於CPO的交換機，包括Quantum X-800 3400的CPO版本，該交換機去年在GTC 2024上首發，具有144個800G埠，總吞吐量達到115T，並將配備144個MPO埠和18個ELS。該交換機將於2025年下半年推出。另一款Spectrum-X交換機提供512個800G埠，同樣適用於高速、扁平化的網路拓撲，該乙太網CPO交換機計劃於2026年下半年推出。

來源：英偉達

儘管今天的釋出已經具有突破性意義，我們仍認為Nvidia在CPO領域僅僅是熱身。長遠來看，CPO在規模化網路中的最大貢獻在於，它能夠大幅提升GPU擴充套件網路的基數和聚合頻寬，從而實現更快、更扁平的網路拓撲，開啟遠超576 GPU的規模化世界。我們將很快釋出一篇更詳細的文章，深入探討Nvidia的CPO解決方案。