作者
|王兆洋,Jessica,週一笑圖|王兆洋
科技界泰勒·斯威夫特、Token經濟學鼓吹者、摩爾定律的新希望和新晉“英偉達首席財務摧毀官”黃仁勳,剛剛完成了他年度最重要演講。
“人們說我的GTC演講就像AI界的超級碗。”黃仁勳說。“電腦行業的所有人都在這裡了。”
2025年3月18日,來自全球各地的數萬人聚集在美國聖何塞,參加年度 GTC大會。這場演講的確盛況空前,聖何塞不大的市區徹底擁堵癱瘓。10點開始的演講,有不少人6點就開始排隊。
這位英偉達創始人兼CEO發表了長達兩小時的主題演講,扔出了一系列產品,包括Blackwell Ultra版晶片,下一代晶片Rubin,要做AI開發作業系統的Dynamo,首款電光整合交換機CPO,更強大的個人超級電腦DGX,以及一系列機器人相關的模型和平臺。
這些釋出,效能依舊驚人。
總體來看,最核心的硬核釋出包括:
1)Blackwell Ultra超級晶片:專為“AI推理時代”打造,效能比上代提升1.5倍,在DeepSeek R1模型上每秒處理1000個tokens,響應時間從1.5分鐘縮至10秒。黃仁勳直言“買得越多,賺得越多”。與Hopper相比,為資料中心創造50倍收入潛力。
2)Vera Rubin下一代晶片:計劃2026年底推出的下一代超級晶片,記憶體容量是Grace的4.2倍,頻寬提高2.4倍,88個CPU核心效能翻倍,配備288GB高頻寬HBM4記憶體。黃仁勳還預告2027年推出Vera Rubin Ultra和2028年的“費曼”晶片。
3)Dynamo推理框架:黃仁勳稱其為“AI工廠的作業系統”,這一開源框架能協調數千GPU通訊,透過“分離式服務”分別最佳化模型思考和生成階段,最大化資源利用率,與Perplexity達成合作開發。
4)DGX個人AI超級電腦:推出Mac Mini大小的DGX Spark(3000美元)和更強大的DGX Station,前者提供1000萬億次/秒AI算力,128GB記憶體;後者搭載GB300晶片,提供20拍計算效能和784GB記憶體。多家合作伙伴將推出相容版本。
5)Isaac GROOT N1機器人基礎模型:首個開放式人形機器人基礎模型,能輕鬆掌握抓取、移動等複雜任務。配套推出模擬框架和藍圖工具,以及與谷歌DeepMind、迪士尼合作開發的Newton物理引擎。黃仁勳宣稱“通用型機器人時代已經到來”。

1
Token經濟學+AI工廠:DeepSeek帶來的推理紅利,英偉達都會吃掉
和過往多次激動人心的演講不同,今年GTC主題演講可能是黃仁勳多年來第一次需要“回答”問題,而非完全由他設定議題的一次——
在DeepSeek R1引發的衝擊後,英偉達近年來少有的被市場質疑:是否隨著算力進入推理時代後,它代表的規模化不再成立。所有人期待黃仁勳給出回答,而且就在主旨演講前,英偉達股價開始下行,最終也以下跌收盤。
這也是貫穿當天演講的核心。
黃仁勳的解法是:
他比所有人都更加激進地強調推理的重要性,並且透過通俗易懂地解釋以及各種英偉達真實資料和產品路線圖,來證明一件事——推理時代對計算的要求反而更加高,而已經領先的英偉達會繼續領先下去。
“兩年前ChatGPT開始,我們經歷了各種技術的創新和進步,終於到了推理的時代。AI會思考和推理,能解決更多的問題。Scaling Law從一個變成了三個。”黃仁勳說。

言下之意,AI向推理階段的轉移不是scaling law的結束,反而是因為Scaling law比人們預期的發展更快,進入了這個新的階段。
“關於擴充套件定律(scaling law)和算力,去年全世界幾乎都預測錯了。AI的擴充套件定律比我們想象的更具影響力,極大加速了計算需求的增長。實際上,如今的算力需求比我們去年預估的高出了100倍。”
黃仁勳解釋道,過去AI主要依賴經驗和預訓練資料進行學習,並能一次性完成推理演示。而現在的AI系統採用"思維鏈"(Chain of Thought)技術進行逐步推理。不再只是簡單地預測下一個token,而是生成完整的推理步驟,每個步驟的輸出都會作為下一步的輸入,使得處理單個查詢所需的tokens數量增加了約10倍。
同時,為了保證使用者體驗和互動性,避免使用者因AI“思考”時間過長而失去耐心,系統需要以10倍的速度處理這些額外增加的tokens。因此,10倍的tokens量乘以10倍的處理速度要求,導致總計算需求增加了約100倍。此外,訓練這些複雜推理能力需要透過強化學習處理數萬億級的tokens,進一步推高了算力需求。
“我認為計算有一個最終的難題,就是推理(inference)。之前所有人都以為它很簡單,但其實並不是。”黃仁勳說。

他直接把推理上升到了最終極挑戰的地位,而這個挑戰需要複雜的系統化的能力來解決,這隻有英偉達可以。
黃仁勳還用了一個demo來對比傳統LLM與推理增強型模型的不同,其中推理模型他選擇了DeepSeek。
這個例子裡,兩個模型要為婚宴安排座位。這直觀展現了兩者在複雜約束條件下(包括父母與姻親不能相鄰、攝影效果最佳化、新娘的特殊要求以及牧師的加入)的不同解法。
Llama 3.3 70B採用"一次性"方式,快速生成了439個tokens的回答,雖然響應迅速但結果錯誤,等於產生了439個"浪費的tokens"。而DeepSeek R1則啟動了深入的思考過程,生成8,559個tokens,它嘗試了多種可能的情境,並反覆檢驗自己的答案,最終得出了正確解決方案。
從圖表中可以清楚看到,相比傳統LLM,推理模型的tokens生成量增加了20倍,計算資源需求更是高出150倍。這一演示直觀展示了現代AI為何需要更強算力——推理過程依賴大量token的處理與生成,而每生成一個token都需要載入整個萬億級引數的模型。“這就是為什麼高速互連技術(如NVLink)變得如此重要——它能支援這種大規模資料移動,使AI‘思考’成為可能。”

除了技術上的展示,他更想要的是對客戶和市場展示信心,對此,他再次化身最強銷售,他給出的答案也可以簡單總結為一個公式:
Token經濟學+AI工廠= 推理時代依然利好英偉達
黃仁勳從開場的影片到最後,都在強調一件事:今天從自動駕駛,到生成式AI,一切的根源都是token,而產生這些token的根源是英偉達。
這是黃仁勳一直在講述的token經濟學,當AI變成一切生產力提升的根源,token就成了最根本的單位。如何讓每個生成的token都划算,就是今天所有企業要關心的事情。
今天,電腦的地位徹底發生改變,以往它是軟體提取資訊的地方,現在它是產生Token的地方,它是AI工廠。而作為一個工廠,就要計算投入產出比。黃仁勳把AI輸出的token認為是成本,而每個使用者能夠獲得的token則是收益。
縱軸是作為AI工廠的輸出,計量單位是每兆瓦生成的TPS(每秒touken數),橫軸是使用者得到的TPS。一個曲線能在橫軸和縱軸都擴張,你的收入就越多。

而橫軸更高的同時縱軸越低的話,你就能越賺錢。
而英偉達的產品,在不停推動著這個賺錢曲線的實現。

黃仁勳在圖裡直接對比了Blackwell 與 Hopper:一個1兆瓦的Hopper資料中心每秒可產生約250萬tokens,而採用相同功耗的Blackwell系統(結合NVLink 72、FP4精度和Dynamo系統),效能可提升25倍。特別是在推理模型上,Blackwell的表現更為出色,效能比Hopper高出40倍。
“當Blackwell開始大量出貨時,你基本上送給別人Hopper都不會要。”他笑著說:”別怕,Hopper在某些情況下還是可以的……這是我能對Hopper說的最好話了。”
這麼說顯然對Hooper這個還在銷售的產品線是巨大打擊,他開玩笑說,自己變成了“首席財務摧毀官”。
在比較100兆瓦AI工廠時,黃仁勳指出,基於Hopper的工廠需要45,000個晶片和1,400個機架,每秒產生3億tokens,而Blackwell則需要更少的硬體實現更高的效能。雖然Blackwell單價可能更高,但其計算效率的提升使AI工廠在長期運營中節省更多成本。
“基本上你買得越多,省得越多!不,甚至比這更好——買得越多,賺得越多!”這句經典的黃仁勳數學,再次用在了推理時代。
這一切都利好英偉達,AI的投資會繼續,即將達到萬億美元的拐點。
“我之前說過,預計到2028年,資料中心的建設將達到萬億美元規模,而我非常確信我們很快就會達到這個目標。”

1
市場的高預期下,把貨“賣”到了2027年
具體來看此次黃仁勳帶來的新產品的最新細節。
NVIDIA Blackwell Ultra:
它是 NVIDIA Blackwell新一代版本——NVIDIA Blackwell Ultra。Blackwell Ultra專為“AI推理時代”設計,這類技術隨著DeepSeek R1的推出而進入主流。
Blackwell Ultra基於去年推出的Blackwell架構打造,包括兩大核心產品:GB300 NVL72機架式系統和HGX B300 NVL16系統。GB300 NVL72的AI效能比上一代提升了1.5倍,而與使用Hopper架構的資料中心相比,收入潛力提高了50倍。
黃仁勳表示:“AI已經實現了巨大飛躍:能進行推理和自主行動的AI需要成倍增長的計算效能。我們專為這一時刻設計了Blackwell Ultra,這是一個多功能平臺,可以輕鬆高效地完成預訓練、後訓練和AI推理。”

GB300 NVL72在一個機架式設計中連線了72個Blackwell Ultra GPU和36個基於Arm架構的Grace CPU。有了這個系統,AI模型可以利用更強大的計算能力探索不同的問題解決方案,將複雜請求分解為多個步驟,從而提供質量更高的回答。
根據英偉達的說法,GB300 NVL72系統在執行DeepSeek的R1人工智慧模型時,每秒能處理1000個tokens,而使用老款Hopper晶片時只能每秒處理100個。這一升級意味著實際使用中,GB300 NVL72只需約10秒就能回答使用者問題,而Hopper則需要1.5分鐘才能完成同樣的任務。簡單來說,新一代Blackwell Ultra系統比舊款Hopper系統快了近9倍,是一次質的飛躍。
這款產品也將在英偉達的DGX Cloud平臺上提供,這是一個端到端的全託管AI平臺,透過軟體、服務和專業知識最佳化效能。而使用GB300 NVL72設計的DGX SuperPOD系統則為客戶提供了一站式的“AI工廠”。
HGX B300 NVL16系統在處理大型語言模型時速度比上一代快11倍,計算能力提高7倍,記憶體容量增大4倍,足以應對最複雜的AI任務,如高階推理。
Blackwell晶片目前已全面投產,據稱,這是英偉達歷史上最快的產能提升。在最近一個季度中,Blackwell為英偉達貢獻了110億美元收入,佔公司總收入393億美元的近三分之一。
下一代AI“超級晶片”Vera Rubin:
截至今年1月的2025財年,英偉達銷售額實現了驚人的翻倍增長,達到1246.2億美元。這主要歸功於兩方面:Hopper晶片的持續熱銷和Blackwell晶片的早期訂單。
要保持這樣的增長勢頭,英偉達必須推出讓客戶“錢花得值”的新一代晶片。這意味著新晶片需要在速度更快、耗電更少、總擁有成本更低等方面超越上一代產品。

黃仁勳首次展示了下一代Vera Rubin AI超級晶片,這款產品以以暗物質研究先驅天文學家Vera Rubin命名,預計將於2026年底推出。這款晶片延續了前代產品的設計理念,採用CPU(Vera)和GPU(Rubin)組合架構。
主要升級包括:記憶體容量是Grace的4.2倍,記憶體頻寬提高2.4倍,88個CPU核心提供比Grace Blackwell兩倍的整體效能,以及Rubin GPU中的288GB高頻寬記憶體4(HBM4)。
“基本上所有東西都是全新的,除了機箱,”黃仁勳說道。
黃仁勳還預告了2027年的後續產品:Vera Rubin Ultra,這款產品將採用Rubin Ultra GPU,將四個GPU合併為一個單元。
市場的預期之高,英偉達需要把2027年的貨提前透露給大家看。
黃仁勳表示,AI正處於“拐點”,預測到2028年資料中心收入將達到1萬億美元。英偉達代號為“費曼”(Feynman)的下一代AI晶片將於2028年亮相。

Nvidia Dynamo:AI工廠的作業系統
黃仁勳釋出了開源推理框架Dynamo,用於加速和擴充套件AI推理模型。黃仁勳稱之為“AI工廠的作業系統”,並解釋說這個名字來源於工業革命中的第一個關鍵發明—發電機(Dynamo)。

Dynamo專為部署推理型模型的“AI工廠”設計,幫助最大化產出效益。它能協調和加速成千上萬GPU之間的通訊,並採用“分離式服務”技術,在不同GPU上分開處理大語言模型的“思考階段”和“生成階段”。這樣每個階段都能針對特定需求進行獨立最佳化,確保GPU資源得到最充分利用。
黃仁勳透露,英偉達正在與“最喜歡的合作伙伴”之一Perplexity合作開發Dynamo。“非常喜歡他們,不僅因為他們做的革命性工作,還因為Aravind是個很棒的人”
DGX Spark、DGX Station:家用“AI超級電腦”
黃仁勳還帶來了面向個人使用者的“AI超級電腦”——DGX Spark和DGX Station。兩款裝置都採用了Grace Blackwell平臺,為使用者提供本地執行大型AI模型的能力,而無需持續連線資料中心。其中較小的Spark版本現已開放預訂。
DGX Spark是英偉達今年在CES展會上以“Digits”為名釋出的那款Mac Mini大小的“世界最小AI超級電腦”,售價3000美元。而更大的DGX Station則面向“AI開發者、研究人員、資料科學家和學生,用於在桌面上原型設計、微調和執行大型模型”,目前尚未公佈價格。

Spark搭載了英偉達的GB10 Blackwell超級晶片,配備第五代Tensor核心和FP4支援。提供“高達1000萬億次每秒(TOPS)的AI計算能力,足以微調和執行最新的AI推理模型,包括英偉達Cosmos Reason世界基礎模型和NVIDIA GROOT N1機器人基礎模型”。Spark配備128GB統一記憶體和最高4TB的NVMe SSD儲存。
體積更大的DGX Station容納了英偉達剛剛釋出的更強大的GB300 Blackwell Ultra桌面超級晶片,“提供20拍(petaflops)的AI效能和784GB統一系統記憶體”。
英偉達還宣佈OEM合作伙伴將推出自己版本的DGX裝置:華碩、戴爾、惠普、Boxx、Lambda和超微將打造自己的DGX Station,將於今年晚些時候上市。華碩、戴爾、惠普和聯想將推出DGX Spark版本
英偉達並非唯一打造具有大統一記憶體、可用於本地大語言模型的GPU廠商。AMD也推出了Ryzen AI Max+ “Strix Halo”晶片。這些裝置的出現,意味著強大的AI計算能力正從雲端走向家庭和個人,為普通使用者提供了本地AI運算能力。
黃仁勳還宣佈了對其網路元件的更新,以便將數百或數千個 GPU 連線在一起,使它們作為一個整體協同工作同時,英偉達在網路技術方面也取得了進展,推出了基於光子學的Spectrum-X和Quantum-X交換機,提升了資料中心GPU互聯的效率和可擴充套件性。

小機器人Newton:
此外還有英偉達與谷歌DeepMind和迪士尼研究院合作,專為開發機器人而設計Newton開源物理引擎。
在介紹NVIDIA與DeepMind、Disney和NVIDIA聯合研發的機器人Newton時,演示影片忽然中斷。熟悉GTC節奏的人都知道,那味兒又來了。
“怎麼回事,我們只剩兩分鐘了,我需要跟真人說話。”黃仁勳故作焦急地來回踱步,“什麼,正在重新調整架構,那是什麼意思….”話音剛落,Newton機器人Blue就從舞臺一側緩緩升起。隨後一邊發出電影裡那樣古靈精怪的機械聲,一邊搖頭晃腦地走到了黃仁勳身邊,全場爆發出掌聲與笑聲。

“告訴我這是不是很驚人!嘿Blue,你喜歡你的新物理引擎嗎?觸覺反饋、剛體和軟體模擬,即時物理計算。我敢打賭你喜歡!”黃仁勳特別指出,現場觀眾看到的一切都是即時模擬,這將是未來機器人訓練的關鍵方式,並透露Blue內部搭載了兩臺NVIDIA計算機。
而Blue也與黃仁勳互動,跟著做出點頭、搖擺的回應,並聽從他的指揮站到旁邊。這也是整場釋出和演講中,難得的輕鬆時刻。

今天是個瘋狂的時代,英偉達可以把晶片的架構更新提高到一年一次,但即便如此,人們的胃口似乎依然沒有得到滿足。
黃仁勳似乎也對此有些不爽,在演講裡,他略微吐槽到:
“我們釋出了新東西,但人們馬上會說好的,接下來呢?這對任何公司都不正常。”他說。
“畢竟這不像買個筆記型電腦,我們需要有計劃,土地,能源,我們的人的部署,這都需要提前幾年做計劃。所以我們可能不能讓你很吃驚,但一切都在按照計劃進行。”