老黃髮布新核彈B300,英偉達:B200已破DeepSeek-R1推理世界紀錄

金磊 一水 發自 凹非寺

量子位 | 公眾號 QbitAI
皮衣老黃,帶著最強AI晶片GB300閃亮登場“AI超級碗”GTC,燃爆全場!
效能方面,和去年釋出的GB200相比,推理效能是其1.5倍。
據悉,GB300將在今年的下半年出貨。
除此之外,老黃還預覽(2026年下半年發貨)了英偉達下一代AI超級晶片,名字大變樣——Vera Rubin
其實它的命名規則和Grace Blackwell(GB)類似:Grace是CPU,Blackwell是GPU。
而Vera Rubin中的Vera是CPU,Rubin是GPU。根據老黃的說法:
幾乎所有細節都是新的。
從預覽的效能來看,Vera Rubin整體效能更是GB300的3.3倍。更具體一些:
  • Vera:CPU的記憶體是Grace的4.2倍,記憶體頻寬是Grace的2.4倍。
  • Rubin:將配備288GB的HBM4。
在Vera Rubin之後的下一代GPU(2027年下半年),英偉達會將其命名為Rubin Ultra,效能直接拉到GB300的14倍
一個直觀的對比,如下圖所示:
更多的具體效能對比,是這樣的:
效能上的提升,也正應了老黃在現場說的那句話:
大規模推理是一種極限計算。
Inference at-scale is extreme computing.
不僅如此,就連Rubin之後的下一代GPU,老黃也給亮出來了——將以Feynman來命名。
而縱觀整場GTC,我們可以輕鬆提煉老黃提及最多的幾個關鍵詞:tokens推理Agentic AI
但除此之外,還有一個比較有意思的關鍵詞——DeepSeek
英偉達官方部落格稱:
實現了DeepSeek-R1推理效能世界紀錄。
每個使用者每秒可處理超過250個token;實現每秒超過30000個token的最大吞吐量。
但這項紀錄採用的是B200,英偉達表示隨著Blackwell Ultra等新GPU的出現,紀錄還將繼續被打破。
而老黃在現場體現傳統LLM和推理LLM的區別時,也是拿著DeepSeek-R1來舉例:
嗯,微妙,著實有點微妙。
那麼除了一系列新GPU之外,還有什麼?我們繼續往下看。

推出兩款個人AI超級計算機

首先,第一款個人AI超級計算機,叫做DGX Spark
它就是老黃在今年1月份CES中釋出的那個全球最小的個人AI超級計算機Project Digits,這次取了個正式的名字。
DGX Spark售價3000美元(約21685元),大小和Mac Mini相當。
它採用的是英偉達GB10晶片,能夠提供每秒1000萬億次的AI運算,用於微調和推理最新AI模型。
其中,GB10採用了NVLink-C2C互連技術,提供CPU+ gpu的相干記憶體模型,頻寬是第五代PCIe的5倍。
值得一提的是,英偉達官網已經開發預定了哦~
至於第二款個人AI超級電腦,則是DGX Station
DGX Station所採用的,正是今天推出的GB300,也是首個採用這款晶片的AI電腦。
其效能如下:
  • 擁有784GB的相干記憶體空間
  • 擁有英偉達的ConnectX-8超級網絡卡,支援高達800Gb/s的網路速度
  • 擁有Nvidia的CUDA-X AI平臺,可訪問NIM微服務和AI Enterprise
用老黃的話來說就是:
這就是PC應該有的樣子。
This is what a PC should look like.
至於上市趕時間,則是將於今年晚些時候從華碩、BOXX、戴爾、惠普、Lambda和美超微等廠商處推出。

搭載GB300的DGX Station主機板

而根據英偉達官方的介紹,這兩款個人AI超級計算機,是面向研究人員、資料科學家、AI開發者和學生設計的。
除此之外,老黃在這屆GTC上還涉足了乙太網,推出全球首個面向AI的乙太網網路平臺——Spectrum-X
它由英偉達的Spectrum-4乙太網交換機和BlueField-3 SuperNIC共同發力,能為AI、機器學習和自然語言處理等提供高效能支援。
相比傳統乙太網,Spectrum-X可將AI網路效能提升1.6倍,提高AI雲的電力效率。
以及還包括基於矽光學的Spectrum-X Photonics和Quantum-X Photonics網路交換平臺,用於使用矽光學的超大規模資料中心。
新的網路交換平臺將埠資料傳輸速度提升至1.6Tb/s,總傳輸速度達到400Tb/s,使數百萬個GPU能夠無縫協同工作。

還開源了一系列軟體

除了硬體,英偉達這次在軟體開源方面也有幾個新動作。
其中最重磅的,當屬釋出NVIDIA Dyamo,一個用於加速AI模型推理的分散式推理服務庫
老黃將其稱為“AI工廠的作業系統”,核心目標在於提高推理效能的同時降低Test-Time算力消耗。
按照英偉達的說法,在NVIDIA Blackwell上使用Dynamo最佳化推理,能讓DeepSeek-R1的吞吐量提升30倍
至於背後原因,主要在於Dynamo可以透過動態調整GPU資源應對請求波動,並最佳化資料解除安裝到成本更低的儲存裝置,從而降低推理成本並提高效率。
目前Dynamo已完全開源,支援PyTorch、SGLang、NVIDIA TensorRTyTM以及vLLM,在GitHub獲取後即可將推理工作分配到多達1000個NVIDIA GPU晶片。
此外,英偉達還宣佈開源新的AI推理模型——Llama Nemotron,該系列模型也曾出現在今年1月的CES上。
據介紹,Llama Nemotron基於開源Llama基礎模型構建,採用英偉達最新技術和高質量資料集進行剪枝和訓練,優化了計算效率和準確性。
為了直觀展示其效能,老黃在大會上將它和Llama 3.3(70B)以及DeepSeek R1 Llama (70B)進行了對比,下圖展示了它們在Agentic任務上的平均準確率(橫軸)與每秒處理的tokens數量(縱軸):
可以看出,新的推理模型以49B引數量效能遠超另外兩個模型,在Agentic任務中表現更為突出。
目前Nano和Super模型可在NIM微服務中獲取,Ultra模型即將推出。
與此同時,英偉達在自動駕駛具身智慧方面也有新進展。
大會開始不久,老黃即宣佈英偉達與通用汽車達成合作:
通用將在自動駕駛上使用英偉達的AI技術。
在這之後,英偉達正式釋出了端到端自動駕駛汽車全棧綜合安全系統NVIDIA Halos
這個系統主要將NVIDIA的汽車硬體和軟體解決方案與尖端AI研究相結合,以確保從雲端到車輛的自動駕駛汽車(AVs)的安全開發。
介紹過程中,老黃多次提到了“安全性”這個詞,並公開聲稱:
我們是世界上第一家對每一行程式碼進行安全評估的公司
落實到具體上,Halos系統主要在三個互補的層面提供支援:
  • 技術層面:包括平臺安全、演算法安全和生態系統安全;
  • 開發層面:涵蓋設計階段、部署階段和驗證階段的安全防護措施;
  • 計算層面:從AI訓練到部署的全過程,利用三種強大的計算平臺,分別是NVIDIA DGX用於AI訓練,NVIDIA Omniverse和NVIDIA Cosmos在NVIDIA OVX上執行用於模擬,以及NVIDIA DRIVE AGX用於部署。
到了大會的最後階段,老黃宣佈英偉達與Google DeepMind和Disney Research正合作開發下一代開源模擬物理模型Newton
據英偉達介紹,Newton基於NVIDIA Warp構建,支援與MuJoCo Playground或NVIDIA Isaac Lab等學習框架相容。
它主要用於機器人模擬訓練,使用之後可以幫助研究人員安全、加速且低成本地訓練/開發/測試/驗證機器人控制演算法和原型設計。
同時,英偉達還同步推出了 Isaac GR00T N1,號稱全球首個開源的、完全可定製的人形機器人基礎模型。
它採用雙系統架構,靈感來自人類思考模式,包括快速思考的動作模型(System 1)和慢速思考的決策模型(System 2)。
在大會演示中,GR00T N1能夠輕鬆泛化常見的任務,如抓取、移動物體以及在雙臂之間轉移物品,或執行需要長時間推理的複雜任務。
最後的最後,老黃在謝幕之前還成功“召喚”出了配有GR00T N1模型的機器人——Blue(星球大戰機器人)。
雖然過程中有些不聽話的“叛逆行為”,但好在還是給了點老黃面子(doge)。

One More Thing

今年的GTC大會,除了老黃的主題演講,還有一件事最值得期待:
那就是今年首次設立的“量子日”活動,屆時老黃將與D-Wave Quantum和Rigetti Computing等十餘家量子計算行業領軍企業的高管同臺,討論量子計算的技術現狀、潛力以及未來發展方向。
要知道今年年初時,老黃一句“量子計算還需20年才實用”,相關概念股曾應聲腰斬。
所以大家這次都在觀望,老黃是否又會“語出驚人”,相關探討是否會對量子計算產業產生更大影響。
咱們繼續坐等答案揭曉~

老黃演講回看地址:

https://www.youtube.com/watch?v=_waPvOwL9Z8

一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
最後一週!2025年值得關注的AIGC企業產品 報名即將截止 💥
下一個AI“國產之光”將會是誰?歡迎申報獎項!
本次評選結果將於4月16日中國AIGC產業峰會上公佈。
🌟 一鍵星標 🌟
科技前沿進展每日見

相關文章