剛剛,老黃攜GB300震撼登場!DeepSeek推理暴漲40倍加速全球最快,26年Rubin問世

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
編輯 | 編輯部 HNYZ
全世界都錯了,Scaling Law並沒有撞牆!
GTC大會上,老黃這樣向全世界這樣宣佈。
更令人矚目的是,DeepSeek R1推動的推理時Scaling,讓Scaling Law出現了全新的發展路線。
剛剛在聖何塞結束的GTC大會上,老黃聲稱沒有指令碼、沒有提詞器,用兩個多小時向我們介紹了英偉達過去一年的進展。
老黃表示,如果說從前的GTC說AI的伍德斯托克音樂節,那今年搬進體育場的GTC就是AI的超級碗,而唯一不同的說,每個人都是超級碗的贏家。
全場精彩亮點如下:
  • Blackwell已全面投產,而且進展非常快,客戶需求也非常大。這一切皆是因為AI拐點已至,訓練推理AI/智慧體系統對計算量的需求大大增加。
  • Blackwell NVL72結合Dynamo推理效能提升了40倍,相當於一座Hopper AI工廠的效能。
  • 英偉達未來三年路線圖已公開,GPU每年一更:Blackwell Ultra預計2025年下半年上市,下一代Rubin 2026年問世。
  • 英偉達正在構建3個AI基礎設施:雲上AI基礎設施,企業AI基礎設施和機器人AI基礎設施。
英偉達預言:在未來,每個擁有工廠的公司將來都會有兩個工廠,一個是用來製造產品的實體工廠,另一個是用於數學運算的AI工廠。為此,各類CUDA-X軟體庫已經準備好,引爆全行業的變革。
而這場革命的背後,就是英偉達的CUDA核心,以及為之配備的驚人算力。

AI晶片每年一更,下一代Rubin明年亮相

隨著Blackwell GPU的全面發貨,老黃也按照慣例釋出了接下來幾款新產品的路線圖。
首先,是對訓練和測試時推理能力進行大幅提升,並將在今年下半年問世的Blackwell Ultra。
根據英偉達官方部落格介紹,Blackwell已經讓DeepSeek-R1打破了推理效能的世界紀錄。
而與Blackwell相比,Blackwell Ultra晶片還有超強進化!
它的視訊記憶體從192GB提升到了288GB。而GB300 NVL72的AI效能,則比NVIDIA GB200 NVL72高出1.5倍。
接下來,是最為重磅的Vera Rubin,預計在2026年下半年釋出。
這個命名致敬的是發現暗物質的天文學家Vera Rubin。
Vera Rubin有兩個部分,一個稱為Vera的CPU和一個稱為Rubin的新GPU。
兩部分一同使用時,Rubin可以在推理時實現每秒50千萬億次浮點運算,比Blackwell速度高出一倍多。
視訊記憶體方面,Rubin將升級為HBM4,容量仍然為288GB。
不過,Rubin的頻寬將會有大幅升級,從原來的8TB/s提高到13TB/s,提高了1.6倍。
不僅如此,NVIDIA還會為Rubin擴充套件NVLink,將其吞吐量提升到260TB/s,直接翻倍!
機架間的全新CX9鏈路達到了28.8TB/s。
不僅有標準版Rubin,老黃現場還推出了Rubin Ultra版本。
Rubin Ultra NVL576在FP4精度下進行推理任務時,效能達到了15 ExaFLOPS,在FP8精度下進行訓練任務時,效能為5 ExaFLOPS。相比GB300 NVL72效能有14倍的提升。
配備HBM4e記憶體,頻寬為4.6 PB/s,支援 NVLink 7,頻寬為1.5 PB/s,較上一代提升12倍。
Rubin Ultra NVL576機架支援CX9,頻寬為達到了115.2 TB/s,較上一代提升了8倍。
預計在2027年下半年推出。
Blackwell NVLink72和Rubin NVLink 576尺寸最直觀的對比,再一次證明了需要在scale up之前,先要完成scale out。
可以看到浮點運算能力,Hopper架構是1倍提升,Blackwell 68倍提升,到了Rubin直接躍升至900倍。
另外總擁有成本(TCO),也在隨著架構迭代大幅降低。
那麼,英偉達是如何實現scale up?
主要是透過網路InfiniBand和Spectrum X。後者具備了低延遲和擁塞控制特性,並且成功scale up有史以來最大的單GPU叢集。
不僅如此,英偉達還希望在Rubin時間框架內,將GPU的數量擴充套件至數十萬個。而這一目標實現的主要挑戰在於,大規模連線的問題。
值得一提的是,老黃官宣了英偉達首個共封裝矽光子系統,也是世界上第一個每秒1.6T的CPO。
它基於一種「微環諧振器調製器」的技術(micro ring resonator modulator),並使用了臺積電工藝技術構建。
現在,具備了將矽光子學與共封裝的結合,無需使用收發器,直接接入光線,並將其整合到512徑基數的交換機中。
這樣,便能夠輕輕動動擴充套件至數十萬,甚至百萬GPU規模。
至於再下一代,則是將於2028年上市的Feynman(費曼)。
該命名致敬了美國著名理論物理學家Richard Feynman。

桌面級「黃金超算」,AI算力20000 TFLOPS

蘋果這個月剛剛釋出能跑6000億引數的Mac Studio,反身又要被英偉達超越了。
今天,老黃正式推出Blackwell RTX PRO工作站和伺服器系列,專為開發者、創意工作者、資料科學家構建和協作提供全方位的AI支援。
具體來說,它包括了資料中心GPU、桌面GPU,以及筆記本GPU。
這些GPU能夠提供卓越的效能、效率,解鎖生成式AI、智慧體AI和物理AI的巨大潛力。
RTX PRO 6000 Blackwell採用了英偉達流式多處理器提供高達1.5倍吞吐量,第五代Tensor Core支援高達每秒4000萬億次AI運算,第四代RT Core效能提升高達前一代的2倍。
不僅如此,老黃還帶來了兩款由Blackwell驅動的DGX個人桌面AI超級計算機。
一個是DGX Spark(原名Project DIGITS),另一個是DGX Station。
老黃稱,「AI已經改變了計算堆疊的每一層,理所當然就會出新一類的計算機——專為AI原生開發者設計,並執行AI原生程式」。
這兩款桌面超級計算機,便是這樣的存在。
DGX Spark可以稱得上,世界上最小的AI超級計算機,配備128GB記憶體。
核心是GB10 Grace Blackwell超級晶片,能夠提供每秒高達1000萬億次操作的AI計算能力,可以用於微調和推理模型。
DGX Station則將資料中心級別的效能,帶到每個人桌面用於AI開發。
作為首款採用GB300 Grace Blackwell Ultra桌面超級晶片構建的系統,DGX Station配備了高達784GB的統一記憶體,以加速大規模訓練和推理工作負載。
如下是Blackwell驅動下,所有英偉達DGX家族。

Scaling Law沒撞牆,2028年資料中心將達一萬億!

開場時,老黃手舉GeForce 5090,和4090做了對比,它的體積小了30%,效能的提升卻難以置信。
GeForce將CUDA帶給了全世界,而CUDA開啟了AI,而AI又反過來改變了計算機圖形學。
如今大火的則是智慧體AI,它可以感知、理解、推理,還能計劃行動,使用工具,自己訪問網站去學習。
而接下來,就是物理AI,它將理解物理世界,理解摩擦、慣性、因果關係。它使機器人技術成為可能。
而這次大會上,Agentic AI和Physical AI將是全程的核心。
接下來,老黃重提了Scaling Law。
這涉及了三大問題:如何解決資料?如何訓練模型?如何擴充套件?
預訓練要解決資料問題,後訓練解決的是human-in-the-loop問題,而測試時Scaling,則提升了AI的推理。
老黃表示,去年整個世界都搞錯了,Scaling並沒有撞牆!
從GPT開始,到如今的推理AI,它不再是僅僅預測下一個token,而是生成100多倍的token。
這樣,推理計算量就更高了,計算速度必須提高10倍,如今需要的計算量比去年這個時候我們認為需要的多出100倍。
那麼,資料應該從哪裡來?答案就是強化學習。
透過強化學習,我們可以生成大量token,這就涉及到了合成數據,給整個行業帶來巨大的計算挑戰。
比較一下Hopper的峰值年份和Blackwell的第一年,會發現:AI正處於轉折點。
Blackwell發貨才一年,我們就見證了全球AI基礎設施的驚人增長。僅在2024年,全球TOP 4的雲服務商買進的Hopper架構晶片就達到130萬塊。
老黃表示,未來資料中心建設將達到一萬億美元的規模,並且他確信,這個時間很快了!
根據預測,到2028年就能達到這個規模。
如今,通用計算已經走到了盡頭,我們已經到達加速計算臨界點,需要一種新的計算方法。
世界正在經歷一個平臺轉移,從在通用計算機上執行的手寫軟體,轉向在加速器和GPU上執行的機器學習軟體。
過去,我們編寫軟體並在計算機上執行。未來,計算機將為軟體生成token。
計算機已經成為生成token的工具,而不僅僅是檔案的檢索工具,老黃稱之為「AI工廠」。
上面這張幻燈片,可以說是GTC最核心內容的結晶。
英偉達透過由Grace Hopper和Grace Blackwell架構支援的各種CUDA-X庫,為每一個科學領域提供了加速框架。
比如,解決涉及稀疏矩陣的大型工程模擬問題的cuDSS,模擬極其複雜的量子系統的cuQuantum等等。
而這些,僅僅是使加速計算成為可能的庫的樣本。
如今,透過英偉達的900多個CUDA-X庫和AI模型,所有人都可以加速科學研究,重塑行業,賦予機器視覺、學習和推理能力。
老黃表示,從業三十年中,最令自己感動的一件事,就是一位科學家對自己說:「Jensen,因為你的工作,我可以在有生之年完成我的畢生事業」。
如今,每年有1000億美元的資本投入無線網路和用於通訊的資料中。
加速計算的趨勢已經無法阻擋,AI將進入每個行業,比如改變無線電訊號。

既要大量token思考,又要快速生成

如今,英偉達已經完成了計算機架構的基本轉型。
大約三年前,他們就展示過Grace Hopper(Ranger系統),但它太大了,需要解決規模擴充套件的問題。
當時的想法是,使用大量商用計算機,將它們連線成一個大型網路,然而,這種方式會消耗太多電力和能力,根本無法實現深度學習。
而HGX系統架構,徹底解決了縱向擴充套件的問題。
它包含8個GPU,透過MVLink 8連線到CPU架上,然後再透過PCI Express進行連線,很多這樣的裝置再用InfiniBand連線起來。
這,就英偉達在向外擴充套件之前所能達到的最大規模了。
然後,他們又做出了世界上效能最高的交換機——NVLink交換機,使得每個GPU能夠同時以全頻寬與其他所有GPU通訊。
同時,利用液冷將計算節點也壓縮到1u的托盤中,從而為行業帶來了鉅變。
從此,整合NVLink轉向分散式NVLink,從空氣冷卻轉變為液冷,從每臺計算機約6萬個元件到每個機架60萬元件,120千瓦功率,全液冷設定。
於是,一個機架裡,就有了一個Exaflops級別的超算。
英偉達的目標,就是構建這塊晶片,此前沒有任何一種工藝能實現。
它包含130萬億個電晶體,其中20萬億用於計算,而解決方法,就是將其拆分到Grace Blackwell NVLink 72機架中。
最終的結果,就是英偉達實現了Scaling,可以說,這是全世界實現過最極端的Scaling。
這個過程中的計算量,可能已經達到了記憶體頻寬每秒570TB。而這臺機器,已經達到了每秒百萬萬億次浮點運算。
實際上,推理Scaling是一個「終極計算」問題。
推理是工廠生成token的過程,只有具備極高效能,才會提升服務質量,以及收入和盈利的能力。
生成的token越多,AI就越智慧。但問題是,吞吐時間太長且速率慢,客戶也不願意買賬。
因此,在計算工廠中,響應時間和吞吐量中間,存在著基本的矛盾關係。
老黃展示這張圖中,x軸代表了生成的token,y軸代表著每秒token吞吐效率,理想情況下,圖中黃色曲線應該是一個方形,即在工廠能力極限之內,非常快速生成token。
然而, 現實沒有哪個工廠可以做到這點。
曲線才是最符合現實的一種,工廠的目標是最大化曲線下方的面積,越是向外推,代表著建造的工廠越優秀。
另一個維度,則需要巨大的頻寬、最大的浮點運算能力。
現場,老黃展示了一個傳統大模型和推理模型,基於同一段提示透過思考token解決問題的關鍵區別。
一邊是Llama 3.3 70B,另一邊是DeepSeek R1。
這段提示詞的大意是要求在遵循傳統、拍照角度和家族爭端等約束條件下,在婚禮宴會上安排賓客入座。
I need to seat 7 people around a table at my wedding reception, but my parents andin-laws should not sit next to each other. Also, my wife insists we look better in pictures when she's on my left, but l need to sit next to my best man. How do l seat us on a roundtable? But then, what happens if we invite our pastor to sit with us?
結果,傳統LLM只需不到500個token就能快速回答,但結果是錯誤的。
而推理模型則需要超過8000個token來推理這個比較簡單的問題。
推理模型需要消耗超過20倍的token量完成問題,計算量也隨之增加了150倍。
而下一代模型,引數可能會達到萬億級別。
解決方案,就是將這些萬億級的引數分佈在多個GPU上,透過管線並行、張量並行和專家並行的組合來解決。
8000多個token,就意味著數萬億位元組的資訊被輸入到GPU中,逐個生成token。
這,就是我們需要NVlink到根本原因——它讓我們能把這些GPU組成一個巨大的GPU,實現規模的終極Scaling。

終極摩爾定律:買越多,賺越多

接下來,黃仁勳釋出了NVIDIA Dynamo,這是一款開源推理軟體,旨在以最低成本和最高效率加速和擴充套件AI工廠中的推理模型。
他將其稱之為「AI工廠的作業系統」。
「正如發電機(Dynamo)推動了工業革命,NVIDIA Dynamo將會革新AI工廠」。
隨著AI推理變得越來越主流,AI模型在每次提示下都會生成成千上萬的token來進行「思考」。
如何在提高推理效能的同時,還能不斷降低推理成本?
這便是NVIDIA Dynamo推出的意義。
NVIDIA Dynamo是NVIDIA Triton Inference Server的下一代產品,它能協調並加速數千個GPU之間的推理通訊,並使用分散式服務把LLM的處理和生成階段分配到不同的GPU上。
這樣每個階段都能根據自己的需求單獨最佳化,確保GPU資源被充分利用。
在同樣的GPU數量下,Dynamo能讓執行Llama模型的AI工廠在Hopper架構上效能和收入雙雙翻倍。
在GB200 NVL72叢集上執行DeepSeek-R1模型時,NVIDIA Dynamo的智慧推理最佳化還能讓每個GPU生成的token數量提升超過30倍!
為了實現這些推理效能的提升,NVIDIA Dynamo能根據請求量和型別的變化,動態新增、移除或重新分配GPU,還能在大型叢集中精準找到特定GPU來減少響應計算和路由查詢。
它還能把推理資料解除安裝到更便宜的記憶體和儲存裝置上,需要時再快速取回,儘量降低推理成本。
老黃在現場宣佈NVIDIA Dynamo完全開源,支援PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM。
下圖中,橫軸代表為使用者每秒處理的token數量,縱軸是工廠每秒處理的token吞吐量。
比如,Hopper平臺用8個GPU連上InfiniBand,可以為每個使用者提供100 token/秒的處理速度。
老黃開始算了起來,「有了這個座標,我們就可以用token/秒和能耗來衡量收益了。」
比如,250萬token/秒按每百萬token 10美元算,就能帶來每秒2500美元的收入;而如果降到10萬token/秒,那也就是250美元。
而一年有3000多萬秒,這直接關係到1兆瓦資料中心的年收入。
所以,目標是找到token處理速度和AI智慧之間的平衡點:速度快能做聰明AI,客戶願意多付錢,但越聰明,批次生產就越難。
相比之下,新的Blackwell架構比Hopper強多了,尤其在能耗固定的情況下,效能提升了25倍,甚至在推理模型上直接比Hopper高40倍。
更厲害的是,Blackwell用MVLink 8技術加速,還引入了4位浮點數最佳化,減少能耗提升效率。
老黃表示,未來資料中心都會受限於電力,收入也跟電力掛鉤,所以能效高的架構最重要。
接下來,Blackwell將擴充套件到MVLink 72,再加上Dynamo軟體,效果將更上一層樓。
老黃表示下圖裡的彩虹線非常驚豔,展示了各種配置下的最佳表現。
從頂部3000批大小到底部的2批大小,配置靈活應變。
這些最佳化讓資料中心能適應不同工作負載,證明了架構的重要性。
說到這,老黃舉了個例子,在推理模型上,Blackwell的效能直接比Hopper高了40倍,真的很了不起!
「一旦Blackwell開始大規模出貨,Hopper可能連送人都沒人要了。」老黃在現場打趣道。
黃仁勳說,銷售團隊聽到他這話估計要急了,擔心影響會Hopper的銷量。
但老黃認為,技術進步太快,工作負載又重,像AI工廠這樣的大型專案,最好投資在最新版本的技術上,比如Blackwell,這樣才能跟上潮流,避免落後。
接著,他拿出一個具體的例子來對比:一個100兆瓦的AI工廠用Hopper技術需要45000個晶片、1400個機架,每秒能產出3億個token。
而同樣的工廠如果用Blackwell,雖然晶片數量減少,但效率更高,整體效能更強。
老黃再次調侃道,銷售團隊可能覺得這是在「少賣貨」,但實際上還是之前那個觀點,「 the more you buy, the more you save」(買得越多,省得越多)。
甚至,現在還要更進一步:「the more you buy, the more you make」(買得越多,賺得越多)。

首個通用機器人模型開源,規模僅2B

正如老黃所言,Physical AI也是今年行業的重點。
他表示,「預計本世紀末,世界勞動力短缺人數將超過5000萬,而通用機器人的時代已經到來」。
具身智慧也遵循著三大Scaling Law。
資料短缺成為Scaling一大難題,英偉達Omniverse和Cosmos能夠同時為具身智慧的訓練,生成大量多樣化、高質量的資料。
然後開發者利用Isaac Lab透過增強資料集後訓練機器人策略,並透過模仿學習讓機器人透過克隆行為來學習新技能,或者透過試錯和強化學習AI反饋進行學習。
這一次,英偉達正式官宣了世界首個開源、完全可定製的通用人形機器人模型——GROOT N1。
這款模型的設計從人類認知過程汲取靈感,採用了「雙系統架構」,分別可以進行快思考和慢思考。
技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/GR00T%20N1%20Whitepaper.pdf
在視覺語言模型驅動下,慢思考系統(System 2)能夠對環境和指令進行推理,然後規劃出正確的行動。
快思考系統(System 1),可以將上述計劃轉化為機器人精確、連續的動作,包括操縱物體、執行多步驟序列的能力。
值得一提的是,System 1是基於人類演示資料和Omniverse生成大量的合成數據進行訓練的。
GROOT N1可以輕鬆在上見任務中進行泛化,或執行需要長上下文和多種通用技能組合的多步驟任務。
比如,抓取、用一隻手臂/兩隻手臂移動物體,以及在兩個手臂之間傳遞物品。
此外,英偉達還與DeepMind、迪士尼研究一起開發下一代開源的Newton物理引擎,能夠讓機器人學習如何更精確處理複雜任務。
隨後,以星球大戰BDX機器人為靈感,裝上Newton引擎的Blue上臺和老黃來了一波有趣的互動。
最後,老黃預言:在未來,機器人領域將成為最大的產業。
毫無疑問,英偉達又一次成為了贏家。
參考資料:
https://nvidianews.nvidia.com/news/nvidia-dynamo-open-source-library-accelerates-and-scales-ai-reasoning-models?linkId=100000349576608

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章