構建一個虛擬的“平行宇宙”需要多少算力?英偉達:過去的100倍。
在2025年3月19日的英偉達GTC大會上,CEO黃仁勳再次為全球科技界帶來了一場算力與創新的盛宴。
本次大會的核心亮點是英偉達全新推出的Blackwell Ultra GPU及其衍生的“全家桶”產品,包括專為AI推理設計的伺服器機櫃Blackwell Ultra NVL72,以及面向生成式AI和物理模擬的DGX Super POD超算工廠等。這些產品不僅在硬體效能上實現了巨大飛躍,更在推理速度和資料中心效率上帶來了質的提升。黃仁勳強調,隨著AI技術的飛速發展,算力需求已暴增百倍,而英偉達的使命就是透過不斷的技術創新,滿足這一需求。
除了硬體的升級,英偉達在軟體生態和具身智慧領域也展開了全面佈局。Nvidia Dynamo作為一款專為推理最佳化的開源軟體,能夠顯著提升現有模型的效能,而Llama Nemotron模型則展示了英偉達在高效訓練和推理方面的最新成果。
此外,英偉達還發布了具身智慧基礎模型Cosmos和人形機器人基礎模型Isaac GR00T N1,標誌著其在AI領域的版圖進一步拓展至機器人和智慧體領域。透過這些軟硬體的結合,英偉達不僅鞏固了其在AI算力領域的領先地位,更向構建一個完整的AI生態系統邁出了關鍵一步。以下,Enjoy:
騰訊科技特約作者 蘇揚、郝博陽
編輯 鄭可君
作為AI時代的“賣鏟人”,黃仁勳和他的英偉達,始終堅信算力永不眠。
今天的GTC大會上,黃仁勳拿出了全新的Blackwell Ultra GPU,以及在此基礎上衍生的應用於推理、Agent的伺服器SKU,也包括基於Blackwell架構的RTX全家桶,這一切都與算力有關,但接下來更重要的是,如何將源源不斷算力,合理有效地消耗掉。
在黃仁勳眼裡,通往AGI需要算力,具身智慧機器人需要算力,構建Omniverse與世界模型更需要源源不斷的算力,至於最終人類構建一個虛擬的“平行宇宙”,需要多少算力,英偉達給了一個答案——過去的100倍。
為了支撐自己的觀點,黃仁勳在GTC現場曬了一組資料——2024年美國前四雲廠總計採購130萬顆Hopper架構晶片,到了2025年,這一資料飆升至360萬顆Blackwell GPU。
以下是騰訊科技整理的英偉達GTC 2025大會的一些核心要點:
1
Blackwell全家桶上線
1)年度“核彈”Blackwell Ultra在擠牙膏
英偉達去年GTC釋出Blackwell架構,並推出GB200晶片,今年的正式名稱做了微調,不叫之前傳言的GB300,直接就稱之為Blakwell Ultra。
但從硬體來看,就是在去年基礎上更換了新的HBM記憶體。一句話理解就是,Blackwell Ultra= Blackwell大記憶體版本。
Blackwell Ultra由兩顆臺積電N4P(5nm)工藝,Blackwell 架構晶片+Grace CPU封裝而來,並且搭配了更先進的12層堆疊的HBM3e記憶體,視訊記憶體提升至為288GB,和上一代一樣支援第五代NVLink,可實現1.8TB/s的片間互聯頻寬。

NVLink歷代效能引數
基於儲存的升級,Blackwell GPU的FP4精度算力可以達到15PetaFLOPS,基於Attention Acceleration機制的推理速度,比Hopper架構晶片提升2.5倍。
2)Blackwell Ultra NVL72:AI推理專用機櫃

Blackwell Ultra NVL72官方圖
和GB200 NVL72一樣,英偉達今年也推出了類似的產品Blackwell Ultra NVL72機櫃,一共由18個計算托盤構成,每個計算托盤包含4顆Blackwell Ultra GPU+2顆Grace CPU,總計也就是72顆Blackwell Ultra GPU+36顆Grace CPU,視訊記憶體達到20TB,總頻寬576TB/s,外加9個NVLink交換機托盤(18顆NVLink 交換機晶片),節點間NVLink頻寬130TB/s。
機櫃內建72張CX-8網絡卡,提供14.4TB/s頻寬,Quantum-X800 InfiniBand和Spectrum-X 800G乙太網卡則可以降低延遲和抖動,支援大規模AI叢集。此外,機架還整合了18張用於增強多租戶網路、安全性和資料加速BlueField-3 DPU。
英偉達說這款產品是“為AI推理時代”專門定製,應用場景包括推理型AI、Agent以及物理AI(用於機器人、智駕訓練用的資料模擬合成),相比前一代產品GB200 NVL72的AI效能提升了1.5倍,而相比Hopper架構同定位的DGX機櫃產品,可以為資料中心提供50倍增收的機會。
根據官方提供的資訊,6710億引數DeepSeek-R1的推理,基於H100產品可實現每秒100tokens,而採用Blackwell Ultra NVL72方案,可以達到每秒1000 tokens。
換算成時間,同樣的推理任務,H100需要跑1.5分鐘,而Blackwell Ultra NVL72 15秒即可跑完。

Blackwell Ultra NVL72和GB200 NVL72硬體引數
根據英偉達提供的資訊,Blackwell NVL72相關產品預計在2025年下半年上市,客戶包括伺服器廠商、雲廠、算力租賃服務商幾大類:
-
伺服器廠商 Cisco/Dell/HPE/Lenovo/超微等15家制造商 -
雲廠 AWS/Google Cloud/Azure/Oracle雲等主流平臺 -
算力租賃服務商 CoreWeave/Lambda/Yotta等
3)提前預告真“核彈”GPU Rubin晶片
按照英偉達的路線圖,GTC2025的主場就是Blackwell Ultra。
不過,黃仁勳也借這個場子預告了2026年上市的基於Rubin架構的下一代GPU以及更強的機櫃Vera Rubin NVL144——72顆Vera CPU+144顆 Rubin GPU,採用288GB視訊記憶體的HBM4晶片,視訊記憶體頻寬13TB/s,搭配第六代NVLink和CX9網絡卡。
這個產品有多強呢?FP4精度的推理算力達到了3.6ExaFLOPS,FP8精度的訓練算力也達到了1.2ExaFlOPS,效能是Blackwell Ultra NVL72的3.3倍。
如果你覺得還不夠,沒關係,2027年還有更強的 Rubin Ultra NVL576機櫃,FP4精度的推理和FP8精度的訓練算力分別是15ExaFLOPS和5ExaFLOPS,14倍於Blackwell Ultra NVL72。

英偉達官方提供的Rubin Ultra NVL144和Rubin Ultra NVL576引數
4)Blackwell Ultra版DGX Super POD“超算工廠“
對於那些現階段Blackwell Ultra NVL72都不能滿足需求,又不需要搭建超大規模AI叢集的客戶,英偉達的解決方案是基於Blackwell Ultra、即插即用的DGX Super POD AI超算工廠。
作為一個即插即用的AI超算工廠,DGX Super POD主要面向專為生成式AI、AI Agent和物理模擬等AI場景,覆蓋從預訓練、後訓練到生產環境的全流程算力擴充套件需求,Equinix作為首個服務商,提供液冷/風冷基礎架構支援。

由Blackwell Ultra構建的DGX SuperPod
基於Blackwell Ultra定製的DGX Super POD分兩個版本:
-
內建DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2) 的DGX SuperPOD,總計288顆Grace CPU+576顆 Blackwell Ultra GPU,提供300TB的快速記憶體,FP4精度下算力為11.5ExaFLOPS -
內建DGX B300的DGX SuperPOD,這個版本不含Grace CPU晶片,具備進一步的擴充套件空間,且採用的是風冷系統,主要應用場景為普通的企業級資料中心
5)DGX Spark與DGX Station
今年1月份,英偉達在CES上曬了一款售價3000美元的概念性的AI PC產品——Project DIGITS,現在它有了正式名稱DGX Spark。
產品引數方面,搭載GB10晶片,FP4精度下算力可以達到1PetaFlops,內建128GB LPDDR5X 記憶體,CX-7網絡卡,4TB NVMe儲存,執行基於Linux定製的DGX OS作業系統,支援Pytorch等框架,且預裝了英偉達提供的一些基礎AI軟體開發工具,可以執行2000億引數模型。整機的尺寸和Mac mini的大小接近,兩臺DGX Spark互聯,還可以執行超過4000億引數的模型。
雖然我們說它是AI PC,但本質上仍然屬於超算範疇,所以被放在了DGX產品系列當中,而不是RTX這樣的消費級產品裡面。
不過也有人吐槽這款產品,FP4的宣傳效能可用性低,換算到FP16精度下只能跟RTX 5070,甚至是250美元的Arc B580對標,因此價效比極低。

DGX Spark計算機與DGX Station工作站
除了擁有正式名稱的DGX Spark,英偉達還推出了一款基於Blackwell Ultra的AI工作站,這個工作站內建一顆Grace CPU和一顆Blackwell Ultra GPU,搭配784GB的統一記憶體、CX-8網絡卡,提供20PetaFlops的AI算力(官方未標記,理論上也是FP4精度)。
6)RTX橫掃AI PC,還要擠進資料中心
前面介紹的都是基於Grace CPU和Blackwell Ultra GPU的產品SKU,且都是企業級產品,考慮到很多人對RTX 4090這類產品在AI推理上的妙用,英偉達本次GTC也進一步強化了Blackwell和RTX系列的整合,推出了一大波內建GDDR7記憶體的AI PC相關GPU,覆蓋筆記本、桌面甚至是資料中心等場景。
-
桌面GPU:,包括RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max-Q工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及RTX PRO 4000 Blackwell -
筆記本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell -
資料中心 GPU:NVIDIA RTX PRO 6000 Blackwell伺服器版

英偉達針對企業級計算打造的AI“全家桶”
以上還只是部分基於Blackwell Ultra晶片針對不同場景定製的SKU,小到工作站,大到資料中心叢集,英偉達自己將其稱之為“Blackwell Family”(Blackwell家族),中文翻譯過來“Blackwell全家桶”再合適不過。
2
英偉達Photonics
站在隊友肩膀上的CPO系統
光電共封模組(CPO)的概念,簡單來說就是將交換機晶片和光學模組共同封裝,可實現光訊號轉化為電訊號,充分利用光訊號的傳輸效能。
在此之前,業界就一直在討論英偉達的CPO網路交換機產品,但一直遲遲未上線,黃仁勳在現場也給瞭解釋——由於在資料中心中大量使用光纖連線,光學網路的功耗相當於計算資源的10%,光連線的成本直接影響著計算節點的Scale-Out網路和AI效能密度提升。

今年的GTC英偉達一次性推出了Quantum-X矽光共封晶片、Spectrum-X矽光共封晶片以及衍生出來的三款交換機產品:Quantum 3450-LD、Spectrum SN6810和Spectrum SN6800。
-
Quantum 3450-LD:144個800GB/s埠,背板頻寬115TB/s,液冷 -
Spectrum SN6810:128個800GB/s埠,背板頻寬102.4TB/s,液冷 -
Spectrum SN6800:512個800GB/s埠,背板頻寬409.6TB/s,液冷
上述產品統一歸類到“NVIDIA Photonics”,英偉達說這是一個基於CPO合作伙伴生態共創研發的平臺,例如其搭載的微環調製器(MRM)是基於臺積電的光引擎最佳化而來,支援高功率、高能效雷射調製,並且採用可拆卸光纖聯結器。
比較有意思的是,根據之前業內的資料,臺積電的微環調製器(MRM)是其與博通基於3nm工藝以及CoWoS等先進封裝技術打造而來。
按照英偉達給的資料,整合光模組的Photonics交換機相比傳統交換機,效能提升3.5倍,部署效率也可以提升1.3倍,以及10倍以上的擴充套件彈性。
3
模型效率PK DeepSeek
軟體生態發力AI Agent

因為本次長達2個小時的GTC上,黃仁勳總共只講大概半個小時軟體和具身智慧。因此很多細節都是透過官方文件進行補充的,而非完全來自現場。
1)Nvidia Dynamo,英偉達在推理領域構建的新CUDA
Nvidia Dynamo絕對是本場釋出的軟體王炸。
它是一個專為推理、訓練和跨整個資料中心加速而構建的開源軟體。Dynamo的效能資料相當震撼:在現有Hopper架構上,Dynamo可讓標準Llama模型效能翻倍。而對於DeepSeek等專門的推理模型,NVIDIA Dynamo的智慧推理最佳化還能將每個GPU生成的token數量提升30倍以上。

黃仁勳演示加了Dynamo的Blackwell能超過25倍的Hopper
Dynamo的這些改進主要得益於分佈化。它將LLM的不同計算階段(理解使用者查詢和生成最佳響應)分配到不同GPU,使每個階段都能獨立最佳化,提高吞吐量並加快響應速度。

Dynamo的系統架構
比如在輸入處理階段,也就是預填充階段,Dynamo能夠高效地分配GPU資源來處理使用者輸入。系統會利用多組GPU並行處理使用者查詢,希望GPU處理的更分散、更快。Dynamo用FP4模式呼叫多個GPU同時並行“閱讀”和“理解”使用者的問題,其中一組GPU處理“第二次世界大戰”的背景知識、另一組處理“起因“相關的歷史資料、第三組處理“經過“的時間線和事件,這一階段像是多個研究助理同時查閱大量資料。
而在生成輸出tokens,也就是解碼階段,則需要讓GPU更專注和連貫。比起GPU數量,這個階段更需要更大的頻寬去吸取前一階段的思考資訊,因此也需要更多的快取讀取。Dynamo優化了GPU間通訊和資源分配,確保連貫且高效的響應生成。它一方面充分利用了NVL72架構的高頻寬NVLink通訊能力,最大化令牌生成效率。另一方面透過“Smart Router”將請求定向到已快取相關KV(鍵值)的GPU上,這可以避免重複計算,極大地提高了處理速度。
由於避免了重複計算,一些GPU資源被釋放出來Dynamo可以將這些空閒資源動態分配給新的傳入請求。
這一套架構和Kimi的Mooncake架構非常類似,但在底層infra上英偉達做了更多支援。Mooncake大概可以提升5倍左右,但Dynamo在推理上提升的更明顯。
比如Dynamo的幾項重要創新中,“GPU Planner”能夠根據負載動態調整GPU分配,“低延遲通訊庫”優化了GPU間資料傳輸,而“記憶體管理器”則智慧地將推理資料在不同成本級別的儲存裝置間移動,進一步降低運營成本。而智慧路由器,LLM感知型路由系統,將請求定向到最合適的GPU,減少重複計算。
這一系列能力都使得GPU的負載達到最佳化。
利用這一套軟體推理系統能夠高效擴充套件到大型GPU叢集,最高可以使單個AI查詢無縫擴充套件到多達1000個GPU,以充分利用資料中心資源。
而對於GPU運營商來講,這個改進使得每百萬令牌成本顯著下降,而產能大幅提升。同時單使用者每秒獲得更多token,響應更快,使用者體驗改善。

用Dynamo,讓伺服器達到吞吐量和應答速度間的黃金收益線
與CUDA作為GPU程式設計的底層基礎不同,Dynamo是一個更高層次的系統,專注於大規模推理負載的智慧分配和管理。它負責推理最佳化的分散式排程層,位於應用程式和底層計算基礎設施之間。但就像CUDA十多年前徹底改變了GPU計算格局,Dynamo也可能成功開創推理軟硬體效率的新正規化。
Dynamo完全開源,支援從PyTorch到Tensor RT的所有主流框架。開源了也照樣是護城河。和CUDA一樣,它只對英偉達的GPU有效果,是NVIDIA AI推理軟體堆疊的一部分。
用這個軟體升級,NVIDIA構築了自己反擊Groq等專用推理AISC晶片的城防。必須軟硬搭配,才能主導推理基礎設施。
2)Llama Nemotron新模型秀高效,但還是打不過DeepSeek
雖然在伺服器利用方面,Dynamo 確實相當驚豔,但在訓練模型方面英偉達還和真內行有點差距。
英偉達在這次GTC上用一款新模型Llama Nemotron,主打高效、準確。它是由Llama系列模型衍生而來。經過英偉達特別微調,相較於Llama本體,這款模型經過演算法修剪最佳化,更加輕量級,僅有48B。它還具有了類似o1的推理能力。與Claude 3.7和Grok 3一樣,Llama Nemotron模型內建了推理能力開關,使用者可選擇是否開啟。這個系列分為三檔:入門級的Nano、中端的Super和旗艦Ultra,每一款都針對不同規模的企業需求。

Llama Nemotron的具體資料
說到高效,這一模型的微調資料集完全英偉達自己生成的合成數據組成,總數約60B token。相比DeepSeek V3用130萬H100小時完整訓練,這個僅有DeepSeek V3 1/15引數量的模型只是微調就用了36萬H100小時。訓練效率比DeepSeek差一個等級。
在推理上效率上,Llama Nemotron Super 49B模型確實比上一代模型表現要好得多,其token吞吐量能達到Llama 3 70B 的5倍,在單個數據中心GPU下它可以每秒吞吐3000 token以上。但在DeepSeek 開源日最後一天公佈的資料中,每個H800 節點在預填充期間平均吞吐量約為73.7k tokens/s 輸入(包括快取命中)或在解碼期間約為14.8k tokens/s 輸出。兩者差距還是很明顯的。

從效能上看,49B的Llama Nemotron Super 在各項指標中都超過了70B的經DeepSeek R1蒸餾過的Llama 70B模型。不過考慮到最近Qwen QwQ 32B模型之類的小引數高能模型頻繁釋出,Llama Nemotron Super 估計在這些能和R1本體掰手腕的模型裡難以出彩。
最要命的是,這個模型,等於實錘了DeepSeek也許比英偉達更懂在訓練過程中調教GPU。
3)新模型只是英偉達AI Agent生態的前菜,NVIDA AIQ才是正餐
英偉達為什麼要開發一個推理模型呢?這主要是為了老黃看中的AI下一個爆點——AI Agent做準備。自從OpenAI、Claude等大廠逐步透過DeepReasearch、MCP建立起了Agent的基礎後,英偉達明顯也認為Agent時代到來了。
NVIDA AIQ專案就是英偉達的嘗試。它直接提供了一個以Llama Nemotron推理模型為核心的規劃者的AI Agent現成工作流。這一專案歸屬於英偉達的Blueprint(藍圖)層級,它是指一套預配置的參考工作流、是一個個模版模板,幫助開發者更容易地整合NVIDIA的技術和庫。而AIQ就是英偉達提供的Agent模版。

NVIDA AIQ的架構
和Manus一樣,它整合網路搜尋引擎及其他專業AI代理等外部工具,這讓這個Agent本身可以既能搜尋,又能使用各種工具。透過Llama Nemotron推理模型的規劃,反思和最佳化處理方案,去完成使用者的任務。除此之外,它還支援多Agent的工作流架構搭建。

基於這套模版做的servicenow系統
比Manus更進一步的是,它具有一個複雜的針對企業檔案的RAG系統。這一系統包括提取、嵌入、向量儲存、重排到最終透過LLM處理的一系列步驟,能保證企業資料為Agent所用。
在此之上,英偉達還推出了AI資料平臺,把AI推理模型接到企業資料的系統上,形成一個針對企業資料的DeepReasearch。使得儲存技術的重大演進,使得儲存系統不再僅是資料的倉庫,而是擁有主動推理和分析能力的智慧平臺。

AI Data Platform的構成
另外,AIQ非常強調可觀察性和透明度機制。這對於安全和後續改進來講非常重要。開發團隊能夠即時監控Agent的活動,並基於效能資料持續最佳化系統。
整體來講NVIDA AIQ是個標準的Agent工作流模版,提供了各種Agent能力。算是進化到推理時代的,更傻瓜的Dify類Agent構築軟體。
4
人形機器人基礎模型釋出
英偉達要做具身生態全閉環
1)Cosmos,讓具身智慧理解世界
如果說專注Agent還是投注現在,那英偉達在具身智慧上的佈局完全算得上是整合未來了。
模型、資料、算力這模型三要素英偉達都給安排齊了。
先從模型開始說,本次GTC放出了今年1月公佈的具身智慧基礎模型Cosmos的升級版。
Cosmos是一個能透過現在畫面,去預測未來畫面的模型。它可以從文字/影像輸入資料,生成詳細的影片,並透過將其的當前狀態(影像/影片)與動作(提示/控制訊號)相結合來預測場景的演變。因為這需要對世界的物理因果規律有理解,所以英偉達稱Cosmos是世界基礎模型(WFM)。

Cosmos的基本架構
而對於具身智慧而言,預測機器的行為會給外部世界帶來什麼影響是最核心的能力。只有這樣,模型才能去根據預測規劃行為,所以世界模型就成了具身智慧的基礎模型。有了這個基礎的行為/時間-物理世界改變的世界預測模型,透過具體的如自動駕駛、機器人任務的資料集微調,這個模型就可以滿足各種具有物理形態的具身智慧的實際落地需要了。
整個模型包含三部分能力,第一部分Cosmos Transfer 將結構化的影片文字輸入轉換為可控的真實感影片輸出,憑空用文字產生大規模合成數據。這解決了當前具身智慧最大的瓶頸——資料不足問題。而且這種生成是一種“可控”生成,這意味著使用者可以指定特定引數(如天氣條件、物體屬性等),模型會相應調整生成結果,使資料生成過程更加可控和有針對性。整個流程還可以由Ominiverse和Cosmos結合。

Cosmos建立在Ominiverse上的現實模擬
第二部分Cosmos Predict 能夠從多模態輸入生成虛擬世界狀態,支援多幀生成和動作軌跡預測。這意味著,給定起始和結束狀態,模型可以生成合理的中間過程。這是核心物理世界認知和構建能力。
第三部分是Cosmos Reason,它是個開放且可完全定製的模型,具有時空感知能力,透過思維鏈推理理解影片資料並預測互動結果。這是規劃行為和預測行為結果的提升能力。
有了這三部分能力逐步疊加,Cosmos就可以做到從現實影像token+文字命令提示token輸入到機器動作token輸出的完整行為鏈路。
這一基礎模型應該確實效果不俗。推出僅兩個月,1X、Agility Robotics、Figure AI這三家頭部公司都開始用起來了。大語言模型沒領先,但具身智慧英偉達確實在第一梯隊裡。
2)Isaac GR00T N1,世界第一個人形機器人基礎模型
有了Cosmos,英偉達自然而然用這套框架微調訓練了專用於人型機器人的基礎模型Isaac GR00T N1。

Isaac GR00T N1的雙系統架構
它採用雙系統架構,有快速反應的“系統1“和深度推理的“系統2“。它的全面微調,使得其能處理抓取、移動、雙臂操作等通用任務。而且可以根據具體機器人進行完全定製,機器人開發者可用真實或合成數據進行後訓練。這使得這一模型實際上可以被部署在各種各樣形狀各異的機器人中。
比如說英偉達與Google DeepMind和迪士尼合作開發Newton物理引擎,就用了Isaac GR00T N1作為底座驅動了一個非常不常見的小迪士尼BDX機器人。可見其通用性之強。Newton作為物理引擎非常細膩,因此足夠建立物理獎勵系統,以在虛擬環境中訓練具身智慧。

黃仁勳與BDX機器人臺上“激情”互動
4)資料生成,雙管齊下
英偉達結合NVIDIA Omniverse和上面提到的NVIDIA Cosmos Transfer世界基礎模型,做出了Isaac GR00T Blueprint。它能從少量人類演示中生成大量合成動作資料,用於機器人操作訓練。NVIDIA使用Blueprint的首批元件,在僅11小時內生成了78萬個合成軌跡,相當於6,500小時(約9個月)的人類演示資料。Isaac GR00T N1的相當一部分資料就來自於此,這些資料使得GR00T N1的效能比僅使用真實資料提高了40%。

孿生模擬系統
針對每個模型,靠著Omniverse這套純虛擬系統,以及Cosmos Transfer這套真實世界影像生成系統,英偉達都能提供大量的高質量資料。這模型的第二個方面,英偉達也覆蓋了。
3)三位一體算力體系,打造從訓練到端的機器人計算帝國
從去年開始,老黃就在GTC上強調一個「三臺計算機」的概念:一臺是DGX,就是大型GPU的伺服器,它用來訓練AI,包括具身智慧。另一臺AGX,是NVIDIA為邊緣計算和自主系統設計的嵌入式計算平臺,它用來具體在端側部署AI,比如作為自動駕駛或機器人的核心晶片。第三臺就是資料生成計算機Omniverse+Cosmos。

具身智慧的三大計算體系
這套體系在本次GTC中又被老黃重提,且特別提到靠著這套算力系統,能誕生十億級的機器人。從訓練到部署,算力都用英偉達。這一部分也閉環了。
5
如果單純對比上一代Blackwell晶片,Blackwell Ultra在硬體上確實匹配不上之前的“核彈”、“王炸”這些形容詞,甚至有些擠牙膏的味道。
但如果從路線圖規劃的角度來看,這些又都在黃仁勳的佈局之中,明年、後年的Rubin架構,從晶片工藝,到電晶體,再到機架的整合度,GPU互聯和機櫃互聯等規格都會有大幅度提升,用中國人習慣說的叫“好戲還在後頭”。
對比硬體層面上的畫餅充飢,這兩年英偉達在軟體層面上可以說是狂飆突進。
縱觀英偉達的整個軟體生態,Meno、Nim、Blueprint三個層級的服務把模型最佳化、模型封裝到應用構建的全棧解決方案都包括進去了。雲服務公司的生態位英偉達AI全部重合。加上這次新增的Agent,AI infra這塊餅,英偉達是除了基礎模型這一塊之外,所有部分都要吃進去。
軟體這部分,老黃的胃口,和英偉達的股價一樣大。
而在機器人市場,英偉達的野心更大。模型,資料,算力三要素都抓在手裡。沒趕上基礎語言模型的頭把交椅,基礎具身智慧補齊。影影綽綽,一個具身智慧版的壟斷巨頭已經在地平線上露頭了。
這裡面,每個環節,每個產品都對應著一個潛在的千億級市場。早年孤注一擲的好運賭王黃仁勳,靠著GPU壟斷得來的錢,開始做一場更大的賭局。
如果這場賭局裡,軟體或者機器人市場任意一方面通吃,那英偉達就是AI時代的谷歌,食物鏈上的頂級壟斷者。
不過看看英偉達GPU的利潤率,我們還是期待這樣的未來別來了。
還好,這對於老黃這輩子來講,也是他從沒操盤過的大賭局,勝負難料。