900倍效能飆漲!英偉達放出算力猛獸,黃仁勳GTC現場開炮,拿下DeepSeek推理世界紀錄

2小時激情演講!黃仁勳劇透四年晶片路線圖,Blackwell一年大賣超300萬塊。
作者 |  智東西編輯部
剛剛,黃仁勳宣佈推出全新旗艦晶片Blackwell Ultra GPU,並劇透基於下一代Rubin GPU架構的Vera Rubin超級晶片、Vera Rubin NVL144機架和NVL576機架,全場爆發出熱烈的掌聲!
智東西美國聖何塞3月18日現場報道,頂著熱烈的加州陽光,一年一度的“AI春晚”英偉達GTC大會盛大開幕。今日上午,英偉達創始人兼CEO黃仁勳穿著閃亮的皮衣,進行了一場激情澎湃的主題演講,一連亮出四代全新Blackwell Ultra、Rubin、Rubin Ultra、Feynman旗艦晶片,公佈四年三代GPU架構路線圖,還多次提到中國大模型DeepSeek。
英偉達將每年升級全棧AI系統、釋出一條新產品線,2026年、2027年切換到採用Rubin 8S HBM4、Rubin Ultra 16S HBM4e和Vera CPU,2028年推出採用下一代HBM的Feynman(費曼)平臺,NVSwitch、Spectrum、CX網絡卡都將同步迭代,從而為千兆瓦AI工廠鋪平道路。
整場演講資訊量爆棚,覆蓋加速計算、深度推理模型、AI智慧體、物理AI、機器人技術、自動駕駛等在內的AI下一個風口,新發布涉及十大重點:
1、Vera Rubin、Rubin Ultra晶片兩代旗艦晶片HBM記憶體升級,GPU“樂高拼裝術”日臻成熟,提前公佈Vera Rubin NVL144機架、Rubin Ultra NVL576機架效能,最高FP4推理效能達到15EFLOPS,基於Rubin的AI工廠效能達到Hopper的900倍。
2、Blackwell Ultra晶片全球首個288GB HBM3e GPU登場,釋出GB300 NVL72機架、HGX B300 NVL16機架系統方案,一個機架能像單個大型GPU一樣執行。
3、資料中心AI超算推出Blackwell Ultra DGX SuperPOD,採用全新DGX GB300和DGX B300系統,助力企業構建開箱即用的AI超級計算機,釋出AI託管服務NVIDIA Instant AI Factory、AI資料中心運營和編排軟體NVIDIA Mission Control。
4、AI推理、AI智慧體軟體AI推理軟體Dynamo在執行DeepSeek-R1模型時,可將每個GPU生成的token數量提高超過30倍;全新Llama Nemotron推理模型系列中,Super 49B版本吞吐量達到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍;宣佈向全球企業提供構建AI智慧體的核心模組;儲存龍頭們構建企業級AI資料平臺。
5、個人AI超算推出全球最小AI超算DGX Spark、高效能桌面級AI超算DGX Station,方便開發者本地微調或推理深度思考模型。
6、Blackwell進展正在全面生產,銷售量是上一代Hopper的3倍。
7、工作站和伺服器GPU:上新RTX Pro Blackwell資料中心GPU、桌面級GPU、筆記型電腦GPU。
8、光電一體化封裝網路交換機號稱“世界上最先進的網路解決方案”,可將AI工廠擴充套件到數百萬塊GPU。
9、物理AI/機器人開源Isaac GR00T N1人形機器人基礎模型,與迪士尼研究院、谷歌DeepMind將合作開發開源物理引擎Newton。
10、電信AI和自動駕駛與通用汽車一起為工廠和汽車構建GM AI,構建綜合全棧自動駕駛安全系統NVIDIA Halos。
值得一提的是,英偉達宣佈Blackwell GPU創下滿血版DeepSeek-R1推理效能的世界紀錄
單個配備8塊Blackwell GPU的NVIDIA DGX系統,可實現每位使用者每秒超過250個token,或每秒超過30000個token的最大吞吐量。
透過硬體和軟體的結合,英偉達自今年1月以來將DeepSeek-R1 671B模型的吞吐量提高了約36倍,相當於每個token的成本提高了約32倍
今年GTC人氣火爆到史無前例,萬元起步的門票悉數售罄,超過25000名觀眾齊聚現場,幾乎整座聖何塞都染上了“英偉達綠”,從街巷、集市、高樓、餐廳、巴士到三輪車,到處都是醒目的英偉達GTC標識。
還有一個彩蛋,在黃仁勳主題演講開始前,SAP中心大螢幕上播放的5人對話暖場影片中,畫面最右邊的正是前英特爾CEO帕特·基辛格,他的身份已經變成了Gloo董事長。

迪士尼機器人Blue作為黃仁勳主題演講的驚喜嘉賓壓軸出場,搖頭晃腦向黃仁勳撒嬌賣萌,還聽從黃仁勳的指令,乖乖站到了他的旁邊。

此外,本屆GTC大會特設China AI Day – 雲與網際網路線上中文專場,涵蓋大模型、資料科學、搜推廣等領域的前沿進展,演講企業包括字節跳動、火山引擎、阿里雲、百度、螞蟻集團、京東、美團、快手、百川智慧、賴耶科技、Votee AI。
智東西帶你直擊英偉達GTC大會現場,一文看盡英偉達重磅釋出和黃仁勳主題演講乾貨。
4月1-2日,智東西聯合主辦的2025中國生成式AI大會(北京站)將舉行。35+位嘉賓/企業已確認,將圍繞DeepSeek、大模型與推理模型、具身智慧、AI智慧體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名~
01.
下一代Vera Rubin超級晶片明年登場!
三代AI工廠效能暴漲900倍
上午9點59分,黃仁勳閃現聖何塞SAP中心舞臺,朝不同方向的觀眾席連放5個沖天炮,然後慢慢走下舞臺。
在參會觀眾翹首等待11分鐘後,黃仁勳小步慢跑再度登場,笑容滿面地向全場觀眾打招呼,還帶觀眾雲參觀了下英偉達總部。
黃仁勳曬出了密密麻麻的GTC25企業logo,說幾乎每個行業都有代表企業出現在了GTC現場。
至於為什麼要提前展示路線圖?黃仁勳說,構建AI工廠和AI基礎設施需要數年的規劃,不像買筆記型電腦,所以必須提前兩三年制定土地、電力、資本支出的計劃。

他公佈了英偉達繼Hopper、Blackwell之後的下一代GPU架構——Rubin。這一命名來自於發現暗物質的女性科學先驅薇拉·魯賓(Vera Rubin)。

首先展示的是兩個機架級解決方案,Vera Rubin NVL144和Rubin Ultra NVL576。
Vera Rubin由Rubin GPU和Vera CPU組成。Vera CPU擁有88個定製Arm核心、176個執行緒。Rubin由兩塊掩模尺寸的GPU組成,擁有288GB HBM4記憶體,FP4峰值推理能力可達50PFLOPS
Vera Rubin NVL144的FP4推理算力可達到3.6EFLOPS,FP8訓練算力可達到1.2EFLOPS,是今天新發布的GB300 NVL72的3.3倍,將於2026年下半年推出。
Rubin Ultra系統由Rubin Ultra GPU和Vera CPU組成。Rubin Ultra由4塊掩模尺寸的GPU組成,擁有1TB HBM4e記憶體,FP4峰值推理能力可達100PFLOPS

Rubin Ultra NVL576的FP4峰值推理算力高達15EFLOPS,FP8訓練算力達到5EFLOPS,足足是GB300 NVL72的14倍,將於2027年下半年推出。

相較Hopper,基於Blackwell的AI工廠效能提高多達68倍,基於Rubin的AI工廠效能提高多達900倍

02.
新旗艦Blackwell Ultra:全球首個288GB HBM3e GPU,NVL72機架下半年問世
在萬眾期待中,英偉達新一代資料中心旗艦GPU Blackwell Ultra(GB300)正式登場。
Blackwell Ultra為AI推理時代而設計,是全球首個288GB HBM3e GPU,像拼樂高一樣透過先進封裝技術將2塊掩膜尺寸的GPU拼裝在一起,可實現多達1.5倍的FP4推理效能,最高15PFLOPS。
該GPU增強了訓練和測試時推理擴充套件,可輕鬆有效地進行預訓練、後訓練以及深度思考(推理)模型的AI推理,構建於Blackwell架構基礎之上,包括GB300 NVL72機架級解決方案和HGX B300 NVL16系統。

下一代模型可能包含數萬億引數,可以使用張量並行基於工作負載進行任務分配。如取模型切片在多個GPU上執行、將Pipeline放在多個GPU上、將不同專家模型放在不同GPU上,這就是MoE模型。

流水線並行、張量並行、專家並行的結合,可以取決於模型、工作量和環境,然後改變計算機配置的方式,以便獲得最大吞吐量,同時對低延遲、吞吐量進行最佳化。

黃仁勳稱,NVL72的優勢就在於每個GPU都可以完成上述任務,NVLink可將所有GPU變成單個大型GPU。

GB300 NVL72連線了72塊Blackwell Ultra GPU和36塊Grace CPU,採用機架式設計,密集FP4推理算力達到1.1EFLOPS,FP8訓練算力達到0.36EFLOPS,是GB200 NVL72的1.5倍;總計有2倍的注意力指令集、20TB HBM記憶體、40TB快記憶體、14.4TB/s CX8。
升級的GB300 NVL72設計,提高了能效和可服務性,透過降低成本和能耗來推進AI推理民主化,相比Hopper將AI工廠的收入機會提高50倍。
GB300 NVL72預計將在英偉達端到端全託管AI平臺DGX Cloud上提供。
與Hopper相比,HGX B300 NVL16在大語言模型上的推理速度加快至11倍,計算能力增加到7倍,記憶體增至4倍。
Blackwell Ultra系統與Spectrum-X乙太網、Quantum-X800 InfiniBand平臺無縫整合,透過ConnectX-8 SuperNIC,每個GPU有800Gb/s的資料吞吐量,提供了一流的遠端直接記憶體訪問功能,使AI工廠和雲資料中心可在沒有瓶頸的情況下處理AI推理模型。
英偉達合作伙伴預計將從2025年下半年起提供基於Blackwell Ultra的產品。
亞馬遜雲科技、谷歌雲、微軟Azure、甲骨文OCI、CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta、YTL等雲服務提供商將首批提供Blackwell Ultra驅動的例項。
03.
資料中心AI超算:全新DGX SuperPOD,將AI工廠效能提升至70倍
英偉達DGX SuperPODDGX GB300系統採用GB300 NVL72機架設計,提供交鑰匙AI工廠。
英偉達將NVIDIA DGX SuperPOD稱作“全球最先進的企業級AI基礎設施”,旨在為即時推理和訓練提供強大的計算能力。
企業可採用全新DGX GB300和DGX B300系統,整合英偉達網路,獲得開箱即用的DGX SuperPOD AI超級計算機。
DGX SuperPOD提供FP4精度和更快的AI推理速度,可擴充套件到數萬塊Grace Blackwell Ultra超級晶片,預計將在今年晚些時候從合作伙伴處可獲得。
DGX GB300系統採用英偉達Grace Blackwell Ultra超級晶片(包含36塊Grace CPU和72塊Blackwell GPU),以及一個為先進推理模型上的即時智慧體響應而設計的機架級液冷架構。
與採用Hopper系統和38TB快記憶體構建的AI工廠相比,DGX GB300系統可提供70倍的AI效能。
每個DGX GB300系統配備72個ConnectX-8 SuperNIC,加速網路速度高達800Gb/s,是上一代效能的2倍
18個BlueField-3 DPU搭配Quantum-X800 InfiniBand或Spectrum-X乙太網,可加速大規模AI資料中心的效能、能效和安全。
與上一代Hopper相比,DGX B300系統可提供11倍的AI推理效能和4倍的AI訓練加速。
每個系統提供2.3TB HBM3e記憶體,包含由8個英偉達ConnectX-8 SuperNIC和2個BlueField-3 DPU組成的先進網路。
英偉達還推出了一項以DGX SuperPOD為特色的託管服務NVIDIA Instant AI Factory,計劃在今年晚些時候開始上市,併發布適用於Blackwell架構DGX系統的AI資料中心運營和編排軟體NVIDIA Mission Control
Equinix將率先在其位於全球45個市場的預配置液冷或風冷AI-ready資料中心提供新DGX GB300和DGX B300系統。
04.
釋出AI推理軟體、新推理模型,
DeepSeek-R1猛刷存在感
企業正競相建設可擴充套件的AI工廠,以滿足AI推理和推理時擴充套件的處理需求。英偉達推出開源的AI推理軟體NVIDIA Dynamo,其本質上就是AI工廠的作業系統。
Dynamo(發電機)的命名來源是,發電機是開啟上一次工業革命的第一臺工具,Dynamo也是現在一切開始的地方。
NVIDIA Dynamo是一個用於大規模服務推理模型的AI推理軟體,旨在為部署推理模型的AI工廠實現token收入最大化。
它能夠跨數千個GPU編排和加速推理通訊,並使用分割槽分服務來分離不同GPU上大語言模型的處理和生成階段,使每個階段可根據特定需求獨立最佳化,並確保GPU資源的最大利用率。

為了提高推理效能,英偉達採用Blackwell NVL8設計,之後又引入新的精度,用更少的資源量化模型。

未來每個資料中心都會受到電力限制,資料中心的收入與之掛鉤,因此英偉達用NVL72進行擴充套件,打造更節能的資料中心。

在GPU數量相同的情況下,Dynamo可將Hopper平臺上執行Llama模型的AI工廠效能和收益翻倍。在由GB200 NVL72機架組成的大型叢集上執行DeepSeek-R1模型時,Dynamo的智慧推理最佳化也可將每個GPU生成的token數量提高30倍以上。

基於Dynamo,相比Hopper,Blackwell效能提升25倍,可以基於均勻可互換的可程式設計架構。在推理模型中,Blackwell效能是Hopper的40倍

黃仁勳說:“這就是我以前為什麼說,當Blackwell批次發貨時,你不要把Hopper送人。”他調侃自己是“首席收入官”。

“買得越多,省得越多,賺得越多。”黃仁勳的經典帶貨名言又來了,這次他特別強調AI工廠收入的提高,100MW AI工廠會包含45000個GPU Die、1400個機架、每秒生成3億個token。
相比Hopper,Blackwell能實現40倍的效能提升,對應產生40倍的token收入。
為了提升推理效能,NVIDIA Dynamo加入了一些功能,使其能夠提高吞吐量的同時降低成本。
它可以根據不斷變化的請求數量和型別,動態新增、移除、重新分配GPU,並精確定位大型叢集中的特定 GPU,從而更大限度地減少響應計算和路由查詢。
它還可以將推理資料解除安裝到成本更低的視訊記憶體和儲存裝置上,並在需要時快速檢索這些資料,最大程度地降低推理成本。
Dynamo可將推理系統在處理過往請求時於視訊記憶體中儲存的知識(稱為KV快取),對映到潛在的數千個GPU中。然後,它會將新的推理請求路由到與所需資訊匹配度最高的 GPU 上,從而避免昂貴的重新計算,並釋放GPU來響應新的請求。

該軟體完全開源並支援PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業、初創公司和研究人員能夠開發和最佳化在分離推理時部署AI模型的方法。

大模型公司Cohere計劃使用NVIDIA Dynamo為其Command系列模型中的AI智慧體功能提供支援。

英偉達還基於Llama開發了全新Llama Nemotron推理模型系列,提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智慧體任務的準確性兩個維度超過DeepSeek-R1,吞吐量達到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍
這些模型現已開源,企業可以透過NIM下載至本地執行。
英偉達正為全球企業提供構建AI智慧體的核心模組,推動企業級AI技術的普及與創新。英偉達的Llama Nemotron可以在任何地方執行,包括DGX Spark、DGX Station以及OEM製造的伺服器上,甚至可以將其整合到任何AI智慧體框架中。
AT&T正在開發公司專用的的AI智慧體系統。未來,英偉達不僅會僱傭ASIC設計師,還會與Cadence合作,引入數字ASIC設計師來最佳化晶片設計。Cadence正在構建他們的AI智慧體框架,英偉達的模型、NIM和庫已經深度整合到他們的技術中。Capital One、德勤、納斯達克、SAP、ServiceNow、Accenture、Amdocs等企業也將英偉達技術深度融入AI框架中。
黃仁勳還宣佈儲存龍頭們構建企業級AI資料平臺。原本企業的儲存系統是基於召回的,而如今的系統應該基於語義。基於語義的儲存系統時刻在嵌入原始資料,使用者使用資料時只需使用自然語言進行互動,便能找到需要的資料。
05.
全球最小AI超算、桌面AI超算齊發,
把資料中心效能搬到手邊
NVIDIA DGX Spark和DGX Station是英偉達打造的個人AI計算機,讓開發者能在桌面上對大模型進行原型、微調、推理。
全球最小AI超級計算機DGX Spark前身是Project DIGITS,採用GB10 Grace Blackwell超級晶片、128GB統一系統記憶體、ConnectX-7 SmartNIC,AI算力可達1000 AI TOPS。
DGX Spark可以被用來微調或推理最新的AI推理模型,比如英偉達今天新發布的Cosmos推理世界基礎模型和GR00T N1機器人基礎模型。該AI超算的預訂今日起開放。
DGX Station是一款基於Blackwell Ultra的新型高效能桌面級超級計算機,為桌面帶來了資料中心級別的效能,用於AI開發,今年晚些時候可從英偉達製造合作伙伴處獲得。
這是第一個採用英偉達GB300 Grace Blackwell Ultra桌面超級晶片構建的桌上型電腦系統,擁有784GB超大統一系統記憶體,還有支援800Gb/s網路連線的ConnectX-8 SuperNIC,AI效能達到20PFLOPS。
06.
Blackwell賣得超好!DeepSeek-R1
回答質量高,需要更多算力
Blackwell系統構建於英偉達強大的開發工具生態系統、CUDA-X庫、600多萬開發者和4000多個應用的基礎上,可在數千塊GPU上擴充套件效能,非常適合執行新的Llama Nemotron推理模型、AI-Q藍圖、AI企業級軟體平臺。

黃仁勳說CUDA-X是GTC的全部意義所在。他展示了一張自己最喜歡的幻燈片,包含了英偉達構建的關於物理、生物、醫學的AI框架,包括加速計算庫cuPyNumeric、計算光刻庫cuLitho,軟體平臺cuOPT、醫學成像庫Monaiearth-2、加速量子計算的cuQuantum、稀疏直接求解器庫cuDSS、開發者框架WARP等。

“我們已經達到加速計算的臨界點,CUDA讓這一切成為可能。”黃仁勳談道。

據他分享,英偉達正在全面生產Blackwell,有十幾家企業已生產和部署Blackwell系統。

2025年,英偉達已經向美國前四大雲服務提供商售出超過360萬塊Blackwell GPU,相比去年銷售Hopper的數額高出3倍,去年Hopper銷售額為130萬塊。
這些進展得益於英偉達對計算架構的根本性變革。
3年前的英偉達GPU尚未將NVLink獨立出來,導致單一系統體積和重量驚人,這代HGX系統8卡版本重達70磅,黃仁勳稱自己根本不可能將其舉起展示,而機架整體需要搭載4個8卡版本。這極大影響了資料中心的能效和可擴充套件性。
於是,英偉達決定將NVLink與GPU分離,以單獨的NVLink元件實現GPU間的全速通訊。
分離後的系統採用了液冷技術,這意味著系統的體積可以被進一步壓縮,機櫃中能裝下更多的系統。
原本的系統零件約有6萬個,而升級後的系統零件達到了60萬個,相當於20輛汽車的零件數量。這一個機櫃的算力就達到了1EFLOPS,由5000根線纜連線,線纜總長達2英里。
英偉達大費周章將二者分離的原因,是為了實現極致的垂直擴充套件(Scale-Up),也就是擴充套件單一機櫃的算力。在目前的製造工藝限制下,根本不可能造出單體包含130萬億電晶體的系統。
而這一極致的解決方案,最終是為了解決一個終極的計算問題——推理
黃仁勳認為,推理遠沒有想象中的那麼簡單,需要做好成本與效能的完美平衡,這一平衡直接影響了服務質量和盈利能力。
為了闡釋推理中的諸多考量因素,黃仁勳使用了一個座標系。x軸代表每秒生成的token數量,Y軸代表系統的總吞吐量。
推理模型已經證明,生成的token數量越多,模型的表現就越好。
現場,黃仁勳演示了DeepSeek-R1和Llama 3.3 70B的對比。Llama這類非推理類模型雖然token用量更少,但回答質量較低,而耗費20倍token、150倍算力的推理模型,能對複雜問題給出高質量的準確回答。
但如果生成的速度不理想,也會影響使用者使用服務的意願,因此每秒生成的token數量需要儘可能高。資料中心還要儘可能地為更多使用者提供服務,這樣才能最大化收益。
曲線右上方就是理想中的解決方案,能在保證服務質量、服務規模的前提下,最大化收益。
為了實現效益最大化,需要儲備儘可能的多的高速算力和配套系統。
07.
上新資料中心、桌面、筆記型電腦GPU:
RTX Pro Blackwell系列
英偉達今天還發布了RTX Pro Blackwell系列工作站和伺服器GPU,提供加速計算、AI推理、光線追蹤和神經網路渲染技術,使其資料中心GPU從桌面到移動工作站提供動力。
英偉達RTX PRO Blackwell GPU特色包括:提供1.5倍吞吐量和新神經網路著色器的NVIDIA SM、效能翻倍的第四代RT核心、可提供4000 AI TOPS算力的第五代張量核心、更大更快的GDDR7記憶體、第九代NVIDIA NVENC、第六代NVIDIA NVENC、頻寬翻倍的第五代PCIe、DisplayPort 2.1、多例項GPU。
工作站和伺服器GPU記憶體高達96GB,筆記型電腦GPU記憶體達到24GB,使應用程式可更快執行,並使用更大更復雜的資料集。
RTX PRO 6000資料中心和桌面GPU可將單個GPU安全分割槽成最多4個例項,5000系列桌面GPU可將單個GPU安全分割槽成兩個例項。
新品包括:
1、資料中心GPURTX PRO 6000 Blackwell伺服器版,採用被動冷卻熱設計,每臺伺服器最多可配置8塊GPU,可與NVIDIA vGPU軟體結合為虛擬化環境中的AI工作負載提供動力,預計將在今年下半年推出。
2、桌面GPURTX PRO 6000 Blackwell工作站版, RTX PRO 6000 Blackwell Max-Q工作站版, 將於4月起透過分銷合作伙伴提供,5月起由製造商提供;RTX PRO 5000 Blackwell,RTX PRO 4500 Blackwell,RTX PRO 4000 Blackwell,將從夏季透過分銷夥伴提供。
3、筆記型電腦GPURTX PRO 5000 Blackwell,RTX PRO 4000 Blackwell,RTX PRO 3000 Blackwell,RTX PRO 2000 Blackwell,RTX PRO 1000 Blackwell,RTX PRO 500 Blackwell,將從今年晚些時候由戴爾、惠普、聯想、雷蛇開始提供。
新筆記型電腦GPU還支援最新NVIDIA Blackwell Max-Q技術,可智慧且持續地最佳化筆記型電腦效能和能效。
08.
推出光電一體化封裝網路交換機,
將AI工廠擴充套件至數百萬GPU
隨著AI工廠發展到前所未有的規模,AI網路基礎設施也必須升級。英偉達將其光交換機稱作“世界上最先進的網路解決方案”。
英偉達今日釋出全新共封裝(CPO)的NVIDIA Spectrum-X和Quantum-X矽光網路交換機,可將AI工廠擴充套件到數百萬個GPU。
與傳統方法相比,英偉達光交換機集成了光學創新,將雷射器減少至1/4,每埠1.6Tb/s,可提供3.5倍的能效、63倍的訊號完整性、10倍的大規模網路彈性、1.3倍快的部署時間。
黃仁勳談道,英偉達希望將乙太網的水平提升至Infiniband級別,這意味著更極致的擁塞控制、延遲控制。

NVIDIA矽光網路交換機會被用於NVIDIA Spectrum-X Photonics乙太網平臺和Quantum-X Photonics InfiniBand平臺。

相較傳統乙太網,Spectrum-X乙太網網路平臺可為多租戶、超大規模AI工廠提供1.6倍的頻寬密度。
如圖,Spectrum-X光交換機將在2026年推出,有多種配置,包括128個800Gb/s埠或512個200Gb/s埠,總頻寬可達到100Tb/s,以及512個800Gb/s或2048個200Gb/s埠,總吞吐量可達400Tb/s。
Quantum-X光交換機預計將在今年晚些時候上市,提供144個基於200Gb/s SerDes的800Gb/s InfiniBand埠,並採用液冷設計對板載矽光器件進行高效散熱。其AI計算網的速度是上一代產品的2倍,擴充套件性是上一代產品的5倍。
具體來看,Quantum-X光交換機的頻寬達到115.2Tb/s。
搭載交換機管理模組,並使用了液冷技術。
該系統搭載Quantum-X800 ASIC晶片,並配備6個光學子元件和18個矽光晶片引擎。
Quantum-X800 ASIC的總吞吐量達到28.8Tb/s,採用臺積電4nm工藝,擁有1070億個電晶體,網路內自帶3.6 TFLOPS FP8 SHARP算力。
324個光學聯結器串聯起這一系統,總計有36個雷射輸入和288個數據連結,內建光纖管理功能。
其中,光子元件是可拆卸的,每個元件擁有3個矽光晶片引擎,總吞吐量為4.8Tb/s。
每個矽光晶片引擎擁有200GB/s的微光調製器,總吞吐量為1.6Tb/s,實現3.5倍節能。
矽光晶片引擎採用臺積電6nm製程工藝,擁有2.2億個電晶體,1000個整合的光學器件。
這一系統還擁有多平面光學資料聯結器,擁有1152個單模光纖。
外部光源擁有8個整合雷射系統,具備自動溫度檢測和波長、能耗穩定功能。
上述部件的總和,便是下圖這一擁有4460億個電晶體的龐大系統。
臺積電的矽光子解決方案結合了其在先進晶片製造和臺積電SoIC 3D晶片堆疊方面的優勢,幫助英偉達釋放AI國產擴充套件到百萬GPU甚至更多。
黃仁勳做了一個換算,這一系統的應用能在單個數據中心中節省數十個Megawatts的能源,而60Megawatts就相當於10臺Rubin Ultra機架的能耗。
09.
物理AI與機器人:發人形機器人基礎模型,
英偉達迪士尼DeepMind聯手
物理AI正在改變價值50萬億美元的行業,在英偉達三臺計算機上構建數十億個機器人。英偉達將機器人視作下一個數萬億美元產業。
物理AI也有三大Scaling Laws。
黃仁勳宣佈推出開源、預訓練、可定製的Isaac GR00T N1人形機器人基礎模型,旨在加快人形機器人的開發,已提前獲得該模型的公司包括波士頓動力、Agility Robotics、Mentee Robotics、Neura Robotics等。

英偉達與迪士尼研究院、谷歌DeepMind將合作開發開源物理引擎Newton

黃仁勳談道,物理AI和機器人技術發展得很快,但也面臨著和大模型同樣的挑戰,就是如何獲得資料、如何擴充套件讓機器人更聰明。

基於此,英偉達為Omniverse添加了兩項技術。

一是擴充套件AI的生成能力和理解物理世界的生成模型,也就是Cosmos。Cosmos可以生成無限數量的環境資料。

二是,機器人的可驗證回報是物理定律,因此需要設計用於模擬真實世界中的物理現象的物理引擎。這一物理引擎需要被設計用於訓練觸覺反饋、精細運動技能和執行器控制。也就是上面迪士尼機器人Blue已經搭載的物理引擎。

在機器人開發中,英偉達Omniverse可以生成大量不同的合成數據,開發人員根據不同領域聚合現實世界的感測器和演示資料,將原始捕獲的資料乘以大量照片級的多樣化資料,然後使用Isaac Lab增強資料集對機器人策略進行後訓練,讓其透過模型放行為學習新技能。

實地測試中,開發人員使用Omniverse動態模擬真實環境進行測試。現實世界的操作需要多個機器人協同工作,Mega和Omniverse允許開發人員大規模測試。

10.
電信與汽車:為6G開發AI原生無線網路,
釋出全棧自動駕駛安全系統
黃仁勳認為,未來的AI不會限於雲端,而將會無處不在。
要將加速計算帶到真實世界的每一個場景之中,不僅需要晶片和CUDA這樣的庫,還需要為每個場景建立對應的軟體棧——如企業、工廠、機器人、GPU雲等應用場景。
英偉達認為AI將對電信行業產生深遠影響,6G網路進入倒計時,下一個時代將是AI原生無線網路,包括用於無線電訊號處理的AI/ML、神經網路模型。這將釋放頻譜效率的巨大收益。
現場,黃仁勳宣佈英偉達與Cisco、T-Mobile等幾家志同道合的電信龍頭合作,建立由AI驅動的電信系統,為6G開發AI原生無線網路,以NVIDIA AI Aerial平臺為基礎,確保下一代無線網路將是AI原生的。
其目標是研究和開發一個AI原生、高光譜效率、開放和差異化的6G無線平臺,在頻譜效率、電源效率、運營效率、安全性、成本效益、創收機會方面設定新基準,可用於全球部署。
隨後黃仁勳將話題轉向自動駕駛。
他回憶道,當初AlexNet的出現,讓英偉達決定開始研究自動駕駛技術,一轉眼10年已逝,如今英偉達的產品幾乎出現在所有自動駕駛汽車之中。
黃仁勳宣佈,通用汽車將會成為英偉達最新的合作伙伴,在生產、設計、模擬和車機中應用英偉達的AI技術。英偉達和通用汽車將協力為工廠和汽車構建GM AI
自動駕駛的時代已經到來,但安全也是其中重要的一環。
對此,英偉達釋出綜合全棧自動駕駛安全系統NVIDIA Halos。英偉達自動駕駛技術的全棧程式碼將交由第三方進行安全檢驗,確保這些技術能充分反映現實世界的多元性。
英偉達的自動駕駛模型採用蒸餾技術開發、表現較好但速度較慢的模型會逐漸將知識傳遞給表現尚未完善、但速度較快的模型。此外,有大量資料被轉換成了3D場景,可用於虛擬環境中的模擬。
推理模型也被引入了自動駕駛領域。
如今,在英偉達Omniverse和Cosmos中,自動駕駛模型能從變化中學習並自我改進。Cosmos能根據影像建立現實世界的4D模型(包含影像分割),並透過計算機模擬同一場景的不同狀況,比如雨天、雪天、夜晚等等,這將進一步提升自動駕駛模型的能力。
例如,在下方案例中,使用者輸入了一則指令,要求模型生成冬季城市環境中,一輛汽車開啟雨刮器,左轉時的畫面。在經過推理後,模型生成的畫面極為逼真,能作為高質量資料加到自動駕駛模型訓練過程中。
11.
下一波浪潮是物理AI,
資料中心建設支出將達1萬億美元

黃仁勳回顧說,在開始研究GeForce 25年後,GeForce已經在全球範圍內售罄。GeForce將支援AI的CUDA帶向世界,現在AI徹底改變了計算機圖形學。

AI在10年間已經取得了巨大進步。2023年的重大突破是AI智慧體(AI Agents),AI智慧體可以對如何回答或者解決問題進行推理、在任務中進行規劃、理解多模態資訊、從網站中的影片中學習等,然後透過這些學到的學習來執行任務。

下一波浪潮是物理AI,可以理解摩擦、慣性和因果關係,使機器人技術成為可能,開闢出新的市場機會。

關於AI智慧體和物理AI有幾個核心問題:一是如何解決資料問題,AI需要資料驅動,需要資料來學習、獲得知識;二是如何解決訓練問題,AI需要以超人的速度、以人類無法達到的規模進行學習;三是如何擴充套件實現Scaling Law,如何找到一種演算法讓AI更聰明。

這大大加快了目前所需的計算量。背後有兩個原因:

首先從AI可以做什麼開始,AI可以逐步分解問題、以不同方式解決同樣問題、為答案進行一致性檢查等。

當AI基於思維鏈進行一步步推理、進行不同的路徑規劃時,其不是生成一個token或一個單詞,而是生成一個表示推理步驟的單詞序列,因此生成的token數量會更多,甚至增加100倍以上。

三大AI Scaling Laws(預訓練、後訓練、測試時)對計算提出指數級需求。隨著計算成本增加,需要全棧創新來降低成本/tokens。

黃仁勳解釋說,模型更復雜,生成的token多10倍,為了保證模型的響應性和互動性,因此計算速度必須提高10倍。

其次是關於如何教AI。教會AI如何推理的兩個基本問題是資料從哪裡來、如何不受限制學習,答案就是強化學習。

人類歷史上已經明確了二次方程的解法、數獨、勾股定理等諸多知識,基於數百個這樣的案例可以生成數百萬個例子讓AI去解決,然後使用強化學習來獎勵。這個過程中,AI需要處理數百萬個不同問題、進行數百次嘗試,而每一次嘗試都會生成數萬個token,這些都加到一起,就會達到數萬億token。

這兩件事帶來了巨大的計算挑戰。

AI變得更聰明,使得訓練這些模型所需的計算量大幅增長。黃仁勳預計2030年末,資料中心建設支出將達到1萬億美元

這背後的第一個動態變化是,通用計算已經用完,業界需要新的計算方式,世界將經歷手動編碼軟體到機器學習軟體的平臺轉變。

第二個變化是,人們越來越認識到軟體的未來需要大量投資。這是因為計算機已經成為token的生成器,基於生成式的計算構建AI工廠,然後在AI工廠裡生成tokens並重組為音樂、文字、影片、化學品等各種型別的資訊。

目前,拐點正在全球資料中心的建設中發生。

12.
結語:AI行業風向標火爆開場,
黃仁勳或驚喜現身夜市
作為AI行業風向標,英偉達GTC 2025大會將舉辦超過1000場會議、匯聚2000名演講嘉賓和近400家參展商,涵蓋大語言模型、物理AI、雲計算、科學發現、氣候研究、醫療健康、網路安全、人形機器人、自動駕駛等主題,並將舉辦首屆量子日,將彙集全球量子計算界和業內重要人物,與黃仁勳共同探討量子計算的現狀和未來。
現場參會者能體驗各種精心策劃的活動,包括數十場覆蓋各個行業的演示、實戰培訓、自動駕駛汽車展覽和試駕,還有集結20家當地供應商和手藝人制作的小吃和商品的GTC夜市,盲猜一波酷愛逛夜市的黃仁勳會驚喜現身。
智東西/芯東西將持續放送更多GTC 2025現場報道,敬請關注。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。


相關文章