黃仁勳2個半小時演講,英偉達已經進入「AgenticAI」時代


資本看空,只是在讓英偉達股票更「親民」而已。

作者|宛辰 李源 張勇毅


編輯|靖宇

「AI 屆春晚」過去以來一直是 GTC 的外號之一,但在 GTC 2025 的開幕主題演講中,這個梗被英偉達創始人、愛穿皮衣的老黃「偷了」。「我覺得 GTC 已經變成了 AI 界的超級碗」
黃仁勳這樣介紹 GTC 的盛況。「但在這裡,AI 會讓我們每個人都成為贏家」。

在 GTC,沒有輸家好嗎|圖片來源:英偉達

但面對近期股價的數次暴跌,尤其是以 DeepSeek R1 為代表的、對業內「我們真的需要這麼多 GPU 嗎」的質疑,GTC 作為「春晚」,英偉達就必須拿出更多真的能鎮住場子的「硬貨」出來。
雖然不知是否也是受到股價影響,今天老黃的口條,相比以往明顯要「磕巴」了不少,但他在 150 分鐘內,接連給從 AI Agent 到資料中心的 AI 晶片、再到具身智慧的多個行業生態,再次指明瞭未來。
再一次地,英偉達看到了 AI 的未來,現在,他們需要讓全世界一起相信。
01
Agentic 拯救英偉達
「It's all about Tokens」。
不同往屆GTC上來先介紹英偉達的硬通貨,今天的開場,老黃用40分鐘解讀了:Agentic AI時代,英偉達的立身之本——越來越高效地處理tokens(詞元)。單位時間內能處理的tokens百倍萬倍增長,同時單位算力成本和能耗下降。
在他看來,英偉達踩中AI風口的十幾年,AI已經經歷了三代技術正規化的轉移。最早是判別式AI(語音識別、影像識別),接著是生成式AI,然後就是當下我們身處的Agentic AI,未來會是影響物理世界的Physical AI。

黃仁勳秀出了 AI 技術發展的路徑|圖片來源:英偉達

每一代AI技術遷移,計算的方式都會發生改變。
從AlexNet到ChatGPT,是從檢索的計算方式轉變為生成的計算方式。
而當AI從ChatGPT那種靠預測下一個tokens、大機率出現幻覺的生成式AI,邁向Deep Research、Manus這樣的agentic AI應用時,每一層計算都不同,所需要的tokens比想象的多100倍。因為在Agentic AI應用中,上一個token是下一個token生成時輸入的上下文、是感知、規劃、行動的一步步推理。
此刻,Agentic AI就是我們現在所處的時代,AI正在經歷一個新的拐點,它變得越來越智慧、應用越來越廣泛,同時也需要更多的算力來支援它。
老黃用同一段提示詞下,代表兩種技術正規化的開源模型——Llama3.3和Deepseek-R1所消耗的tokens舉例說明,以強化學習為主導的推理類應用,消耗了越來越多的tokens、同時也讓AI應用也變得越來越可靠。
這段提示詞是:「在我的婚宴上,需要7個人圍著一張桌子坐,我的父母和岳父岳母不應該坐在一起。而且,我媳婦堅持說她坐在我左邊照相時會更好看,但同時我需要坐在伴郎旁邊。我們這一輪怎麼坐?如果我們邀請牧師和我們坐在一起呢?」

DeepSeek R1 的 Reasoning 模型給出了近 20 倍於傳統大模型的 Token 量|圖片來源:英偉達

如上圖左邊,Llama3.3作為大語言模型,用不到500個tokens快速回答,但安排的客人座位並不滿足要求。對比之下,右邊的R1作為推理模型,用掉8000多個tokens得出了正確答案。
差別在於,左邊的大語言模型只嘗試了一次,右邊的推理模型嘗試了所有不同的可能性,然後反思、驗證了自己的答案。而且推理模型需要更多的計算,因為模型更復雜。R1的尺寸是6800億個引數,它的下一代版本可能有數萬億個引數。
更進一步,Agentic AI應用是無數次呼叫類似DeepSeek-R1做推理的過程,需要的計算只會更多。這也是為什麼ChatGPT可以免費、Deep Research和Operator這種agent免費不起的原因(當前OpenAI分別以20美元、200美元的價格提供服務)。
用預訓練放緩來審判英偉達還是太早了,因為,Scaling Law(縮放定律)的故事還沒有講完。

長思考的模型對於 Token 的需求有數倍提升|圖片來源:英偉達

老黃表示,除了預訓練和後訓練(微調),測試時的Scaling Law才剛剛開始。(指模型推理階段,動態分配計算資源以提升效能。例如,根據問題複雜度自動延長“思考時間”,或透過多次推理生成多個候選答案並擇優輸出)
在英偉達GTC的一篇官方博文中,Tokens(詞元)被視為AI的語言與貨幣。它是AI在訓練和推理過程中處理的資料單位,用在預測、生成和推理的每一個場景。
在老黃看來,加速AI工作負載的新型資料中心「AI 工廠」,就是要高效地處理這些tokens,將其從AI語言轉換為AI貨幣——即智慧。透過軟硬一體最佳化,以更低的計算成本處理更多tokens。
如此一來,當更復雜、智慧的推理模型,需要更快、更多地吞吐tokens時,如何能夠有一套軟硬兼施的計算系統讓它更加高效,就成為AI應用能不能賺錢的關鍵。
這就是Agentic AI下,新黃氏定律曲線。

在效能、Token 和收入的多維度曲線下,廠商依然有盈利的機會|圖片來源:英偉達

而要想達到「Revenue」那個切面、讓AI應用實現商業化閉環,還得買英偉達,依舊是「買得多省得多」——不,現在是「買得多,賺得多」。
02

「AI工廠」的作業系統——Dynamo

不久前,最瞭解英偉達的「DeepSeek靠軟硬一體最佳化實現了550%的理論利潤率」新聞刷屏。別忘了,瞭解英偉達的,也包括他自己。DeepSeek在Infra上的彈藥,老黃也給你配齊了!
英偉達此次推出了一個新的「AI 工廠」引擎的作業系統,Dynamo。有了它,tokens的吞吐和延遲還能大幅最佳化!

黃仁勳講解 Dynamo 如何實現 pd 分離 | 圖片來源:英偉達

為了讓一個更大的模型,更高效地產出更多 token,本身已經成為了一個工程學問題。如何合理利用流水線並行、張量並行、專家並行、在途批次化、pd 分離、工作負載管理,如何管理 KV cache,各家都拿出了不同的方案。
英偉達此次也推出了自己的方案,Dynamo。黃仁勳把這個推理服務庫比作新時代的 VMware,能夠自動編排如何讓 AI 在推理時代跑的更好——每秒能產生更多 token。
接下來黃仁勳簡直在直接對需要採購英偉達的資料中心喊話了:未來的每一個數據中心都會受到功耗的限制。你的營收也會受到功耗的限制,你能使用的電力就能推算出潛在營收。
採用 Blackwell,你在同樣電力下,能收穫更好的效能;再加上Dynamo,Blackwell 將能進一步最佳化——Hopper 也能最佳化,但是沒那麼多。
按照英偉達的說法,使用 Dynamo 最佳化推理,能讓  Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全開源。

引入 FP4 和 Dynamo 後 Blackwell 與 Hopper 系列晶片效能的對比 |圖片來源:英偉達

黃仁勳直接幫企業算起了賬:在同等功耗下,Blackwell 的效能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的測試裡,Blackwell 的效能大約是 Hopper 的 40 倍。
同樣的 100 兆瓦資料中心,使用 H100 需要 1400 個機架,每秒可以生產 3 億個 token,使用 GB200,只需要 600 個機架,每秒可以產生 120 億個 token。
老黃:你買的越多,省的越多!

100 兆瓦資料中心算賬題|圖片來源:英偉達

03
不只有 Blackwell「超大杯」,還有光晶片落地
在硬體領域,老黃還宣佈了其 Blackwell AI 工廠平臺的下一個演進版本 ———— Blackwell Ultra,旨在進一步提升 AI 推理能力。
與現存的 Blackwell 不同,據老黃介紹,Blackwell Ultra 專為 AI 推理而設計的:在 DeepSeek R1 釋出之後,目前 OpenAI o1 與 Google Gemini 2.0 Flash Thinking 都是已經上市的推理模型產品。
Blackwell Ultra 具體包含 GB300 NVL72 和 HGX B300 NVL16 系統,其 AI 效能比其前代產品高出 1.5 倍。GB300 NVL72 在一個機架規模設計中連線了 72 個 Blackwell Ultra GPU 和 36 個基於 Arm Neoverse 的 NVIDIA Grace CPU。與 Hopper 一代相比,HGX B300 NVL16 在大型語言模型上提供了快 11 倍的推理速度,多 7 倍的計算能力和 4 倍的記憶體。同樣支援一道釋出的 NVIDIA Dynamo 推理框架。

Blackwell Ultra 作為「超大杯」登場 | 圖片來源:英偉達

包括 AWS、谷歌雲和微軟 Azure 在內的主要科技公司和雲服務提供商,將從 2025 年下半年開始提供由 Blackwell Ultra 驅動的例項。
除了 Blackwell Ultra,英偉達還公佈了其 2026 年和 2027 年資料中心路線圖的更新,其中就包括即將推出的下一代 AI 晶片 Rubin(以天文學家 Vera Rubin 命名)與 Rubin Ultra的計劃配置。

下一代 AI 晶片代號為 Rubin | 圖片來源:英偉達

Rubin NVL144 機架,將與現有的 Blackwell NVL72 基礎設施直接相容。而 Rubin Ultra 的整個機架將被新的佈局 NVL576 取代。一個機架最多可容納 576 個 GPU。
除了這些相對枯燥的晶片迭代,英偉達還第一次公開了其光晶片在 AI 計算領域的進展,老黃將其稱之為:
「下一代人工智慧的基礎設施」
矽光晶片具有高運算速度、低功耗、低時延等特點,且不必追求工藝尺寸的極限縮小,在製造工藝上,也不必像電子晶片那樣嚴苛,必須使用極紫外光刻機,也就是因為「晶片戰爭」,被大眾所熟知的 EUV。
目前,英偉達並未直接將光晶片技術使用者 AI 晶片上,而是與臺積電(TSMC)合作,採用臺積電的矽光子平臺Compact Universal Photonic Engine (COUPE),該平臺使用臺積電的SoIC-X封裝技術,同時結合了電子積體電路(EIC)與光子積體電路(PIC)。打造出兩款名為 Spectrum-X和Quantum-X 採用矽光子技術的交換機。
隨著「人工智慧工廠」在世界各地興建,能耗與運營成本,已經成為困擾巨型資料中心繼續拓展的關鍵問題;因此英偉達也在用矽光子技術,來嘗試進一步最佳化現有的巨型資料中心。
這些也正是矽光子技術大顯身手的場景,矽光子晶片有潛力徹底改變資料處理速度,同時加快推動量子計算技術的發展。同時新光子技術還將為資料中心的 GPU 叢集節省數兆瓦的能源。
「人工智慧工廠是一種具有極端規模的新型資料中心,網路基礎設施必須進行改造以跟上步伐。」黃仁勳這樣介紹矽光子晶片在資料中心的應用前景。

Quantum-X InfiniBand 交換機採用特殊的線纜來加速執行 | 圖片來源:英偉達

據英偉達公開的資訊,Spectrum-X 提供100Tb/s 的總頻寬,總吞吐量為 400Tb/s,並且提供每埠最高 1.6Tb/s 的速度 —— 是目前頂級銅纜傳輸最快速度的兩倍),連老黃自己都吐槽「這段介紹裡實在是太多 TB 了」。
Quantum-X 光子 InfiniBand 交換機將於 2025 年晚些時候上市,而 Spectrum-X 光子乙太網交換機計劃於 2026 年釋出。
最後,老黃還宣佈了在 Rubin 之後的下一代 AI 晶片的架構命名 Feynman;這個名稱源自對量子計算領域有著重要貢獻的科學家 Richard Phillips Feynman,他同時也是現代量子計算機概念的奠基人,於 20 世紀 80 年代提出了量子計算機的概念。

直到 2028 年的英偉達 AI 晶片硬體路線圖 | 圖片來源:英偉達

根據老黃公佈的路線圖,Feynman 架構將於 2028 年登場 —— 或許到那個時候,我們真的能看到量子計算技術出現重大突破了。
04

英偉達機器人生態完整成型

去年老黃在 GTC 上,伸出手臂,和一排人形機器人站在一起,已經成為經典一幕,
而今年,模擬資料和機器人,仍然出現在 GTC 的各個角落中。甚至在演講的一開始,老黃的講稿中,直接就把物理 AI 放在了 AI 發展的最高點上。

AI 發展的階段:後三個階段分別為生成式 AI、Agentic AI、物理 AI | 圖片來源:英偉達

不過,在整個 GTC 中,單就時長而言,涉及到物理 AI 的比重,並沒有想象中的高。自動駕駛部分和機器人部分的介紹加在一起,可能不足半個小時。
雖然時長不長,英偉達此次的釋出,卻仍然讓人看到了英偉達的野心。
對於所有 AI 而言,資料、演算法和算力,都是最重要的要素。
我們熟悉的生成式 AI,是在海量的網際網路文字和影片資料中訓練出來的,英偉達的貢獻,更多的在算力方面。
而走到物理 AI,英偉達卻是想在資料、演算法、算力上全方面發力,一個產業地圖已經呼之欲出。
在算力上,英偉達有之前釋出的 Orin 和 Thor 晶片。
在資料上,英偉達也是重要的貢獻者。物理 AI 強調讓 AI 能夠理解物理世界,而世界在過去並沒有像積累文字和影片資料一樣,積累足夠多的 3D 環境資料。要大量產生資料,還得看英偉達推動的模擬資料的進展。
而通過幾屆 GTC 下來,英偉達已經全面補齊了資料的生產流程:
Omniverse 數字孿生環境,相當於一個超強的 3D 編輯器,能夠生成逼真的場景和物品。開發者可以根據不同的領域、機器人型別和任務,整合真實世界的感測器資料或示範資料。
Cosmos 模型訓練平臺,相當於一個專門為汽車和機器人搭建的虛擬世界,利用 Omniverse 訓練 Cosmos,能夠讓 Cosmos 生成無限多樣的虛擬環境,建立既受控、又具備系統性無限擴充套件能力的資料。
兩者結合,就能產出無限多各種各樣環境、光線、佈景的虛擬模擬資料。正如下圖所示,Omniverse 中的機器人呈糖果色,主打與現實呈現數字孿生,而 Cosmos 中的佈景則可以完全變換,生成不同的佈景。

Omniverse 和 Cosmos 的機器人資料效果 | 圖片來源:英偉達

而針對人形機器人,英偉達還特別推出了一系列其他的工具,比如今年主推的藍圖(blueprint)工具中的 Mega,就可以測試大規模的機器人部署的效果。
英偉達希望人形機器人的開發者能夠先採集一部分現實世界的資料,匯入 Omniverse 裡面,然後利用 Cosmos,將這部分現實世界的資料轉換成多樣化的虛擬資料,直接匯入英偉達的 Issac Lab 中進行後期訓練——或者模仿學習複製行為,或者強化學習在試錯中學習新技能。
在落地更快的自動駕駛領域,這種 Ominiverse 和 Cosmos 相互依仗的資料能力已經初見成效。此次的 GTC,英偉達宣佈通用汽車(GM)已選擇與英偉達合作,共同打造未來的自動駕駛車隊。除了對利用模擬環境對工廠和汽車的設計進行改進之外,英偉達還將幫助通用汽車改進智駕體驗。
其中,通用汽車重點看中的,應該就是 Cosmos 的整套端到端的 AI 訓練體系。3D 合成數據生成(3D Synthetic Data Generation)能夠透過 Omniverse,將日誌資料轉化為高精度 4D 駕駛環境,結合地圖和影像生成真實世界的數字孿生,包括畫素級的語義分割。Cosmos 再透過這些資料擴充套件訓練集,生成更多準確且多樣化的駕駛場景,縮小模擬與現實(sim-to-real)的差距。
同時 Cosmos 為模型訓練也做了專門的最佳化,可以進行模型蒸餾和閉環訓練。
而落地更慢的人形機器人領域,在去年到今年的 GTC 之間,我們甚至看到英偉達在演算法上,也在發力。
在去年釋出了 GR00T 模型之後,今年英偉達釋出了 GR00T N1 模型。英偉達宣佈這是全球首個開放的、完全可定製的通用人形機器人推理與技能基礎模型。
Groot N1 基於合成數據生成與模擬學習的技術基礎,採用了「快思考與慢思考」的雙系統架構。其中,「慢思考」系統讓機器人能夠感知環境、理解指令,並規劃正確的行動,而「快思考」系統則將規劃轉換為精準、連續的機器人動作。

Groot N1 架構 | 圖片來源:英偉達

Groot N1 本身並不是一個重大的技術突破——之前 FigureAI的 Helix 等模型,都是採取了類似的雙系統架構。
英偉達很明顯,希望的是透過將一套先進的模型開源,再加上完整的合成數據生成與機器人學習管道,人形機器人開發者可以在全球各個行業的不同環境和任務場景中對 Groot N1 進行後期訓練——正如 DeepSeek 對人工智慧產業的帶動一樣。
英偉達在機器人領域的進展似乎一直沒有停歇,一直在不斷補齊產業鏈上的每一個空缺,速度驚人。似乎要讓機器人開發,變得像目前的 AI 應用開發一樣容易,才能停歇。
專門針對機器人的研發,今年英偉達還與 DeepMind、迪士尼研究院(Disney Research)共同合作,聯合推出了一款新的物理引擎 Newton。

黃仁勳與迪士尼機器人互動 | 圖片來源:英偉達
當前的大多數物理引擎都是針對特定需求設計的,例如大型機械模擬、虛擬世界或電子遊戲等,而機器人需要的,是能夠精確模擬剛體、軟體材料,支援觸覺反饋、時間序列技能學習、執行器控制,基於 GPU 加速,從而在超即時的虛擬世界中,以驚人的速度訓練 AI 模型的物理引擎。
在演講的結束,一款小小的 Blue 機器人登臺亮相了。Blue 機器人內建了兩個英偉達晶片,而它的訓練,則是完全是在英偉達的建設的訓練體系和 Newton 引擎中,透過即時模擬完成的。
英偉達對於機器人的投入看來不會停止,機器人演示不斷出現小故障,搶走老黃的風頭,似乎也將成為接下來幾年英偉達 GTC 經常性的看點了。

演講結束前的經典畫面|圖片來源:光輪智慧創始人&CEO 謝晨

在GTC 主演講結束之前,老黃在影片播放的間隙,擺了一個 Pose。你可以說是隨性,但從某種意義上來看,這個經典畫面——明顯是名畫「創造亞當」的一個映象——可能會在以後 AI 科技的歷史中不斷出現。
*頭圖來源:英偉達
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
直播預告
英偉達 GTC 2025,老黃帶來的新核彈和新佈局會讓英偉達再次穩贏嗎?透過最具洞察力的老黃,又能帶給你哪些 AI 創業的新思考?
3 月 19 日(週三)午間 12:00,極客公園影片號直播間,我們邀請到了 3 位親臨現場的創業者,第一時間為你解讀一切。

更多閱讀


相關文章