北京時間 3 月 19 日凌晨,NVIDIA GTC 2025 的主會開場演講來了!
在黃仁勳的這場演講前,英偉達股票還是 119.53 美元。刷推的時候又發現,馬斯克的 Grok AI 都在和網友們吐槽英偉達今年開年不濟,相當艱難,需要一場演講拯救股市,振奮投資者。還有些直播,直接開了個股市頁面即時盯著 NVDA 漲漲停停,畫面相當喜感。

兩小時的演講結束後,股價居然還跌了將近 3%……

今年的演講主題是「AI 工廠」。英偉達創始人兼 CEO 黃仁勳身穿標誌性的皮衣,瀟灑上臺。

順帶一提,看外媒的現場返圖,英偉達這次在 GTC 大會會館前擺了個攤賣煎餅,黃仁勳親自上陣邊吃邊賣,裡面穿著圍裙,外邊兒穿著皮衣,真的是堅持皮衣到底。

下面簡單總結演講的內容有哪些(五大亮點),帶大家雲體驗一遍。
文末給大家準備了福利,一定不要錯過!

兩大關鍵詞:「token」「AI 工廠」
“去年全世界都搞錯了 Scaling Law。大家都以為是法則失效了,但其實是因為推理所需的計算量比去年人們認為的要多 100 倍。”“計算領域迎來了拐點,AI 的增長正在加速,到 2028 年,資料中心資本支出預計超過 1 萬億美元。”“何謂 AI 工廠:計算機已經成為了生成 token 的工具,而不是檔案檢索工具。”
首先是今年 GTC 2025 的官方開幕宣傳片:“在 NVIDIA 的世界裡,token 是 AI 計算的基本單位。token 不僅能教會機器人如何移動,還能教會它們如何帶來快樂……”

這個宣傳片想表達的思想其實就是,一個 token 生兩個 token,兩個token 生三個 token,然後三生萬物。“token 連線著所有的點,讓生命觸手可及,帶我們一起邁出下一個偉大的飛躍,前往之前沒有人抵達過的地方。”
短片結束,黃仁勳上臺,感嘆“(2025 是)多麼令人驚歎的一年”。
他想要透過人工智慧的魔法,請大家來到英偉達總部,然後特意強調了一下他這場演講“沒有任何指令碼和提詞器”:

這裡的彩蛋是背景動畫裡有個人形機器人想刷工牌進入英偉達總部。暗示了這場演講最後的爆點。
開講之前,老黃慣例感謝了一波金主們:從醫療保健、交通到零售……幾乎每個行業都有代表。尤其是計算機行業,幾乎每一家 IT 大廠都在贊助商列表中。

緊接著又是一個短片,強調「GTC 起源於 GeForce」,紀念這個最初為了玩遊戲而生的顯示卡系列:

接著短片的內容,黃仁勳回憶了當年 G 系列顯示卡在市場上叱吒風雲的時候,然後雙手各舉一塊 GTX 5090 顯示卡和 GTX 4090 顯示卡:“你會發現它的體積小了百分之三十。”

這裡有句話很精彩:英偉達的 GeForce 系列顯示卡最大的歷史意義是將 CUDA 技術引入世界,然後 CUDA 推動了人工智慧的發展,而如今人工智慧又反過來徹底革新了計算機圖形學,生成式 AI 從根本上改變了計算的方式。
下面這個背景,正是完全基於路徑追蹤的即時渲染畫面:

聊到了 AI,就引入了今天的第一張增長圖。

從 2012 年 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 三位大神開發的 AlexNet 深度學習神經網路,開始一路發展,才有了最初的感知 AI(Perception AI);再就是 ChatGPT 出來之後,大家熟悉的生成式 AI(Generative AI)誕生;近幾年隨著對智慧體(Agent)的想法成熟,還有推理模型的誕生,又出現了自主式 AI(Agentic AI);最後再往上,就是具身智慧和自動駕駛興起後,開始需求使用運動技能理解現實世界並與之進行互動的模型,即物理 AI(Physical AI)。
黃仁勳說,理解物理世界的能力,將使 AI 進入一個新的時代,使機器人成為可能。和此前的每一個階段一樣,都帶來了新的市場機會——然後為 GTC 大會帶來更多合作伙伴。
這裡他將去年的 GTC 2024 大會比喻為“AI 的第一次現場表演”,也就是 AI 的伍德斯托克音樂節(換成中國比喻就是迷笛音樂節),今年這場大會,則被他描述為 AI 的超級碗(換成中國比喻就是春晚)。
所以,是什麼因素讓 AI 的每一個階段得以實現呢?看下面這張圖:

黃仁勳提到了「三大基礎問題」:
-
1. 資料。
人工智慧是一種資料驅動的計算機科學方法,需要資料來學習知識。
-
2. 訓練。
為了訓練 AI,我們的最終目標是“希望沒有人類參與到訓練的迴圈中”,因為人類在迴圈中之所以具有根本性的挑戰性,也就是壽命時間。我們希望人工智慧能夠以超人的速度、超即時的速度和無人能及的規模學習。
-
3. 擴充套件。
這個問題涉及到我們要怎麼找到各種演算法,讓人工智慧隨著資料的增多可以變得越來越聰明,而不是資料用完了就停止。
圖上就展示了三種擴充套件:從感知 AI 到生成式 AI 最重要的就是預訓練擴充套件,比如 GPT-3.5;而透過後訓練擴充套件,我們獲得了更強的生成式 AI,比如 GPT-4;再之後就是測試時訓練擴充套件,正是這一步讓我們有了 OpenAI o1 和 DeepSeek-R1 這樣的長思考模型,讓 AI 學會了推理。
所以,擴充套件法則其實從一條,變為了三條。
黃仁勳接下來這句話很經典:“去年,幾乎全世界都搞錯了擴充套件法則(Scaling Law)。大家都以為是擴充套件法則失效了,但其實是因為自主式 AI 的推理所需的計算量比去年人們認為的要多 100 倍。”

現在我們有了能夠透過思維鏈思考和其他技術逐步推理的 AI,但是生成 token 的基本過程並沒有改變。這種推理需要更多的 token,且為了保持模型的響應性,每秒所需的計算量同樣很高。

所以老黃就給出瞭解法:合成數據。“強化學習是過去幾年的重大突破。給 AI 提供成千上萬種不同的例子,讓 AI 一步步解決問題,並在它做得更好的時候對其進行獎勵(強化)。這意味著要訓練該模型需要萬億甚至更多的 token。換句話說:生成合成資料來訓練 AI。”
為了證明自己的話,老黃也是直接搬出了資料,表示“計算正在面臨巨大的挑戰,而行業正在回應這點”。去年 Hopper 晶片(就是我們常說的 H100 那個系列,DeepSeek 用的是 H800)出貨量位居雲服務提供商之首,屬於是 Hopper 系列的一大高峰。然而,與新系列 Blackwell 第一年的對比,則產生了三倍差距:

要知道 Blackwell 其實才剛剛開始發貨沒多久。
黃仁勳說:“我們早就知道通用計算已經過時了,當然,順其自然吧,我們需要一種新的計算方法,世界正在經歷平臺轉變。”
然後是今晚第一個爆點:“資料中心建設正朝著加速計算(即使用 GPU 和其他加速器而非僅僅 CPU)的方向出現轉折點,計算領域正在出現拐點。到 2028 年,資料中心資本支出預計超過 1 萬億美元。”

最後是這段內容的總結,解釋了到底什麼是 AI 工廠:“計算機已成為生成令牌的工具,而不是檔案檢索工具。從基於檢索的計算轉變為基於生成的計算,從舊的資料中心操作方式轉變為構建這些基礎設施的新方式。我稱它們為 AI 工廠(AI Factory)。”

從 CUDA 到邊緣計算和自動駕駛
“我熱愛我們所做的工作,更熱愛著你們(開發者)用它所開發的一切。”“自動駕駛的時代已經來臨!”
介紹完 AI 工廠的概念後,黃仁勳一轉話鋒:“雖然資料中心中的一切都將加速,但並非都是人工智慧驅動——還需要物理、生物和其他科學領域的框架。”

而這些框架,已經被英偉達作為其 CUDA-X 庫的一部分提供。cuLitho 用於計算光刻,cuPynumeric 用於數值計算,Aerial 用於訊號處理等。這也是英偉達在更大行業中的“護城河”。
這裡黃仁勳還提到,美東時間 20 日(我們的 21 日)將會是英偉達的第一個“量子日”(Quantum Day),其實就是本文前面提到的那個量子計算論壇,黃仁勳會對話許多量子企業的 CEO。
再次進入一段短片:自 CUDA 誕生以來,超過 200 個國家的 600 萬開發者使用它並改變了計算方式……開發者們用 CUDA 加速科學發現、重塑行業、賦予機器視覺、學習和推理的能力,而如今,英偉達 Blackwell 比第一代 Cuda GPU 快了五萬倍。

短片結束,黃仁勳感謝了各位開發者:“我熱愛我們所做的工作,更熱愛著你們用它所開發的一切。”
然後就到了大家最喜歡的 AI 話題。

“眾所周知人工智慧起源於雲端,它之所以起源於雲端是有充分理由的,因為事實證明人工智慧需要基礎設施,所謂的「機器學習」顧名思義,需要一臺機器來進行科學研究。”
“而云資料中心有基礎設施,他們也擁有非凡的計算機科學、非凡的研究、人工智慧在雲端起飛的完美環境以及 NVIDIA 合作伙伴網路雲服務提供商 (CSP),但這並不是人工智慧所侷限的領域。人工智慧將無處不在,我們將以許多不同的方式談論人工智慧。”
“當然,雲服務提供商喜歡我們的領先技術,他們喜歡我們擁有完整的堆疊。但現在他們要把 AI 帶到整個世界,情況就有些變化了。GPU 雲、邊緣計算等,都有各自的要求。”
鋪墊了那麼多,全在講雲,都是為了引出這段:“我們今天宣佈,思科、T-Mobile 和英偉達將會在美國構建完整的無線網路堆疊,目標是人工智慧的邊緣計算。”

但這只是一個行業,人工智慧會賦能千行百業。“還有自動駕駛車輛。當年正是 AlexNet 讓 NVIDIA 全力投入自動駕駛汽車技術。而現在,他們的技術正在全世界範圍內被使用。NVIDIA 為訓練、模擬和自動駕駛汽車本身構建計算機,而今天我們還要隆重宣佈,英偉達將和通用汽車(GM)合作,共同構建其未來的自動駕駛車隊。”

“自動駕駛的時代已經來臨!” 這話不知道老黃以前有沒有講過,可能上一個這麼說的是馬斯克。
大家討論自動駕駛的時候,最關心的還是安全問題,這也是 NVIDIA 今年在汽車領域工作的關鍵。如今 NVIDIA 已由第三方對全部 700 萬行程式碼進行了安全性評估,並宣佈了晶片到部署的自動駕駛安全系統 NVIDIA Halos:

緊接著再次來到短片環節,這次是關於 NVIDIA 用於建立自動駕駛車輛的技術和方法。數字孿生、強化學習、生成多樣化場景等,將全部基於 NVIDIA Cosmos 構建,形成一個訓練迴圈:利用 AI 來創造更多的 AI。


資料中心和下 N 代晶片
“看到這個,你應該倒吸一口涼氣。”“未來當英偉達討論 NVLink 互聯域時,將不再以“GPU 晶片數量”為單位,而是以“GPU 核心裸片(die)數量”為統計標準。”“每個未來的資料中心都將受到功率限制。我們現在是一個功率受限的行業。”
短片結束,就直接轉到了資料中心的話題。
黃仁勳重磅宣佈:Blackwell 系列已全面投入生產。

然後舞臺上就直接亮真傢伙了。老黃首先展示了其合作伙伴提供的各種機架系統。英偉達長期以來一直在研究分散式計算——如何縱向擴充套件和橫向擴充套件。
由於橫向擴充套件很難,因此英偉達首先透過 HGX 和 8 塊 GPU 配置實現了縱向擴充套件。

然後他舉起了 HGX 上的一塊 H 系列晶片,並表示它是過去式了:

未來則是需要構建這樣的一個 NVL8 系統:

為了超越過去的設計,實現人工智慧革命,英偉達必須重新設計 NVLink 系統的工作方式,以進一步擴充套件。這裡老黃很忙,先是展示了 NVLink Switch,展示它應該如何移出機箱,並移到其他機架單元裝置上。這個過程應該叫“解耦 NVLink”(Disaggregated NVLInk):

最終得到的結果是可以在一個機架內,提供一個 ExaFLOP。“這是世界上有史以來最極端的擴充套件。”
總之,這套方法是有極限的。由於 Blackwell GPU 的晶片尺寸已接近光刻工藝的物理極限(reticle limits),英偉達無法再透過單純“做大單個晶片”來提升效能,因此轉向“將整個機架(rack)作為一個巨型計算單元”來擴充套件算力,而不是依賴傳統的單臺伺服器設計。

(這張圖好像 CES 2025 才用過)
這種轉向還有助於提供用於 AI 的計算效能。不僅僅是用於訓練,還包括推理——黃仁勳展示了一個大規模計算的推理效能曲線。簡而言之,這是總吞吐量和響應性之間的平衡。保持系統飽和將最大化 token 的吞吐量,但單個 token生成的時間會很長(如果時間過長,使用者可能會轉向其他地方):

因此,對於使用 NVIDIA 硬體進行推理的 NVIDIA CSP 合作伙伴和其他客戶來說,為了最大化他們的收入,他們需要仔細選擇曲線上的一個點。通常,理想的情況將是向右上方移動——在不顯著犧牲一方的情況下,實現最大的吞吐量和響應性。這一切又離不開浮點運算和記憶體頻寬,因此英偉達建立了硬體來提供這些功能。
下面又是一條短片,這個內容很好玩,展示了推理模型的實用性和計算需求:


這裡的 Case 是讓大模型安排婚禮宴席的座位。
一個傳統文字模型可以安排得很快速高效,但卻是錯誤的。浪費了 439 個 token;推理模型則可以搞定這個問題,但需要超過 8,000 個 token。
所以,使這一切都能高效執行不僅需要大量的硬體,還需要大量的軟體最佳化,甚至需要作業系統來處理像批次處理這樣的基本最佳化。
單個GPU無法同時滿足兩個階段的極端需求——預填充(Pre-fill)需要高算力,解碼(Decode)則需要高頻寬,那就得透過多 GPU 協同最佳化。NVLink 完成連線這一步之後,還需要一個作業系統來進行動態任務分配或後續的最佳化,提供 GPU 的利用率,這就引出了老黃真正的重點——分散式推理服務庫 NVIDIA Dynamo:

“它就是這個 AI 工廠的作業系統。” 黃仁勳說。
Dynamo 的對比物件是 VMWare。VMWare 是基於 CPU 系統構建的,而 Dynamo 是基於 GPU 系統構建的。值得一提的是——Dynamo 還開源。
現在再次回到了硬體和效能的話題上。黃仁勳將 NVL8 Hopper 配置與 Blackwell 進行比較。下面圖表表達的是 H 系列每兆瓦每秒的 token 與每使用者每秒的 token:

由於這裡講解圖表說了很多資料,所以老黃防止觀眾太無聊,還調侃了一句“只有在英偉達,你才會被數學折磨。”
對於服務提供商,長時間內產生大量 token 意味著大量收入,所以之前 DeepSeek 公佈模型成本利潤率 545% 的時候驚呆了不少人。Blackwell 在硬體上有所改進,並支援更低精度的資料格式(FP4),從而在相同能耗下處理更多的資料:

Dynamo 則可以使 Blackwell NVL72 更加快速——而且這是在等功率下,而不是等晶片下,一代就提升了 25 倍。下圖標註了這種情況下曲線的兩處亮點,老黃稱之為“最大 Q 值”(Max Q),是人工智慧最大吞吐量和最高質量之間的平衡:

最後就是這個曲線的帕累托最優邊界(在一個分配系統中,沒有可能透過重新分配使某個個體更好而不使任何其他個體變得更壞的狀態),Blackwell 可以達到 Hooper 的 40 倍(等效功率)效能:

這裡老黃的推銷語是:“你買的(Blackwell)越多,賺的越多。”

順帶一提,此處現場音訊裝置爆音了一下,影響到了黃仁勳,他尷尬地停頓了一秒左右。不得不感嘆,這種頂級科技演講場合也難免出現一些小問題。
下一個短片展示英偉達如何為各種資料中心構建數字孿生,這個過程其實就是所謂“AI 工廠”,使用數字孿生可以提前計劃和優化工廠流程,最終達成一次性構建:

接下來就是下一代晶片架構的釋出,由於文章開頭我們已經寫過引數,此處只寫寫演講中一些細節性的內容。
Blackwell Ultra NVL72 將於今年下半年出貨,如今各行各業正處於必須規劃支出的階段,也就是要給英偉達的硬體、基礎設施和生態系統下多年份的訂單。所以老黃希望可以明確英偉達未來的路線圖,直接一口氣規劃到 2028。
2026 下半年的 Rubin 由 Vera Rubin NVL144 由 Vera Arm CPU + Rubin GPU 組成:

黃仁勳強調,未來當英偉達討論 NVLink 互聯域時,將不再以“GPU 芯片數量”為單位,而是以“GPU 核心裸片(die)數量”為統計標準。
例如,“NVL144”表示該 NVLink 域內包含 144 個 GPU 核心裸片,而非 144 顆獨立 GPU 晶片。

然後是 2027 年下半年的 Rubin Ultra NVL576,“看到這個,你應該倒吸一口涼氣。”

Rubin 將大幅降低人工智慧計算的成本。


進一步擴充套件護城河
這一段開頭,黃仁勳回顧了六年前英偉達以 69 億美元收購 Mellanox 的這件往事,後面這次收購成就了業界第一款專為 AI 打造的乙太網網路平臺 NVIDIA Spectrum-X,其實就是為了六個字:進軍網路市場。
所以老黃也推出了最新的英偉達網絡卡 CX-8 和 CX-9,希望在 Rubin 時代(2026)將 GPU 擴充套件到數十萬甚至更多。

英偉達擴充套件得越來越大,資料中心的規模將達到體育場大小。那樣的話,銅連線不夠用,就需要使用光連線——而光連線可能會非常耗能。因此,英偉達計劃透過共封裝矽光子技術 Photonics,使光網路更加高效。

基於一種稱為微環調製器(MRM)的技術,英偉達正在與晶圓廠合作開發的新 3D 堆疊工藝製造。
這裡老黃直接把一堆線纜帶到了臺上,然後發現解不開:

“我的媽呀。”(原文 Oh mother of god)
解開後露出了欣慰的笑容:

老黃講解了現在光學網路是如何工作的。首先,兩條線每一邊的每個埠都有單獨的傳輸器。這既可靠又有效,但電到光的轉換(再轉換回電)會消耗大量的電力。
並且,“每塊 GPU 都會有 6 個傳輸器”。這將消耗 180 瓦(每個多 30 瓦)並且需要數千美元的傳輸器。所有由收發器消耗的功率都是本可以用於 GPU 的功率。這使得英偉達無法向客戶銷售更多的 GPU。

這場演講肯定不會提出無法解決的問題,所以接下來果不其然又是廣告時間。
一段介紹光學原理的短片之後,矽光子 Quantum-X(InfiniBand)交換機正式亮相,將在 2025 年下半年釋出。2026 年下半年則會發售另一款 Spectrum-X 交換機,它沒有光電收發器,直接光纖輸入,最多可支援 512 埠。

這一通節省下來,資料中心可以增加 10 個 Rubin Ultra 機架。
老黃這裡又展示了另一個路線圖,表示現在英偉達每年會推出一個新平臺,同時公佈了下下一代架構——費曼(Feynman)。

接下來聊聊企業。“人工智慧和機器學習已經重新發明了整個計算堆疊。處理器不同,作業系統也不同,上面的應用程式也不同,你協調的方式也不同,執行它們的方式也不同。讓我給你舉一個例子:未來訪問資料的方式將與過去完全不同。不再是精確地檢索你想要的資料,而是人類產生困惑,提出一個問題,讓 AI 告訴答案。”
“這也是企業未來的運作方式。我們有 AI 智慧體,它們是我們數字勞動力的一部分。世界上有十億知識工作者——未來甚至可能會有 100 億數字工作者與我們並肩工作,最終實現 100% 的軟體工程師。”
“我確信,到今年年底,100% 的英偉達軟體工程師將得到人工智慧的幫助。Agent 將無處不在,企業運營的內容和我們的運營方式將會有根本性的不同。”
“因此,我們需要一條新的計算機生產線。”——說完這句話之後,最最重點的地方斷流了,這下真的出大問題了。
官網也短暫地從直播變成了錄播狀態,我記錄了這個珍貴的一刻(畫面就卡在這個迷你電腦上面了):

恢復到直播後回放發現,中間斷掉的地方也沒補上,直接跳轉到了下一段。
有個梗說得好,果然全世界都是草臺班子!
幸好事後已經知道,其實這裡就是在釋出 DGX Spark。這是英偉達之前 CES 2025 宣佈的 Project DIGITS 迷你電腦的最終名稱。它還會有個加強版,迷你工作站 DGX Station。



GPU 加速儲存。英偉達已與所有主要的儲存供應商合作。
然後是新的合作,戴爾將提供一系列基於 NVIDIA 的系統。

本段最後,再次提到 CES 2025 宣佈過的 NVIDIA Nemo Llame Nemotron 模型——這次是加了個 Reasoning 字尾,代表推理。因為是開源模型,此處圖表同時對標了 Llama 3.3 和 DeepSeek R1 Llama 70B。


通用機器人時代降臨
一個短片開場,萬眾期待的機器人環節終於來了!
上來就講述一個現狀:“世界嚴重缺乏人力工人。”

短片內容大多是英偉達以前具身智慧影片的回顧。比如使用數字孿生建立一個虛擬設施來幫助訓練機器人。(當機器人在虛擬世界中出錯時,不會有任何東西損壞)這些機器人將透過對物理世界的 AI 模擬進行訓練。

一輪鋪墊之後,主角正式登場,英偉達釋出人形機器人通用基礎模型 NVIDIA Isaac GROOT N1:開頭講過,token 可以解釋萬物,這裡就是將感知 token 和文字 token 分別輸入到慢思考(System 2)的視覺語言模型和快思考(System 1)的擴散 Transformer 模型裡,最終輸出行動 token 給機器人,讓它有所反應。


黃仁勳這裡做了個預言:“物理 AI 和機器人學發展得如此之快。請大家關注這個領域。這很有可能成為最大的行業之一。”
呼應開場那張增長圖:

老黃還回顧了 Omniverse + Cosmos 模擬是如何工作的。使用 Cosmos 建立各種環境來幫助訓練,這個過程中類似現在的獎勵模型,需要設定一個可驗證的獎勵。
在機器人學中,可驗證的獎勵其實就是物理。如果機器人以物理上正確的方式行為,那麼這就可以被驗證為準確的。

下一個短片,咱們的主角「牛頓物理引擎」(Newton Physics Engine)正式登場:


而這一次,短片不再是短片。透過 Newton,迪士尼的短片從數字變為了現實,讓機器人 Blue 站到了黃仁勳的跟前。
“讓我們結束這場主會。該吃午飯了。” 也是在這一刻,老黃宣佈 GR00T-N1 開源,引爆現場。

一輪總結之後,最後自然還是用短片收尾。
英偉達的技術從遊戲到計算機視覺、再到 AI、自動駕駛、人形機器人,一座「AI 工廠」平地而起,最終再次呼應了本次演講的開頭,老黃邀請大家進入的那所英偉達總部,變形成了一座飛船,飛向無垠的宇宙。

NVIDIA GTC 2025 以 Blackwell Ultra GPU、光子網路交換機和開源機器人模型 GR00T-N1,重新定義了 AI 算力邊界。從晶片逼近物理極限到機架級“超級 GPU”,從量子計算實驗室到桌面級 AI 超算,黃仁勳的“AI 工廠”正將科幻場景落地。
最後想說,這場技術狂歡的終章,或許正是星辰大海的起點,大家覺得呢。
文末福利
在當今流行的程式語言中,Go 語言獨樹一幟,因為其簡單易學、效能強勁且原生支援併發的特點,深受開發者的青睞。
今天給大家分享一份Go語言三件套,包括Go語言必備書籍+Go語言實戰案例+Go語言面試資料。由於內容過多,在此只以截圖展示部分內容,詳細完整版的文件請見文末。
Go語言必備書籍


內容較多,不再一一展示
如果你現在對 Go語言還不太瞭解或者想更深入學習Go語言,上面這份資料一定要收藏!如果有需要的朋友可以識別下方二維碼,備註"Go語言三件套 "即可免費領取全部PDF!
如何獲取以上資源

▲▲▲