英偉達軟硬體“雙拳出擊”:BlackwellUltra、Rubin晶片炸場,開源Dynamo讓R1token生成暴漲40倍

作者|褚杏娟、冬梅  
北京時間 3 月 19 日凌晨 1:00 大洋彼岸的美國加利福尼亞州聖何塞會議中心燈火通明,人聲鼎沸。全球科技界矚目的年度盛會——英偉達 GTC 2025 大會在這裡盛大開幕。
作為全球人工智慧和計算機圖形學領域的頂級峰會,GTC 大會一直被視為行業風向標,每年都吸引著來自世界各地的科技巨頭、專家學者和開發者齊聚一堂,共同探討 AI 技術的未來發展方向。
活動一開始,英偉達執行長黃仁勳率先出場強調了計算和軟體的重要性表示。老黃表示:世界正在進行一場過渡——計算方式迎來變革、軟體的未來需要資本投資。本次演講,也主要圍繞這兩方面進行。
首先,黃仁勳討論了 AI 如何發展。現在我們處於生成式人工智慧階段,但根據黃仁勳的圖表,我們正走向代理式人工智慧時代,隨後是物理人工智慧。這就是機器人發揮作用的地方。
黃仁勳提到,人工智慧之所以變得更有用,是因為它“更聰明,可以推理”,而且它的使用範圍越來越廣。一方面,我們能夠進行的資料和人工訓練是有限的,另一方面,訓練和推理這些模型所需的計算量也大幅增加。
他表示:“人工智慧的 Scaling Law 更具彈性,事實上是超加速的,”黃仁勳聲稱去年該行業對計算需求的理解存在錯誤。“由於代理 AI 和推理,我們目前所需的計算量是我們認為的 100 倍”。
為此,黃仁勳對資料中心業務相當有信心,“我之前說過,我預計資料中心建設將達到 1 萬億美元。我相當確定我們很快就會達到這個目標。”
黃仁勳還表示,我們也正在從使用主要由人類編寫的軟體轉向由 AI 模型驅動的軟體。“在未來,計算機會為軟體生成程式碼片段……而不是僅僅作為檔案的檢索器。”
為 CUDA 加速
“英偉達是一家軟體公司”的含金量還在上升。這次,黃仁勳在演講前半程將精力放在了軟體上。
“NVIDIA 一直使用通用計算機,以超慢的速度執行軟體為他人設計加速計算機”黃仁勳說道,“直到最近,我們才有針對 CUDA 最佳化的軟體庫。”
CUDA 是 NVIDIA 於 2006 年推出的平行計算核心,為眾多應用提供計算加速能力。NVIDIA 已構建了 900 多個特定領域的 NVIDIA CUDA-X 庫和 AI 模型,現在,CUDA-X 將加速計算帶入了一系列新的工程學科,包括天文學、粒子物理學、量子物理學、汽車、航空航天和半導體設計。
其中,cuDSS 庫用於解決涉及稀疏矩陣的大型工程模擬問題,適用於設計最佳化、電磁模擬工作流程等。cuDSS 使用 Grace GPU 記憶體和高頻寬 NVLink-C2C 互連來分解和解決通常無法放入裝置記憶體的大型矩陣。
使用 Warp(一個基於 Python 的框架,用於加速資料生成和空間計算應用),Autodesk 使用八個 GH200 節點可以進行最多 48 億個單元的模擬,這比使用八個 NVIDIA H100 節點進行的模擬大了超過 5 倍。
此外, CUDA-X 中還有用於 NumPy 的 cuPYNUMERIC、用於決策最佳化的 cuOPT(NVIDIA 將對其進行開源)、用於量子計算研究 cuQuantum,以及用於天氣分析的 Earth-2 和用於醫學成像的 MONAI 等。
黃仁勳表示:“這只是實現加速計算的眾多庫中的一小部分。”所有這些庫都依賴 NVIDIA 的 CUDA 核心來完成工作,“如果沒有 CUDA 以及我們擁有如此龐大的使用基礎,這些庫不會對使用它們的開發人員有任何作用。”
黃仁勳指出,人工智慧始於雲端,因為雲資料中心擁有支援人工智慧的基礎設施。他認為,未來每家公司都會有兩個工廠:一個用於生產產品,另一個用於 AI 數學。
釋出“AI 工廠的作業系統”Dynamo
Dynamo 的釋出,把本場會議再次推向了一個小高潮。
Dynamo 是一款開源推理軟體,用於以最低的成本和最高的效率加速和擴充套件 AI 工廠中的 AI 推理模型。
在大量 GPU 中高效編排和協調 AI 推理請求對於確保 AI 工廠以最低成本執行以最大化 token 收入至關重要。
隨著人工智慧推理成為主流,每個人工智慧模型都會生成數以萬計的 token,用於在每次提示時“思考”。提高推理效能並不斷降低推理成本可加速增長並增加服務提供商的收入機會。
英偉達 Dynamo 是 Triton 推理伺服器的後繼產品,是一款新型 AI 推理服務軟體,旨在為部署推理 AI 模型的 AI 工廠最大限度地創造 token 收入。它協調和加速數千個 GPU 之間的推理通訊,並使用分解服務將大型語言模型的處理和生成階段分離在不同 GPU 上。這允許每個階段根據其特定需求進行獨立最佳化,並確保最大程度地利用 GPU 資源。
黃仁勳表示:“世界各地的行業都在訓練 AI 模型以不同的方式思考和學習,隨著時間的推移,它們會變得更加複雜。為了實現自定義推理 AI 的未來,Dynamo 有助於大規模服務這些模型,從而推動整個 AI 工廠的成本節約和效率提高。”
使用相同數量的 GPU,Dynamo 使在當今 NVIDIA Hopper 平臺上為 Llama 模型提供服務的 AI 工廠的效能和收入翻了一番。在 GB200 NVL72 機架的大型叢集上執行 DeepSeek-R1 模型時,Dynamo 的智慧推理最佳化還將每個 GPU 生成的 token 數量提高了 40 倍以上
為了實現這些推理效能改進,NVIDIA Dynamo 整合了可提高吞吐量和降低成本的功能。它可以根據不斷變化的請求量和型別動態新增、移除和重新分配 GPU,以及在大型叢集中精確定位特定 GPU,以最大限度地減少響應計算和路由查詢。它還可以將推理資料解除安裝到更便宜的記憶體和儲存裝置,並在需要時快速檢索它們,從而最大限度地降低推理成本。
Dynamo 完全開源,支援 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企業、初創公司和研究人員能夠開發和最佳化跨分解推理服務 AI 模型的方法。它將使使用者能夠加速 AI 推理的採用,包括 AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
Dynamo 將推理系統在記憶體中儲存的知識對映到可能數千個 GPU 上的先前請求(稱為 KV 快取)。然後,它將新的推理請求路由到具有最佳知識匹配的 GPU,從而避免昂貴的重新計算並釋放 GPU 來響應新的傳入請求。
推出 Blackwell Ultra 和 Vera Rubin 晶片
去年,Blackwell AI 晶片因複雜設計導致量產延遲,近期才開始大批量出貨。儘管如此,Blackwell 仍被寄予厚望,預計將成為英偉達明年 AI 業務的主要支柱。
黃仁勳表示,現在 Grace Blackwell 解決方案已全面投入生產。
而接下來,萬眾矚目的 Blackwell Ultra 終於登場了。
老黃在演講中提到:“NVIDIA Blackwell Ultra 增強了訓練和測試時間擴充套件推理(在推理過程中應用更多計算以提高準確性的藝術),使世界各地的組織能夠加速 AI 推理、代理 AI 和物理 AI 等應用。”
Blackwell Ultra 以一年前推出的突破性 Blackwell 架構為基礎,包括 NVIDIA GB300 NVL72 機架級解決方案和 NVIDIA HGX B300 NVL16 系統。
據悉,Blackwell Ultra 將推出兩個版本,其中一個配備兩個與 Nvidia Arm CPU 配對的晶片,稱為 GB300;另一個版本僅配備 GPU,稱為 B300。它還將推出帶有八個 GPU 的單個伺服器刀片版本,以及一個包含 72 個 Blackwell 晶片的機架版本。
Blackwell Ultra NVL72 平臺將於 2025 年下半年上市。它的頻寬是原來的兩倍,記憶體速度是原來的 1.5 倍。
黃仁勳表示:“人工智慧已經取得了巨大的飛躍——推理和代理人工智慧需要更高數量的計算效能。我們為這一刻設計了 Blackwell Ultra——它是一個單一的多功能平臺,可以輕鬆高效地進行預訓練、後訓練和推理人工智慧推理。”
黃仁勳表示,“在推理模型中,Blackwell 的效能是 Hopper 的 40 倍”。在展示中,傳統模型的代表是 Meta Llama 3.3,而推理模型是 DeepSeek 的 R1。
與 Hopper 一代相比,NVIDIA HGX B300 NVL16 在大型語言模型上的推理速度提高了 11 倍,計算能力提高了 7 倍,記憶體增加了 4 倍,從而為 AI 推理等最複雜的工作負載提供了突破性的效能。“只有在英偉達,你才會被數學折磨。”黃仁勳調侃道。
“無論如何,買得越多,省得越多。”看得出來,黃仁勳確實很想提高 Blackwell 銷量。
英偉達表示,四大雲計算公司部署的 Blackwell 晶片數量是 Hopper 晶片的三倍。雲提供商可以使用 Blackwell Ultra 為時間敏感型應用程式提供高階 AI 服務,從而使其從新晶片中獲得的收入達到 2023 年推出的 Hopper 一代的 50 倍。
但值得注意的是,老黃在現場並未透露 Blackwell Ultra 比原版 Blackwell 有多好。
但據外媒訊息,在與記者的一次事先簡報會上,英偉達曾透露,單個 Ultra 晶片將提供與 Blackwell 相同的 20 petaflops AI 效能,但現在擁有 288GB 的 HBM3e 記憶體,而不是 192GB。同時,Blackwell Ultra DGX GB300“Superpod”叢集將提供與 Blackwell 版本相同的 288 個 CPU、576 個 GPU 和 11.5 exaflops FP4 計算能力,但擁有 300TB 的記憶體,而不是 240TB。
接著,黃仁勳釋出了下一代 GPU 系列 Vera Rubin——以美國天文學家 Vera Rubin 名字命名。據悉,Vera Rubin 有兩個主要元件:一個稱為 Vera 的 CPU 和一個稱為 Rubin 的新 GPU 設計,具有 NVLink 144。該公司表示,Vera 是 Nvidia 的首款定製 CPU 設計,它基於名為 Olympus 的核心設計。
與 Vera 搭配使用時,Rubin 可以在進行推理時實現每秒 50 千萬億次浮點運算,比 Blackwell 每秒 20 千萬億次浮點運算的速度高出一倍多。Rubin 還可以支援高達 288 GB 的快速記憶體,這是 AI 開發人員關注的核心規格之一。Rubin Ultra 將於 2027 年下半年推出
英偉達還在對其所謂的 GPU 進行調整。英偉達表示,Rubin 實際上是兩個 GPU。
目前市場上的 Blackwell GPU 實際上是兩個獨立的晶片組裝在一起作為一個晶片工作。從 Rubin 開始,當將兩個或多個晶片結合成一個單一晶片時,它會將這些晶片稱為獨立的 GPU。
在 2027 年下半年,英偉達計劃釋出一款名為“Rubin Next”的晶片,將四個晶片結合成一個單一晶片,使 Rubin 的速度翻倍,並將其稱為四個 GPU。
黃仁勳展示了 Vera Rubin NVLink576 的外觀和引數,並宣稱 Rubin 的效能可達 Hopper 的 900 倍,而 Blackwell 是 Hopper 的 68 倍。
黃仁勳說:“在過去的兩到三年裡,人工智慧取得了重大突破和根本性進展,我們稱之為‘agentic AI’,它可以推理如何回答或如何解決問題。”
之後,黃仁勳探討了英偉達進軍乙太網領域的原因:基本上,英偉達能夠製造高效能乙太網解決方案,幫助在超級計算機之間傳輸資料。黃仁勳釋出了 NVIDIA Photonics,這似乎是該公司迄今為止最強大的 Spectrum-X 乙太網產品。
在演示中,黃仁勳似乎被搞得一團糟,網友開玩笑道,“搞亂這些電纜的人很可能會被解僱。”
黃仁勳還表示,英偉達繼 Rubin 之後的下一代晶片將以物理學家 Richard Feynman 的名字命名。
之後,黃仁勳手裡拿著一臺 20 千萬億次浮點計算機——DGX Station 登上演講臺並說道“這是人工智慧時代的計算機。”
開源全球首個人形機器人基礎模型 GROOT N1
2 個小時後,本場釋出會的另一個小高潮,是英偉達宣佈開源全球首個人形機器人基礎模型 GROOT N1。據老黃稱,這是世界上第一個開源的、完全可定製的通用人形推理和技能基礎模型。
老黃宣稱:“機器人的時代已經到來。我們清楚地知道,世界勞動力嚴重短缺——短缺 5000 萬人。” 所以我們對機器人的需求與日俱增。
GR00T N1 現已上市,是英偉達將預訓練併發布給全球機器人開發人員的一系列完全可定製模型中的第一個。
黃仁勳表示:“通用機器人時代已經到來。藉助 NVIDIA Isaac GR00T N1 以及新的資料生成和機器人學習框架,世界各地的機器人開發人員將開拓 AI 時代的下一個前沿。”
Groot N1 是英偉達 Project Groot 的演進版本,該公司在去年的 GTC 大會上推出了該專案。Project Groot 面向工業用例,但 Groot N1 將重點擴大到各種不同外形的人形機器人。
GR00T N1 基礎模型採用雙系統架構,靈感來自人類認知原理。“系統 1”是一種快速思考的行動模型,反映了人類的反應或直覺。“系統 2”是一種慢速思考的模型,用於深思熟慮、有條不紊的決策。
在視覺語言模型的支援下,系統 2 可以推理其環境和收到的指令,從而規劃行動。然後,系統 1 將這些計劃轉化為精確、連續的機器人動作。系統 1 接受人類演示資料和 NVIDIA Omniverse 平臺生成的大量合成數據的訓練。
GR00T N1 可以輕鬆實現常見任務(例如抓取、用一隻或兩隻手臂移動物體以及將物品從一隻手臂轉移到另一隻手臂),或者執行需要長時間上下文和一般技能組合的多步驟任務。這些功能可應用於物料搬運、包裝和檢查等用例。
開發人員和研究人員可以使用真實或合成數據對 GR00T N1 進行後期訓練,以適應特定的人形機器人或任務。
除了該模型,英偉達還發布了用於生成合成訓練資料的模擬框架和藍圖。
此外,老黃還表示,英偉達正與 DeepMind 和 迪士尼研究中心合作開發新平臺 Newton,這是一個開源物理引擎,可讓機器人學習如何更精確地處理複雜任務。
Newton 基於 NVIDIA Warp 框架構建,將針對機器人學習進行最佳化,並與 Google DeepMind 的 MuJoCo 和 NVIDIA Isaac Lab 等模擬框架相容。此外,三家公司還計劃讓 Newton 使用迪士尼的物理引擎。
“AI 將進入每個行業”
如今,AI 進入千行百業早已是事實。但是,當全球範圍內不同行業在平臺、需求以及其他方面存在如此多差異的時候,我們要如何將人工智慧推廣到全球呢?
黃仁勳指出,背景資訊和先驗知識可能是實現下一步突破的關鍵,尤其是在邊緣計算領域。
他轉向自動駕駛汽車(AV)——這通常是人工智慧領域最大的領域之一。他指出,幾乎每家自動駕駛汽車公司都在使用英偉達的技術,從特斯拉到 Waymo,從軟體到硬體,都試圖推動該行業向前發展。
不過今天又有一位新合作伙伴——黃仁勳宣佈英偉達將與通用汽車在 AI 領域展開合作。
黃仁勳宣稱:“自動駕駛汽車的時代已經到來。”
為此,英偉達宣佈推出 NVIDIA Halos,這是一種綜合安全系統,將 NVIDIA 的汽車硬體和軟體安全解決方案系列與其在 AV 安全領域的尖端 AI 研究結合在一起。
Halos 涵蓋晶片、軟體、工具和服務,幫助確保從雲端到汽車的 AV 安全開發,重點是基於 AI 的端到端 AV 堆疊。
Halos 是一個涵蓋三個不同但互補的層面的整體安全系統。
在技術層面,它涵蓋平臺、演算法和生態系統安全。在開發層面,它包括設計時、部署時和驗證時防護措施。在計算層面,它涵蓋從 AI 訓練到部署的整個過程,使用三臺強大的計算機——用於 AI 訓練的 NVIDIA DGX 、在 NVIDIA OVX 上執行的 NVIDIA
Omniverse 和 NVIDIA Cosmos 用於模擬,以及用於部署的 NVIDIA DRIVE AGX。作為 Halos 的入口點,NVIDIA AI 系統檢查實驗室可讓汽車製造商和開發商驗證其產品與英偉達技術的安全整合。
值得注意的是,大會接近結束時,英偉達股價下跌 3%,通用汽車下跌 1.5%。
 會議推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。
今日薦文
英特爾CEO陳立武薪酬曝光,最高可達5億元;裁員10%不發年終獎、HR和員工互毆?抖音回應;哈佛大學等美名校凍結招聘 |AI週報
美國網友都在噴!OpenAI公然要求封殺DeepSeek等中國AI模型,還要合法“吸血”全球版權資料!
剛剛,晶片創投“教父”陳立武正式成為英特爾 CEO:曾任中芯國際董事,華人家庭出身
剛剛,谷歌用更少引數打敗 Qwen 2.5-32B!新模型 Gemma 3 號稱“單 GPU 模型王”,團隊緊急招兵買馬!
你也「在看」嗎?👇

相關文章