
作者:黃仁勳
來源:天空之城(ID:Web3SkyCity)
您對來到拉斯維加斯感到興奮嗎?您喜歡我的夾克嗎?我想我會選擇和蓋瑞·夏皮羅不同的方向。我畢竟在拉斯維加斯。如果這行不通,如果你們所有人都不贊同……好吧,那就習慣它吧。
我真的覺得你們需要好好消化一下。大概再過一個小時左右,你們就會感覺很好了。歡迎來到英偉達。事實上,您現在身處英偉達的數字孿生體中。我們將帶您前往英偉達。女士們,先生們,歡迎來到英偉達。您現在位於我們的數字孿生體中。這裡的一切都是由人工智慧生成的。

人工智慧的歷程非凡,這一年也非凡。這要追溯到1993年。準備好了嗎?開始!使用NV1,我們希望製造出能夠完成普通計算機無法完成任務的計算機。NV1使得在你的PC中擁有一個遊戲主機成為可能。

我們的程式設計架構被稱為UDA。U-D-A。直到稍後一段時間才加上字母C。但是UDA,統一裝置架構(Unified Device Architecture)。UDA的第一個開發者,以及第一個在UDA上執行的應用程式,是世嘉的《虛擬戰士》。
六年後,我們在1999年發明了可程式設計GPU。它開啟了20多年,20多年來,在這個被稱為GPU的不可思議的處理器上取得了令人難以置信的進步。它使現代計算機圖形成為可能。如今,30年後,世嘉的《虛擬格鬥》完全達到了電影級的畫面。這就是即將推出的全新《虛擬格鬥》專案。我簡直等不及了。簡直令人難以置信。

六年後,也就是1999年之後,我們發明了CUDA,從而能夠向豐富的演算法集合展現GPU的可程式設計性。 最初,CUDA難以解釋,這花費了數年時間,大約六年。

六年後,2012年,Alex Krzyzewski、Ilya Suskevor和Jeff Hinton利用CUDA處理AlexNet,人工智慧發展由此進入新的階段。

從感知型人工智慧(理解影像、文字和聲音)到生成式人工智慧(生成影像、文字和聲音),再到如今能夠感知、推理、規劃和行動的代理型人工智慧,發展速度驚人。 我們今晚將討論其中一部分——物理人工智慧,其發展始於2012年。

2018年,谷歌釋出Transformer模型BERT,人工智慧領域迎來了真正的騰飛。Transformer徹底改變了人工智慧領域,甚至整個計算領域的格局。我們認識到,Transformer驅動的機器學習將從根本上改變計算方式,而非僅僅帶來新的商業機會。
如今,計算的每個層面都發生了革命性的變化,從手工編寫在CPU上執行的指令到建立人類使用的軟體工具,機器學習可以建立和最佳化在GPU上執行的神經網路,從而創造人工智慧。技術棧的每一層都發生了徹底的改變,僅僅12年就發生了不可思議的轉變。
現在,我們可以理解幾乎任何形式的資訊,包括文字、影像、聲音、氨基酸和物理學知識,並進行翻譯和生成。應用幾乎是無限的,其核心都基於三個基本問題:輸入是什麼模態學習的?它翻譯成了什麼形式的資訊?它正在生成什麼形式的資訊?
機器學習改變了每一個應用程式的構建方式、計算方式以及超越這些的可能性。GPU、GeForce以及所有與AI相關的技術,都是AI普及的基礎,而如今,AI正迴歸GeForce。
有很多事情無法在沒有AI的情況下完成,讓我向您展示其中一些。例如,即時計算機圖形學。在過去,沒有任何計算機圖形學研究人員或計算機科學家能夠對每個畫素進行光線追蹤,而光線追蹤是對光的模擬。 畫面中幾何體的數量令人難以置信,沒有人工智慧,這是不可能實現的。
我們做了兩件根本性的事情:使用可程式設計著色和光線追蹤加速生成美麗的畫素;然後讓人工智慧控制畫素生成,大量生成其他畫素。AI能夠在空間上生成其他畫素,因為它知道顏色應該是什麼,它已經在英偉達的超級計算機上進行了訓練,因此在GPU上執行的神經網路可以推斷和預測我們沒有渲染的畫素。 這就是DLSS技術。最新一代的DLSS還能生成超出幀數的畫面,甚至可以預測未來畫面,為每一幀生成三幀額外的畫面。
您看到的畫面,例如四幀畫面,實際上我們只渲染了一幀,其餘三幀由AI生成。以全高畫質或4K顯示四幀畫面,大約有3300萬畫素,而我們只計算了兩百萬畫素。透過計算這兩百萬畫素,並讓AI預測其餘的3100萬畫素,我們實現了極高的渲染效能,這堪稱奇蹟。AI的計算量要少得多,當然,這需要大量的訓練,但一旦訓練完成,生成效率非常高。

這就是人工智慧令人難以置信的能力之一,它正在徹底改變GeForce。今天,我們宣佈推出下一代產品——RTX Blackwell系列。這是我們全新的GeForce RTX 50系列Blackwell架構,這款GPU擁有920億個電晶體,4000個頂點著色器,四千萬億次人工智慧浮點運算(比上一代AIDA高出三倍),以及380萬億次光線追蹤浮點運算,還有125個著色器TFlops,以及效能相同的整數單元,兩個雙著色器(一個用於浮點運算,一個用於整數運算),來自美光的G7記憶體,頻寬達1.8TB/s,是上一代產品的兩倍。

我們現在能夠混合AI工作負載和計算機圖形工作負載。本代產品最令人驚奇之處在於,可程式設計著色器現在也能處理神經網路。著色器能夠承載這些神經網路,從而實現了神經紋理壓縮和神經材質著色,最終獲得令人驚豔的影像效果,這完全得益於AI對紋理和壓縮演算法的學習。這就是全新的RTX Blackwell 5090。

即使是機械設計也令人歎為觀止,它配備了雙風扇,整張顯示卡就是一個巨大的散熱器。電壓調節器設計也達到了目前最先進的水平。工程團隊為此付出了巨大的努力。
RTX 4090售價1599美元,許多人都擁有它,這是非常超值的投資,能夠大幅提升價值10000美元的PC效能。它採用液冷散熱,並配備炫酷的燈光效果。

現在,Blackwell家族的RTX 5070售價僅為549美元,卻擁有4090的效能。這得益於四個頂級的、四個萬億次運算的AI張量核心和G7記憶體。
5090的效能是4090的兩倍。我們從一月份開始大規模生產,併成功地將這些強大的GPU應用於筆記型電腦中。這款1299美元的5070筆記型電腦擁有4090的效能。
我們能夠將Blackwell顯示卡縮小並整合到筆記型電腦中,這主要得益於AI技術。我們利用張量核心生成大部分畫素,僅對需要的畫素進行光線追蹤,並使用人工智慧生成其餘畫素,從而實現了非凡的能量效率。計算機圖形學的未來是神經渲染。
人工智慧與計算機圖形學的融合令人驚歎。
這是一場精彩的主題演講,我們將介紹令人驚歎的全新GPU系列:RTX Blackwell系列。5090甚至可以整合到纖薄的筆記型電腦中,例如厚度僅為14.9毫米的筆記型電腦。此外,還有5080、5070 Ti和5070型號。GeForce將AI帶給大眾,而如今AI正徹底改變著GeForce。

讓我們深入探討人工智慧。行業正競相擴充套件人工智慧的規模,而規模法則是一個強大的模型。大量研究人員和業內人士觀察並證明了這一點:資料越多、模型越大、計算能力越強,模型就越有效。規模定律仍在持續發揮作用。網際網路每年產生的資料量都在翻倍,未來幾年人類產生的資料量將超過自人類誕生以來的總和。這些資料正變得多模態,包括影片、影像和聲音,為AI的基礎知識奠定基礎。

除了原始規模定律,還有兩個規模定律出現:訓練後規模定律和合成資料生成。訓練後規模定律利用強化學習和人工反饋等技術,AI根據人類反饋改進自身技能,類似於人類在學業完成後得到導師反饋並改進的過程。合成數據生成則類似於自我練習,AI透過不斷嘗試解決可驗證的複雜問題來改進自身。這些後訓練技術需要大量計算,但最終能產生令人難以置信的模型。
我們現在有了第三個規模法則,它與測試時縮放有關。測試時縮放是指AI在使用過程中,能夠靈活分配計算資源,不再僅僅改進引數,而是專注於決定使用多少計算資源來生成答案。推理和長期思考是兩種實現方式,AI系統可能將問題分解成多個步驟,產生多個想法並進行評估,最終選擇最佳方案。測試時縮放已被證明極其有效。
從ChatGPT到O1、O3再到Gemini Pro,這一技術序列的令人難以置信的成就,展現了所有這些縮放定律的出現。所有這些系統都經歷了預訓練、後訓練和測試時縮放的過程。這需要大量的計算,我們希望社會能夠擴充套件計算能力,以產生更優越的智慧,解決更多挑戰性問題。
規模定律推動了對英偉達計算,特別是Blackwell晶片的巨大需求。Blackwell目前已全面投產,由約15家計算機制造商提供200多種不同配置的系統,採用液冷、風冷等多種冷卻方式,並支援多種CPU和NVLink配置,以滿足全球資料中心的需求。這些系統目前在約45家工廠生產,反映了人工智慧的普及程度和各行業對人工智慧的轉向。
我們如此努力地推動這項技術,是因為我們需要更多的計算能力。 這就像……珍妮? 我不知道,我很難說……你永遠不想把手伸到黑暗的地方……好吧。等著瞧。等著瞧。我以為我值得。看來,約尼爾認為我不夠格。好吧。這是我的展示。這是一個展示。

這個NVLink系統,GB200,NVLink 72,重達1.5噸,包含60萬個零件,相當於20輛汽車,功率為120千瓦。
它有一個背板,連線所有這些GPU,兩英里長的銅纜,5000根電纜。這種產品正在全球45家工廠生產。我們製造它們,用液體冷卻它們,測試它們,拆卸它們,並將它們以部件的形式運送到資料中心,因為它們重達一噸半。我們在資料中心外部重新組裝並安裝它們。生產規模令人難以置信。
但這一切的目標是,由於規模定律正在推動計算如此之快,以至於Blackwell與我們上一代相比,這種級別的計算使每瓦效能提高了四倍,每美元效能提高了三倍。這意味著在一代人的時間裡,我們將這些模型的訓練成本降低了三倍,或者,如果你想將模型的大小增加三倍,成本大致相同。重要的是,這些是我們在使用ChatGPT或Gemini以及將來使用手機時都會使用的生成token,幾乎所有這些應用程式都將消耗這些AItoken,而這些AItoken是由這些系統生成的。每個資料中心都受到功率的限制,因此,如果Blackwell的每瓦效能是上一代的四倍,那麼資料中心可以產生的收入、可以產生的業務量將增加四倍。所以,這些AI工廠系統如今確實就是工廠。

現在,所有這一切的目標就是為了創造一個巨大的晶片。我們需要的計算量確實非常驚人。這基本上就是一個巨大的晶片。如果我們不得不去製造一個晶片……對不起,各位。你們看到了嗎?太酷了。看看這個,這裡有迪斯科燈。如果我們必須把它做成一個晶片,很顯然,它會有晶圓那麼大,但這還不包括良率的影響,它可能需要三到四倍那麼大。但我們這裡基本上有72個Blackwell GPU或144個晶片。這個晶片的算力是1.4exaflops。世界上最大、最快的超級計算機,直到最近才……整個房間的這臺超級計算機直到最近才達到1艾弗洛普以上。這是1.4exa flops的AI浮點運算效能。
它有14太位元組的記憶體,記憶體頻寬為每秒1.2 PB。這基本上就是現在整個網際網路的流量,全世界的網際網路流量都在這些晶片上處理。我們總共有130萬億個電晶體,2592個CPU核心,以及大量的網路裝置。所以這些……我希望我能做到這一點。我想我做不到。所以這些是Blackwells,這些是我們的ConnectX網路晶片,這些是NVLink,我們試圖掩蓋NVLink主幹的存在,但這不可能。這些都是HBM記憶體,總共14太位元組的HBM記憶體。
這就是我們正在努力實現的目標,一個奇蹟,Blackwell系統的奇蹟。Blackwell晶片是目前世界上最大的單晶片。但這並非奇蹟的全部,它是Grace Blackwell系統。所有這一切的目標,是為了讓我們能夠……
謝謝。謝謝。請問有椅子可以讓我坐一會兒嗎?可以給我一杯米勒醇爽啤酒嗎?我們竟然在米勒醇爽啤酒體育場,真是不可思議!這就像來到英偉達卻沒拿到顯示卡一樣。
我們需要大量的計算能力,因為我們想要訓練越來越大的模型。以往的推理只是一次性的,但未來,人工智慧將能夠進行自我對話,進行思考,進行內部反思和處理。現在,token生成速度為每秒20到30個,與人類閱讀速度相當。但未來,有了GPT-o1、Gemini Pro和O1、O3等新模型,它們能夠進行自我對話和反思,思考問題。因此,token的攝入速度將大幅提高,我們需要大幅提升token生成速率。同時,我們必須大幅降低成本,才能提供卓越的服務質量,保持客戶成本的持續低廉,並確保人工智慧的持續擴充套件。這就是根本目的,也是我們建立NBLink的原因。

在企業領域,自主式人工智慧是最重要的發展之一。自主式人工智慧是測試時擴充套件的完美例子。它是一個模型系統,一部分是理解和與客戶/使用者互動,一部分可能是檢索資訊,像抹布一樣的語義AI系統。它可能訪問網際網路,學習PDF檔案,使用工具、計算器,或使用生成式AI生成圖表等。它會迭代,將問題分解成一步步的步驟,並迭代所有不同的模型。過去,你提出問題,答案就會湧現出來。未來,你提出問題,後臺將有一大堆模型在工作。因此,推理所需的計算量將急劇增加,因為我們追求越來越好的答案。
為了幫助行業構建自主智慧體AI,我們的市場策略並非直接面向企業客戶,而是與IT生態系統中的軟體開發者合作,將我們的技術整合到他們的產品中,從而實現新的功能,就像我們之前與CUDA庫的合作一樣。現在,我們希望將同樣的方法應用於AI庫。
就像過去的計算模型擁有用於計算機圖形學、線性代數或流體力學的API一樣,未來,在CUDA加速庫之上,將會有AI庫。
我們已建立三樣工具來幫助生態系統構建自主智慧體AI:NVIDIA NIMS、NVIDIA NEMO和一系列開源藍圖。
NVIDIA NIMS本質上是一套打包好的AI微服務,包含CUDA DNN、Cutlass、Tensor RTLM或Triton等複雜的CUDA軟體,以及經過打包和最佳化的模型,可部署到任何地方。這些模型涵蓋視覺、語言理解、語音、動畫、數字生物學等領域,並即將推出物理AI模型。由於NVIDIA GPU已廣泛應用於各大雲平臺和原始裝置製造商(OEM),這些AI模型可在任何地方執行,方便使用者整合到自身軟體中,建立可在Cadence、ServiceNow或SAP等平臺上執行的AI代理。

NVIDIA NEMO是一個數字員工入職和培訓評估系統。未來的AI代理將如同數字員工隊伍,與人類員工協同工作。NEMO提供各種庫,幫助AI代理接受針對公司特定語言、業務流程和工作方式的培訓。透過展示工作成果示例、接收反饋和評估,可以對AI代理進行防護,設定其行為規範和資訊訪問許可權。
因此,未來很多公司的IT部門將成為AI代理的HR部門,負責維護、培育、入職和改進大量的數字代理。
此外,我們還提供大量完全開源的藍圖,涵蓋各種不同型別的代理,供生態系統使用和修改。
今天,我們將宣佈一些令人興奮的新功能。

我們釋出了一個基於 NVIDIA LLAMA Nemotron 語言基礎模型的完整模型家族。LLAMA 3.1 現象級成功,Meta 下載次數約 65 萬次,並被衍生出約 6 萬個不同的模型,推動了幾乎所有企業和行業投入 AI 工作。
我們發現 LLAMA 模型可針對企業用途進行更好的微調,因此我們利用自身專業知識和能力對這些模型進行了微調,並將其轉變為 LLAMA Nemotron 開放模型套件。套件中包含一些極其小巧,響應速度極快的模型,我們稱之為超級 LLAMA Nemotron 超級模型,它們是主流模型版本。超大型模型則可作為許多其他模型的教師模型,例如獎勵模型、評估器或裁判,為其他模型提供反饋,並透過多種方式進行蒸餾。這個強大而大型的知識蒸餾模型現已上線。
這些模型在聊天排行榜、指令排行榜和檢索排行榜上均排名第一,涵蓋人工智慧代理所需的各種功能。我們還與生態系統合作伙伴緊密合作,將所有 NVIDIA AI 技術融入 IT 行業。ServiceNow、SAP 和西門子在工業 AI 領域取得了顯著成果,Cadence 和 Synopsys 也表現出色。我們與 Perplexity 的合作也令人自豪,他們徹底改變了搜尋方式。

面向全球軟體工程師的 Codium,將成為下一個大型 AI 應用,軟體編碼將是下一個大型 AI 服務領域。全球有 3000 萬軟體工程師,每個人都將擁有一個編碼助手,否則生產效率和程式碼質量都會顯著下降。
全球有 10 億知識工作者,AI 智慧體很可能成為下一個萬億美元級產業,它將是新的數字勞動力,為我們工作並與我們一起工作。
AI智慧體是一個能夠推理任務、將其分解成子任務,並檢索資料或使用工具來生成高質量響應的模型系統。英偉達的自主式AI構建模組、NIM預訓練模型和NEMO框架使組織能夠建立和管理他們自己的模型,輕鬆開發AI智慧體並在任何地方部署它們。我們將像對待員工一樣,對我們的代理勞動力進行入職培訓和技能培訓。AI代理是特定領域的專家。
以下是一些例子:AI研究助理代理可以幫助數十億的知識工作者和學生處理複雜的文件(如講座、期刊、財務結果),並生成互動式播客以方便學習;Corda透過結合U-net迴歸模型和擴散模型,將全球天氣預報的解析度從25公里降低到2公里;軟體安全AI代理持續掃描軟體中的漏洞,並提醒開發人員採取必要措施;虛擬實驗室AI代理幫助研究人員設計和篩選數十億種化合物,以更快地找到有希望的候選藥物。
基於NVIDIA Metropolis藍圖構建的NVIDIA分析AI代理,包括NVIDIA Cosmos Nematron視覺語言模型、Lama Nematron大型語言模型和NEMO Retriever,分析來自數十億個攝像機每天生成的10萬PB影片資料。它們支援互動式搜尋、摘要和自動化報告,並有助於監控交通流量,標記擁堵或危險情況;在工業設施中,它們監控流程並生成改進建議,並在發生事件時重新分配工人或機器人。
代理式AI的時代已經到來,惠及每個組織。AI是在雲中建立的,也是為雲而建立的,當然,在手機上使用AI也同樣完美。很快,我們將擁有一個持續陪伴您的AI,並且當您使用元眼鏡時,可以指向或觀察某物,並詢問任何您想要的資訊。因此,人工智慧在雲端是完美的,在雲端建立的東西在雲端也執行完美。然而,我們希望能夠將人工智慧帶到任何地方,將其部署到任何雲端,公司內部,甚至個人電腦上。
Windows 95徹底改變了計算機行業,引入了全新的多媒體服務,並永久性地改變了應用程式的開發方式。然而,這種計算模型並非人工智慧的理想環境。
我們希望未來,人工智慧能夠成為使用者的AI助手。這需要超越單純的3D、聲音和影片API,轉向生成式API:用於3D、語言、聲音等等。 這需要一個能夠利用雲計算巨大投資的系統。 開發另一種人工智慧模型的程式設計方式是不現實的。
因此,如果能將Windows PC打造成世界一流的AI PC,將意義非凡。答案是Windows WSL 2。WSL 2在一個系統中執行兩個作業系統,執行流暢,專為開發者設計,並提供對裸機的訪問許可權。它針對雲原生應用程式和CUDA進行了最佳化,能夠完美支援CUDA。
因此,我們展示的所有內容,包括NVIDIA NIMS、NVIDIA NEMO以及將在ai.nvidia.com釋出的藍圖,都可在符合要求的電腦上執行。 我們將提供各種視覺、語言、語音以及數字人物模型等,使用者只需下載即可執行。
我們的重點是將Windows WSL 2和Windows PC打造成為一流的目標平臺,並提供長期支援和維護。這對全球工程師和開發者來說都將是一件意義重大的事情。
以下是一個例子:生成式AI可以根據簡單的文字提示合成影像。但僅靠文字控制影像構成可能存在挑戰。使用NVIDIA NIM微服務,創作者可以使用簡單的3D物件指導AI影像生成。概念藝術家可以使用3D資產(手工建立或AI生成)來指導影像生成NIM(例如Flux),從而建立與3D場景相符的視覺效果。
新增或移動物件以細化構圖,更改攝像機角度以拍攝完美的鏡頭,或使用新的提示重新構想整個場景。藉助生成式AI和NVIDIA NIM,藝術家可以快速實現他們的創意。用於您PC的NVIDIA AI,已準備好應用於全球數億臺安裝了Windows的PC。我們合作的所有PC原始裝置製造商(OEM),也就是全球所有領先的PC原始裝置製造商,都將為這個堆疊做好他們PC的準備。因此,AI PC即將來到您家附近。

Linux很好。讓我們談談物理AI。想象一下,您的大型語言模型:將上下文和提示放在左邊,它一次生成一個詞元來產生輸出。這基本上就是它的工作原理。中間的這個模型相當龐大,擁有數十億個引數,上下文長度非常長,因為您可能決定載入一個PDF檔案,甚至多個PDF檔案後再提出問題。這些PDF檔案被轉換成詞元。注意力機制,也就是Transformer的基本注意力特性,讓每一個詞元都找到它與其他每個詞元之間的關係和關聯。因此,您可能擁有數十萬個詞元,計算負載呈二次方增長。它會處理所有引數、所有輸入序列,將其透過Transformer的每一層,併產生一個詞元。這就是我們需要Blackwell的原因。然後,當前令牌處理完成後就會生成下一個令牌。它將當前令牌放入輸入序列中,然後利用整個序列生成下一個令牌。它一次只處理一個令牌。這就是Transformer模型,也是它如此高效,同時又如此耗費計算資源的原因。
如果不是PDF,而是您的周圍環境呢?如果不是提示或問題,而是一個請求呢?例如,“去那邊拿起那個盒子,然後把它拿回來”。而且,它生成的不是文字令牌,而是動作令牌。我剛才描述的,正是機器人未來發展的一個非常合理的場景。這項技術即將到來。但我們需要做的,是建立一個有效的、世界模型,與GPT這種語言模型相對。這個世界模型必須理解世界的語言,理解物理動力學(比如重力、摩擦力和慣性),理解幾何和空間關係,理解因果關係(如果你扔下什麼東西,它就會落到地上;如果你戳它一下,它就會倒),以及客體永久性(如果你把一個球滾過廚房的櫃檯,當它滾到另一邊時,球並沒有進入另一個仍然存在的量子宇宙)。
所有型別的直覺理解,都是當前大多數模型難以實現的。因此,我們需要一個世界基礎模型。
今天,我們宣佈推出NVIDIA Cosmos,一個旨在理解物理世界的世界基礎模型。其效果,唯有親眼目睹才能真正理解。
NVIDIA Cosmos是一個世界基礎模型開發平臺,旨在推動物理AI發展。它包含自迴歸世界基礎模型、基於擴散的世界基礎模型、高階分詞器以及NVIDIA CUDA資料管道。該模型能夠攝取文字、影像或影片提示,並生成虛擬世界狀態影片。
Cosmos優先考慮AV和機器人用例的獨特需求,例如真實世界環境、照明和物體永續性。開發者使用NVIDIA Omniverse構建基於物理的、地理空間精確的場景,然後將Omniverse渲染輸出到Cosmos,後者生成逼真的、基於物理的合成數據,涵蓋不同的物體、環境以及天氣、時間或極端情況等條件。
開發者可以使用Cosmos為強化學習AI反饋生成世界,用於改進策略模型,或測試和驗證模型效能,甚至跨多感測器檢視進行測試。Cosmos可以即時生成令牌,為AI模型帶來預見性和多宇宙模擬能力,生成所有可能的未來以幫助模型選擇正確的路徑。
NVIDIA與全球開發者生態系統合作,推動下一波物理AI發展。NVIDIA Cosmos,全球首個世界基礎模型,利用2000萬小時的影片進行訓練。這些影片重點關注物理動態事物,例如動態自然主題、人類行走、手部移動、操作物體以及快速攝像機運動場景。

其核心在於教AI理解世界,而非生成創意內容,目標是讓AI理解物理世界。透過物理AI,我們可以生成合成資料來訓練模型,對其進行蒸餾,將其轉化為機器人模型的種子,並生成多個基於物理、物理上合理的未來場景,模擬“奇異博士”的場景。因為這個模型理解物理世界。
它可以進行字幕製作,拍攝影片並製作高質量字幕,這些字幕和影片可用於訓練大型語言模型,特別是多模態大型語言模型。 利用這項技術和基礎模型,可以訓練機器人和大型語言模型。這就是英偉達宇宙(NVIDIA Cosmos)。
該平臺包含一個用於即時應用的自迴歸模型、一個用於生成超高質量影像的擴散模型、一個學習了現實世界詞彙的強大標記器,以及一個端到端CUDA加速和AI加速的資料處理管道,用於處理大規模資料並進行模型訓練。這是世界上第一個此類資料處理管道,所有這些都是Cosmos平臺的一部分。

今天,我們宣佈Cosmos採用開放許可,並在GitHub上開放。我們希望這個包含小型、中型和大型模型(快速模型、主流模型和教師模型,即知識遷移模型)的平臺,能像LLAMA3改變企業AI一樣,改變機器人和工業AI領域。

將Cosmos連線到Omniverse後,其魔法便顯現。Omniverse是一個基於演算法物理學、遵循物理原理的模擬系統,即模擬器。它為Cosmos提供真實依據,使Cosmos生成的輸出更可靠,這與將大型語言模型連線到檢索增強生成系統(RAG)的理念相同,都是為了使AI生成內容建立在真實依據之上。兩者結合,形成一個物理模擬的、基於物理的多元宇宙生成器,其應用前景非常廣闊,尤其在機器人技術和工業應用領域。

Cosmos加上Omniverse,再加上Cosmos本身,構成了構建機器人系統所需的第三臺計算機。每個機器人公司最終都需要三臺計算機:一臺用於訓練AI的DGX計算機;一臺用於部署AI的AGX計算機,部署在汽車、機器人、自動移動機器人(AMR)等各種邊緣裝置中,實現自主執行。
連線兩者需要一個數字孿生,它正是所有模擬的基礎。數字孿生是訓練好的AI進行實踐、改進、合成數據生成、強化學習和AI反饋等操作的場所,因此它是AI的數字孿生。這三臺計算機將互動式工作,這套三機系統正是英偉達針對工業世界的戰略,我們已討論多時。與其說是“三體問題”,不如說是“三體計算機解決方案”,它是機器人領域的英偉達。

讓我舉例說明。首先,我們如何將這些應用於工業數字化?數百萬家工廠和數十萬個倉庫構成了50萬億美元製造業的支柱,所有這些都必須實現軟體定義和自動化,並融入機器人技術。我們正與全球領先的倉庫自動化解決方案提供商KION以及全球最大的專業服務提供商埃森哲合作,他們高度關注數字製造,我們正共同努力創造一些特別的東西。我將立即演示。我們的市場策略與其他所有軟體和技術平臺相同,都是透過開發者和生態系統合作伙伴實現的,而與Omniverse連線的生態系統合作伙伴數量持續增長。原因很簡單:每個人都想將產業的未來數字化,在全球GDP的50萬億美元中,存在大量浪費和自動化機會。
讓我們看看與凱傲集團(KION)和埃森哲的合作案例。凱傲集團(一家供應鏈解決方案公司)、埃森哲(一家全球領先的專業服務公司)以及英偉達,正將物理人工智慧引入價值一萬億美元的倉庫和配送中心市場。管理高效能倉庫物流需要應對複雜的決策網路,這些決策受每日和季節性需求變化、空間限制、勞動力可用性和各種機器人及自動化系統整合的影響。而預測物理倉庫的運營KPI在今天幾乎是不可能的。
為了應對這些挑戰,KION正在採用MEGA,這是一個NVIDIA Omniverse藍圖,用於構建工業數字孿生體以測試和最佳化機器人車隊。KION的倉庫管理解決方案將任務分配給數字孿生體中的工業AI大腦,例如將貨物從緩衝區位置移動到穿梭式儲存解決方案。機器人的大腦位於物理倉庫的模擬環境中,使用OpenUSD聯結器將其數字化到Omniverse中,以將CAD、影片和影像聚合到3D、雷射雷達到點雲以及AI生成的資料。機器人車隊透過感知和推理其Omniverse數字孿生環境來執行任務,規劃其下一個動作並採取行動。
機器人的大腦透過感測器模擬結果狀態,並據此決定下一步動作。MEGA精確追蹤數字孿生體中所有事物的狀態,並持續迴圈執行。現在,KION能夠大規模模擬無限場景,同時測量運營KPI,例如吞吐量、效率和利用率,所有這些都在將更改部署到物理倉庫之前完成。KION、英偉達和埃森哲正攜手重塑工業自動化。
一切都在模擬中進行。未來,每個工廠都將擁有一個與真實工廠運作方式完全相同的數字孿生體。事實上,您可以使用Omniverse和Cosmos生成大量未來場景,然後由人工智慧選擇對任何KPI最優的場景,這將轉化為部署到真實工廠中的AI程式或程式設計約束。

另一個例子是自動駕駛汽車。自動駕駛革命已經到來,在Waymo和特斯拉的成功推動下,多年發展後,自動駕駛汽車的到來已成定局。我們為該行業提供的產品包括三臺計算機:用於訓練AI的訓練系統、模擬系統和合成資料生成系統(Omniverse和Cosmos),以及車內計算機。每家汽車公司與我們的合作方式可能有所不同,可能使用一臺、兩臺或三臺計算機。
我們幾乎與全球所有主要的汽車公司都有合作,包括Waymo、Zooks和特斯拉的資料中心,比亞迪(全球最大的電動汽車公司),以及即將推出新款配備英偉達技術的捷豹路虎汽車,梅賽德斯-賓士今年也將投產配備英偉達技術的汽車車隊。我很高興地宣佈,豐田和英偉達今天將攜手合作,共同打造下一代自動駕駛汽車。還有許多優秀公司,例如Lucid、Rivian、小米和沃爾沃等。Wabi正在研發自動駕駛卡車,我們本週還宣佈Aurora將使用英偉達的技術研發自動駕駛卡車。
全球每年生產1億輛汽車,道路上行駛的汽車有10億輛,每年行駛里程達萬億英里,所有這些汽車都將實現高度自動駕駛,甚至即將實現完全自動駕駛。這將是一個極其龐大的產業,我預測這很可能是第一個萬億美元級的機器人產業。我們的業務,請注意,僅僅是這些開始投產的汽車中的一部分,規模就已經達到40億美元,今年的執行速度可能約為50億美元。
今天,我們宣佈我們下一代汽車處理器——Thor。
這是Thor,一款機器人電腦,它接收並處理來自大量感測器的資訊,包括無數個高解析度攝像頭、雷達和雷射雷達。該晶片將感測器資料轉換成標記,放入轉換器並預測下一條路徑。這款自動駕駛電腦現已全面投產。

Thor的處理能力是上一代Orin的20倍,而Orin是目前自動駕駛車輛的行業標準。Thor已全面投產,並廣泛應用於各種機器人,例如自主移動機器人(AMR),可作為機器人或機械手的大腦。它是一款通用的機器人計算機。

我們DRIVE系統的第二部分,也是我引以為傲的部分,是對安全的專注。DRIVE OS是首個獲得ASIL-D認證的軟體定義的可程式設計AI計算機,ASIL-D是汽車功能安全領域的最高標準。這是大約15000個工程師年努力的結果,因此CUDA現在是一個功能安全可靠的計算機。
接下來,我想向大家展示如何在自動駕駛汽車的背景下使用Omniverse和Cosmos。我將展示如何利用AI自動重建數字孿生體,並以此來訓練未來的AI模型。

自動駕駛汽車革命已經到來。建造自動駕駛汽車需要三臺計算機:NVIDIA DGX用於訓練AI模型;Omniverse用於測試駕駛和生成合成資料;以及車載超級計算機AGX。合成數據對於訓練至關重要,因為現實世界的資料有限。NVIDIA Omniverse、AI模型和Cosmos共同構建自動駕駛車輛資料工廠,生成合成駕駛場景,從而大幅提升訓練資料量。Omnimap融合地圖和地理空間資料以構建可行駛的3D環境,駕駛場景變化則可透過回放駕駛日誌或AI交通生成器生成。
神經重建引擎利用自動駕駛汽車感測器日誌建立高保真4D模擬環境,透過回放3D駕駛過程並生成場景變化來擴充訓練資料。Edify 3DS自動搜尋或生成資產,建立可用於模擬的場景。Omniverse場景用於訓練Cosmos生成海量逼真資料,縮小模擬與現實間的差距,並透過文字提示生成幾乎無限的駕駛場景變化。
Cosmos Nemotron VideoSearch整合海量合成數據集和記錄的駕駛資料來訓練模型。NVIDIA的AI資料工廠將數百個驅動器的數百萬英里資料擴充套件到數十億有效英里,為安全和先進的自動駕駛設定了新標準。
我們將數千次駕駛資料轉化為數十億英里,擁有大量的自動駕駛車輛訓練資料,當然,這需要持續的實際道路測試和資料收集。利用基於物理的多宇宙能力生成合成資料,確保訓練AI的資料具有物理基礎、準確且合理,從而獲得海量訓練資料。
自動駕駛行業已經到來,未來幾年將見證其飛速發展。機器人技術領域,特別是人形機器人和通用機器人技術,即將迎來ChatGPT時刻般的突破。
使能技術將推動通用機器人技術在未來幾年取得令人驚訝的快速發展。通用機器人技術的重要性在於,它能創造出無需特殊環境就能適應“棕色地帶”的機器人。

這三種機器人是:自主機器人和自主AI(資訊工作者);自動駕駛汽車(適應已建成的道路和城市);人形機器人。如果我們擁有解決這三項問題的技術,這將是世界上規模最大的技術產業。

因此,我們認為機器人時代即將到來。關鍵在於如何訓練這些機器人,而對於人形機器人而言,模仿資訊的收集尤其困難,因為汽車只需駕駛即可收集資料。
我們一直在探索人形機器人的運動學習。直接模仿人類演示對機器人來說效率低下,因此我們需要一種巧妙的方法,利用少量的人類演示資料,透過人工智慧和Omniverse合成生成海量合成運動資料,從而讓AI學習執行任務。
全球開發者正致力於構建新一代物理形態的人工智慧機器人,即人形機器人。然而,開發通用型機器人模型需要大量真實世界資料,而資料的採集和整理成本高昂。NVIDIA Isaac Groot應運而生,它為開發者提供了機器人基礎模型、資料管道、模擬框架和Thor機器人計算機,以應對這些挑戰。
NVIDIA Isaac Groot合成運動生成的藍圖是一個基於模仿學習的模擬工作流程,能夠從小數量的人類演示中生成指數級的大型資料集。首先,Groot Teleop允許操作員使用Apple Vision Pro進入機器人的數字孿生體,即使沒有物理機器人也能捕獲資料,並在安全環境中操作,避免物理損壞。操作員透過少量遙操作演示捕獲運動軌跡,然後使用Groot Mimic將其擴充套件到更大的資料集。接著,他們使用基於Omniverse和Cosmos構建的Groot Gen進行領域隨機化和3D到現實的升級,生成指數級更大的資料集。Omniverse和Cosmos多元宇宙模擬引擎提供大規模資料集來訓練機器人策略。最後,在將策略部署到真實機器人之前,開發人員可以在IsaacSim中進行軟體在環測試和驗證。
通用機器人的時代正在到來,NVIDIA Isaac Groot將為其提供海量資料支援,加速通用機器人發展。它為機器人行業提供了關鍵技術元素。
我還想向大家展示一項技術,如果沒有大約十年前啟動的Digits專案(公司內部稱之為深度學習GPU智慧訓練系統),這一切都將不可能實現。在推出之前,我們將其簡化為DGX,並使其與RTX、AGX、OVX以及公司其他X系列產品相協調。DGX-1徹底改變了人工智慧。
我們研發這款產品,旨在為研究人員和初創公司提供一款開箱即用的AI超級計算機。過去,超級計算機的構建需要自行建造設施、搭建基礎設施並進行復雜的系統設計。而我們為研究人員和初創公司打造的這款AI超級計算機,真正實現了開箱即用。2016年,我們向OpenAI公司交付了第一臺DGX-1,埃隆·馬斯克、伊利亞及眾多工程師見證了這一時刻,DGX-1徹底改變了人工智慧計算。
如今,人工智慧已無處不在,不再侷限於研究人員和初創公司的實驗室。正如演講伊始所言,我們希望人工智慧成為一種新的計算方式,一種編寫軟體的新方法。每一位軟體工程師、工程師、創意藝術家,以及所有使用計算機作為工具的人,都需要一臺人工智慧超級計算機。因此,我們希望DGX-1能更小巧一些。

女士們,先生們,這就是英偉達最新的AI超級計算機,目前代號為Project Digits專案。如果您有更好的命名建議,歡迎聯絡我們。這款AI超級計算機執行著完整的NVIDIA AI軟體棧,包括所有NVIDIA軟體和DGX Cloud。它位於……某個地方,並透過無線連線或網路連線至您的電腦,甚至可作為工作站使用。您可以像訪問雲超級計算機一樣訪問它,並在其上執行NVIDIA的AI。

它基於我們研發的超級秘密晶片GB110,這是我們生產的最小型的Grace Blackwell晶片。這是其內部結構,它目前正在量產中。這款絕密晶片是我們在與聯發科合作中研發的Gray CPU,專為英偉達打造,並與全球領先的SoC公司聯發科合作完成。他們與我們共同開發了這款CPU SoC,並透過晶片到晶片的NVLink連線到Blackwell GPU。

這款小巧的裝置目前正在全面生產中,預計將於五月左右上市。它即將問世,其功能令人難以置信。我一直在思考,究竟是需要更多的手還是更多的口袋?總之,誰不想要這樣一臺機器呢?
如果您使用PC或Mac,它就是一個執行在您桌面的雲計算平臺,您可以將其用作Linux工作站。 如果您需要雙位數效能,只需使用ConnectX連線,它便具備Nickel、GPU Direct等功能,開箱即用,就像一臺超級計算機,所有超級計算堆疊都可用,例如英偉達Digits專案。
我曾提到過,我們正在生產三臺新的Blackwells超級計算機。Grace Blackwell超級計算機,配備NVLink72s,已在全球投入生產,我們現在擁有三套新的Blackwell系統。
一個令人驚歎的AI基礎模型——世界首個物理AI基礎模型現已開放,可用於啟用全球機器人等行業。另有三個機器人致力於自主AI(人類或機器人)和自動駕駛汽車。
這是令人難以置信的一年。感謝你們的合作與光臨。我製作了一個簡短的影片,回顧過去一年並展望未來,現在播放。祝大家CES順利!新年快樂!謝謝!
b站影片傳送:
https://www.bilibili.com/video/BV17KrmYzEU9/
THE END
