黃仁勳最新2萬字演講實錄:新一代RubinGPU揭曉|ZTalk

以下文章來源於騰訊科技
Z Talk 是真格分享認知的欄目。
我們在這裡談論最新的行業觀察,先鋒的創業動態,也在這裡與真格老友相聚。我們相信持續的學習和進化,相信最深刻的認知來自實踐。
6 月 2 日,英偉達聯合創始人兼執行長黃仁勳在 Computex 2024(2024 臺北國際電腦展)上發表主題演講,分享了人工智慧時代如何助推全球新產業革命。
以下為本次演講的要點:
① 黃仁勳展示了最新量產版 Blackwell 晶片,並稱將在 2025 年推出 Blackwell Ultra AI 晶片,下一代 AI 平臺命名為 Rubin,2027 年推 Rubin Ultra,更新節奏將是「一年一次」,打破「摩爾定律」。
黃仁勳宣稱英偉達推動了大語言模型誕生,其在 2012 年後改變了 GPU 架構,並將所有新技術整合在單臺計算機上。
英偉達的加速計算技術幫助實現了 100 倍速率提升,而功耗僅增加到原來的 3 倍,成本為原來的 1.5 倍。
黃仁勳預計下一代 AI 需要理解物理世界。他給出的方法是讓 AI 透過影片與合成數據學習,並讓 AI 互相學習。
黃仁勳在 PPT 裡甚至給 token 敲定了一箇中文譯名——詞元。
黃仁勳表示,機器人時代已經到來,將來所有移動的物體都將實現自主執行。
以下是兩小時演講全文實錄:
黃仁勳:
尊敬的各位來賓,我非常榮幸能再次站在這裡。首先,我要感謝臺灣大學為我們提供這個體育館作為舉辦活動的場所。上一次我來到這裡,是我從臺灣大學獲得學位的時候。今天,我們即將探討的內容很多,所以我必須加快步伐,以快速而清晰的方式傳達資訊。我們有很多話題要聊,我有許多激動人心的故事要與大家分享。
我很高興能夠來到中國臺灣,這裡有我們很多合作伙伴。事實上,這裡不僅是英偉達發展歷程中不可或缺的一部分,更是我們與合作伙伴共同將創新推向全球的關鍵節點。我們與許多合作伙伴共同構建了全球範圍內的人工智慧基礎設施。今天,我想與大家探討幾個關鍵議題:
(1)我們共同的工作正在取得哪些進展,以及這些進展的意義何在?
(2)生成式人工智慧到底是什麼?它將如何影響我們的行業,乃至每一個行業?
(3)一個關於我們如何前進的藍圖,我們將如何抓住這個令人難以置信的機遇?
接下來會發生什麼?生成式人工智慧及其帶來的深遠影響,我們的戰略藍圖,這些都是我們即將探討的令人振奮的主題。我們正站在計算機行業重啟的起點上,一個由你們鑄就、由你們創造的新時代即將開啟。現在,你們已經為下一段重要旅程做好了準備。
01
新的計算時代正在開始
但在開始深入討論之前,我想先強調一點:英偉達位於計算機圖形學、模擬和人工智慧的交匯點上,這構成了我們公司的靈魂。今天,我將向大家展示的所有內容,都是基於模擬的。這些不僅僅是視覺效果,它們背後是數學、科學和計算機科學的精髓,以及令人歎為觀止的計算機架構。沒有任何動畫是預先製作的,一切都是我們自家團隊的傑作。這就是英偉達的領會,我們將其全部融入了我們引以為傲的 Omniverse 虛擬世界中。現在,請欣賞影片!
全球資料中心的電力消耗正在急劇上升,同時計算成本也在不斷攀升。我們正面臨著計算膨脹的嚴峻挑戰,這種情況顯然無法長期維持。資料將繼續以指數級增長,而 CPU 的效能擴充套件卻難以像以往那樣快速。然而,有一種更為高效的方法正在浮現。
近二十年來,我們一直致力於加速計算的研究。CUDA 技術增強了 CPU 的功能,將那些特殊處理器能更高效完成的任務解除安裝並加速。事實上,由於 CPU 效能擴充套件的放緩甚至停滯,加速計算的優勢愈發顯著。我預測,每個處理密集型的應用都將實現加速,且不久的將來,每個資料中心都將實現全面加速。
現在,選擇加速計算是明智之舉,這已成為行業共識。想象一下,一個應用程式需要 100 個時間單位來完成。無論是 100 秒還是 100 小時,我們往往無法承受執行數天甚至數月的人工智慧應用。
在這 100 個時間單位中,有 1 個時間單位涉及需要順序執行的程式碼,此時單執行緒 CPU 的重要性不言而喻。作業系統的控制邏輯是不可或缺的,必須嚴格按照指令序列執行。然而,還有許多演算法,如計算機圖形學、影像處理、物理模擬、組合最佳化、圖處理和資料庫處理,特別是深度學習中廣泛使用的線性代數,它們非常適合透過並行處理進行加速。為了實現這一目標,我們發明了一種創新架構,將 GPU 與 CPU 完美結合。
專用的處理器能夠將原本耗時的任務加速至令人難以置信的速度。由於這兩個處理器能並行工作,它們各自獨立且自主執行。這意味著,原本需要 100 個時間單位才能完成的任務,現在可能僅需 1 個時間單位即可完成。儘管這種加速效果聽起來令人難以置信,但今天,我將透過一系列例項來驗證這一說法。
這種效能提升所帶來的好處是驚人的,加速 100 倍,而功率僅增加約 3 倍,成本僅上升約 50 %。我們在 PC 行業早已實踐了這種策略。在 PC 上新增一個價值 500 美元的 GeForce GPU,就能使其效能大幅提升,同時整體價值也增加至 1000 美元。在資料中心,我們也採用了同樣的方法。一個價值十億美元的資料中心,在添加了價值 5 億美元的 GPU 後,瞬間轉變為一個強大的人工智慧工廠。今天,這種變革正在全球範圍內發生。
節省的成本同樣令人震驚。每投入 1 美元,你就能獲得高達 60 倍的效能提升。加速 100 倍,而功率僅增加 3 倍,成本僅上升 1.5 倍。節省的費用是實實在在的!
顯然,許多公司在雲端處理資料上花費了數億美元。當資料得到加速處理時,節省數億美元就變得合情合理。為什麼會這樣呢?原因很簡單,我們在通用計算方面經歷了長時間的效率瓶頸。
現在,我們終於認識到了這一點,並決定加速。透過採用專用處理器,我們可以重新獲得大量之前被忽視的效能提升,從而節省大量金錢和能源。這就是為什麼我說,你購買得越多,節省得也越多。
現在,我已經向你們展示了這些數字。雖然它們並非精確到小數點後幾位,但這準確地反映了事實。這可以稱之為「CEO 數學」。CEO 數學雖不追求極致的精確,但其背後的邏輯是正確的——你購買的加速計算能力越多,節省的成本也就越多。
02
350 個函式庫幫助開拓新市場
加速計算帶來的結果確實非凡,但其實現過程並不容易。為什麼它能節省這麼多錢,但人們卻沒有更早地採用這種技術呢?原因就在於它的實施難度太大。
沒有現成的軟體可以簡單地透過加速編譯器執行,然後應用程式就能瞬間提速 100 倍。這既不符合邏輯也不現實。如果這麼容易,那麼 CPU 廠商早就這樣做了。
事實上,要實現加速,軟體必須進行全面重寫。這是整個過程中最具挑戰性的部分。軟體需要被重新設計、重新編碼,以便將原本在 CPU 上執行的演算法轉化為可以在加速器上並行執行的格式。
這項計算機科學研究雖然困難,但我們在過去的 20 年裡已經取得了顯著的進展。例如,我們推出了廣受歡迎的 cuDNN 深度學習庫,它專門處理神經網路加速。我們還為人工智慧物理模擬提供了一個庫,適用於流體動力學等需要遵守物理定律的應用。另外,我們還有一個名為 Aerial 的新庫,它利用 CUDA 加速 5G 無線電技術,使我們能夠像軟體定義網際網路網路一樣,用軟體定義和加速電信網路。
這些加速能力不僅提升了效能,還幫助我們將整個電信行業轉化為一種與雲計算類似的計算平臺。此外,Coolitho 計算光刻平臺也是一個很好的例子,它極大地提升了晶片製造過程中計算最密集的部分——掩模製作的效率。臺積電等公司已經開始使用 Coolitho 進行生產,不僅顯著節省了能源,而且大幅降低了成本。他們的目標是透過加速技術棧,為演算法的更進一步發展和製造更深更窄的電晶體所需的龐大計算能力做好準備。
Pair of Bricks 是我們引以為傲的基因測序庫,它擁有世界領先的基因測序吞吐量。而 Co OPT 則是一個令人矚目的組合最佳化庫,能夠解決路線規劃、最佳化行程、旅行社問題等複雜難題。人們普遍認為,這些問題需要量子計算機才能解決,但我們卻透過加速計算技術,創造了一個執行極快的演算法,成功打破了 23 項世界紀錄,至今我們仍保持著每一個主要的世界紀錄。
Coup Quantum 是我們開發的量子計算機模擬系統。對於想要設計量子計算機或量子演算法的研究人員來說,一個可靠的模擬器是必不可少的。在沒有實際量子計算機的情況下,英偉達 CUDA——我們稱之為世界上最快的計算機——成為了他們的首選工具。我們提供了一個模擬器,能夠模擬量子計算機的執行,幫助研究人員在量子計算領域取得突破。這個模擬器已經被全球數十萬研究人員廣泛使用,並被整合到所有領先的量子計算框架中,為世界各地的科學超級計算機中心提供了強大的支援。
此外,我們還推出了資料處理庫 Kudieff,專門用於加速資料處理過程。資料處理佔據了當今雲支出的絕大部分,因此加速資料處理對於節省成本至關重要。QDF 是我們開發的加速工具,能夠顯著提升世界上主要資料處理庫的效能,如 Spark、Pandas、Polar 以及 NetworkX 等圖處理資料庫。
這些庫是生態系統中的關鍵組成部分,它們使得加速計算得以廣泛應用。如果沒有我們精心打造的如 cuDNN 這樣的特定領域庫,僅憑 CUDA,全球深度學習科學家可能無法充分利用其潛力,因為 CUDA 與 TensorFlow、PyTorch 等深度學習框架中使用的演算法之間存在顯著差異。這就像在沒有 OpenGL 的情況下進行計算機圖形學設計,或是在沒有 SQL 的情況下進行資料處理一樣不切實際。
這些特定領域的庫是我們公司的寶藏,我們目前擁有超過 350 個這樣的庫。正是這些庫讓我們在市場中保持開放和領先。今天,我將向你們展示更多令人振奮的例子。
就在上週,谷歌宣佈他們已經在雲端部署了 QDF,併成功加速了 Pandas。Pandas 是世界上最受歡迎的資料科學庫,被全球 1000 萬資料科學家所使用,每月下載量高達 1.7 億次。它就像是資料科學家的 Excel,是他們處理資料的得力助手。
現在,只需在谷歌的雲端資料中心平臺 Colab 上點選一下,你就可以體驗到由 QDF 加速的 Pandas 帶來的強大效能。這種加速效果確實令人驚歎,就像你們剛剛看到的演示一樣,它幾乎瞬間就完成了資料處理任務。
03
CUDA 實現良性迴圈
CUDA 已經達到了一個人們所稱的臨界點,但現實情況比這要好。CUDA 已經實現一個良性的發展迴圈。回顧歷史和各種計算架構、平臺的發展,我們可以發現這樣的迴圈並不常見。以微處理器 CPU 為例,它已經存在了 60 年,但其加速計算的方式在這漫長的歲月裡並未發生根本性改變。
要建立一個新的計算平臺往往面臨著「先有雞還是先有蛋」的困境。沒有開發者的支援,平臺很難吸引使用者;而沒有使用者的廣泛採用,又難以形成龐大的安裝基礎來吸引開發者。這個困境在過去 20 年中一直困擾著多個計算平臺的發展。
然而,透過持續不斷地推出特定領域的庫和加速庫,我們成功打破了這一困境。如今,我們已在全球擁有 500 萬開發者,他們利用 CUDA 技術服務於從醫療保健、金融服務到計算機行業、汽車行業等幾乎每一個主要行業和科學領域。
隨著客戶群的不斷擴大,OEM 和雲服務提供商也開始對我們的系統產生興趣,這進一步推動了更多系統進入市場。這種良性迴圈為我們創造了巨大的機遇,使我們能夠擴大規模,增加研發投入,從而推動更多應用的加速發展。
每一次應用的加速都意味著計算成本的顯著降低。正如我之前展示的,100 倍的加速可以帶來高達 97.96%,即接近 98% 的成本節省。隨著我們將計算加速從 100 倍提升至 200 倍,再飛躍至 1000 倍,計算的邊際成本持續下降,展現出了令人矚目的經濟效益。
當然,我們相信,透過顯著降低計算成本,市場、開發者、科學家和發明家將不斷髮掘出消耗更多計算資源的新演算法。直至某個時刻,一種深刻的變革將悄然發生。當計算的邊際成本變得如此低廉時,全新的計算機使用方式將應運而生。
事實上,這種變革正在我們眼前上演。過去十年間,我們利用特定演算法將計算的邊際成本降低了驚人的 100 萬倍。如今,利用網際網路上的所有資料來訓練大語言模型已成為一種合乎邏輯且理所當然的選擇,不再受到任何質疑。
這個想法——打造一臺能夠處理海量資料以自我程式設計的計算機——正是人工智慧崛起的基石。人工智慧的崛起之所以成為可能,完全是因為我們堅信,如果我們讓計算變得越來越便宜,總會有人找到巨大的用途。如今,CUDA 的成功已經證明了這一良性迴圈的可行性。
隨著安裝基礎的持續擴大和計算成本的持續降低,越來越多的開發者得以發揮他們的創新潛能,提出更多的想法和解決方案。這種創新力推動了市場需求的激增。現在我們正站在一個重大轉折點上。然而,在我進一步展示之前,我想強調的是,如果不是 CUDA 和現代人工智慧技術——尤其是生成式人工智慧的突破,以下我所要展示的內容將無法實現。
這就是「地球 2 號」專案——一個雄心勃勃的設想,旨在建立地球的數字孿生體。我們將模擬整個地球的執行,以預測其未來變化。透過這樣的模擬,我們可以更好地預防災難,更深入地理解氣候變化的影響,從而讓我們能夠更好地適應這些變化,甚至現在就開始改變我們的行為和習慣。
「地球 2 號」專案可能是世界上最具挑戰性、最雄心勃勃的專案之一。我們每年都在這個領域取得顯著的進步,而今年的成果尤為突出。現在,請允許我為大家展示這些令人振奮的進展。
在不遠的將來,我們將擁有持續的天氣預報能力,覆蓋地球上的每一平方公里。你將始終了解氣候將如何變化,這種預測將不斷執行,因為我們訓練了人工智慧,而人工智慧所需的能量又極為有限。這將是一個令人難以置信的成就。我希望你們會喜歡它,而更加重要的是,這一預測實際上是由 Jensen AI 做出的,而非我本人。我設計了它,但最終的預測由 Jensen AI 來呈現。
由於我們致力於不斷提高效能並降低成本,研究人員在 2012 年發現了 CUDA,那是英偉達與人工智慧的首次接觸。那一天對我們而言至關重要,因為我們做出了明智的選擇,與科學家們緊密合作,使深度學習成為可能。AlexNet 的出現實現了計算機視覺的巨大突破。
04
AI 超算的崛起,起初並不被認同
但更為重要的智慧在於我們退後一步,深入理解了深度學習的本質。它的基礎是什麼?它的長期影響是什麼?它的潛力是什麼?我們意識到,這項技術擁有巨大的潛力,能夠繼續擴充套件幾十年前發明和發現的演算法,結合更多的資料、更大的網路和至關重要的計算資源,深度學習突然間能夠實現人類演算法無法企及的任務。
現在,想象一下,如果我們進一步擴大架構,擁有更大的網路、更多的資料和計算資源,將會發生什麼?因此,我們致力於重新發明一切。自 2012 年以來,我們改變了 GPU 的架構,增加了張量核心,發明了 NV-Link,推出了 cuDNN、TensorRT、Nickel,還收購了 Mellanox,推出了 Triton 推理伺服器。
這些技術整合在一臺全新的計算機上,它超越了當時所有人的想象。沒有人預料到,沒有人提出這樣的需求,甚至沒有人理解它的全部潛力。事實上,我自己也不確定是否會有人會想買它。
但在 GTC 大會上,我們正式釋出了這項技術。舊金山一家名叫 OpenAI 的初創公司迅速注意到了我們的成果,並請求我們提供一臺裝置。我親自為 OpenAI 送去了世界上首臺人工智慧超級計算機 DGX。
2016 年,我們持續擴大研發規模。從單一的人工智慧超級計算機,單一的人工智慧應用,擴大到在 2017 年推出了更為龐大且強大的超級計算機。隨著技術的不斷進步,世界見證了 Transformer 的崛起。這一模型的出現,使我們能夠處理海量的資料,並識別和學習在長時間跨度內連續的模式。
如今,我們有能力訓練這些大語言模型,以實現自然語言理解方面的重大突破。但我們並未止步於此,我們繼續前行,構建了更大的模型。到了 2022 年 11 月,在極為強大的人工智慧超級計算機上,我們使用數萬顆英偉達 GPU 進行訓練。
僅僅 5 天后,OpenAI 宣佈 ChatGPT 已擁有 100 萬用戶。這一驚人的增長速度,在短短兩個月內攀升至 1 億使用者,創造了應用歷史上最快的增長記錄。其原因十分簡單——ChatGPT 的使用體驗便捷而神奇。
使用者能夠與計算機進行自然、流暢的互動,彷彿與真人交流一般。無需繁瑣的指令或明確的描述,ChatGPT 便能理解使用者的意圖和需求。
ChatGPT 的出現標誌著一個劃時代的變革,這張幻燈片恰恰捕捉到了這一關鍵轉折。請允許我為大家展示下。
直至 ChatGPT 的問世,它才真正向世界揭示了生成式人工智慧的無限潛能。長久以來,人工智慧的焦點主要集中在感知領域,如自然語言理解、計算機視覺和語音識別,這些技術致力於模擬人類的感知能力。但 ChatGPT 帶來了質的飛躍,它不僅僅侷限於感知,而是首次展現了生成式人工智慧的力量。
它會逐個生成 Token,這些 Token 可以是單詞、影像、圖表、表格,甚至是歌曲、文字、語音和影片。Token 可以代表任何具有明確意義的事物,無論是化學物質、蛋白質、基因,還是之前我們提到的天氣模式。
這種生成式人工智慧的崛起意味著,我們可以學習並模擬物理現象,讓人工智慧模型理解並生成物理世界的各種現象。我們不再侷限於縮小範圍進行過濾,而是透過生成的方式探索無限可能。
如今,我們幾乎可以為任何有價值的事物生成 Token,無論是汽車的轉向盤控制、機械臂的關節運動,還是我們目前能夠學習的任何知識。因此,我們所處的已不僅僅是一個人工智慧時代,而是一個生成式人工智慧引領的新紀元。
更重要的是,這臺最初作為超級計算機出現的裝置,如今已經演化為一個高效運轉的人工智慧資料中心。它不斷地產出,不僅生成 Token,更是一個創造價值的人工智慧工廠。這個人工智慧工廠正在生成、創造和生產具有巨大市場潛力的新商品。
正如 19 世紀末尼古拉·特斯拉(Nikola Tesla)發明了交流發電機,為我們帶來了源源不斷的電子,英偉達的人工智慧生成器也正在源源不斷地產生具有無限可能性的 Token。這兩者都有巨大的市場機會,有望在每個行業掀起變革。這確實是一場新的工業革命!
我們現在迎來了一個全新的工廠,能夠為各行各業生產出前所未有的、極具價值的新商品。這一方法不僅極具可擴充套件性,而且完全可重複。請注意,目前,每天都在不斷湧現出各種各樣的人工智慧模型,尤其是生成式人工智慧模型。如今,每個行業都競相參與其中,這是前所未有的盛況。
價值 3 萬億美元的 IT 行業,即將催生出能夠直接服務於 100 萬億美元產業的創新成果。它不再僅僅是資訊儲存或資料處理的工具,而是每個行業生成智慧的引擎。這將成為一種新型的製造業,但它並非傳統的計算機制造業,而是利用計算機進行製造的全新模式。這樣的變革以前從未發生過,這確實是一件令人矚目的非凡之事。
05
生成式 AI 推動軟體全棧重塑,展示 NIM 雲原生微服務
這開啟了計算加速的新時代,推動了人工智慧的迅猛發展,進而催生了生成式人工智慧的興起。而如今,我們正在經歷一場工業革命。關於其影響,讓我們深入探討一下。
對於我們所在的行業而言,這場變革的影響同樣深遠。正如我之前所言,這是過去六十年來的首次,計算的每一層都正在發生變革。從 CPU 的通用計算到 GPU 的加速計算,每一次變革都標誌著技術的飛躍。
過去,計算機需要遵循指令執行操作,而現在,它們更多地是處理 LLM(大語言模型)和人工智慧模型。過去的計算模型主要基於檢索,幾乎每次你使用手機時,它都會為你檢索預先儲存的文字、影像或影片,並根據推薦系統重新組合這些內容呈現給你。
但在未來,你的計算機會盡可能多地生成內容,只檢索必要的資訊,因為生成資料在獲取資訊時消耗的能量更少。而且,生成的資料具有更高的上下文相關性,能更準確地反映你的需求。當你需要答案時,不再需要明確指示計算機「給我獲取那個資訊」或「給我那個檔案」,只需簡單地說:「給我一個答案。」
此外,計算機不再僅僅是我們使用的工具,它開始生成技能。它執行任務,而不再是一個生產軟體的行業,這在 90 年代初是一個顛覆性的觀念。記得嗎?微軟提出的軟體打包理念徹底改變了 PC 行業。沒有打包軟體,我們的 PC 將失去大部分功能。這一創新推動了整個行業的發展。
現在我們有了新工廠、新計算機,而在這個基礎上執行的是一種新型軟體——我們稱之為 Nim(NVIDIA Inference Microservices)。在這個新工廠中執行的 Nim 是一個預訓練模型,它是一個人工智慧。
這個人工智慧本身相當複雜,但執行人工智慧的計算堆疊更是複雜得令人難以置信。當你使用 ChatGPT 這樣的模型時,其背後是龐大的軟體堆疊。這個堆疊複雜而龐大,因為模型擁有數十億到數萬億個引數,且不僅在一臺計算機上執行,而是在多臺計算機上協同工作。
為了最大化效率,系統需要將工作負載分配給多個 GPU,進行各種並行處理,如張量並行、管道並行、資料並行和專家並行。這樣的分配是為了確保工作能儘快完成,因為在一個工廠中,吞吐量直接關係到收入、服務質量和可服務的客戶數量。如今,我們身處一個數據中心吞吐量利用率至關重要的時代。
過去,雖然吞吐量被認為重要,但並非決定性的因素。然而,現在,從啟動時間、執行時間、利用率、吞吐量到空閒時間等每一個引數都被精確測量,因為資料中心已成為真正的「工廠」。在這個工廠中,運作效率直接關聯到公司的財務表現。
鑑於這種複雜性,我們深知大多數公司在部署人工智慧時面臨的挑戰。因此,我們開發了一個整合化的人工智慧容器解決方案,將人工智慧封裝在易於部署和管理的盒子中。這個盒子包含了龐大的軟體集合,如 CUDA、CUDACNN 和 TensorRT,以及 Triton 推理服務。它支援雲原生環境,允許在 Kubernetes(基於容器技術的分散式架構解決方案)環境中自動擴充套件,並提供管理服務,方便使用者監控人工智慧服務的執行狀態。
更令人振奮的是,這個人工智慧容器提供通用的、標準的 API 介面,使得使用者可以直接與「盒子」進行互動。使用者只需下載 Nim,並在支援 CUDA 的計算機上執行,即可輕鬆部署和管理人工智慧服務。如今,CUDA 已無處不在,它支援各大雲服務提供商,幾乎所有計算機制造商都提供 CUDA 支援,甚至在數億臺 PC 中也能找到它的身影。
當你下載 Nim 時,即刻擁有一個人工智慧助手,它能如與 ChatGPT 對話般流暢交流。現在,所有的軟體都已精簡併整合在一個容器中,原先繁瑣的 400 個依賴項全部集中最佳化。我們對 Nim 進行了嚴格的測試,每個預訓練模型都在我們的雲端基礎設施上得到了全面測試,包括 Pascal、Ampere 乃至最新的 Hopper 等不同版本的 GPU 。這些版本種類繁多,幾乎覆蓋了所有需求。
Nim 的發明無疑是一項壯舉,它是我最引以為傲的成就之一。如今,我們有能力構建大語言模型和各種預訓練模型,這些模型涵蓋了語言、視覺、影像等多個領域,還有針對特定行業如醫療保健和數字生物學的定製版本。
想要了解更多或試用這些版本,只需訪問 ai.nvidia.com。今天,我們在 Hugging Face 上釋出了完全最佳化的 Llama 3 Nim,你可以立即體驗,甚至免費帶走它。無論你選擇哪個雲平臺,都能輕鬆執行它。當然,你也可以將這個容器下載到你的資料中心,自行託管,併為你的客戶提供服務。
我前面提到,我們擁有覆蓋不同領域的 Nim 版本,包括物理學、語義檢索、視覺語言等,支援多種語言。這些微服務可以輕鬆整合到大型應用中,其中最具潛力的應用之一是客戶服務代理。它幾乎是每個行業的標配,代表了價值數萬億美元的全球客戶服務市場。
值得一提的是,護士們作為客戶服務的核心,在零售、快餐、金融服務、保險等行業中發揮著重要作用。如今,藉助語言模型和人工智慧技術,數千萬的客戶服務人員得到了顯著的增強。這些增強工具的核心,正是你所看到的 Nim。
有些被稱為推理智慧體(Reasoning Agents),它們被賦予任務後,能夠明確目標並制定計劃。有的擅長檢索資訊,有的精於搜尋,還有的可能會使用如 Coop 這樣的工具,或者需要學習在 SAP 上執行的特定語言如 ABAP,甚至執行 SQL 查詢。這些所謂的專家現在被組成一個高效協作的團隊。
應用層也因此發生了變革:過去,應用程式是由指令編寫的,而現在,它們則是透過組裝人工智慧團隊來構建。雖然編寫程式需要專業技能,但幾乎每個人都知道如何分解問題並組建團隊。因此,我堅信,未來的每家公司都會擁有一個龐大的 Nim 集合。你可以根據需要選擇專家,將它們連線成一個團隊。
更神奇的是,你甚至不需要弄清楚如何去連線它們。只需給代理分配一個任務,Nim 會智慧地決定如何分解任務並分配給最適合的專家。它們就像應用程式或團隊的中央領導者,能夠協調團隊成員的工作,最終將結果呈現給你。
整個過程就像人類團隊協作一樣高效、靈活。這不僅僅是未來的趨勢,而是即將在我們身邊成為現實。這就是未來應用程式將要呈現的全新面貌。
06
PC 將成為數字人主要載體
當我們談論與大型人工智慧服務的互動時,目前我們已經可以透過文字和語音提示來實現。但展望未來,我們更希望以更人性化的方式——即數字人,來進行互動。英偉達在數字人技術領域已經取得了顯著的進展。
數字人不僅具有成為出色互動式代理的潛力,它們還更加吸引人,並可能展現出更高的同理心。然而,要跨越這個令人難以置信的鴻溝,使數字人看起來和感覺更加自然,我們仍需付出巨大的努力。這不僅是我們的願景,更是我們不懈追求的目標。
在我向大家展示我們目前的成果之前,請允許我表達對中國臺灣的熱情問候。在深入探索夜市的魅力之前,讓我們先一同領略數字人技術的前沿動態。
這確實令人覺得不可思議。ACE(Avatar Cloud Engine,英偉達數字人技術)不僅能在雲端高效執行,同時也相容 PC 環境。我們前瞻性地將 Tensor Core GPU 整合到所有 RTX 系列中,這標誌著人工智慧 GPU 的時代已經到來,我們為此做好了充分準備。
背後的邏輯十分清晰:要構建一個新的計算平臺,必須先奠定堅實的基礎。有了堅實的基礎,應用程式自然會隨之湧現。如果缺乏這樣的基礎,那麼應用程式便無從談起。所以,只有當我們構建了它,應用程式的繁榮才有可能實現。
因此,我們在每一款 RTX GPU 中都集成了 Tensor Core 處理單元,目前全球已有 1 億臺 GeForce RTX AI PC 投入使用,而且這個數字還在不斷增長,預計將達到 2 億臺。在最近的 Computex 展會上,我們更是推出了四款全新的人工智慧筆記型電腦。
這些裝置都具備執行人工智慧的能力。未來的筆記型電腦和 PC 將成為人工智慧的載體,它們將在後臺默默地為你提供幫助和支援。同時,這些 PC 還將執行由人工智慧增強的應用程式,無論你是進行照片編輯、寫作還是使用其他工具,都將享受到人工智慧帶來的便利和增強效果。
此外,你的 PC 還將能夠託管帶有人工智慧的數字人類應用程式,讓人工智慧以更多樣化的方式呈現並在 PC 上得到應用。顯然,PC 將成為至關重要的人工智慧平臺。那麼,接下來我們將如何發展呢?
之前我談到了我們資料中心的擴充套件,每次擴充套件都伴隨著新的變革。當我們從 DGX 擴充套件到大型人工智慧超級計算機時,我們實現了 Transformer 在巨大資料集上的高效訓練。這標誌著一個重大的轉變:一開始,資料需要人類的監督,透過人類標記來訓練人工智慧。然而,人類能夠標記的資料量是有限的。現在,隨著 Transformer 的發展,無監督學習成為可能。
如今,Transformer 能夠自行探索海量的資料、影片和影像,從中學習並發現隱藏的模式和關係。為了推動人工智慧向更高層次發展,下一代人工智慧需要根植於物理定律的理解,但大多數人工智慧系統缺乏對物理世界的深刻認識。為了生成逼真的影像、影片、3D 圖形,以及模擬複雜的物理現象,我們急需開發基於物理的人工智慧,這要求它能夠理解並應用物理定律。
在實現這一目標的過程中,有兩個主要方法。
首先,透過從影片中學習,人工智慧可以逐步積累對物理世界的認知。其次,利用合成數據,我們可以為人工智慧系統提供豐富且可控的學習環境。此外,模擬資料和計算機之間的互相學習也是一種有效的策略。這種方法類似於 AlphaGo 的自我對弈模式,讓兩個相同能力的實體長時間相互學習,從而不斷提升智慧水平。因此,我們可以預見,這種型別的人工智慧將在未來逐漸嶄露頭角。
07
Blackwell 全面投產,八年間算力增長 1000 倍
當人工智慧資料透過合成方式生成,並結合強化學習技術時,資料生成的速率將得到顯著提升。隨著資料生成的增長,對計算能力的需求也將相應增加。我們即將邁入一個新時代,在這個時代中,人工智慧將能夠學習物理定律,理解並基於物理世界的資料進行決策和行動。因此,我們預計人工智慧模型將繼續擴大,對 GPU 效能的要求也將越來越高。
為滿足這一需求,Blackwell 應運而生。這款 GPU 專為支援新一代人工智慧設計,擁有幾項關鍵技術。這種晶片尺寸之大在業界首屈一指。我們採用了兩片儘可能大的晶片,透過每秒 10 太位元組的高速連結,結合世界上最先進的 SerDes(高效能介面或連線技術)將它們緊密連線在一起。進一步地,我們將兩片這樣的晶片放置在一個計算機節點上,並透過 Grace CPU 進行高效協調。
Grace CPU 的用途廣泛,不僅適用於訓練場景,還在推理和生成過程中發揮關鍵作用,如快速檢查點和重啟。此外,它還能儲存上下文,讓人工智慧系統擁有記憶,並能理解使用者對話的上下文,這對於增強互動的連續性和流暢性至關重要。
我們推出的第二代 Transformer 引擎進一步提升了人工智慧的計算效率。這款引擎能夠根據計算層的精度和範圍需求,動態調整至較低的精度,從而在保持效能的同時降低能耗。同時,Blackwell GPU 還具備安全人工智慧功能,確保使用者能夠要求服務提供商保護其免受盜竊或篡改。
在 GPU 的互聯方面,我們採用了第五代 NV Link 技術,它允許我們輕鬆連線多個 GPU。此外,Blackwell GPU 還配備了第一代可靠性和可用性引擎(Ras 系統),這一創新技術能夠測試晶片上的每一個電晶體、觸發器、記憶體以及片外記憶體,確保我們在現場就能準確判斷特定晶片是否達到了平均故障間隔時間(MTBF)的標準。
對於大型超級計算機來說,可靠性尤為關鍵。擁有 10,000 個 GPU 的超級計算機的平均故障間隔時間可能以小時為單位,但當 GPU 數量增加至 100,000 個時,平均故障間隔時間將縮短至以分鐘為單位。
因此,為了確保超級計算機能夠長時間穩定執行,以訓練那些可能需要數個月時間的複雜模型,我們必須透過技術創新來提高可靠性。而可靠性的提升不僅能夠增加系統的正常執行時間,還能有效降低成本。
最後,我們還在 Blackwell GPU 中集成了先進的解壓縮引擎。在資料處理方面,解壓縮速度至關重要。透過整合這一引擎,我們可以從儲存中拉取資料的速度比現有技術快 20 倍,從而極大地提升了資料處理效率。
Blackwell GPU 的上述功能特性使其成為一款令人矚目的產品。在之前的 GTC 大會上,我曾向大家展示了處於原型狀態的 Blackwell。而現在,我們很高興地宣佈,這款產品已經投入生產。
各位,這就是 Blackwell,使用了令人難以置信的技術。這是我們的傑作,是當今世界上最複雜、效能最高的計算機。其中,我們特別要提到的是 Grace CPU,它承載了巨大的計算能力。請看,這兩個Blackwell 晶片,它們緊密相連。你注意到了嗎?這就是世界上最大的晶片,而我們使用每秒高達 A10TB 的連結將兩片這樣的晶片融為一體。
那麼,Blackwell 究竟是什麼呢?它的效能之強大,簡直令人難以置信。請仔細觀察這些資料。在短短八年內,我們的計算能力、浮點運算以及人工智慧浮點運算能力增長了 1000 倍。這速度,幾乎超越了摩爾定律在最佳時期的增長。
Blackwell 計算能力的增長簡直驚人。而更值得一提的是,每當我們的計算能力提高時,成本卻在不斷下降。讓我給你們展示一下。我們透過提升計算能力,用於訓練 GPT-4 模型(2 萬億引數和 8 萬億 Token)的能量下降了 350 倍。
想象一下,如果使用 Pascal 進行同樣的訓練,它將消耗高達 1000 吉瓦時的能量。這意味著需要一個吉瓦資料中心來支援,但世界上並不存在這樣的資料中心。即便存在,它也需要連續執行一個月的時間。而如果是一個 100 兆瓦的資料中心,那麼訓練時間將長達一年。
顯然,沒有人願意或能夠創造這樣的資料中心。這就是為什麼八年前,像 ChatGPT 這樣的大語言模型對我們來說還是遙不可及的夢想。但如今,我們透過提升效能並降低能耗實現了這一目標。
我們利用 Blackwell 將原本需要高達 1000 吉瓦時的能量降低到僅需 3 吉瓦時,這一成就無疑是令人震驚的突破。想象一下,使用 1000 個 GPU,它們所消耗的能量竟然只相當於一杯咖啡的熱量。而 10,000 個 GPU,更是隻需短短 10 天左右的時間就能完成同等任務。八年間取得的這些進步,簡直令人難以置信。
Blackwell 不僅適用於推理,其在 Token 生成效能上的提升更是令人矚目。在 Pascal 時代,每個 Token 消耗的能量高達 17,000 焦耳,這大約相當於兩個燈泡執行兩天的能量。而生成一個 GPT-4 的 Token,幾乎需要兩個 200 瓦特的燈泡持續執行兩天。考慮到生成一個單詞大約需要 3 個 Token,這確實是一個巨大的能量消耗。
然而,現在的情況已經截然不同。Blackwell 使得生成每個 Token 只需消耗 0.4 焦耳的能量,以驚人的速度和極低的能耗進行 Token 生成。這無疑是一個巨大的飛躍。但即使如此,我們仍不滿足。為了更大的突破,我們必須建造更強大的機器。
這就是我們的 DGX 系統,Blackwell 晶片將被嵌入其中。這款系統採用空氣冷卻技術,內部配備了 8 個這樣的 GPU。看看這些 GPU 上的散熱片,它們的尺寸之大令人驚歎。整個系統功耗約為 15 千瓦,完全透過空氣冷卻實現。這個版本相容 X86,並已應用於我們已發貨的伺服器中。
然而,如果你更傾向於液體冷卻技術,我們還有一個全新的系統——MGX。它基於這款主機板設計,我們稱之為「模組化」系統。MGX 系統的核心在於兩塊 Blackwell 晶片,每個節點都集成了四個 Blackwell 晶片。它採用了液體冷卻技術,確保了高效穩定的執行。
整個系統中,這樣的節點共有九個,共計 72 個 GPU,構成了一個龐大的計算叢集。這些 GPU 透過全新的 NV 連結技術緊密相連,形成了一個無縫的計算網路。NV 連結交換機堪稱技術奇蹟。它是目前世界上最先進的交換機,資料傳輸速率令人咋舌。這些交換機使得每個 Blackwell 晶片高效連線,形成了一個巨大的 72 GPU 叢集。
這一叢集的優勢何在?首先,在 GPU 域中,它現在表現得就像一個單一的、超大規模的 GPU。這個「超級 GPU」擁有 72 個 GPU 的核心能力,相較於上一代的 8 個 GPU,效能提升了 9 倍。同時,頻寬增加了 18 倍,AI FLOPS(每秒浮點運算次數)更是提升了 45 倍,而功率僅增加了 10 倍。也就是說,一個這樣的系統能提供 100 千瓦的強勁動力,而上一代僅為 10 千瓦。
當然,你還可以將更多的這些系統連線在一起,形成更龐大的計算網路。但真正的奇蹟在於這個 NV 連結晶片,隨著大語言模型的日益龐大,其重要性也日益凸顯。因為這些大語言模型已經不適合單獨放在一個 GPU 或節點上執行,它們需要整個 GPU 機架的協同工作。就像我剛才提到的那個新 DGX 系統,它能夠容納引數達到數十萬億的大語言模型。
NV 連結交換機本身就是一個技術奇蹟,擁有 500 億個電晶體,74 個埠,每個埠的資料速率高達 400 GB。但更重要的是,交換機內部還集成了數學運算功能,可以直接進行歸約操作,這在深度學習中具有極其重要的意義。這就是現在的 DGX 系統的全新面貌。
許多人對我們表示好奇。他們提出疑問,對英偉達的業務範疇存在誤解。人們疑惑,英偉達怎麼可能僅憑製造 GPU 就變得如此龐大。因此,很多人形成了這樣一種印象:GPU 就應該是某種特定的樣子。
然而,現在我要展示給你們的是,這確實是一個 GPU,但它並非你們想象中的那種。這是世界上最先進的 GPU 之一,但它主要用於遊戲領域。但我們都清楚,GPU 的真正力量遠不止於此。
各位,請看這個,這才是 GPU 的真正形態。這是 DGX GPU,專為深度學習而設計。這個 GPU 的背面連線著 NV 連結主幹,這個主幹由 5000 條線組成,長達 3 公里。這些線,就是 NV 連結主幹,它們連線了 70 個 GPU,形成一個強大的計算網路。這是一個電子機械奇蹟,其中的收發器讓我們能夠在銅線上驅動訊號貫穿整個長度。
因此,這個 NV 連結交換機透過 NV 連結主幹在銅線上傳輸資料,使我們能夠在單個機架中節省 20 千瓦的電力,而這 20 千瓦現在可以完全用於資料處理,這的確是一項令人難以置信的成就。這就是 NV 連結主幹的力量。
08
為生成式 AI 推乙太網
但這還不足以滿足需求,特別是對於大型人工智慧工廠來說更是如此,那麼我們還有另一種解決方案。我們必須使用高速網路將這些人工智慧工廠連線起來。我們有兩種網路選擇:InfiniBand 和乙太網。其中,InfiniBand 已經在全球各地的超級計算和人工智慧工廠中廣泛使用,並且增長迅速。然而,並非每個資料中心都能直接使用 InfiniBand,因為他們在乙太網生態系統上進行了大量投資,而且管理 InfiniBand 交換機和網路確實需要一定的專業知識和技術。
因此,我們的解決方案是將 InfiniBand 的效能帶到乙太網架構中,這並非易事。原因在於,每個節點、每臺計算機通常與網際網路上的不同使用者相連,但大多數通訊實際上發生在資料中心內部,即資料中心與網際網路另一端使用者之間的資料傳輸。然而,在人工智慧工廠的深度學習場景下,GPU 並不是與網際網路上的使用者進行通訊,而是彼此之間進行頻繁的、密集的資料交換。
它們相互通訊是因為它們都在收集部分結果。然後它們必須將這些部分結果進行規約(reduce)並重新分配(redistribute)。這種通訊模式的特點是高度突發性的流量。重要的不是平均吞吐量,而是最後一個到達的資料,因為如果你正在從所有人那裡收集部分結果,並且我試圖接收你所有的部分結果,如果最後一個數據包晚到了,那麼整個操作就會延遲。對於人工智慧工廠而言,延遲是一個至關重要的問題。
所以,我們關注的焦點並非平均吞吐量,而是確保最後一個數據包能夠準時、無誤地抵達。然而,傳統的乙太網並未針對這種高度同步化、低延遲的需求進行最佳化。為了滿足這一需求,我們創造性地設計了一個端到端的架構,使 NIC(網路介面卡)和交換機能夠通訊。為了實現這一目標,我們採用了四種關鍵技術:
第一,英偉達擁有業界領先的 RDMA(遠端直接記憶體訪問)技術。現在,我們有了乙太網網路級別的 RDMA,它的表現非常出色。
第二,我們引入了擁塞控制機制。交換機具備即時遙測功能,能夠迅速識別並響應網路中的擁塞情況。當 GPU 或 NIC 傳送的資料量過大時,交換機會立即發出訊號,告知它們減緩傳送速率,從而有效避免網路熱點的產生。
第三,我們採用了自適應路由技術。傳統乙太網按固定順序傳輸資料,但在我們的架構中,我們能夠根據即時網路狀況進行靈活調整。當發現擁塞或某些埠空閒時,我們可以將資料包傳送到這些空閒埠,再由另一端的 Bluefield 裝置重新排序,確保資料按正確順序返回。這種自適應路由技術極大地提高了網路的靈活性和效率。
第四,我們實施了噪聲隔離技術。在資料中心中,多個模型同時訓練產生的噪聲和流量可能會相互干擾,並導致抖動。我們的噪聲隔離技術能夠有效地隔離這些噪聲,確保關鍵資料包的傳輸不受影響。
透過採用這些技術,我們成功地為人工智慧工廠提供了高效能、低延遲的網路解決方案。在價值高達數十億美元的資料中心中,如果網路利用率提升 40% 而訓練時間縮短 20%,這實際上意味著價值 50 億美元的資料中心在效能上等同於一個 60 億美元的資料中心,揭示了網路效能對整體成本效益的顯著影響。
幸運的是,帶有 Spectrum X 的乙太網技術正是我們實現這一目標的關鍵,它大大提高了網路效能,使得網路成本相對於整個資料中心而言幾乎可以忽略不計。這無疑是我們在網路技術領域取得的一大成就。
我們擁有一系列強大的乙太網產品線,其中最引人注目的是 Spectrum X800。這款裝置以每秒 51.2 TB 的速度和 256 路徑(radix)的支援能力,為成千上萬的 GPU 提供了高效的網路連線。接下來,我們計劃一年後推出 X800 Ultra,它將支援高達 512 路徑的 512 radix,進一步提升了網路容量和效能。而 X 1600 則是為更大規模的資料中心設計的,能夠滿足數百萬個 GPU 的通訊需求。
隨著技術的不斷進步,數百萬個 GPU 的資料中心時代已經指日可待。這一趨勢的背後有著深刻的原因。一方面,我們渴望訓練更大、更復雜的模型;但更重要的是,未來的網際網路和計算機互動將越來越多地依賴於雲端的生成式人工智慧。這些人工智慧將與我們一起工作、互動,生成影片、影像、文字甚至數字人。因此,我們與計算機的每一次互動幾乎都離不開生成式人工智慧的參與。並且總是有一個生成式人工智慧與之相連,其中一些在本地執行,一些在你的裝置上執行,很多可能在雲端執行。
這些生成式人工智慧不僅具備強大的推理能力,還能對答案進行迭代最佳化,以提高答案的質量。這意味著我們未來將產生海量的資料生成需求。今晚,我們共同見證了這一技術革新的力量。
Blackwell,作為 NVIDIA 平臺的第一代產品,自推出以來便備受矚目。如今,全球範圍內都迎來了生成式人工智慧的時代,這是一個全新的工業革命的開端,每個角落都在意識到人工智慧工廠的重要性。我們深感榮幸,獲得了來自各行各業的廣泛支援,包括每一家 OEM(原始裝置製造商)、電腦製造商、CSP(雲服務提供商)、GPU 雲、主權雲以及電信公司等。
Blackwell 的成功、廣泛的採用以及行業對其的熱情都達到了前所未有的高度,這讓我們深感欣慰,並在此向大家表示衷心的感謝。然而,我們的腳步不會因此而停歇。在這個飛速發展的時代,我們將繼續努力提升產品效能,降低培訓和推理的成本,同時不斷擴充套件人工智慧的能力,使每一家企業都能從中受益。我們堅信,隨著效能的提升,成本將進一步降低。而 Hopper 平臺,無疑可能是歷史上最成功的資料中心處理器。
09
Blackwell Ultra 將於明年釋出,下一代平臺名為 Rubin
這確實是一個震撼人心的成功故事。Blackwell 平臺的誕生,正如大家所見,並非單一元件的堆砌,而是一個綜合了 CPU、GPU、NVLink、NICK(特定技術元件)以及 NVLink 交換機等多個元素的完整系統。我們致力於透過每代產品使用大型、超高速的交換機將所有 GPU 緊密連線,形成一個龐大且高效的計算域。
我們將整個平臺整合到人工智慧工廠中,但更為關鍵的是,我們將這一平臺以模組化的形式提供給全球客戶。這樣做的初衷在於,我們期望每一位合作伙伴都能根據自身的需求,創造出獨特且富有創新性的配置,以適應不同風格的資料中心、不同的客戶群體和多樣化的應用場景。從邊緣計算到電信領域,只要系統保持開放,各種創新都將成為可能。
為了讓你們能夠自由創新,我們設計了一個一體化的平臺,但同時又以分解的形式提供給你們,使你們能夠輕鬆構建模組化系統。現在,Blackwell 平臺已經全面登場。
英偉達始終堅持每年一次的更新節奏。我們的核心理念非常明確:1)構建覆蓋整個資料中心規模的解決方案;2)將這些解決方案分解為各個部件,以每年一次的頻率向全球客戶推出;3)我們不遺餘力地將所有技術推向極限,無論是臺積電的工藝技術、封裝技術、記憶體技術,還是光學技術等,我們都追求極致的效能表現。
在完成硬體的極限挑戰後,我們將全力以赴確保所有軟體都能在這個完整的平臺上順暢執行。在計算機技術中,軟體慣性至關重要。當我們的計算機平臺能夠向後相容,且架構上與已有軟體完美契合時,產品的上市速度將顯著提升。因此,當 Blackwell 平臺問世時,我們能夠充分利用已構建的軟體生態基礎,實現驚人的市場響應速度。明年,我們將迎來 Blackwell Ultra。
正如我們曾推出的 H100 和 H200 系列一樣,Blackwell Ultra 也將引領新一代產品的熱潮,帶來前所未有的創新體驗。同時,我們將繼續挑戰技術的極限,推出下一代頻譜交換機,這是行業內的首次嘗試。這一重大突破已經成功實現,儘管我現在對於公開這個決定還心存些許猶豫。
在英偉達內部,我們習慣於使用程式碼名並保持一定的保密性。很多時候,連公司內部的大多數員工都不甚瞭解這些秘密。然而,我們的下一代平臺已被命名為 Rubin。關於 Rubin,我不會在此過多贅述。我深知大家的好奇心,但請允許我保持一些神秘感。你們或許已經迫不及待想要拍照留念,或是仔細研究那些小字部分,那就請隨意吧。
我們不僅有 Rubin 平臺,一年後還將推出 Rubin Ultra 平臺。在此展示的所有晶片都處於全面開發階段,確保每一個細節都經過精心打磨。我們的更新節奏依然是一年一次,始終追求技術的極致,同時確保所有產品都保持 100% 的架構相容性。
回顧過去的 12 年,從 Imagenet 誕生的那一刻起,我們就預見到計算領域的未來將會發生翻天覆地的變化。如今,這一切都成為了現實,與我們當初的設想不謀而合。從 2012 年之前的 GeForce 到如今的英偉達,公司經歷了巨大的轉變。在此,我要衷心感謝所有合作伙伴的一路支援與陪伴。
10
機器人時代已經到來
這就是英偉達的 Blackwell 平臺,接下來,讓我們談談人工智慧與機器人相結合的未來。
物理人工智慧正引領人工智慧領域的新浪潮,它們深諳物理定律,並能自如地融入我們的日常生活。為此,物理人工智慧不僅需要構建一個精準的世界模型,以理解如何解讀和感知周圍世界,更需具備卓越的認知能力,以深刻理解我們的需求並高效執行任務。
展望未來,機器人技術將不再是一個遙不可及的概念,而是日益融入我們的日常生活。當提及機器人技術時,人們往往會聯想到人形機器人,但實際上,它的應用遠不止於此。機械化將成為常態,工廠將全面實現自動化,機器人將協同工作,製造出一系列機械化產品。它們之間的互動將更加密切,共同創造出一個高度自動化的生產環境。
為了實現這一目標,我們需要克服一系列技術挑戰。接下來,我將透過影片展示這些前沿技術。
這不僅僅是對未來的展望,它正逐步成為現實。
我們將透過多種方式服務市場。首先,我們致力於為不同型別的機器人系統打造平臺:機器人工廠與倉庫專用平臺、物體操縱機器人平臺、移動機器人平臺,以及人形機器人平臺。這些機器人平臺與我們其他眾多業務一樣,依託於計算機加速庫和預訓練模型。
我們運用計算機加速庫、預訓練模型,並在 Omniverse 中進行全方位的測試、訓練和整合。正如影片所示,Omniverse 是機器人學習如何更好地適應現實世界的地方。當然,機器人倉庫的生態系統極為複雜,需要眾多公司、工具和技術來共同構建現代化的倉庫。如今,倉庫正逐步邁向全面機械化,終有一天將實現完全自動化。
在這樣一個生態系統中,我們為軟體行業、邊緣人工智慧行業和公司提供了 SDK 和 API 介面,同時也為 PLC 和機器人系統設計了專用系統,以滿足國防部等特定領域的需求。這些系統透過整合商整合,最終為客戶打造高效、智慧的倉庫。舉個例子,Ken Mac 正在為 Giant Giant 集團構建一座機器人倉庫。
接下來,讓我們聚焦工廠領域。工廠的生態系統截然不同。以富士康為例,他們正在建設世界上一些最先進的工廠。這些工廠的生態系統同樣涵蓋了邊緣計算機、機器人軟體,用於設計工廠佈局、最佳化工作流程、程式設計機器人,以及用於協調數字工廠和人工智慧工廠的 PLC 計算機。我們同樣為這些生態系統中的每一個環節提供了 SDK 介面。
這樣的變革正在全球範圍內上演。富士康和 Delta 正為其工廠構建數字孿生設施,實現現實與數字的完美融合,而 Omniverse 在其中扮演了至關重要的角色。同樣值得一提的是,和碩與 Wistron 也在緊隨潮流,為各自的機器人工廠建立數字孿生設施。
這確實令人興奮。接下來,請欣賞一段富士康新工廠的精彩影片。
機器人工廠由三個主要計算機系統組成,在 NVIDIA AI 平臺上訓練人工智慧模型,我們確保機器人在本地系統上高效執行以編排工廠流程。同時,我們利用 Omniverse 這一模擬協作平臺,對包括機械臂和 AMR(自主移動機器人)在內的所有工廠元素進行模擬。值得一提的是,這些模擬系統均共享同一個虛擬空間,實現無縫的互動與協作。
當機械臂和 AMR 進入這個共享的虛擬空間時,它們能夠在 Omniverse 中模擬出真實的工廠環境,確保在實際部署前進行充分的驗證和最佳化。
為了進一步提升解決方案的整合度和應用範圍,我們提供了三款高效能計算機,並配備了加速層和預訓練人工智慧模型。此外,我們已成功將 NVIDIA Manipulator 和 Omniverse 與西門子的工業自動化軟體和系統相結合。這種合作使得西門子在全球各地的工廠中都能夠實現更高效的機器人操作和自動化。
除了西門子,我們還與多家知名企業建立了合作關係。例如,Symantec Pick AI 已經集成了 NVIDIA Isaac Manipulator,而 Somatic Pick AI 則成功執行並操作了 ABB、KUKA、Yaskawa Motoman 等知名品牌的機器人。
機器人技術和物理人工智慧的時代已經到來,它們正在各地被廣泛應用,這並非科幻,而是現實,令人倍感振奮。展望未來,工廠內的機器人將成為主流,它們將製造所有的產品,其中兩個高產量機器人產品尤為引人注目。首先是自動駕駛汽車或具備高度自主能力的汽車,英偉達再次憑藉其全面的技術堆疊在這一領域發揮了核心作用。明年,我們計劃與梅賽德斯-賓士車隊攜手,隨後在 2026 年與捷豹路虎(JLR)車隊合作。我們提供完整的解決方案堆疊,但客戶可根據需求選擇其中的任何部分或層級,因為整個驅動堆疊都是開放和靈活的。
接下來,另一個可能由機器人工廠高產量製造的產品是人形機器人。近年來,在認知能力和世界理解能力方面取得了巨大突破,這一領域的發展前景令人期待。我對人形機器人特別興奮,因為它們最有可能適應我們為人類所構建的世界。
與其他型別的機器人相比,訓練人形機器人需要大量的資料。由於我們擁有相似的體型,透過演示和影片能力提供的大量訓練資料將極具價值。因此,我們預計這一領域將取得顯著的進步。
現在,讓我們歡迎一些特別的機器人朋友。機器人時代已經來臨,這是人工智慧的下一波浪潮。中國臺灣製造的計算機種類繁多,既有配備鍵盤的傳統機型,也有小巧輕便、便於攜帶的移動裝置,以及為雲端資料中心提供強大算力的專業裝置。但展望未來,我們將見證一個更為激動人心的時刻——製造會走路、四處滾動的計算機,即智慧機器人。
這些智慧機器人與我們所熟知的計算機在技術上有著驚人的相似性,它們都是基於先進的硬體和軟體技術構建的。因此,我們有理由相信,這將是一段真正非凡的旅程!
推薦閱讀

相關文章