黃仁勳:傳統SaaS平臺不會被AI顛覆,還將誕生無數AI工廠|亮馬橋小紀嚴選

小紀有話說:
不久前,矽谷知名風險投資人 Sarah Guo 以及 Elad Gil 採訪了英偉達 CEO 黃仁勳(Jensen Huang)。
黃仁勳認為,英偉達已徹底改變了計算方式,推動了計算邊際成本的大幅降低。他將現代計算描述為一個新的「AI 工廠」,這是一個不再只是儲存資料,而是生成 AI 和智慧體的新工業。
過去,資料中心主要用來儲存和處理資料,但黃仁勳認為,未來的資料中心將演變為專門生成 AI 內容的「AI 工廠」,其生成的「token」可以重構為各種形式的智慧,這種演變代表了一個全新的產業——AI 工廠,這將成為社會基礎設施的重要組成部分,並被廣泛應用於各行各業。
此外,黃仁勳認為,未來將出現大量特定於各 SaaS 平臺的智慧體,這些智慧體在特定任務上具備極高的專業性。
例如,Salesforce、SAP 和英偉達的 Omniverse 都會有獨特的智慧體與各自的工具生態系統協同工作,這些 SaaS 平臺並非會被顛覆,相反,它們將成為智慧體創新的沃土。
以下為這場對話的主要內容。
來源於公眾號”有新Newin“
Sarah Guo:
歡迎回來,仁勳,進入 NVIDIA 30 年之後,展望未來 10 年,你認為還有哪些值得下注的大機會?是否僅僅是擴大規模?在我們現有的架構中,是否面臨如何擠出更多計算記憶體的侷限?你關注的重點是什麼?
黃仁勳:
嗯,如果我們退一步思考,我們經歷了從程式設計到機器學習的轉變,從編寫軟體工具到建立 AI,這些都在最初設計用於人類程式設計的 CPU 上執行,而如今則執行在為 AI 程式設計設計的 GPU 上,基本上就是機器學習。
因此,世界已經改變了我們進行計算的方式。整個技術棧發生了變化。因此,我們能夠解決的問題的規模也發生了巨大的變化。
如果你可以在一臺 GPU 上並行化軟體,就可以為在整個叢集上,甚至多個叢集或資料中心上並行化打下基礎。
我認為我們已經為能夠在一個全新的層面上擴大計算規模並開發前所未有的軟體做好了準備。
未來 10 年,我們的目標是每年在規模上(而非晶片級別)將效能提升 2~3 倍,從而每年將成本降低 2~3 倍,並將能耗降低 2~3 倍。當你每年都這樣做,幾年的積累就會非常顯著。
因此,我不會感到驚訝,如果像大家所理解的摩爾定律那樣——即每兩年效能翻倍——我們會走上一條超摩爾定律的曲線。我完全希望我們能夠繼續實現這一點。
Elad Gil:
你認為是什麼推動了這種比摩爾定律更快的速度?我知道摩爾定律是一種自我反思的過程,是一種提出來之後人們就會實施的方向。
黃仁勳:
是的,兩個基本技術支柱。一個是 Denard 縮放,另一個是 Carver Mead 的 VLSI 縮放。這兩種技術是嚴謹的方法,但這些方法確實已經到了瓶頸。
因此,我們現在需要一種新的縮放方式。顯然,新的縮放方式涉及多種協同設計相關的事物。
除非你可以修改或改變演算法來反映系統的架構,或者改變系統以反映新軟體的架構,並來回調整,否則你毫無希望。
但如果你能控制這兩個方面,你就可以做一些事情,比如從 FP64 轉到 FP32,再到 BF16,到 FPA,到 FP4,等等。
所以我認為協同設計是其中的一個關鍵部分。第二個部分我們稱之為全棧。第二個部分是資料中心規模。
除非你能將網路視為一種計算結構,將大量工作推向網路,推向計算結構,進而在非常大規模上進行壓縮。這也是我們購買 Melanox 並開始積極整合 InfiniBand 和 NVLink 的原因。
現在看看 NVLink 將要發展到什麼程度。計算結構將擴充套件成一個看似單個不可思議的處理器——一個 GPU。現在,我們有數百個 GPU 一起工作。
我們目前面臨的計算挑戰中最令人興奮的之一,當然就是推理時間的擴充套件,這與以極低延遲生成 token 有關,因為正如你提到的,自我反思的過程會涉及樹搜尋、連鎖思維,可能還會進行一定程度的模擬。
你會反思自己的答案,會自我激發生成文字,而希望在一秒內做出響應。要做到這一點,必須保持極低的延遲。
與此同時,資料中心的目標仍是生產高吞吐量的 token,因為我們希望控制成本、保持高吞吐量、提高回報。
因此,工廠的兩個基本要素——低延遲和高吞吐量——彼此相悖。為了創造一個在這兩個方面都出色的產品,我們必須去發明一些新的東西,而 NVLink 是我們實現這一目標的方式。
現在你有一個虛擬 GPU,擁有大量計算能力,因為你需要它來提供上下文支援。你需要大量的工作記憶體,同時還要有極高的頻寬用於生成 token。正如我想的那樣。
Elad Gil:
與此同時,你也有很多人在構建模型並進行非常顯著的最佳化,比如 David 和我的團隊在過去 18 個月裡獲取的資料表明,GPT-4 等效模型的百萬 token 成本基本上下降了 240 倍。因此,在這方面也進行了大規模的最佳化和壓縮。
黃仁勳:
是的,僅在我們工作的這一層上,我們非常關心的是我們棧的生態系統和我們軟體的生產力。
人們經常忘記,因為有了 CUDA 的基礎,所以在這個堅實的基礎上,以上的部分可以隨意改變。如果基礎不斷變化,你就很難在上面建造一座建築,難以在上面建立任何有趣的事物。
CUDA 使我們得以快速迭代,僅在去年,我們就回頭對比了 LLaMA 剛推出時的表現,發現 Hopper 的效能提升了五倍,而演算法和上層沒有任何變化。
在一年內提升五倍是傳統計算方式無法實現的,但已在異構計算中實現。使用這種協同設計方法,我們能夠引入各種創新。
Sarah Guo:
你的大客戶有多關注其基礎設施在大規模訓練和推理之間的互換性?
黃仁勳
嗯,基礎設施現在是解耦的。Sam 剛剛告訴我他最近退役了 Volta。它們有 Pascal、Ampere 等各種不同配置的 Blackwell。部分設計為空氣冷卻,部分為液體冷卻。你的服務需要利用所有這些。
NVIDIA 的優勢在於你今天為訓練構建的基礎設施,明天在推理方面也會表現出色。我相信大多數 ChatGPT 都是在最近剛訓練的相同系統上執行的推理。因此,你可以在訓練系統上進行推理,留下了一條非常出色的基礎設施。
你可以對投資的基礎設施充滿信心,因為 NVIDIA 和整個生態系統將繼續最佳化演算法,使你的基礎設施在一年內提升五倍。這種發展不會改變。
人們思考基礎設施的方式就是這樣,即便今天建的是用於訓練的,它必須適合訓練,我們知道它也會適合推理。推理會是多規模的。
首先,你可以將更大的模型提煉成較小的模型,從而建立用於前沿工作的模型,可以用於合成數據生成、大模型訓練小模型、再壓縮成更小的模型。
因此,你可以做很多事情,但最終你會有從巨型模型到微小模型的整個模型鏈。微小模型非常有效,雖然不具備廣泛的適應性,但在某一任務上非常出色。
我們將會看到超級人類水平的微小任務可能來自一個微小的模型,也許這不是一個小型語言模型,但可能是微型語言模型,TLMs 或其他。我認為我們會看到各種大小的模型,並希望這條路線是對的。
就像今天的軟體一樣。在很多方面,人工智慧使我們可以更輕鬆地建立新應用程式,但關於計算的一切幾乎保持不變。例如,維護軟體的成本依舊高昂。
一旦你建立了軟體,你希望它能在儘可能大的安裝基數上執行,不希望重複開發同樣的軟體。很多人仍有這種期望,希望透過工程推進發展。
因此,如果架構允許你今天建立的軟體在未來的新硬體上執行得更好,那太棒了,或者你明天建立的 AI 能在一個大的安裝基數上執行,那也很好。這種思考軟體的方式將不會改變。
Sarah Guo:
變化。NVIDIA 已經逐步擴大對客戶的支援規模,從單一晶片到伺服器,再到機架甚至 NVL 72。你如何看待這個進展?接下來會怎樣?NVIDIA 是否應該提供完整的資料中心?
黃仁勳
實際上,我們以構建一切的方式來構建完整的資料中心。如果你在開發軟體,你就需要完整形態的計算機。我們不會只是製作 PowerPoint 幻燈片或僅傳送晶片,而是構建整個資料中心。
直到我們構建出整個資料中心,才能知道軟體是否正常執行;直到構建出整個資料中心,才能知道你的架構是否執行有效,所有預期的效率是否能夠實現。這就是為什麼在現實中看到某些人的實際效能遠低於他們在 PowerPoint 中展示的峰值效能並不罕見。
計算已經不再是以前的樣子了。我會說新的計算單元是資料中心,這對我們而言就是要交付的東西,我們就是這麼做的。
我們就是以這種方式構建整個系統。然後我們為每種組合構建冷卻方式(如空氣冷卻)、架構(如 x86、Grace)、網路連線(如 Ethernet、InfiniBand、NVLink)等配置。公司目前有五臺超級計算機,明年我們將輕鬆新增五臺。
如果你對軟體是認真的,你就會構建自己的計算機,如果你對軟體是認真的,那麼你會構建整套計算機系統,而且我們在規模上構建這一切。
真正有趣的部分是我們在規模上構建並垂直整合,我們進行全棧最佳化,然後解耦每個部分並銷售模組化元件。這種做法的複雜性實在令人震撼。
原因在於我們希望能夠將我們的基礎設施融入 GCP、AWS、Azure、OCI,它們的控制平面和安全平面各不相同,叢集大小的考慮也不同,但我們使它們都能相容 NVIDIA 的架構,這樣它就可以無處不在。
最終的核心想法是,我們希望擁有一個計算平臺,開發者可以使用它,在很大程度上是統一的、模組化的,可能會有 10% 的調整以適應不同的基礎設施最佳化需求,但他們構建的任何東西都可以在各處執行。
這是軟體開發的一個原則,不應被放棄,我們非常珍視這一點。它使我們的軟體工程師能夠一次構建,隨處執行。
我們認識到軟體的投資是最昂貴的,而且測試很容易。看看整個硬體行業的規模,再看看全球各個行業的規模,硬體是萬億級,而行業是百萬億級,這說明了什麼。
你構建的軟體基本上要維護到你有生之年。我們從未放棄過一塊軟體,CUDA 之所以被使用,是因為我告訴所有人我們會維護它直到永遠。我們是認真的。我們仍在維護。
前幾天我看到了一篇評論,提到 NVIDIA SHIELD,我們的 Android TV,這是世界上最好的 Android TV,七年前釋出的,它仍然是喜愛電視的人群的首選 Android TV。上週我們剛更新了它的軟體,大家還在寫新報道。
GeForce 擁有 3 億全球玩家,我們從未拋棄過其中任何一個。因此,我們的架構在不同領域的相容性使得我們能夠做到這一點。
否則,我們的公司需要的開發團隊規模可能會比現在大百倍。這就是我們對這一點的重視,這也帶來了開發者的好處。
Elad Gil:
最近令人印象深刻的一個例子是,你們為 X.AI 迅速建成了一個叢集。你可以談談這個嗎?因為在規模和速度上都很驚人。
黃仁勳
你知道,這要歸功於 Elon。首先,決定做這件事,選址,提供冷卻和電力,然後決定建造一個 10 萬 GPU 的超級叢集,這是同類中最大的一個單元。
然後我們倒推,開始規劃他預定的上線日期,幾個月前就確定了上線時間。
所有元件、OEM、系統、與他們團隊的軟體整合、網路模擬,我們預先配置了所有網路,搭建了數字孿生,預配置了所有供應鏈,佈線網路、接線的先期版本等——所有這些都在零號系統上預先測試過。
等到一切到位,所有演練都完成了,整合完成,甚至是大量團隊 24 小時不間斷地佈線,在幾周內完成了叢集部署。
這確實體現了他的意志力,以及他如何克服那些看似不可能的挑戰。這是首次在如此短時間內完成如此規模的計算機,除非兩支團隊從網路到計算、軟體、訓練、基礎設施、電氣工程、軟體工程等各方面都通力合作。這確實很棒。
Sarah Guo:
在這個過程中,從工程角度看,有哪些看似最可能阻礙進展的挑戰嗎?
黃仁勳
大量的電子裝置必須協同工作。可能值得去量化它的規模,真的是幾噸裝置。這種超算系統通常從交付第一批系統到真正投入嚴肅工作可能需要一兩年,這並不罕見。
我們負擔不起這樣的時間成本,所以幾年前在公司內發起了“資料中心即產品”計劃。我們不作為產品出售,但我們必須像對待產品一樣對待它,從規劃、上線、最佳化、除錯、保持執行,目標就是像開啟一個新的 iPhone 一樣,一切自動執行。
當然,要實現這一點是技術的奇蹟,但我們現在具備了這種能力。所以如果你對資料中心感興趣,只需要給我空間、電力和冷卻條件,我們會在 30 天內幫你搭建好,這真的非常了不起。
Sarah Guo:
這太瘋狂了。如果你展望未來,想到 20 萬、50 萬,甚至 100 萬 GPU 的超級叢集,或者隨便怎麼稱呼它。到那個時候,你認為最大的障礙是什麼?是資本、能源供應,還是區域集中?
黃仁勳
所有的一切。你提到的這些規模,沒什麼是正常的。
Sarah Guo:
是啊,沒有什麼是。
黃仁勳
不可能的。沒有物理法則的限制,但一切都會很難。當然,值得去做嗎?絕對值得。為了讓我們所認為的計算機能夠如此輕鬆、如此準確地完成我們要求它做的事情,即便不是通用智慧,只是接近它,就已經是奇蹟了。我們知道這一點。
所以,我認為有五六個努力方向去嘗試實現這個目標,對吧?我認為當然有 OpenAI、Anthropic、X,以及 Google、Meta 和 Microsoft,接下來攀登的這幾步對他們都至關重要。
誰不想第一個到達?我認為重新發明智慧的獎勵非常之大,值得去嘗試。因此沒有物理法則的阻礙,但一切都會很難。
Sarah Guo:
一年前我們一起討論時,我們問你 NVIDIA 在 AI 和其他方面下一步最令人興奮的應用是什麼,你提到了一些極端客戶帶你前往的方向,以及一些科學應用。我想過去一年裡這方面已被你們主流化了。科學和 AI 的科學應用依舊是你最感興趣的嗎?
黃仁勳
我非常喜歡我們有數字化的 AI 晶片設計師。對,我喜歡我們有 AI 軟體工程師。
Sarah Guo:
我們的 AI 晶片設計師現在效率如何?
黃仁勳
非常好。沒有它我們無法打造 Hopper,因為它們可以探索比我們多得多的空間。因為它們執行在超級計算機上,有無限時間。
而我們使用人類工程師時間有限,無法探索足夠多的空間,也無法做協同探索。
我無法在探索我的設計空間時加入你的探索結果。我們的晶片非常龐大,不像是一個晶片的設計,幾乎是 1000 個晶片的設計。
我們需要在隔離的情況下最佳化每一個模組。你真的希望能夠聯合最佳化多個模組,跨更大的空間進行協同設計。
但顯然,我們將能夠在某處區域性最小值後找到區域性最大值,從而找到更好的答案。沒有 AI 是做不到的。工程師們根本無法完成,因為時間不夠。
Elad Gil:
自我們上次交流以來,另一件大事發生了變化,我查了下,當時 NVIDIA 的市值約為 5000 億美元,現在超過了 3 萬億美元。
在過去的 18 個月裡,你們增加了 2.5 萬億美元的市值,相當於每月增加 1000 億美元,或 2.5 個 Snowflake,或者加上 Stripe 一點或兩國的 GDP。這期間顯然在專注和構建方向上保持了一致性。
今天早些時候走訪這裡時,我感受到類似 15 年前在 Google 那種公司的活力和興奮。期間發生了什麼變化嗎?或者 NVIDIA 在功能、對世界的看法、能做的賭注規模上有什麼不同嗎?
黃仁勳
我們的公司不可能像股價一樣快速變化,這必須明確。在很多方面,我們沒有發生太多變化。我認為,關鍵是退一步問自己:我們在做什麼?這才是大覺醒,不僅是對公司也是對國家的重要觀察。
我認為,回到我們行業的視角,我們重新定義了計算,這 60 年來沒有發生過的重大變革。在過去 10 年,我們將計算的邊際成本降低了大約 100 萬倍,到了現在的程度,我們可以讓計算機去全面編寫軟體,這是一個重大發現。
某種程度上,我們也在談論晶片設計。我們希望計算機能去發現一些我們自己無法做到的東西,探索我們的晶片,並以我們無法做到的方式進行最佳化。類似於我們希望它能在數字生物學或其他科學領域實現的那樣。
所以我認為人們開始意識到,當我們重新定義了計算,這究竟意味著什麼。突然之間,我們創造出了所謂的“智慧”。計算發生了什麼變化?從多租戶檔案儲存的資料中心,轉變為這些新資料中心不再是資料中心了。
它們通常是單租戶,並不儲存我們的檔案,而是生產一些東西——它們生產 token,這些 token 被重構成某種“智慧”。對嗎?各種形式的智慧,可能是機器人運動的表達,可能是氨基酸序列,可能是化學鏈條或其他有趣的東西。
那麼我們在做什麼呢?我們創造了一種新的工具,這是一種全新的生成 AI 的工廠。我們正以極大的規模在生產 AI。
人們開始意識到,這可能是一個新行業。它生產 token,生產數字,但這些數字以一種相當有價值的方式構成。那麼哪個行業會受益?
然後我們再退一步思考,NVIDIA 一方面是重新定義了計算機,這讓我們意識到有萬億級的基礎設施需要現代化,這是其中的一層。
但更大的一層是,我們構建的工具不僅是為了資料中心,而是用於生產一種新商品。這種新商品的規模多大?很難說,但可能值萬億。
所以我認為觀眾們可以退一步思考一下,我們不再僅僅製造計算機了,我們製造的是工廠。每個國家、每家公司都會需要它。誰能說不需要生產智慧,因為已經夠多了呢?這才是大想法。
未來人們可能會意識到,半導體行業不僅僅是製造晶片,而是為社會構建基礎結構的核心。這不只是晶片的問題。
Sarah Guo:
現在你如何看待“具體化”?
黃仁勳
我非常興奮的是,我們不僅接近人工通用智慧,還接近人工通用機器人。token 就是 token,問題是能否將其轉化為具體動作。你們知道,將一切都 token 化並不容易。
但如果能做到並與大型語言模型和其他模態對齊,如果我可以生成一個影片,展示 Jensen 伸手去拿咖啡杯,為什麼不能提示一個機器人生成 token 去實際拿起杯子呢?
直觀上,你會認為對於計算機來說,這種問題的表述相似,因此我認為我們非常接近了,這非常令人興奮。
現在,我們有兩種現成的機器人系統。現成系統指不需改變環境的,即自動駕駛汽車和人形機器人。在汽車和人形機器人之間,我們可以將機器人帶入世界而無需改變世界,因為我們為這兩者設計了世界。
也許 Elon 正在專注於這兩種形態並非巧合。機器人的應用規模可能會更大,因此我認為這是令人興奮的。而它的數字版也同樣令人興奮,我們在談論數字員工或 AI 員工。
毫無疑問,未來會有各種 AI 員工,我們的公司可能會有生物員工,也會有人工智慧員工,我們會以相同的方式提示它們,是吧?我們大多數時候是向員工提供上下文、分配任務,他們會招募其他團隊成員,一起工作來回溝通。
未來數字或 AI 員工與此又有什麼不同?所以我們將擁有 AI 營銷人員、AI 晶片設計師、AI 供應鏈人員等等。希望未來 NVIDIA 能在生物學上變得更大,同時從人工智慧角度也更加龐大。這就是我們的未來公司。
Sarah Guo:
如果我們一年後再來找你聊一聊,你認為公司中哪個部分會最具人工智慧化?
黃仁勳
我希望是晶片設計。
Sarah Guo:
好,那最重要的部分呢?
黃仁勳
是的,因為我們應該從最能推動進步的地方開始,也是我們能夠產生最大影響的地方。這真的是一個極其艱難的問題。
我和 Synopsis 的 Sasina 合作,和 Kings 的 Andrew 合作。我完全可以想象他們會有專門的 Synopsis 晶片設計 AI 可以租用。它們對某個特定模組有專業知識,透過 AI 訓練得非常出色。
到我們需要的時候,我們就僱傭一大群這樣的 AI。處於晶片設計的那個階段時,我可能會租用 100 萬名 Synopsis 工程師來幫忙,然後再租用 100 萬名 Cadence 工程師。
這對他們而言是一個激動人心的未來——他們擁有這些基於工具平臺、協同其他平臺的智慧體。而 Christian 會在 SAP 中這麼做,Bill 會在服務中這麼做。
現在,有人說這些 SaaS 平臺會被顛覆,而我卻認為恰恰相反。它們正坐擁金礦,將會有大量專精於 Salesforce、Lightning、SAP 等平臺的智慧體出現。
我們有 CUDA 和 Omniverse 的 OpenUSD,我們會創造出在 OpenUSD 上非常出色的 AI 智慧體,因為沒有人比我們更關心它。我認為這些平臺將會繁榮發展,各種智慧體將相互協作並解決問題。
Sarah Guo:
你在 AI 的每個領域都看到有各種人參與。你覺得哪些領域被忽視了?你希望更多創業者、工程師或商業人士去關注哪些方面?
黃仁勳
首先,我認為被誤解的,可能是被低估的是,在科學和工程學的基礎之上,AI 正在改變科學、計算機科學的底層工作。
現在無論走進哪個科學系,或理論數學系,AI 和機器學習都正在或將要轉變它們的研究方式。
如果我們把全世界的工程師、科學家集合起來,你會發現他們今天的工作方式已經是未來的早期跡象,這將會掀起 AI 和機器學習浪潮,在短時間內改變我們的一切。
我記得當初看到計算機視覺的早期跡象時,曾與 Alex、Elian 和 Hinton 一起工作,在多倫多與楊立昆合作,當然也在斯坦福與 Andrew Ang 合作。
我們有幸從貓的識別中推演出了計算機科學的重大變革,並因此受到啟發,改變了一切。這一過程花費了大約六年時間,從觀察到 AlexNet 這樣的玩具級模型,再到超越人類的物體識別能力,只用了幾年時間。
如今在各個科學領域,不再有被落下的學科。量子計算、量子化學等科學領域都在採用我們今天討論的這些方法。
如果給我們兩到三年時間,世界將會改變。科學和工程的每一次突破背後都將有生成 AI 的支援。我對此非常確定。我經常聽到有人質疑這是不是一場潮流,只需要回到基本原理,看看實際發生的變化。
計算的技術棧發生了變化,編寫軟體的方式改變了,這非常重要。軟體是人類編碼知識的方式,編碼演算法的方式。而現在我們以完全不同的方式編碼它,這將影響一切,沒有什麼會保持不變。
我覺得我在和一群志同道合的人交談。我們都看到了同樣的趨勢,以及與我合作的科學家和工程師,這一切都將一起前行。沒有任何人會被落下。
Sarah Guo:
我覺得從計算機科學的角度看,能在不同的科學領域見證這一點非常令人興奮。我現在可以去機器人會議、材料科學會議、甚至生物技術會議,雖然不一定了解所有科學細節,但在推動發現的過程中,所用的演算法幾乎都是相同的。
黃仁勳
確實如此,其中包含一些通用的統一概念。
Sarah Guo:
看到這些演算法在各個領域都如此有效,真的很激動人心。
黃仁勳
完全同意。我每天都在用它。你們知道嗎?它現在是我的導師。我不會再繞遠路學習了,只要直接去 AI 處學。
我直接去 ChatGPT 或 Perplexity,根據我的問題去學習。然後,如果願意,可以深入探索。真是不可思議。
幾乎我所知道的一切都會去 AI 那裡驗證,甚至是我認為絕對正確的東西。會去 AI 處雙重確認。這真的非常棒。幾乎我所做的每件事,我都讓 AI 參與。
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平臺推送規則調整,有時候看不到我們的文章~
歡迎大家進入公眾號頁面,右上角點選“設為星標”點亮⭐️,收藏我們的公眾號,新鮮內容第一時間奉上!
*文章觀點僅供參考,不代表本機構立場


相關文章