AGI馬拉松與大基建

01.
AGI 馬拉松:漸進式解鎖模型能力
 張小珺:從年初到現在, 先是 OpenAI 釋出了 Sora, 接著 Google 和 Elon Musk 都加入了開源大戰、 Anthropic 釋出了 Claude 3,以及英偉達的  GTC ,這些事件都被冠以“科技界春晚”的頭銜,有哪些是讓你覺得很震驚的?你認為這些事件對於今年的 LLM 格局、以及更長時間維度的 AGI 演進分別有多大影響?
李廣密:第一點是 GPT-4.5 和 GPT-5 比預期的來得慢,之前以為 Claude-3 釋出之後 OpenAI 就會發新模型了,但現在 SOTA 模型已經易主一個月了,所以 AGI 的戰線可能會被拉長。第二點是 Sora 比預期來的要早,這意味著今年大家對多模態的理解和生成的進步幅度都會很大,將會解鎖很多新東西,但多模態能不能帶來智慧和 AGI 還是一個很強的非共識。第三點就是 Elon Musk 加入了開源,開源模型能力的水位線會被提升很多, xAI 的人才密度很強, GPU 也足,這會決定了很多後面模型公司的生死線。
當然還有一點就是英偉達的股價,去年這個時候預計會漲,但沒想到能漲 3 倍這麼多。大家都覺得 AGI 很大,但是還是低估了這個浪的大小。所以更加明顯的一個感覺是英偉達還是這輪 AGI 最關鍵的一環,短期老黃可能是比 Sam 要重要的。
 張小珺:Elon Musk 和 Google 都加入了開源,你怎麼看 Google 的開源?
李廣密:Google 現在發的還是小模型,我感覺他們不會把最強的模型發出來。開源的主力可能還是 xAI 和 LLaMa。我比較擔憂的是,隨著開源模型的不斷發展,它們可能會削弱許多閉源模型的商業價值。但是從另一方面來說,最強的閉源模型的最佳化能力是很強的,我相信最強的模型不僅能力最強,而且成本最低。當然開源模型也有開源模型的好處,很多人拿它來方便自己使用,所以未來它還是會覆蓋很多企業內需求場景的。
 張小珺:怎麼理解“開源模型會打掉閉源模型的商業價值”這句話?更早之前你說過閉源會比開源強很多,為什麼會產生這樣的認知變化?
李廣密:如果我們把 GPT-3.5 水平的模型開源了,那大家就不一定會再去調 GPT-3.5 的 API,OpenAI 作為最強閉源模型的商業價值就會有所下降。如果沒有開源模型,大家就只能去選最強模型公司的 API 了。
閉源模型還是會比最強的開源模型強很多,因為後面還涉及比較複雜的推理,如果模型多步推理的準確性很差,就無法完成有經濟價值的任務。但開源模型還是可以完成很多簡單任務的,所以開源的價值仍舊存在。其實大家現在都不確定 Elon Musk 的 xAI 會不會持續開源,如果它持續開源,開源模型的水位還是會比較高的。
 張小珺:你怎麼看“多模態能否帶來更高的智慧”這個問題?多模態能通向 AGI 嗎?
李廣密:今天多模態有幾層作用:第一層是文字資料不夠用了,可以補充文字資料;第二層是理解能力變強,這會對使用者體驗有很大的影響;第三層是生成,包括影片在內生成的效果今年也會大幅提升。但是多模態的資料對模型的推理能力有沒有大幅提升,以及這是不是 AGI 的主線,我們還沒有得到驗證。至於 Sora 到底是不是 AGI 的主線,這一點見仁見智,很難定義清楚。
 張小珺:相比去年底,今年的第一個季度有沒有什麼讓你感覺明顯不同的地方?
李廣密:去年初覺得 AGI 是一個百米衝刺,大家都沒做好準備,今年覺得 AGI 應該是馬拉松,大家都有充足的時間做準備。去年覺得只要無限地加 GPU、加資料就能到達 AGI,但今年突然發現 GPU 的資料中心和物理硬體是一個很大的瓶頸,比如單體的資料中心現在加到 3.2 萬卡,可能再往上就要突破很多。除此以外,美國的能源基建其實都是四五十年前規劃的了,能源結構也很不同,突然新增了很多用電量,確實是跟不上了。今年最大的一個感受就是物理硬體成為阻礙 AGI 實現的最大因素了。
 張小珺:Elon Musk 和 Google 都加入了開源,你怎麼看 Google 的開源?
李廣密:OpenAI、Anthropic、Google 還是明確的第一梯隊。
Elon Musk 的 xAI、歐洲的 Mistral、Meta 的 LLaMa 是比較明確的第二梯隊。其中 xAI 機會最大,xAI 有兩個層面:第一個層面是它是全球範圍內衝擊新的第一梯隊的唯一黑馬;第二個層面是如果持續開源,那麼它會對整個模型的格局、生態和商業價值有比較大的影響。但第二梯隊的關鍵都在於他們能否在今年夏天或者今年年底前做出 GPT-4 水平的模型。
再往後看,其實 Inflection 現在已經掉隊出局,今年 Character.ai 和 Cohere 的挑戰也很大,可能今年年內就得找買家了。
訓練一個 GPT-4 水平的模型是很難的,其實很多人還沒有真正開始規劃 GPT-4,沒開始訓練。
 張小珺:怎麼看 Inflection?有人說它是第一個失敗的 VC 重注的大模型公司。
李廣密:沒想到模型收斂如此之快,計算競爭是很殘酷的。我最大的感受是,其實大模型 VC 是投不動的,這還是一個巨頭的遊戲,而 Inflection 是沒有繫結一個更深的巨頭的。另外一個感受就是,我們還是要看人才密度,OpenAI、Anthropic、Google 和 xAI 的人才密度明顯比其他公司要高一截。
 張小珺:矽谷的 VC 現在都在投些什麼?他們去年在 AI 上投入大嗎?今年是更激進了還是更保守了?
李廣密:矽谷 VC 投資主題好像是三大件:Coding、agent、機器人。不過我對這三大件還是有很大懷疑的。Coding 一定是在大模型公司和微軟的核心射程以內的,因為核心能力都是來自模型公司,這些 coding 的創業公司不會訓練自己的大模型,我不確定上面最佳化層的價值有多大。
另外,模型公司可能會很激進地做 agent,因為這個附加值高。模型即能力,模型即應用,模型即 agent。整個價值沉澱我傾向於短期內還是模型本身。Cognition 和 Magic 在沒有收入、沒有客戶的情況下就有兩個 billion 的估值了,說明矽谷的對 Coding 的 hype 還是比較高的。機器人現在是很多 researcher 創業的首選,因為比較容易講故事,覺得未來會有一個 embodied OpenAI。OpenAI 最近也投了幾家機器人,也許一個好的 timing 就得 bet 對一個比較強的團隊,核心是未來能不能融更多的錢,以及讓核心的 researcher 更收斂。我覺得投資節奏整體正常,就是有一定的 hype,估值比較貴。
 張小珺:今天的融資單位已經變成了 billion 級別,中國和美國的商業歷史上出現過類似的情況嗎?
李廣密:這也是為什麼我們把 AGI 比作大基建。其實中國做過很多類似的事情,比如公路建設、電信 5G 的建設、包括城市化建設,其實有了這些也才有短影片、直播、外賣,這些建設投入是遠超 billion 甚至 trillion 級別的基建投入,電商物流建設也是巨大的投入。
今天的 AI 投算力、投新型的資料中心,就是處在一個大基建的狀態。這件事其實是一直在發生的,就像美國很早的時候就有曼哈頓計劃造出原子彈,但更重要的是整個計算機體系是在那誕生的。再後來美國登月,美國登月最大的意義在於把電子產品微型化,才有了個人電腦。1993 年克林頓推出美國的資訊高速公路建設計劃,並投入了 GDP 的 5%,才有了後面的美國網際網路黃金的 20 年。這些都是跟基建有關的,如果沒有基建就沒法談應用大爆發了。
 張小珺:更長遠一點來看, AGI 對於人類社會可預見的變化在多長的時間維度中能有多大?這波浪潮中誕生的巨頭會比網際網路時代更龐大嗎?
李廣密:首先, AGI 不完全是一個商業問題,而是一個科學發現問題,它背後是永無止境的研究精神、發現精神、探索一些新的能力。抽象中總結,這就是用能源加晶片產出智慧,未來就看這個智慧的產出效率和能力到底有多高。那智慧該如何定價?我比較相信的就是科技進步還是創造增量價值最大的一個要素,歷史上好像每一波技術變革的頭部公司都比上一波要加一個 0。之前人們覺得做 VC 投到一個獨角獸就很牛,但今天好像融資單位就以 billion 為單位了,錢也毛了。我有一個比較切實的體會就是,2010 年時蘋果也才 2000 多億美金,那時我們不會想象到全球還會有萬億美金的公司。2016 年時,我們看英偉達從 200 億美金漲到了千億美金,我們更不會想象今天它還能那麼大,這就回到了今天 AI 領域最大的一個非共識,也就是不知道 AGI 有多大。英偉達有很大機率在這一兩年內登頂全球最大公司,而且它長期的體量也可能超出我們預先估計,GPU 太重要了。
從另一方面來說,這個比網際網路時代的巨頭要不要大?這一點跟 GDP 直接掛鉤,未來你能滲透到全球 GDP 的佔比,直接 take rate,這是比較高的。另外一個演算法,如果你能造出來全球 3 億白領,每個白領年薪 3 萬多美金,這也是 10 萬億級別的收入,如果要對應到 market cap 那就還要乘 10。
02.
登頂 AGI :南坡模型,北坡產品
 張小珺:對於 AGI 的定義業界現在有共識嗎?
李廣密:覺得對 AGI 的理解還沒有共識,大家對這個概念的理解是因人而異的。可以從幾個角度來定義:
第一種,也就是最激進的情況:AGI 能在 90% 的行業,超過 90% 的專家,完成 90% 有經濟價值的工作,這三個 90% 還是很激進的。之前 Sam 也提過,不應該從替代人的角度去思考,而是在所有的工作任務當中,有多少需要 5 秒內就能完成的,這些肯定是模型第一波就能替代掉的。 
第二個角度就是關於 AGI 什麼問題最重要?其實還是智慧能力本身。今天很多人討論形態、載體,可能還不一定那麼重要,但是我們肯定會從數字世界走向物理世界,那麼思考物理的機器人和裝置怎麼把智慧的能力產品化,就是創業者很大的機會。 
另外一個我很強的感受是 AGI 不是一蹴而就的,我的一個關鍵詞叫“漸進式解鎖”,就是我們畫一條登山的路線圖,模型能力每長一些,就會解鎖一些場景,誕生一些應用。那這個應用能創造出相應的經濟價值。我聽到最強的一個敘事是:AGI 能在未來 10-15 年讓全球 GDP 翻倍,從今天的 100T 漲到 200T,但今天 100T 的 GDP 和這波 AGI 直接相關的可能還不到 0.1%,離解鎖 90% 還很遠。目前體現在寫程式碼和資訊檢索的提高,往後 10 到 20 年可能就是個從今天只解鎖 0.1% 到解鎖 90% 的一個過程。
理解漸進式解鎖這個關鍵詞很重要,我們內部也一直在畫一個路線圖,包括未來 AGI 登頂的過程中所需要的東西。眼前我最期待的還是改變軟體生產方式和資訊檢索這兩個方向。
 張小珺:可以給我們構建一下你眼中的AGI 關鍵路線登山圖嗎?
李廣密:兩面——南坡是模型,北坡是產品。
模型最底層的還是 scaling law,更多資料、更多 GPU、更多能源,就看產出智慧的效率是不是能持續提高。模型最重要的能力還是推理能力,到未來模型必須具備複雜推理能力才能完成有經濟價值的工作任務。我比較看重模型的程式碼能力,這可能是 AGI 最早落地的一個訊號,它既是一個走向 AGI 的能力,也是一個產品改變軟體生產方式。多模態能力也非常關鍵,它不僅能補充更多的資料、互動效率,而且有希望讓多模態能力變強,對自動駕駛和機器人有提速作用。Agent 也是關鍵詞,但今天 agent 還不太 work,最主要是模型的 reasoning 能力不夠強、不夠準確,現在模型很容易在多步或者幾十步推理任務中失敗。 
另外一個觀點是,模型公司就是 agent 公司,很多的 agent 大模型本身就會自己做,只是能不能做好的問題。接下來模型公司的一個大的附加值可能會體現在 agent 上,因為第一波敘事大家都講了 scaling law,後面大家可能就會講 agent,這是南坡模型能力相關的。
在北坡,產品上,就看接下來誰能做出來上億活躍使用者的 killer app,今天可能只有一個 ChatGPT,我是比較期待資訊檢索有大的變化的,因為之前的搜尋結果都是連結和網頁,現在搜出來是答案。未來還有多模態的搜尋,甚至還有更多主動式的互動可能模型,能直接給人們推送他們潛在想要的。 
從 ChatGPT 的使用者增長角度來講,ChatGPT 目前在 5000 萬 DAU 橫盤幾個月了,如果要積極地做使用者增長,它一定要做搜尋才能突破到幾個億的活躍使用者。這是過去 20 年裡,唯一可能挑戰 Google 的一個技術視窗,我今年也比較期待看 ChatGPT 能不能做好這個東西。
另外,我最好奇的一點就是,如果讓模型看一萬次蘋果掉下來,它能不能發現萬有引力定律?如果更充足的、更廣的範圍的資料灌進去,他們能不能發現人類沒有發現的問題、沒有發現的規律?這個有可能又是一個新的文藝復興。
 張小珺:模型和產品需要同一家公司來做嗎?有沒有可能一家公司爬南坡,一家公司爬北坡?
李廣密:Sam 最新的訪談說 OpenAI 在做地球上最難的兩個事,一個是做 AGI,一個是做 killer app。Anthropic 則是專注只做 AGI,它就沒有在挑戰另外一個。所以不一定非得在一個公司。
因為這件事其實對於組織能力、文化、人才和資源的挑戰是很大的,需要極強的領導力和資源和組織能力。模型和產品的人才需求的畫像非常不一樣。從另外一個角度想,如果一個產品它在解決某項任務的時候能力不行,沒辦法向下去改模型,如果一個模型公司它發現某個任務、某一類任務解決不好,那它其實可以定向的改資料、調模型。這就是一個簡單題和一個難題的問題,所以我還是相信模型公司做產品更容易,這是順手的。相反,如果產品公司想去改模型,他們沒有這方面人就改不了模型。
所以我有一個判斷:模型公司有可能就是價值沉澱最後一個地方,就像移動網際網路的價值沉澱到了裝置廠商或者廣告平臺。模型的附加價值後面肯定是比較高的,一個是老黃的 GPU 收稅,一個是模型收智慧稅。
 張小珺:現在我們能看到兩種做法:一種是專注於提升模型的能力,一心通往 AGI,並在這個過程中解鎖應用;另一種是在做 AGI 的同時孵化應用,就像一個 APP 工廠。這兩種你更看好哪一種?
李廣密:我想舉另外一個例子,SpaceX 的火箭發射能力是一個基礎能力,但它的 killer app 是 Starlink。Starlink 現在已經部署了數百萬個終端裝置,每個裝置帶來都能為其帶來可觀的收入。如果沒有火箭發射這個關鍵能力,Starlink 就無法將衛星送入太空,從而無法建立起全球網路覆蓋。
另外 SpaceX 可能還能開發出另外一個 killer app,就是 Starship,想要去顛覆波音空客,就是未來上海到紐約兩個小時,未來它可能還有更多的 killer app,它是一個關鍵能力。 
但從另一個角度來說,如果大模型是電,那燈泡不一定是電廠做出來的。所以我們還在一個變化的過程當中,但我更傾向於大模型公司是一個基礎發現的 research lab。有的 lab 可能有商業能力,會做出一些頭部應用,但這比較考驗組織能力。有可能頭條這種公司或者中國的創業者比美國的 research lab 更強。
 張小珺:OpenAI 開始更激進地做應用了,這意味著什麼?
李廣密:一邊做科學發現,一邊做商業化,要把這些可以發現的價值給接住,這個也很合理,也表明 OpenAI 也會和一部分創業公司去搶一些市場,畢竟還有很多垂直行業它也做不了。
假如我是 Sam,而 AGI 可能需要長達 10 年的時間,且每年都需要幾個 billion 級、甚至 10 個 billion 級別美元的投入,我是需要商業化的,需要有不斷的持續健康的現金流來支援 AGI 這件事。純靠融資是很難融到那麼多錢的,也不能只依賴微軟。所以要健康的走向 AGI,這是一個比較關鍵的點。
 張小珺:你覺得有什麼是 OpenAI 公司做的?有什麼他們一定不會做的?能不能預測一下 OpenAI 接下來都會做什麼?
李廣密:Sam 在自己最新的訪談中說 OpenAI 在做地球上最難的兩件事:一個是做 AGI,一個是做超級應用。OpenAI 在 ToB 企業側可能更難一些,因為企業客戶還是一個講信任的生意,現在絕大部分企業覺得把自己業務流程放到 GPT 上有點不放心,而且微軟在企業的客戶信任太深了,OpenAI 的 ToB 的價值有可能會被微軟拿掉很大的一部分。
OpenAI 必須要做好的首先是模型最領先,二是把 ToC 這塊做成一個流量入口。垂直領域它不一定會做,因為戰線拉太寬了,但可能會持續加上垂直領域的資料,從而把一些 use case 給做得更好。我覺得不一定要讓它去做法律、做金融、做教育,我比較關注 OpenAI 會不會做機器人。他們以前覺得做機器人太慢,但最近一年好像又投了 3 家機器人公司,現在還是一個扶持的狀態。如果機會到了,它有可能會做機器人,因為機器人從數字世界走向物理世界,這對 AGI 比較關鍵的。 
如果是我,我會先把 ChatGPT 從 5000 萬的 DAU 做到 3 個億,這有可能會對 Google 產生 fundamental 的影響,或者說這就多出來一個很大的增量價值了。因為 ChatGPT 現在還不到 1000 萬的付費使用者,如果做到 3000 萬的付費使用者,就是每年 60 億美金的訂閱收入,那就可以比較健康地支撐 AGI 每年的投入。 
拿 Mega 7 來對比的話,OpenAI 很難跟微軟去搶 ToB 的市場,很難跟英偉達去搶晶片的市場,更難跟 Apple 去搶終端市場。大機率 Google 是個軟柿子,那就去搶資訊檢索的市場,這比較 make sense。以及誰的模型更領先。
 張小珺:OpenAI 憑什麼估值 1000 萬億美金?
李廣密:可以把 OpenAI 看成微軟的 AI 部門,微軟因此漲了 1-1.5 萬億美元。Tesla 的 AI 業務可能都值 2-3 千億美金。
 張小珺:AGI 時代的 killer app 現在能看到一些模糊方向了嗎?
李廣密:Killer app不一定在以 APP 的形態出現,因為 APP 還是一個網際網路的產物。也有可能就是更隨時隨地的一個 agent 或者 Multi model agent,更不一樣的互動。比如資訊檢索就是一個潛在 killer app 的方向。現在我用 Claude 3 跟它靈感的激發 Brainstorm。
另外,軟體的生產方式可能會發生很大變化。自然語言程式設計的前景確定性比較高,它可能使得每個人都能成為產品經理,只要有需求就能生成相應的軟體。我比較期待 agent 今年能有 1-2 個比較好的 use case 出來。今天 agent 好像沒什麼 use case。
 張小珺:為什麼最期待改變軟體生產方式和資訊檢索的這兩個方向?它會顛覆 SaaS 行業和 Google 嗎?
李廣密:我們在 3 年內是有機會看到 coding 領域 AGI 的,也就是說做各種任務都不錯的一個程式設計師,因為大部分的任務其實沒有像軟體開發這麼明確和有邏輯,軟體供給的方式會發生很大改變。
舉一個最形象的例子,過去的軟體其實很像自動販賣機,只有有限的 SKU 供給,無法滿足大量非標的需求。而未來的軟體供給更偏向於酒吧的調酒師,可以調出人們想要任何口味,這個長尾需求是很大的。未來我們或許可以透過精準的自然語言描述、甚至簡單的自然語言描述來進行軟體開發。如果模型能用工具呼叫,就很好解決了。如果沒有滿足的工具,那模型 coding,甚至生成很複雜的一坨程式碼,自己 run code debug 會多出來很多軟體程式。 
這樣的話,開發者或者產品經理就不是今天的幾千萬,而變成人人都是產品經理,這個是真的會實現的。最簡單一個例子就是,現在人人都有有手機,可以用來拍短影片、拍電影,這在以前是不行的,這體現了 power 在變強。但我最擔心的是,微軟和 OpenAI 是很激進的,它們可能會把很多的工具型的或者 feature 型的 SaaS 都幹掉,只有積累很深的 workflow 和資料的軟體公司才能維持發展,比如 Salesforce 和 ServiceNow。 
過去 20 年曾有無數對手挑戰 Google,但它們都失敗了,這很大程度上是因為沒有 fundamental 的技術變革,但這一次大模型是給了大家機會的。另外一個點是,我們可以看到 Google 裡面好多都是事實性的一些搜尋、電商、旅遊,去 YouTube 的網站,但其實有一類問題是沒有回答好的,就是“問答”。問答可能是皇冠上的明珠,如果你能解決的非常好,其實使用者信任和長期留存會是更好的,相對應,使用者價值也會做出來。
 張小珺:在這種情況下,你會給 SaaS 公司給出什麼建議?它們需要做些什麼?
李廣密:只能積極擁抱,組織上多擁抱年輕人。以前軟體開發的方式跟現在軟體開發的方式有了 fundamental 的不同,因為以前是把固定的需求抽象出來、再交給開發團隊去開發。今天它就是不確定的需求,你未來要用好模型的能力。
 張小珺:現在問答難解決的主要是因為 hallucination 嗎?
李廣密:還是模型的智慧水平不夠。有一個例子,我經常問模型的一個問題是,“總結過去 5 年美國市場股票裡漲幅最好的大體量公司的營收、利潤等一些情況,再把這些資訊拉一個表”,這是一個很簡單的分析師的工作,但其實很少有模型能幫我弄好今天很多模型還做不到的,但未來是需要的,這就是任務,任務的價值會比搜出來網頁連結的價值要大。
03.
AGI 大基建時間表
 張小珺:我們現在把當下這個環境比作 AGI 的大基建時期,AGI 大基建現在的關鍵瓶頸在哪裡?這些瓶頸是隻要有時間就可以解決的嗎?
李廣密:目前瓶頸主要集中在算力和資料中心建設方面。即便擁有數萬張 H100 高效能計算卡,也不一定能在三個月內投入實際使用。萬卡叢集的互聯通訊難度很大,對穩定性的要求極高,同時 GPU 資料中心的能耗問題和散熱需求也不容忽視。
位元驅動的數字世界迭代是很快的,但原子驅動的物理世界迭代是跟不上的,這也是為什麼我們提“大基建”的原因,很多年物理的機器是要很長週期的基建迭代去跟進的。因為歷史上軟體和硬體是交替發展的。比如矽谷的頭 30 年就是計算的時代,後面的 20 年是網際網路時代,今天可能又進入到了計算的時代。
但好在這些物理問題不是 research 層面的問題,是工程和基建的問題,是隨著時間可以解決的。短期內,可能還是 GPU 產能,包括臺積電,以及上游的 CoWos、HBM 這些。
 張小珺:算力從千卡叢集到萬卡叢集,再到現在 3 萬卡叢集中心,造價成本變了多少?難度有多大?
李廣密:假設每張 H100 售價為 3 萬美金,再考慮到必要的周邊裝置和網路互聯等成本,整體支出可能會到 4 萬多美金。如果以 8 千張計算卡來計算,總成本將超過 3 億美金,3.2 萬卡叢集就意味著 12-13 億美金。最難的還是資源越來越收斂,能夠部署大規模叢集的客戶數量是很少的,可能最最終只會收斂到四五家大型客戶:微軟、 Meta、 AWS,xAI 可能也是一個。OpenAI 已經包含在微軟那裡了 OpenAI , Google 有自己的 TPU,它可以很大叢集,就比較少了。
影響這一趨勢的因素包括:首先需要找到適合建設 GPU 資料中心的合適土地,其次是穩定且成本較低的電力供應,再者是資料中心之間的互聯通訊、散熱和運維的可靠性。
還是回到之前的問題,物理世界的基礎設施改造相比數字世界的迭代更新要慢。物理世界的迭代受限於多種實際因素,如建設週期、成本投入和地理環境等,這些都使得物理基礎設施的更新換代速度無法與數字技術的發展速度相匹配。
 張小珺:訓練出我們慣常說的 GPT-3.5 水平和 GPT-4 水平需要多大的算力和多少能源?
李廣密:我們可以做個對比,三峽單日的最大發電量和上海日均用電量是差不多,都是 5 億度,美國整個德克薩斯州的日均用電量應該是 10 億度多一些。
如果我們假設 GPT-3.5 是 500 張 H100、訓練了 15 天,大概用 25 萬度電,其實就是三峽電量和上海用電量的 0.05%,也就是整個美國德州的 0.02%;
假設 GPT-4 用 8000 張 H100 訓練 100 天,大概是 2600 萬度電,那就需要三峽或上海一天的 5%,德州的 2%;
假設 GPT 5 用 3.2 萬張 H100 訓練 100 天的話,那其實就要 1.1 億度電,大概是三峽或上海一天用電量的 20%,德州的 8%- 10%。這樣算下來,每張 H100 租用成本最低約為 3-4 美金一個小時,大客戶還能更便宜一些。
 張小珺:Elon Mask 也提到了能源問題,10 萬的 H100 意味著什麼?
李廣密:中美能源結構還是有很多不同的。10 萬 H100 用電量一年大概是 12.4 億度,大概是整個上海用電量的一年的 0.8%,大概對應美國整個德州的 0.3%。再拉長看一下,美國一年總用電量在過去 20 年裡都是一直比較穩定的,大概都是 4 萬億度,其中資料中心可能用 2000 億度,大概就是 5%。但媒體現在都預測,到 2028 年資料中心應用電會到 6700 億度電,也就是說 5 年漲 3 倍,從 5% 增長到 16%。這其實對製造和基建能力明顯退化的美國來講是一個很大的挑戰。
 張小珺:能源轉換效率是可量化的嗎?
李廣密:這就回到了 AGI 的本質,也就是透過電加晶片產出智慧。今天我們面臨的主要問題是怎麼給智慧定價。開車的話我們可以計算單位里程的能耗,但今天最主要的問題是沒辦法給智慧定價,我也挺好奇未來怎麼定價的。現在所有的 AI 產品都是 20 美元一個月,這種定價是 seats-based。我在想未來能不能實現 value-based 的模式,按照智慧的 value 來 pricing。
 張小珺:你的一個觀點是“2024 年是大模型公司的收斂之年”,在這一年裡,創業公司或者巨頭要投入多少才能跨越生死線?
李廣密:首先看未來 12 個月能不能有 10 萬卡的 H100 叢集,對應 30-50 億美金的投入。計算競爭是很殘酷,未來可能更殘酷,每個時間段可能都會有出局的。今年必須得用上萬卡叢集了,但能做好萬卡叢集的公司還是比較少的。 
技術上,今年的目標應該是超越 GPT-4 模型的水平。做到這一點需要有非常強大的團隊支援,比如 Elon Musk 的 xAI 團隊就很強。對於第二和第三梯隊的模型公司,包括國內的模型公司,他們需要超越現有的最佳開源模型,不然商業價值也比較小。
 張小珺:對於一家巨頭或者一家創業公司來說,訓練 GPT-4 需要多少錢?
李廣密:一個 GPT-4 現在最低也要 8000 張 H100 的有效算力,接近一個萬卡叢集。萬卡叢集會是一個標配。如果是買卡的話,每張 H100 售價 3 萬美金,再加上週邊裝置,3 億美金是少不了的。3 億美金是 GPT-4 的入場券。當然也可以租,如果租 H100 一年,並且折扣比較好的話,一萬多美金一張卡,差不多 2 億美金。 
但今天萬卡叢集在中國還是比較少的,瓶頸不在錢上,如果要把每張卡都連起來,這種互聯的難度其實是很難的,網路拓撲結構是很複雜的問題。
 張小珺:在基建投入上,模型公司如果想跨越生死線,存在一個基本標準嗎?
李廣密:要看未來 12 個月能不能有 10 萬張 H100 的叢集,大概是 30-50 億美金,這才是明年第一梯隊模型的一個標配吧。計算就是很殘酷的,未來可能更殘酷,每個時間階段都會有模型公司持續出局。
 張小珺:大基建現在有哪些公司在投資?進展到什麼程度了?
李廣密:我們可以參考英偉達 GPU 出貨量和 TPU 的出貨量,或者計算臺積電的產能。微軟和 Meta 可能買走了 1/ 3 的 GPU 的數量,矽谷最大的幾個生意第一波最受益的還是晶片,晶片裡面最重要的還是英偉達和臺積電。
第二波可能來自於廣告平臺。Meta 的廣告收益轉化效率正在提升,Google 的廣告收益效率同樣在增長。
第三波是雲廠商,因為無論是晶片還是模型,都需要在雲平臺上執行,整個企業客戶的繼續上雲的需求還是很強,雲廠商有希望未來每年很長時間保持年化 15% 的複合增長。最後可能是兩個終端,蘋果和 Tesla,它們是大基建最重要的幾個關鍵玩家。
 張小珺:大模型對於英偉達和晶片的業務的影響有多大?
李廣密:這個具體不知道,但我們可以看微軟向 OpenAI 投資了 130 億美金,大概可以買 30-40 萬張卡,從另一個角度來看,另外一個角度我們還可以看英偉達今年的出貨量,預計是 400 萬片,並且假設 OpenAI 能夠獲得其中的 5%,那麼它每年需要新增 20 萬張卡。如果每張卡的成本是 3 萬美金,再加上其他相關裝置的費用,那麼每張卡的總成本高達 5 萬美金。這樣算下來,OpenAI 每年在硬體上的新增投入可能要達到 100 億美金。
這樣算的話,OpenAI 手頭的資金可能並不充足,他們可能還需要進行更大規模的融資活動。當然,也有可能 OpenAI 是透過租賃的方式來獲取這些計算卡。如果每年租賃 H100 計算卡的費用僅為一萬多美金,那麼對於頂尖的 AGI 公司來說,他們每年至少需要幾個 billion 的投入,並且這樣的投入可能需要持續多年。
 張小珺:你預期 AGI 基建的時間表是怎麼樣的?達到什麼程度意味著基建完成了?
李廣密:我最近的感受是 AGI 的時間表肯定拉長了。主要是去年太興奮了,覺得兩三年後我們就實現 AGI 了,但我現在覺得預期更長了,至少拉長到 3- 5 年,甚至 5- 10 年,當然也得動態的看,因為每個人對 AGI 定義不一樣。
去年 OpenAI 連續釋出了 ChatGPT、GPT-3.5 和 GPT-4 等模型,大家覺得節奏很快,但其實這些模型背後都是他們提前 train 好很久了,只是去年這個時間點才同時發出來。過去一年當中沒有大幅超越 GPT-4 的模型出現,這說明訓練大的模型還是很難的,它不僅是一個 AIML 數字化的問題,還是很多物理硬體問題。
H100 規模化的到貨都是去年底了,而且資料中心建設都要幾個月,還要把利用率提上去。人的預期可以飛得很快,但是物理世界是跟不上的。比如跑步,即使有意志力和體力跑馬拉松,但是膝蓋一個小環節跑不下去,人就跑不下去。膝蓋的問題可能不是膝蓋的問題,而是肌肉的問題,但肌肉的問題有可能是訓練方式的問題。
所以我最近一個強烈感受就是, AGI 的時間表跟物理硬體機器的迭代高度相關,才能支撐數字世界持續迭代。大基建是看不到結束的那天的,過去幾十年,半導體是很偉大的一個發明,而且這個趨勢還會繼續。
 張小珺:大基建週期預計全球投入花多少錢?泡沫有多大?
李廣密:預計到 2024 年,GPU 的產量將達到約 400 萬片,到 2025 年可能會增長至超過 600 萬片。未來每年複合增長可能都不低於 30%。再過三四年後,AI GPU 應該是一個3-4 千億美元的產業規模,這裡還不包含 Google 的 TPU 和 ASIC 晶片。
我覺得更值得提的是,美國的曼哈頓計劃,現代電子技術的起點、還有太空競賽,包括克林頓投入 5%-6% 的 GDP 去建的高速資訊網路。中國過去一系列的基建,包括公路建設、5G 、城市化建設,催生了短影片、外賣、直播、電商。
基建來了應用才能大爆發,AGI 目前才剛開始,長期看不算泡沫。把錢交給最厲害的科學家,有時候一個新發現能帶來很大的經濟價值的突破,甚至社會價值。
 張小珺:大基建其實會貫穿著整個通往 AGI 這條道路?而不是到一個某個時期就結束了?
李廣密:首先計算的迭代可能停不下來。比如單顆晶片現在的摩爾定律還在提,依然沒停下來,但進步速度變慢了。現在老黃又在提整個資料中心的摩爾定律,透過互聯把整個資料中心變成一個大晶片,再用這種方式繼續。還有另外一種是解決跨資料中心的效率提升。我覺得這個過程是停不下來的,如果非要說一個時間,可能 10-20 年就是一個大基建的週期。
 張小珺:你覺得中國的 AGI 大基建和美國的 AGI 大基建兩邊的敘事差異是什麼?
李廣密:美國曆史上還是有大航海發現精神,包括東岸登陸、開墾美洲大陸、曼哈頓計劃等等,這是一個面對不確定性的樂觀的冒險精神,最主要的原因還是資本和退出比較充足、富得早,有足夠多的錢來支援 fundamental 0-1 的試錯和發現。歷史上很多 0- 1 的東西確實是美國搞出來,包括晶片、計算機、網際網路,甚至是東岸地區的製藥。他們的文化裡面好像有一種重投入的傳統。
但另外一個角度看,矽谷的 VC 幾乎全線 miss 掉了大模型的投資,好像這些人對大型模型的理解還不夠深入,全都是巨頭在支援的。中國的 VC 好像更爭氣一些,投了國內的幾家從 0-1 的大模型公司。這可能是因為矽谷的 VC 在過去對重資產專案的投資上吃過虧,比如他們也 miss 掉了 Tesla 或 SpaceX 這些公司。其實在這波 AGI 的浪潮之前,機器人在他們那邊都屬於一個邊緣賽道,但現在是矽谷最火的賽道。
矽谷的 VC 喜歡“小錢辦大事”,但我覺得這次的情況不一樣,因為可能價值鏈是發生了一個大的變化,價值會沉澱在模型,那這裡面可能大家都是要交學費的。
回頭看中國,我們解決問題的能力很強,但提出新問題的很少。0-1 很少,但 1-100 很強。中國能不能做 AGI 的大基建,現在就是卡的問題,我們只能期待未來的國產晶片,期待華為的卡未來更好。
另一個不一樣的點是,美國真的在做 AGI,而中國目前還在真正地追 GPT-4 以及追誰是第一名。還是辨識度的問題,差異怎麼拉開。大家可能過了 3.5 的水平,但 3.5-4 之間的跨度還是不小的。
04.
Scaling law 能通往 AGI 嗎?
 張小珺:你今年對 scaling law 有什麼新的認知嗎?它是加速增長,線性增長還是它的增長放平緩了?
李廣密:從細節來看, GPT-4 公開的是 1.8T 的引數 MOE 架構,大概 train 了 13 個 T 的資料,大概是 2.5 萬張 A100 訓練了 100 天。外界都在猜 GPT 下一代模型能 scale up 多少倍,假設下一代模型的引數和資料量都增加 3 倍,那麼所需的計算力將會增加 9 倍。老黃公佈的 3.2 萬張 H100 GPU 的叢集,再加上一些最佳化效率的提升是剛好 match 的。但如果引數和資料量都增加 10 倍,那就是 100 倍的 compute 的提升,很明顯現在 GPU 算力叢集是不夠用的。 
又回到大基建問題,就是物理機器的瓶頸。今天是沒法 scale up,增加資料量比增加引數的 ROI 明顯要高。高質量的資料好像永遠不夠用,之前就有很多人提出文字資料不夠用了。儘管現在透過合成和改寫可能擴大個小几倍,但要拿出 GPT-4 十倍的資料量,也就是 100 多 T 的高質量資料,是很難的,可能沒有人能夠做到。另一個難題是如何把多模態資料與文字資料一起拿來訓練,這是 research 問題,很容易傷害到原來的模型。 
現在對 scaling law 的一個判斷是,GPT-5 的資料量可能夠用,但 GPT 6 肯定需要一些突破。未來一兩年 scaling law 可能不會遇到問題,但之後還是要突破的。如果非要說一個結論,那就是 scaling law 並沒有減速。如果感覺變慢了,那是因為算力和資料還投入不夠。從 GPT-3.5 到 GPT-4 大概多了 20-30 倍算力,但 GPT-4 走向下一代還沒懟夠 20-30 倍有效算力。但只要有了有效的算力和更多的資料,一定會有新東西出現的。 
這會影響到整個格局和大家的關注度,圍繞晶片和互聯。接下來兩年除了 research 問題,最頭部的模型公司和大廠至少花 50% 的精力解決算力和互聯的問題。所以,這不光是一場 research lab 關於 research 的競爭,更是一場巨頭之間的博弈,涉及人才、使用者、算力,甚至輿論和股價等方面。微軟今年又投資歐洲的 Mistral,又收購了 Inflection,同時自己也在 train 大模型,它跟 OpenAI 的關係挺複雜的。微軟還是站住了最穩的位置。
 張小珺:Scaling law 接下來走下去會有瓶頸嗎?能走多遠?
李廣密:我覺得就看兩個關鍵要素:一是資料,二是 GPU。電力不是 research 問題,這個是透過投入還是能解決的。目前 scaling law 還是受限於物理計算的瓶頸,所以 Sam 提出 7 個 T 造晶片還是很有道理的。 
另外,效率也很重要,一個是 compute efficiency,一個是 data efficiency。這裡有趣的就是衡量大家的效率,同樣訓練一個 GPT-3.5 能力水平的模型,需要多少張 GPU,多少訓練資料,不同團隊可能差別很大。有人幾千張,有人幾百張就夠,range 很大。其實 AGI 的本質就是“能源+晶片”產出智慧的效率。那麼,這種效率最終能達到多高呢?
最後從架構上,agent 是否能夠完成具有經濟價值的複雜任務?next token 架構是否能夠解決長期規劃的問題?這是接下來值得關注的。如果不能,那麼 scaling 下去意義不大。
 張小珺:模型會無限變大嗎?Scaling law 能通往 AGI 嗎?
李廣密:我覺得會無限變大,引數大 10 倍甚至 100 倍,資料大 10 倍、100 倍甚至 1000 倍。訓練大模型是為了探索能力邊界,這本質上是一個科學發現的問題。但同時,為了滿足商業用途和控制成本,大家也會訓練規模更小的模型。
Google 和 OpenAI 都是這樣做的。OpenAI 訓練出的 GPT-3.5 模型就證實了這一點:即使使用較少的資源,例如 1%到 10%的訓練資源,訓練出一個規模較小的模型,它能力上仍然能夠覆蓋大多數 query 場景,並且與 SOTA 模型相比不會有太大的差距,但成本卻能降低一個或兩個數量級。如果要從頭開始訓練一個 GPT-3.5 模型,需要的卡是比較少的。這裡有一個基本的計算公式:訓練量=引數量×訓練的 token 數量×6。例如,GPT-4 模型擁有 1.8 萬億個引數,使用了 13 萬億個 token,按照這個公式計算,再乘以 6,得出的結果是需要大約 25000 張 A100 GPU。A100 GPU 的計算能力大約是 19.5T Flops,如果我們將這個計算能力乘以 60 秒、60 分鐘、24 小時,再乘以 100 天的訓練週期,還要再乘利用率,一般 50%的利用率就算是比較好的,最高可能達到 60%到 70%。
Scaling law 是目前最大機率通向 AGI 的一條路線,我們也沒找到其他路徑,所以在沒有證偽之前要投入更多的資源去驗證這件事。
05.
Sora、多模態、機器人
 張小珺:ChatGPT 和 Sora 屬於 AGI 路上的什麼樣的路標?
李廣密:ChatGPT 成功還是有很大的偶然和運氣成分的,它讓 AGI 這個概念進入千家萬戶,在科普和募集資源方面幫助更大。這確實是一個里程碑。Sora 好像和 AGI 和走向智慧好像沒什麼直接關係,這也是一個很大的非共識。但 Sora 更多的是說明 OpenAI 能力進展會很快。OpenAI 戰線鋪得更廣了,好像不是高度聚焦在 AGI 這個事。
 張小珺:復刻 Sora 難嗎?模型規模有多大?大概需要多少算力資料、訓模型的資料要從哪裡來?
李廣密:OpenAI 沒有公開 Sora 的資料情況,但透過它的技術報告,我們可以估算出來一些東西。報告中提到 Sora 的訓練過程所需的計算資源是 LLM 的好幾倍,我估計,可能需要 4000 到 10000 多張 H100 GPU 卡進行一個多月的高強度訓練,這還不包括前期實驗、探索和推理過程所消耗的大量算力。如果涉及到生成 TikTok 影片內容,每天上傳的影片時長可能達到 1500 多萬分鍾,這部分的推理成本與訓練成本差不多,兩者的費用都非常高。 
此外,OpenAI 肯定需要收集大量的影片資料,可能達到數千萬甚至上億小時,並對這些影片打標籤。他們可能會使用 GPT-4V 這樣的模型來給影片內容打標籤。具體涉及哪些資料我們是不知道的,這是很核心的。可能會使用 YouTube 的資料,同時他們也可能自己錄製很多遊戲,因為 Sora 生成的內容在風格上與微軟 Xbox 遊戲非常相似,或許也會利用一些遊戲資料。資料是很關鍵的,例如 Pika 在生成動畫效果方面表現出色,比如很多皮克斯相關的。
最近,他們的 CTO  Mira 在一次活動中提到,他們有機會將推理成本降低到與圖片生成的推理成本相近的水平,並在那時公開 release。
 張小珺:創業公司應該跟進 Sora 嗎?
李廣密:很兇險。如果誰有信心,並且融資能力很強,比如能融到 3-4 億美金。其實它需要的資料難度是介於 LLM 跟機器人之間,而且獲取資料的難度很大,卡和資料的成本都很高。但 Sora 最終產出的結果還是存在爭議,影片等不等於智慧?是不是一定要做到效果最好才有人買單?創業公司還不如想想下一步怎麼定義 Sora 的產品形態和未來 AI 內容的消費形態。
 張小珺:你預測 GPT-5 會什麼時候到來?
李廣密:今年夏天或者下半年,但這個都是猜測。GPT-4.5 肯定會更快,但我們還不確定 4.5 相比 4 能有多大的提升,可能它不會有根本上的提升。如果是 4- 5 才是代際上的提升,才能有更多值得期待的。至於 GPT-5,我更期待的是它有沒有新能力,能不能解決複雜任務, agent 能不能落地。只有 agent 真正落地能做長期的複雜任務了才比較重要。
 張小珺:不同模型之間的遷移成本高嗎?
李廣密:一方面,隨著模型能力變強,Prompt 的相互理解能力也在提升,所以模型遷移成本是很低的。但隨著模型周邊模組附加的東西越來越多,比如整套的 RAG,以及基於模型設計的不同的任務和 agent 也越來越複雜,未來遷移也會變得越來麻煩,因為這裡面細節工作也會越來越多。
另外,大家對於開源模型的忠誠度似乎並不高。以前人們認為 LLaMa 是最優秀的模型,現在又覺得 Mistral 更好。如果未來 XI 釋出的更強大的 Grok 模型開源,大家可能又會覺得 Grok 更出色。成本也非常重要,像 Claude 3 的成本比 GPT-4 還是要便宜很多。
 張小珺:影響不同模型最大的因素是什麼?
李廣密:如果只說一個,那就是資料。因為大部分的模型的架構、training 和各種 recipe 比較統一,因此對模型效果影響最大的還是資料。資料決定了這個模型作為產品的特點,換句話說,資料決定了模型的“性格”。但資料其實是一個很系統的工作。
OpenAI 同時具備資料的經驗、資料的基建,也願意為資料投入精力。對很多 researcher 來講,資料處理是繁瑣且辛苦的工作,很多人不願意幹。因此有很多公司雖然人才密度很高,但資料並沒有做好,比如 Google。一方面,Google 在使用涉及版權的資料時會更加謹慎,大公司的法律風險意識更強。另一方面,每個人想做的東西都很多,加上去 legacy 就比較重,可能導致最後方向沒有 align 到一起。
 張小珺:不同模態模型的上限和優勢是一樣的嗎?
李廣密:上限最高是 LLM、Coding、影片,它們資料量更大,資料的豐富度也更多。上限低的是聲音、圖片。上限高的智慧能力強的公司優勢更強,上限低的就必須得做好產品,才能保證優勢。
 張小珺:你怎麼看 Tesla?這一代大模型技術對於自動駕駛的影響是什麼?
李廣密:現在 Tesla 股價並不樂觀,因為車的銷量甚至都在負增長。它在歐美市場表現疲軟,同時在中國競爭壓力很大。因為造車這個基本盤業務其實是比較悲觀的。它的汽車銷售業務可能就 150 億美金利潤,按照 20 倍的 PE 來計算,市值大約在 3000 億美金。
Tesla 的 AI 業務可能就值另外的兩三千億美金,但好像華爾街又今天還不是很認 FSD。主要原因在於,FSD 今天好像沒有對新車銷售帶來 fundamental 的影響,也沒有帶來新的商業模式。這也是為什麼 Elon Musk 最近提出了 Robotaxi 業務。我自己對 Tesla 一個感覺就是如果它股價還會繼續跌,比如跌到甚至 100 出頭,我還是會願意去買一點它的股票的。畢竟 Tesla 的機器人團隊還是全球最好的機器人硬體團隊。我也很期待看到 FSD 對汽車銷售到底有多大的拉動,以及能不能徹底解放注意力。 
如果不能完全解放駕駛者的注意力,即使偶爾需要接管控制,駕駛者的注意力仍然需要集中在方向盤上。Tesla 還有一個更大的可能性,那就是對汽車行業的變革,比如實現無方向盤,或者賣車免費,把車的里程價值做得更高,真正把 Robotaxi  做好。但這也回到了那個物理挑戰上,美國的製造業不如中國強大,因此這種變革可能不會那麼順利。
說到大模型對自動駕駛的幫助,比如它的多模態能力增強,能把採集到的 corner case 全都更好地篩出來,更好的解決 corner case 的問題,效率還會更高。大家如果在 San Francisco 的話都能去試一下 Waymo,其實 Waymo 在 San Francisco 跑得是非常好的。Waymo 曾經 operation cost 很高,最初每輛車都需要一個後臺人員進行監控。而現在,一個人可以監控四輛車。如果多模態能力得到進一步增強,AI 是否可以幫助監控 400 輛甚至 4000 輛車?這樣的話,operation cost 可以降得很低,也有利於 Waymo 的大規模普及。
 張小珺:自動駕駛落地和機器人落地哪個更難?
李廣密:機器人會更難,自動駕駛有可能比 AGI 來得更早。今天我們還不能說機器人到了產業到爆發的時候,因為還有很多 research 問題要解決,其中最重要的還是資料問題。很多人都想做機器人的 foundation model 這個大腦,但是沒有大量的足夠量的訓練資料。語言模型得益於過去幾十年網際網路積累了很多的文字資料,而語言又是對現實世界的一個很好的抽象。目前,許多機器人公司所擁有的機器人數量不超過 100 臺,像 ALOHA 那樣去採資料。這樣的資料量級還是太小了,不像 Tesla 擁有數百萬輛汽車,能夠每天從全球範圍內收集資料用於訓練。最核心的還是誰能解決資料問題,我最期待的還是多模態能帶來 fundamental 的突破,解決機器人的資料問題。 
如果未來大型模型能力很強,具備多模態理解視覺的能力,將能夠直接對物理世界進行建模。到時候,語言模型和機器人模型可能會合二為一。如果 AI 的能力足夠強大,它也可能減少對物理硬體的依賴。另外,關於人形機器人的討論也很多,目前還難以判斷是否應該採用人形設計。Elon Musk 正在朝這個方向努力,可能是為了更好地適配人類現有的生活環境。我認為,更好的定義應該是“通用機器人”,而不完全只限於人形。
機器人還有一個大的場景,那就是通用機器人。它不像自動駕駛或智慧手機那樣一開始就有剛需。一般來說,硬體升級都基於一個剛需,然後漸進式迭代。但工廠好像不需要這些通用人形機器人,家裡好像也不知道讓它幹嘛。讓機器人去開可樂瓶、擰瓶蓋、開門,好像連這個泛化能力都沒有。目前好像只想到在軍事領域應用機器人。人的生命珍貴,未來我們可以讓機器人部隊代替人類上戰場,在沙漠等環境中作戰。
另外,中國在降低成本方面有優勢,現在一臺人形機器人還是很貴的,大概需要十多萬美金。如果要把未來家用機器人投入使用,價格肯定要降低。能解決成本問題的或許只有 Tesla 或中國的供應鏈。杭州的宇樹科技就是一個很好的例子,他們曾經將機器狗的成本降到極低。現在很多客戶要人形機器人,那他們用相同的方法是不是也能將人形機器人的成本降到極低?
如果要投資的話,我們可以看看上游元件,例如靈巧手,一隻手上可能需要數十個小型電機。未來機器人是否還需要電子皮膚、感測器等,這些都是值得考慮的問題。目前,機器人還無法像人類一樣即時感知外部環境,他們是沒有反饋的,各種 sensor 也比較重要。長期來說,我對通用機器人還是比較看好的,如果有機會深入下場創業,我應該會加入機器人團隊。
不過我比較擔心今天參與機器人會不會像 16 年去做自動駕駛?因為機器人在今天還不是商業和工業落地問題,而是 research 問題,很多 research 問題還沒解決,比如訓練的資料哪裡來、場景是什麼、cost 能否降下去。對 research 問題來說,多模態和大模型本身的突破可能對機器人提速更重要。
 張小珺:你認可朱嘯虎的觀點嗎?AGI 至少 5 到 10 年是看不見的。智力級別的提升首先需要能量級別的提升,可控核聚變實現前,他不相信地球有足夠的算力能夠實現真正的 AGI,幫人類降低 90% 的工作可能未來 3-5 年可以實現,但最後的 10% 可能需要天量的算力和能耗。這也是為什麼 Sam 想融天量的資金。
李廣密:我認可他大部分的觀點。虎哥喜歡小錢辦大事,這是 VC 非常經典的一個點。回頭看微軟第一臺計算機做出來的時候,蓋茨也很難相信記憶體能從那時候的多少 K 到現在的多少 GB。我們還是相信摩爾定律的,相信模型的計算效率、推理效率會大幅提升,同時硬體的 memory、模型本身的 context window 也能提很多。這些都提升上去後,人真的可以把自己所有的歷史都當成 context 去運行了。那個時候可能還是會解鎖很多的新的技能的。
虎哥提到降低 90% 的工作,如果真的做到 90% 了,3-5 年如果實現,這個觀點很樂觀了。剩下 10% 才是人類的價值。我同意能量級需要升級的觀點,很多資料中心現在都建在核電站旁邊。AWS 最近花費六七億美金收購了一個美國最大的核電站旁邊的資料中心。
其實今天 Tesla FSD 的安全性已經超過平均司機的水平了,CV 識別包括推薦的效率也已經比人高了很多。我很有信心 5- 10 年內看到 AGI。我相信科學會有突破,相信這幫科學家,這個東西和曼哈頓計劃、登月計劃、克林頓網路大基建很像。
 張小珺:他還有一個觀點是,“GPT-5 以後技術曲線就基本會放緩,現在看語言模型進步差不多見頂。突破在多模態,Sora 在釋出三四個版本後也能見頂”,你怎麼看他的這個觀點?技術迭代曲線會不會放緩?
李廣密:技術有可能遇到短暫的瓶頸,但後面還是會有跳躍。過去一年可能是第一波小升,後面還會有一波更大的主升浪。技術發展中間有卡點是正常的,因為技術發展不是線性的,很可能遇到平臺期停滯兩年再跳變躍升,迎來更大的主升浪,這就是科學發現的過程。
幾十萬張卡訓練 AGI,可能比登月對人類的意義更大。未來會有更多的新發現,包括未來下一代模型的誕生。雖然體感上的刺激是會降低的,但經濟價值才剛開始落地。我比較期待模型公司做好 agent,這樣的話附加值也會提上來。目前,模型作為一個新的平臺,確定性已經非常高了。
06.
AGI 聯盟:晶片、雲
 張小珺:你怎麼看 Sam 想要 7 萬億美金的融資?中東會在全球大模型戰局中扮演什麼角色?
李廣密:微軟跟 OpenAI 是應該做 ASIC 晶片,或者起碼具備這個能力。如果 AGI 是一個 10 年的長跑,今天肯定要做準備。會不會有一個新的晶片聯盟出現?主要是英偉達賣太貴了,雖然不會要 7 萬億美金這麼多錢,但肯定還是需要不少錢,中東是潛在的最大的出資方。
 張小珺:晶片聯盟可以怎麼組?
李廣密:其實 Google 的 TPU 就是自成一體。如果 Sam 融到了幾千億美金,他要收購什麼呢?肯定要收購一個晶片團隊,拉著微軟和幾個大的,甚至 foundry 有可能做不了。但是做一個自己的 ASIC 晶片是 make sense 的,就像 Google 有 TPU 一樣,因為 OpenAI 可以把 AIML 的問題都最佳化得很好,但是它改不了 GPU。
這個沒辦法, Google 是 full Stack,全都可以改,這是 Google 最佳化能力很強的一個點。Google 是一個整體,全都是自己 own 的公司,從上面到下面有自己的 TPO。但 OpenAI 跟 Google 最大的一個差異是,它沒有自己的晶片。因此,OpenAI 想要改進晶片設計、降低成本、擴大晶片規模,它是沒辦法的。從英偉達的角度來講,它寧願給多家大模型公司晶片,也不能只給一家大模型公司晶片。所以,我認為還是要做自己的 ASIC 晶片。
 張小珺:你提到現在大模型是集團軍作戰。我們之前也聊過矽谷的公司的結盟的問題,你覺得接下來會有更多的結盟嗎?
李廣密:Elon Musk 的 xAI 長期來看不排除會併入 Twitter 或者 Tesla。微軟 OpenAI 目前還是很穩定的,AWS、 Anthropic 是互相被迫深入繫結,AWS 的銷售已經開始全線賣 Claude 3 了。Google 還是自成一體,但歐洲的 Mistral 必須得抱個大腿了,他們之前效率比較高,但要拿到 2000 張 H 卡,未來一年得想辦法融到 1- 3 個 billion,如果沒有萬卡叢集,後面也可能掉隊。我比較期待的是 Apple、英偉達、Meta 怎麼入局。
 張小珺:你有沒有關注到什麼 Apple 的新動作?
李廣密:Apple 最近發了一些小的模型,但 Apple 短期追上 GPT-4 水平還是比較難的,但是手機還是最重要的一個入口和習慣,Apple 的位置長期是比較穩的。Apple train 很大的模型,今天看好像還是追不上 OpenAI 的。但是他們肯定是雲和端結合的,可能會呼叫多個模型。
 張小珺:你怎麼看他們放棄了造車?
李廣密:美國的製造業不太行,也沒等到自動駕駛來,他們的設計太超前了。至於 Apple,雖然很多人都在討論 AI、PC、 AI 手機,但其實真的把一個大的模型變成小的模型裝到端上,這個是很難的。因為現在 1B 的模型做不了太多,但手機跑 1B 的模型能耗要求的是比較高的。這又回到那個物理問題,物理迭代比較慢,如果在手機上安裝一個較大的模型,就需要更大的記憶體和電池,這會導致手機迭代比較慢。包括 Tesla 的 FSD 在端上,是因為它對 latency 的要求非常高,也不能太大。
 張小珺:你怎麼看最近幾個月中國大模型公司和巨頭之間的結盟動態?比如阿里投了所有的中國的模型公司。
李廣密:國內主要是阿里,雲是個比晶片和模型大個 3-5 倍的生意。未來更多企業的生產流程,各種數字化流程還是會跑在雲上。雲未來十年可能複合增長都在 15% 以上,但這裡麵價值鏈分配比例可能會發生變化。所以阿里必須要投入,期待阿里新的 CEO 吳媽能成為像微軟的 CEO Satya 一樣的人,讓阿里大象起舞。
 張小珺:為什麼阿里同時分散投到多家,而不是重注一家模型公司?
李廣密:辨識度不夠高。另外投資也可以繫結算力消耗,最後錢都還是要回來的。如果投出去一塊錢,訓練又花一塊錢,從結果上 revenue 又多了一塊錢,那我的市值也可能又是 10 塊錢。這個賬很穩,雲還是很穩的。
 張小珺:現在 2024 年剛剛過完一個季度,對於 AGI 在接下來三個季度的演進,你有沒有一些預測?
李廣密:更多的是期待。OpenAI 的下一代模型 scale up 幅度有多大?這是觀測 scaling law work 的關鍵指標。這個模型會湧現出哪些新的能力?OpenAI 做產品能力怎麼樣?做的產品好不好?如果他們做資訊檢索,到底會不會對 Google 產生 fundamental 的影響?
多模態也特別重要,多模態對機器人和自動駕駛的影響是最大的。機器人可能要在多模態的突破後才能有提速和爆發。另外就是收斂,我覺得年底可能就會收斂到幾家了。會不會有 GPT-4 水平的開源模型出來?
我對最近很火的 11Labs 和 Suno 也比較期待,單一模態的創業公司如果只做模型會比較危險,但如果把整個產品鏈做得很好,好像也是有壁壘的。
 張小珺:全球來看,最後能留下幾家 AGI 公司?包括巨頭和創業公司,也包括中國和美國。
李廣密:美國可能是四家:OpenAI、Anthropic、Google、Elon Musk 的 xAI。歐洲的 Mistral 不錯,但不確定歐洲是不是一個獨立市場,以及他們能不能拿到更多的資源,比如萬卡叢集以及未來更多。看中國的話,位元組這個公司是決心很大的,而且他們業務現金流很好,每年可能有幾個 billion 的投入。頭條是有利潤支援大基建和馬拉松投入的。
 張小珺:為什麼我們作為碳基智慧一直在追求矽基智慧上這麼熱衷?
李廣密:這是一個有意思的問題。不管是 agent 還是其他形態,我們最終期待的 AGI 能夠將可用的能源和 compute 資源用得最有意義,去思考一些人類沒有思考過或以前無法解決的問題,這才是最有價值的。碳基肉身還是有很多侷限的。比如與大模型相比,人類的處理能力有限,記憶力也相對較弱。人類無法長時間持續工作,精力也會受限,也讀不了 DNA、RNA 這類資料。而且人類無法規模化複製,運算能力也不夠強。碳基跟矽基是可以很好地互補。就像人無論跑得多快也比不上輪子的轉動速度一樣,矽基智慧有可能是未來地緣博弈最大的一個關注點。未來十年主題可能就是矽基的 AGI 和地緣博弈,而且這兩個還是交叉的。
 張小珺:怎麼看 Elon Musk 和 OpenAI 現在的官司?
李廣密:xAI 短期內可能打不過 OpenAI,因為 OpenAI 變成了矽谷最靚的仔,散戶的錢在從 Tesla 流出。不管流到英偉達或者哪裡,Elon Musk 還是要維護它矽谷最靚的仔、矽谷的神這個形象,Tesla 才有高 PE 估值。Elon Musk 肯定也會很不爽,畢竟 OpenAI 這個 idea 是他發起的,結果今天和自己無關,沒撈到什麼好處。不過 OpenAI 後來變成一個商業化的組織,確實是跟之前的非盈利的初心有衝突。但從另一個層面看,純靠一個非營利的組織走向 AGI 是很難的。Sam 跟微軟合作也沒什麼問題,只有大的戰略方才能給更多的錢和基礎建設支援。
 張小珺:你關於 Sam 還有沒有什麼新的看法?
李廣密:Sam 有很多爭議。在 OpenAI 成名之前,他已經堅持做這個公司做了六七年,在很多人還不相信 AGI、 AI 這些東西的情況下,Sam 是非常值得尊敬的。相比之下,Elon Musk 中途是下車了的,現在回頭過來可能是覺得 AGI 很好。Sam 有很大的勇氣去探索一些完全沒有探索過的東西,比如更復雜的公司架構,雖然這也會帶來更多風險。他也敢提出來這種典型矽谷 VC 不願意投時間和資源的巨燒錢的專案。
他在這裡面吃過很多虧,也有過很強的爭議。有些人感覺他不夠真實,但他好像一直在努力維持一個比較有愛的形象。另外他也提了,比如說 AGI 叫 slotic of,這個也比較有意思。一是說明 scaling law 可能不像大家想象那麼急速發展,另外 OpenAI 可能也需要不斷地去發新產品,去調整模型釋出的節奏來掌握節奏感。 
Sam 可能也是一個“節奏大師”,他戰略能力也很強,對安全性問題也很重視。他播客裡面我還有一點印象比較深,GPT-4 可能再過一兩年就會是一個很小很笨的模型,說明他對後面模型能力進步還是比較樂觀的。但我對 Sam 一直很好奇,他怎麼能有那麼多錢?他好像投了很多公司,但歷史上好像沒什麼大的退出。難道是在 YC 賺的錢?還是家裡本身就有錢?他投一個公司都是幾千萬、上億美金地投。
 張小珺:你今年也參加了英偉達 GTC ,能不能聊聊你對這次 GTC 的觀察以及對於黃仁勳的演講的感受?
李廣密:矽谷最靚的仔已經從 Elon Musk 切換到老黃了,很多 Elon Musk 的粉絲變成了老黃的粉絲。投資者的股票資金也從 Tesla 轉到了英偉達。老黃應該是直接驅動了這波 AGI 浪潮的,他的貢獻不輸 OpenAI 。
之前有一個說法是,演算法等了算力 30 年,非常形象。我希望這波 AGI 不要因為算力物理的瓶頸而停下。回顧過去幾十年,半導體應該就是人類最偉大的發明,計算還會驅動未來的幾十年。未來的商業社會里,可能所有人都要給老黃交算力稅,就像過去十年去給蘋果交入口稅一樣。
老黃的長處之一就是銷售能力超強,以前他把 GPU 賣給美國的科技公司,現在他又提出了主權 AI,把 GPU 賣給政府吃國防預算,從而進一步擴大了市場規模,這很厲害,美國軍費每年 8800 億美金,如果拿出其中的 3%、2% 買 GPU,就是很大的量,GPU 是一個極其重要的戰略儲備位物資。
 張小珺:關於老黃矽谷有沒有什麼流傳比較廣的故事?
李廣密:他有一個很好的習慣,就叫 T5T(Top 5 Things),內部每雙週、每個大組內會發出來最重要的五件事,這是一個非常好的習慣。他也是不鼓勵 996 的,公司只有早餐午餐,鼓勵大家晚飯回家陪家人,這是蠻有趣的一點。
 張小珺:Sam 和老黃在矽谷的地位誰更高?
李廣密:短期還是老黃地位高。英偉達是人類基石公司,AGI 沒有 Sam 可以,但沒有老黃不行。但長期來講 OpenAI 可能價值更大的。Sam 也有可能成為智慧的新教主,但前提是晶片不受限於英偉達。未來的結構比較清楚,人類又多了兩個收稅的人類基石公司,一個是晶片算力稅,一個是模型智慧稅。
延伸閱讀

相關文章