跨年對談:千億美金豪賭開啟AI新摩爾時代

01.
大模型:一場千億美金豪賭
 張小珺:總體來說,捲了這一年以後,全球大模型產業卷出了什麼?
李廣密:如果說具體的結果,我們可以看 OpenAI 一年做到 10 多億美元的 ARR,明年可能是五六十億美元的 ARR,它可能是歷史上增長最快的公司。但整個市場上其他的大模型 native 的產品所有的 ARR 我們簡單估算過加在一起是不到 10 億美金的,不如 OpenAI 一家。流量上, ChatGPT 也佔了整個 chatbot 流量的百分之七八十,集中度很高。從 DAU 角度看,到今天 DAU 穩定在 200 萬以上的大模型 native 的產品我們只看到 ChatGPT 和 Chatacter.AI,企業級探索大模型的 use case 現在成功的還不多,可能只有微軟和 Adobe 現在比較激進。
但另外一個層面,我覺得大模型今天還在早期,不用特別著急,我經常比喻大模型很像晶片,大家要等晶片的能力和成本再迭代 2-3代上面的消費電子才會慢慢的爆發,可能到明年這個時候我們就會覺得 GPT-4 特別傻、做不了太多事,但今年已經代表未來黃金十年的開端了。
 張小珺:OpenAI、ChatGPT 這樣一騎絕塵的表現能夠說明什麼?
李廣密:使用者對智慧的渴望是很強的,我們今天在聊各種入口,但如果真的有一個極其聰明到你最強的同事的AI Copilot,我覺得大家就不再依賴現有的入口,如果 ChatGPT 未來某天的智慧程度、可靠程度、反應速度可以直接接入到手機,全球的流量入口又會發生變化,因為所有人都是很渴望智慧的。
 張小珺:你提到矽谷大模型的融資現在已經是巨頭定價和主導了,這背後的原因是什麼?
李廣密:因為需要的錢很多。矽谷 VC 幾乎都錯過了大模型的投資,也同樣都錯過了對 SpaceX 和 Tesla 的投資,這幾件事都是典型的重投入、早期看不到商業模式、風險很大,不符合矽谷 VC 的典型投資偏好。大模型的投入可能跟 VC 這個產品是不匹配的,大模型應該是另外一個金融產品來支援的,我覺得買單方就是巨頭。
巨頭願意買是因為巨頭在搶新的入口。舉一個最簡單的例子, ChatGPT 和 Perplexity 代表的是問答引擎,Google 一直佔住的是搜尋,我經常比喻說問答引擎就像是直接點外賣,所有都做好了,Google search 就是我們去菜市場還要買菜,我們搜尋出來的內容可能不能直接回答我們自己的問題,但 ChatGPT 和 Perpelexity 是“開箱即用”,使用者體驗是截然不同的。
也許今天我們還是不能完全信任 answer engine 的結果,但最終效果越來越好之後大家還是會相信的,比如 ChatGPT、Perplexity 這種問答形式有可能會把網際網路的滲透率在大幅拉昇很多,因為以前很多長尾問題是沒有被解決的,但現在因為 AI 就可以解決了。就像每個人有手機一樣,每個人都可以拍電影、拍短影片,就是技術刺激新的需求、消費。
 張小珺:這種 AI 巨頭主導的陣營,可以分成哪幾個派別?
李廣密:最領先的就是微軟和 OpenAI,其次是亞馬遜和 Google 支援的 Anthropic,第三個我覺得是 Google,它自成一派,Apple 跟 Tesla 是潛在的關鍵變數。
有三個大生意和大模型最相關,首先是晶片,英偉達在這一波就很激進,第二波是公有云,微軟的雲和亞馬遜的雲是兩個是最大的,可能未來模型都是要跑在雲上,所以雲廠商拿未來每年營收的 3- 5 個點去投模型公司也很合理。第三個大生意是終端,手機和車,所以 Apple 和 Tesla 未來會是更關鍵的陣營。
Tesla 有 X.ai,X.ai 現在是晚了 6- 12 個月的,未來能不能追上很關鍵,這個機率是大於 50% 的,因為 X.ai 的人才質量很高,執行速度也很快。手機也是一個非常重要的端,明年 Apple 又會支援誰?如果手機的記憶體未來兩年能提升 4- 5 倍,就可以在端側推理,而不是雲側推理,AI 公司的成本結構也會發生很大變化,所以我覺得手機肯定還是會繼續變強非常多。
 張小珺:為什麼沒有提 Meta?
李廣密:Meta 推出的 Llama 對整個開源的貢獻非常大,我覺得開源模型有可能未來就等於 Meta。我覺得 Llama 的能力今天還是稍差於 GPT-3.5 ,而且 Llama 團隊裡面我不覺得有所謂的天才 researcher,人才質量比OpenAI 和 Anthropic 可能還是要落後一些,至於最強的模型要不要開源出來,我覺得這是一個很重要的問題。
但我覺得 Meta 不一定是大模型公司,它也許會是一個用 AI 做好自身業務的公司,甚至有可能 Google 也是這樣的,有可能 Google 在大模型競賽裡面輸了,但也有充分條件用好 AI 技術做好自己的產品。
 張小珺:全球今年總計向大模型領域下注了多少,花了這麼多錢,賭的到底是什麼?
李廣密:我們可以算一下頭部模型公司花了多少,比如 OpenAI,今年買卡我們可以先估 30 億美金,還不算人才和股票激勵,那全球範圍至少乘 5,那全球就是 150 億美金。我覺得未來 OpenAI 訓練模型可能未來還需要至少得200-300 億美金, Google 也不能低於這個數,Anthropic 大概也需要 100-200 億美金,所以我覺得未來幾年,3-5 年至少要花 1000 億美金賭下去。
到底賭的是什麼?我們剛才聊到大模型今天還是一個實驗科學階段,就像我們對人腦的智慧探索一樣還不理解很多事情,其實今天我們看大模型為什麼湧現出智慧?也是沒有答案的,今天可能就是一個探索發現的時刻,而且現在提升模型智慧水平只有一個路徑,就是 scaling law,包括 scaling law 為什麼會起作用也只是基於經驗的總結,大家並不知道為什麼。所以其實現在還有很多無法判斷的問題。
所以我覺得大模型是人類一個千億美金的 bet,賭的是什麼?可能有一個預期是,未來 5 年全球 GDP 會不會因為 AGI 翻倍?AGI 可能會對全球性的問題帶來新的變數。
 張小珺:你作為投資人在看移動網際網路時代的產品和看現在這些公司和產品的時候有什麼變化?
李廣密:第一個點是要意識到大模型是最核心的,沒有模型可能是沒有所謂的 AI native 應用。未來所謂的 Super App 沒有自己的模型是不是 work?目前還是個開放式的問題。
第二個點,智慧是最關鍵的變數,過去的產品經驗可能在今天是一種包袱,只是模型之上懟很多的功能、UI、 UX 有可能是徒勞的,更本質的是要理解模型的能力是什麼。AI 的應用跟移動網際網路的應用之間到底是會有什麼大的區別今天還是比較模糊的,很難總結出來,最主要是今天的可參考的成功案例還是太少了,也就 ChatGPT,Character.AI, Perplexity 這幾個,也許還得再等 1-2 代的模型,會有更多 native 的產品出來。我們年初低估了做到 GPT-4 的難度,高估了應用大爆發的速度。
02.
復現 GPT-4:大模型競賽的關鍵門檻
 張小珺:如果我們把復現 GPT-3.5 或者復現 GPT-4 作為進入半決賽和決賽的關鍵門檻,現在入圍了半決賽和決賽的人有誰?
李廣密:首先,復刻 GPT-4 比大家預期的是要難很多的。Google 舉全公司之力搞了這一年也才勉強接近。我覺得今年首輪跑下來就決出前三名 OpenAI、Anthropic、Google。最期待的還是未來 6 個月內誰能再做出 GPT-4 的模型?我覺得可能有三家公司有潛力,Elon Musk 的 X.ai,Transformer 核心貢獻者 Noam 創立的 Character.AI,另外,我們認為位元組也很有機會,大模型的能力可能是隨著算力分佈而收斂的,大模型對資訊的加工能力是比搜尋和推薦要更強,這是在搜尋和推薦之後資訊分發可能最重要的一個核心賽道, Google 和頭條不能錯過,所以我覺得華人 researcher 們也許也可以好好考慮位元組的機會。
另外,我覺得今天一線模型公司的核心只有一個,就是提升模型的 capability,現在還不是做產品和應用的時候, 並且 capability 只有一個北極星指標,就是推理能力,其次可能是重要的成本、可靠性、多模態等問題。
 張小珺:這些成功復刻 GPT-4 的選手是怎麼做到的?其中的關鍵變數是什麼?
李廣密:一方面大模型的人才壁壘非常高,大模型就是一群天才的科學家在用 GPU、data 和 power 去幫人類做科學發現,前段時間 Bezos 也表達了類似觀點,全球範圍真的對大模型能有實際大貢獻的天才 researcher 可能就兩三百個人,天才科學家的聚集效應是很強的,這種人和這種 research 文化其實是非常重要的,不是所有巨頭都具備這樣的條件。
第二個關鍵變數是資料。GPT-4 的短期壁壘是資料,尤其是 pre-training 和 post-training 階段的資料,我覺得全球範圍真正有 GP-4 資料 know-how 的只有兩三百個人,而且幾乎都在目前頭部的三家模型公司,其他公司想搞清楚這件事至少得經過幾百次、甚至幾千次充足的實驗,有很多研究探索性的問題要做,為了支援這些實驗小几萬張卡是一個必要條件。
而且只追 GPT-4 可能是沒有太大意義的,因為 2024 年又開始了新一輪的競賽,是決定長期格局最關鍵的一年,格局形成後其實是很難改變的。明年初 Anthropic Claude-3 和 GPT-4.5 也要發了, Google Gemini  也許明年六七月份會發,所以明年上半年就會把領先模型的能力再提升一個大的臺階,而且明年肯定是多模態敘事,如果那個時候才追上 GPT-4,肯定是不是第一梯隊了,所以對追隨者的挑戰還是挺大的,所以可能今天就要考慮直接做下一代多模態模型。
另外還有訓練成本的問題,如果 Claude-3 和 GPT-4.5 訓練成本可能 2 到 3 億美元,那再往後的 25、26 年,更下一代的模型訓練成本至少可能是 10 億美元,甚至說 30、50 億美元,我覺得這是有這樣一個預期的。
另外一個核心變數可能還是取決於大家是不是信仰 scaling law,以及能不能做到、能不能繼續 scaling 下去,這件事可能是長期的唯一關鍵變數,目前我覺得極少數的科學家是很信的,比如說剛才提到 Character.AI 的 Noam, Anthropic 的 Dario,還有  OpenAI 的 Ilya,他們三個對 scaling law 的貢獻也是最大的,同時也是信仰最強的。所以我自己經常感受這很像一個極少數科學家推動的 AI 登月時刻。如果說這個事很像登月,那其實是隻有極少數的幾家公司能參與登月競賽的,如果真的要保持全球第一梯隊,那麼必要條件可能就是在未來有百億美金的投入,百億美元的訓練成本可能是少不了的。
 張小珺:復刻 GPT-4 是一條正確的路嗎?如果達到了 GPT-4 的水平,但依然沒有與之能相匹配的商業模式怎麼辦?
李廣密:如果做不出來 GPT4 水平,那麼下一代的模型有可能也做不出來,這兩件事之間是有相關性的。GPT-4 倒不是一個明確非得要追求的目標,而是說它可能就是一個 millstone,比如資源的必要條件,人才的必要條件, research culture 的必要條件。GPT-4 是一個科學發現過程中的一個產物,不是一個充分條件,如果做不到這個水平,那後面的模型再下一代、再下一代可能就更難了。
 張小珺:矽谷的大模型公司會因為還沒有商業模式有“生存焦慮”嗎?
李廣密:矽谷的模型公司今天更像一個 research lab,除了 ChatGPT 意外爆紅以外,模型公司商業模式還是不清楚的,即便矽谷的大模型公司獨立 IPO 可能也很難,我覺得 80%、90% 機率還是被收購的,所以我覺得大模型公司還是要抱大腿,除非未來有全新的商業模式。
 張小珺:早一點或晚一點追齊 GPT-4 的區別是什麼?如果大部分人都能夠達到 GPT-4 ,是不是也意味著其實達到 GPT-4 的門檻沒有想象中那麼高?最終模型公司形成的壁壘是什麼呢?
李廣密:首先我不太同意 GPT-4 門檻不太高的說法,至少未來 6- 12 個月復刻門檻還是很高的,從 GPT-3 到 GPT-3.5,很多公司有機會達到,但是從 GPT-3.5 到 GPT-4 難度會增加 5-10 倍,只有極少數公司能到。
時間早一點晚一點區別也很大,如果更早達到了 GPT-4也有機會更早到下一代模型,因為 GPT-4 生成的很多資料質量就很高,甚至比公開網際網路上資料質量要高,這些生成的資料對訓練下一代模型很有幫助,這個是存在飛輪效應的,更早達到 GPT-4 對吸引人才和資金進來也有幫助,到之後大家只會 bet on 前三家公司,後面梯隊意義就不大了。
如果在 12 個月以後再追齊 GPT-4,那 OpenAI 或許已經到了多模態的 GPT-4.5,甚至能力更強的 GPT-5 在 2024 年是有機會看到的,那個時候就會發現 GPT-4 可能又不夠了,尤其是成本降下來之後這件事會更明顯,所以模型訓練是一件很殘酷的事情。
模型公司的壁壘很像臺積電或者 SpaceX,首先肯定有很強的先發效應和規模效應的,但目前是沒有看到像搜尋和推薦一樣很強的網際網路語境裡面上喜歡的網路相應資料飛輪這些東西我覺得是看不到的,但未來靠什麼維持長期的壁壘?我覺得今天還不知道能不能像網際網路正規化一樣有網路效應,有資料飛輪。
我覺得還有一個現實的壁壘,就是全球第一梯隊的模型,如果沒有 100 億美金的儲備、而且有機會轉化成 GPU,是沒有辦法待在全球第一梯隊的,這是一個硬標準。另外我們看 OpenAI 的壁壘,大眾從心智上, chatbot 就等於 ChatGPT, OpenAI 等於 AGI,使用者和開發者目前首選是 GPT,還是有很強的心智和入口效應的。但是OpenAI 也有缺點,他今天依然還沒有資料飛輪,OpenAI可能也不一定是一個以使用者和客戶為導向的公司,它是一個 AGI 為導向的公司。所以有可能其他公司也是有機會的。
 張小珺:你也經歷過上一個移動網際網路的時代,你覺得AI 正規化、大模型的正規化和上一個時代有什麼不同?
李廣密:網際網路是講究網路效應、資料飛輪、規模效應這些,但大模型和 AI 今天好像還看不到這些效應,起碼 ChatGPT 是看不到網路效應和資料飛輪的,它只知道一些使用者 query 的分佈,能更好的指導訓練哪些資料重要,哪些不重要,然後再 distill 去做一些小模型,滿足頭部的 query。我覺得今天 ChatGPT 可能更像一個消費品,微軟 Copilot 可能佔住了 Copilot 的心智, Character.AI 佔住了 role play 這個性質,還不像是那種資料飛輪網效應很強。 
覆盤移動網際網路可能最核心的是兩個,首先是全球多出了四五十億的使用者,然後第二手機上能採集更多的資料了,你可以做機器學習和推薦。所以其實手機的電商的匹配率是比 PC 電商的匹配率提升了一個數量級的。也可以說移動網際網路時代沒有做機器學習和推薦的都沒跑出來。我覺得模型這裡面很隱形的一個核心競爭力,可能是成本,如果能夠把成本做得足夠低、模型能力也不錯,就會是極強的核心競爭力,像晶片。
所以我覺得成本是一個隱形的競爭力,被大家忽視了很多,所以未來怎麼跑出來?資料效應和成本上的規模優勢我覺得可能是挺重要的,取勝關鍵。嗯,我覺得 OKR 身上也是看到了一定的規模效應的,就是非常像晶片,就是模型能力每一兩年提升一大代,過程中解鎖應用,然後每一兩年每一兩代模型也能把成本降低非常多,這就讓後面的追隨公司可能再過兩代就追不動了。
 張小珺:開源會不會衝擊到閉源模型的生態?最終開源和閉源之間能達到什麼樣的格局狀態?
李廣密:首先我覺得開源模型是追不上閉源模型的,而且差距肯定會越來越大,這個還是回到大模型很像晶片或者 Space X,因為大模型它不是一個傳統意義的軟體開源,模型不可編碼,不可解釋,大家沒辦法一起做貢獻,包括 GPU 要在單一一個集訓練起來訓練才更高效。
但開源模型本身的價值很大,開源模型的使命不是做最聰明的模型,而是承接先進模型溢位的很多能力,做民主化。因為未來很多使用者和企業的需求是分層的,可能有相當大比例的需求是透過一定能力的模型就可以覆蓋的,很多企業和大規模的使用者優先考慮的是成本問題,這部分是開源的優勢。
開源模型在 2024 年追齊 GPT-4 還是挺挑戰的,比如 Llama 團隊的人才密度可能還不夠,很多 research 層面問題可能還沒搞清楚,但我們也不能低估技術開源和技術擴散的力量。
另外我覺得大模型覆蓋小模型是必然的,大模型是小模型的生成器,比如  OpenAI 訓模型的能力很強,它可以優先訓一個大模型,再來訓小模型的能力也很強,比如 Mistral-7B 是 7B 的 SOTA 模型,但也有可能會被 OpenAI 順手推出的某個小模型碾壓。
下一個開源模型重要的方向是端側,端側意味著很多推理成本可以放到端側,會讓 AI 公司的成本結構發生很大的變化,很期待明年蘋果手機能在記憶體上有一些大的變化。
如果說長期格局,我覺得有兩種可能,一個是大模型公司向下覆蓋,類似於 SpaceX 去做了波音和空客的市場,另外一個可能是因為需求分層所以產品也分層,這也是一個開放式問題。
 張小珺:我們剛才也聊到了很多明星公司和產品,你覺得這一波創業者他們有什麼共性?
李廣密:從模型公司來看,一個模型公司最重要的是至少有一個天才的科學家,OpenAI 有 Ilya,還有好幾個類似Ilya 一樣的人,Anthropic 有 Dario,Google 出來做 Ideogram 團隊的 CTO Jonathan Ho 對 diffusion 貢獻很大,Pika Labs 的 CTO chenlin 也是 diffusion 方向上很天才的 researcher。上半場可能不一定是 CEO,但科學家一定是最重要的,以及團隊的科學家文化,能夠持續不斷的探索、做實驗是最重要的,下半場有可能是商業和應用。
03.
2024:決定大模型格局的一年
 張小珺:你覺得矽谷這一波大模型的格局陣營會在什麼時候穩定下來?
李廣密:2024 年可能基本上會決定大概的格局。視窗就是未來 12 個月,如果未來 12 個月追不上去,後面再翻轉其實是很難了。模型競爭很殘酷,很像造晶片或者做 SpaceX,最理想化的格局是很可能只剩一家,最領先的模型又最便宜,沒有理由用第二家,但因為有抗衡微軟跟 OpenAI 聯盟的陣營在,所以我覺得有不同的陣營,這樣推演下來可能大機率是 2-3 家。
 張小珺:GPT 迭代到什麼時候就能算夠了?會一直迭代下去嗎?GPT-5 大概什麼時候能達到?
李廣密:我覺得 2024 年應該能看到 GPT-5。模型迭代是停不下來的,而且我們從思路上來講,也不應該把模型訓練當做 capx 成本,而是把它當做研發 R&D  投入,人類對智慧的追求是停不下來的,唯一的情況可能是這個技術路線遇到瓶頸,或者 GPU 不夠用了、能源短缺這樣的外部不可抗力。
 張小珺:你覺得往未來看的話,發展應該關注的有哪些核心的要素?
李廣密:大模型再往後就關注兩條主線,我們自己內部總結為“新時代摩爾定律”。
第一條主線就是智慧能力的進化,主要關注推理能力。未來引數量資料 GPU 我覺得能持續 scale 很多年,每 1-2 年模型水平就能提升一到兩代,每提升一部分可能就會解鎖一些新的應用,回過頭來再看 GPT-4,今天可能做的事情還是有限的,還在早期一段,而且你可能也沒那麼放心。就像是如果 GPT 能接到手機 Siri 了,我覺得那個時候是一個巨大的轉折點。我覺得你就關注未來模型能力提升的過程當中,你可以畫一條線,每提升到多少分,那可能解鎖多少的應用,我覺得是有可能的。
另外一條非常核心被大家忽視的就是模型的成本,成本會是模型公司非常重要的隱形競爭力,其實模型訓練的成本在過去 18 個月已經降了 4- 5 倍,模型推理的成本在過去 18 個月應該降了快 10 倍,而且我覺得在未來成本還可以再最佳化 2-3 輪,未來模型推理成本做到今天 1% 這件事是非常可預期的。
這兩條主線就會決定 AI-native 應用大爆發的幅度,一方面是智慧能力不斷升級,每到一個點上可能某些應用出來了,這就像手機有了 Sensor,有網路頻寬增加了,移動支付、短影片相繼出來了,我覺得這是一個能力,技術能力本身的迭代過程中會出現很多。第二個就是成本,所以我就覺得 AI native 應用今天可能還沒到大爆發的時候,如果說再卷個兩代也許可以。
 張小珺:多模態和 Agent 會怎麼進一步發展?
李廣密:多模態肯定是明年各家大模型公司的重點,甚至 2024 年的核心敘事就是多模態。Google Gemini  已經是一個可以做多模態理解的模型了,OpenAI、Anthropic、Charactar.AI  明年肯定也會加入,這些產品加了多模態能力短期是理解和生成兩個方向,但長期我覺得都是一個統一的模型輸入可以是多模態的輸出,生成也是多模態的。
路線上,最近很火的影片生成主流都是在 diffusion model 圖片生成上加上時間維度,生成幾秒動畫,如果想做得更復雜,肯定是需要技術突破的,比如 diffusion 和 transformer 不是不相容的,就可以用 diffusion 的方法結合 Transformer 這些架構去訓模型,transformer 最大的優勢是容易 scale up,能否和語言模型一樣持續把模型做大很關鍵。
從追求智慧的角度,多模態領域也是非常值得重點投入做的,比如 MidJourney 的效果已經很好了,但它生成的圖片真的智慧嗎?如果讓模型幫我們生成一個有邏輯的 PPT、生成一個有邏輯的連環畫,需要的模型到底是一個單一模態的還是綜合模態?我覺得綜合模態有很強的語言理解能力和邏輯能力,有可能它生成的圖和影片是更聰明的,就是你是需要一個純粹只有更美的,還是需要一個聰明的?但又美又聰明的肯定是最好的。多模態模型訓練難度其實非常大,需要的 GPU 也更多,所以我覺得明年的 GPU 肯定還是非常緊缺的。
還有一個有意思的就是訓練資料,大家都覺得 YouTube上資料量很大但其實這個資料是很難用到模型訓練上,因為影片的資訊密度和語言比不夠稠密,而且影片的 tokenizer 其實相當關鍵、也很難,怎麼能高效地提取出來影片的關鍵資訊,同時在生成的時候又還原一些資訊,這裡面還是有很多技術要做的。
Agent 的概念被炒得很火,但今天我們都很難說出來說出來一個標杆產品。Agent 大爆發最核心還是底層模型的推理能力有提升,如果現在推理的準確性是 90%,但某個任務要做 10 步推理,這個準確率實際就降到 30% – 50% 了,可靠性就非常低,所以 reasoning 能力是非常重要的,還有推理速度也要提升。Agent 肯定是長期很重要的,但是第一是取決於模型能力,第二是這個時間點很重要,這可能是應用開發者未來要好好想的機會。
 張小珺:站在你的角度會對 2024 年、 2025 年的大模型戰局做哪些預測?
李廣密:應用大爆發,我覺得需要模型再卷 1- 2 代,捲到 GPT-5的時候,大概到明年底,應用大爆發我覺得是有一定可能的。總體上應用方向還是挺難預測的,喬布斯當年也很難預測 TikTok。我覺得更多的應該關注技術升級刺激的新需求,比如短影片,就是手機技術和網路頻寬技術刺激出來的增量的需求,我覺得格局也挺難準確預測的,影響因素很多,X.ai 和 ByteDance 有可能是黑馬,但對巨頭的影響我覺得可能會很大。
還有一個就是明年資料中心的用電肯定會提升非常多,有可能今天可能資料中心的用電量占人類總能源的 2% – 3%,未來漲到 10% – 20% 是可預見性也蠻高的,所以走到最後可能又是能源的競爭。
 張小珺:垂直模型的空間有多大?
李廣密:有可能不存在垂直模型。因為一個領域它可能沒有足夠的訓練的 token 量來支援訓練一個垂直的模型,因為模型要滿足 scaling law,需要的資料是無限多的。我覺得未來有可能就是通用的模型,它變成一個非常厲害的推理引擎,這個推進引擎再滲透到各行各業當中,就像搜尋一樣, Google 做了通用搜索,但影片搜尋也做得很好,雖然 Google 沒有做電商,但很多電商的流量很多都是透過 Google 來分發的。
我覺得如果一個行業的進入壁壘很高,那有可能會存在垂直的應用場景解決方案公司,但不存在垂直的 foundation model 公司,模型未來可能還是一個通用的技術。
 張小珺:關於大模型有什麼壞的預期?
李廣密:有可能 scaling law 到 2026 年、2027 年就失效了,這件事是有一定機率會發生的。或者說未來引數量到幾十個 trillion 的體量後,再往上提升的效果就不大了,但起碼今天我們還沒有看到、也沒摸到 Transformer 架構的天花板,在沒有摸到之前,我們就是要積極擁抱,相信它還有路可以走,而且目前還沒有看到其他路徑比 Transformer 的訓練和智慧效率更高,可能有的其他的架構是用小量的資料可以有更好的訓練效果,但 sacle up 的能力很差。目前 Transformer 和 scaling law 是走向 AGI 最有可能的路徑,還沒有第二個其他路徑。
 張小珺:說三條你覺得今年最大的噪音?
李廣密:第一個是大家把復刻 GPT-4 想的太簡單了,但其實相當難。第二個噪音就是所有人都因為 ChatGPT 和 Character.AI 去做一個 chat 產品,但是長期來看這兩個產品形態一定對嗎?這兩家公司是模型公司不是應用公司,但還會有更多的更重要的產品形態大家還沒探索出來。第三個噪音是大家 YY 、推演太多了,但很多不是 facts。
張小珺:OpenAI 剛經歷了政變以及 Sam Altman 的迴歸,你怎麼看這起事件,它對於大模型的產業意味著什麼?
李廣密:如果我是 OpenAI 的員工上,我肯定也是跟著 Sam,因為對於員工來說很多激勵都是 OpenAI 的 shares 、奮鬥了好幾年的股票只跟 Sam 有關, 如果 Sam 不在,那努力了幾年的股票就黃了,OpenAI 和微軟的合作也是 Sam 來主導的,微軟 CTO Kevin Scott 也是賭上職業生涯力挺 Sam,這是一個利益的問題。
目前 OpenAI 是沒有人才流失的,我覺得這相當難得,甚至大家因為這件事更團結了。我比較好奇 Ilya 後面會怎麼樣?外界認為 Ilya 肯定會繼續留在 OpenAI,因為他是一個很值得尊敬的優秀科學家,如果離開對於 OpenAI 還是很大的損失。
還有一個有意思的事情是 Sam 跟喬布斯和馬斯克好像不太像一類人,喬布斯和馬斯克在矽谷幾乎沒有朋友,但 Sam 在矽谷所有人都是朋友,甚至他去國會問詢的時候,跟國會的議員都是朋友。所以我感覺 Sam 更像是一個政客,如果 AGI 真的實現了,加上 Sam 之前就在做的 Worldcoin,Sam 會是一個“新形態的總統”嗎?
 張小珺:你對於這個產業現在最想知道的一個問題是什麼?
李廣密:大模型 native 產品怎麼像搜尋和推薦一樣做出來資料飛輪,甚至說未來有網路效應?這是需要一個類似喬布斯一樣的天才產品經理來設計的。我覺得大模型就是新的計算機,如何把這個計算機和上面的生態設計好需要很綜合的能力。還有一個就是 Transformer 等於 AGI 這件事可能不一定對,只是說 Transformer 是最接近 AGI 的一條技術路徑,但因為 Transformer 本質還是一個統計機率模型,透過預測下一個 token 這種方式是不是會有自己的瓶頸?這個問題目前也沒有答案,只有走下去才知道。
我還有一個比較好奇的問題就是如果 AGI 真的實現了,對地緣政治會有什麼影響?比如大模型是融合了多個語言,同聲傳譯每個人都觸手可及的時候,會不會帶來新的文化融合? 再比如 AI 變強了之後會不會有新的消費終端?最近大家談論很多的 AI Pin 也很酷,它可以隨時隨地 access 到最強的模型,變成了 ChatGPT 的一個分發渠道,而且它還可以即時的幫我採集很多context,比如說今天我們倆在這聊天,就可以即時整理成一個會議筆記了。
延伸閱讀

相關文章