月之暗面楊植麟:如果有10億的上下文長度,今天的問題都不是問題|ZCircle

Z Circle 是關於人的欄目。
人是一切創新的源動力。在過去的十二年裡,真格一直專注投人哲學,連線起那些最真摯、勇敢、極具創新精神的人們。我們記錄他們的故事和旅程,希望你能從中看見自己,也期待與你相識相知。
2023 年,真格基金天使輪投資月之暗面。創始人楊植麟博士是國內頂尖的 AI 研究者。他曾在 Meta 和 Google Brain 任職,是 Transformer-XL 與 XLNet 等重量級論文的第一作者。此前,真格基金曾領投楊植麟聯合創立的迴圈智慧。
月之暗面是一家 AIGC 公司,主要業務為 AGI。公司聚集了曾參與 Google Bard、Gemini、盤古、悟道多個大模型研發的頂級 AI 人才,目前已釋出「超大記憶體」Kimi 智慧助手和 Moonshot 開放平臺。
在最近的深度訪談中,他強調了「長上下文(long-context)」的重要性,並分享了對一家新創立的 AGI 公司如何超越 OpenAI 的思考。以下是訪談內容,希望對你有所啟發。
Lossless long context is everything。這是我們跟楊植麟聊完兩個小時後記憶最深刻的一個觀點。
這個技術判斷在 23 年 10 月已經被傳遞出來,當時月之暗面釋出了首個模型 Moonshot 和 Kimi 智慧助手,支援 20 萬字的輸入。做「長」是因為楊植麟判斷 AI-Native 產品的終極價值是提供個性化的互動,而 lossless long-context 是實現這一點的基礎 —— 模型的微調長期不應該存在,使用者跟模型的互動歷史就是最好的個性化過程,歷史上每一代技術都是在提升 context length。
楊植麟身上的標籤有天才 AI 科學家、連續創業者……在這次深度訪談中,他再次證明自己是個真正「懂」大模型的創業者,所以本文中有許多反共識的觀點:楊植麟覺得微調最終會不存在,tokenizer 最後也不一定是必須的;矽谷大模型訓練者們擔心資料瓶頸和能源限制,他反而覺得所有問題都是互相關聯的,多模態可以緩解資料短缺,合成數據則可以透過改變計算正規化解決能源問題。
本文還試圖回答另一個外界普遍關心的問題:一家新創立的 AGI 公司如何超越 OpenAI?楊植麟的答案是 tech vision,一號位要能做出技術判斷,同時還能拍板執行。一個具體的例子是,月之暗面希望比 OpenAI 更關心使用者,原因是楊植麟判斷使用者資料的 scale up 的效果最終會超越 base model 自身。
楊植麟對於用 transformer 這個機率模型的思想基礎走向 AGI 也很有信心,用他的話說「如果你有 10 億的 context length,今天看到的問題都不是問題」。
01
AGI:AI 本質就是一堆 scaling law
Q:我們把 LLM 的訓練比作登月,月之暗面的名字也和登月相關。你怎麼看現在創業公司的 LLM 訓練,在 GPU 和算力資源有限的條件下,還能實現登月嗎?
楊植麟:「登月」有幾個不同的生產要素,算力肯定是一個核心,但還有其他的。
你需要一個同時滿足 scalability 和 generality 這兩點的架構,但今天其實很多架構已經不滿足這兩條了。Transformer 在已知的 token 空間符合這兩條,但放大到一個更通用的場景,也不太符合。資料也是一個生產要素,包括整個世界的數字化,和來自使用者的資料。
所以在很多核心生產要素中,透過改變其他的生產要素,可以讓算力利用率變高。
同時,針對「登月」,算力肯定要持續增長。今天能看到最好的模型是 10 的 25 到 26 次方 FLOPs 這種規模。這個數量級接下來肯定還會持續增長,所以我認為算力是個必要條件,因為機器學習或者 AI 研究了七八十年,唯一有效的東西其實是 scaling law,就是放大這幾種生產要素。
我們其實比較有信心,在一年的時間視窗,能夠達到 10 的 26 次方這樣規模的模型,資源最終會得到合理分配的。
Q:OpenAI 訓下一代模型,我們推測有至少 10 萬張 H100,單個叢集也能達到 3 萬張。OpenAI 顯然是追求「登月」的,不足可能是沒那麼注重使用者和客戶體驗。月之暗面和 OpenAI 的差異化路徑會在哪兒?有什麼是月之暗面能做而 OpenAI 不做的?
楊植麟:短期內關鍵的一點在於大家的 tech vision 不完全相同。很多領域並不是 OpenAI 的核心競爭力,比如圖片生成,DALL-E 3 至少比 Midjourney 落後一代。GPT 的 long-context 也並不是最先進的我們前段時間做出來的 lossless long-context 技術在很多具體場景上要比 OpenAI 效果更好,因為用了無損壓縮的技術。你可以用它去讀一篇很長的文章,它可以很好地還原一些具體細節,還可以內容做推理。使用者自己還會發現很多場景,比如扔給它 50 個簡歷,讓它根據你的要求做分析和篩選。
要做差異化,我認為就是去看這裡面的 tech space 有多大,tech space 越大,技術、產品、商業層面能實現的差異化就越大。如果技術已經收斂了,那大家只能去追趕,就是同質化內卷。
然後我其實比較樂觀,因為現在仍有巨大的 tech space。AGI 技術可以分為三層:
第一層是 scaling law 結合 next-token-prediction這個基礎對所有人都是一樣的,追趕過程逐漸收斂。在這個路徑上, OpenAI 現在做得更好,因為他們過去四五年投入了相應的資源。
第二層現在有兩個核心問題。首先是如何通用地表示這個世界?真正的「通用」是像計算機一樣,用 0 和 1  就能表示整個世界。對於基於 transformer 的語言模型來說,它能表示一本書、一篇文章、甚至一個影片,但表示一個更大的 3D 世界或你硬碟上的所有檔案還有難度,離所謂的 unified representation 其實有差距。架構其實解決的是這個問題。
透過 AI 自我進化克服資料稀缺性的瓶頸是第二層的另一個問題。今天的 AI 其實像一個黑盒,這個黑盒有兩個輸入:電源線和資料線,輸入這兩個東西后,盒子就能產出智慧。隨後大家意識到,資料線的輸入是有限的,這就是所謂的資料瓶頸問題,下一代 AI 需要拔掉資料線,做到只要源源不斷地輸入電力,就能源源不斷地輸出智慧。
這兩個核心問題導致在第三層有巨大的空間,包括 long-context、不同模態的生成、模型多步規劃的能力、指令遵循的能力、各種 agent 的功能等。
這些上層的東西都會有巨大的差異化,因為中間存在兩個重要的技術變數。我認為這是我們的機會。
除了技術層面,價值觀上我們有一點和 OpenAI 不同:我們希望在下一個時代,能成為一家結合 OpenAI 技術理想主義和位元組所展現的商業化哲學觀的公司。東方的效用主義我認為有一定的可取之處。完全不關心商業價值的話,你其實很難真的做出來一個偉大的產品,或者讓一個本身很偉大的技術變得更偉大。
Q:你覺得模型公司應該講什麼故事?像 OpenAI 一樣講追求 AGI,還是超級應用的故事?兩者會有矛盾嗎,怎麼來平衡?
楊植麟:如何講故事取決於投資人的心態。對我們來說,更重要的是理解兩者之間的關係。
AGI 和產品對我們來說並不是手段和目的的關係,兩個都是目的。同時,在追求 AGI 的過程中,我認為所謂的資料飛輪是很重要的,儘管它是一個老套的概念。
像 ChatGPT 這樣的產品,還沒有完全建立起基於使用者資料的持續進化。我覺得這很大程度上是 base model 還在進化,進化了一代,之前的使用者資料就沒什麼用了。這跟發展階段有關係 ——現在「吃」的是 base model 的 scaling law,未來可能會去「吃」使用者這個資料來源的 scaling law。
歷史上基本所有的網際網路產品要跑出來,最終都要靠使用者資料的 scale。今天 Midjourney 已經能看到一些跡象,它透過「吃」使用者的 scaling law 可以勝過 base model 的 scale up,但如果只看語言模型和文字,base model 的 scaling 效果仍然遠遠超過使用者的,但我認為最終會轉移到使用者的 scaling law,只是個時間問題。
現在面對資料瓶頸,這一點尤為重要。特別是人類偏好資料,它非常有限,但沒有它又不行。我覺得這也是每一個 AI-Native 產品現在最值得思考的問題之一。所以,一個不足夠關心使用者的公司最終可能也沒法實現 AGI。
Q:怎麼看 MoE?有一種說法是 MoE 不是真正的 scale up,只有 scale up dense model 才會提升模型的能力。
楊植麟:你可以認為帶 MoE 和不帶 MoE 是兩條 scaling law。本質上 scaling law 刻畫的是 loss 跟引數量之間的關係。MoE 改變了這個函式,讓你能夠用更大的引數,但同時 FLOPs 不變。合成數據改變的是另一個關係,FLOPs 不變的情況下讓資料規模增長。
沿著 scaling law 一直走是個有確定性的事情,大家透過試圖改變 scaling law 裡的具體關係來獲得更高的效率,多出來的效率就是各自的優勢。
現在很多人覺得做出 MoE 就可以實現 GPT-4。我覺得這是片面的說法,最終更實質的可能還是如何有一個統一的表示空間以及可規模化的資料生產。 
Q:如果算力足夠,會有人想做一個萬億引數的 dense model 嗎?
楊植麟:取決於推理成本的下降速度,但我覺得肯定會有。現在大家是因為推理成本太高,所以都在做權衡取捨。但是最終直接訓練一個萬億的 dense model 肯定效果會比一個只有千億引數的模型要好。
Q:Anthropic 一直在提模型的可解釋性,這一點其實有蠻多爭論。你是如何思考可解釋性的?因為剛剛你也提到了模型是一個黑盒,並且其實人類到現在還沒有弄清楚自己的大腦是怎麼工作的。
楊植麟:可解釋性核心是個信任的問題。建立一個信任的心智是很重要的,對應的應用場景甚至可能和 ChatGPT 的也會不同,比如 long-context 和搜尋的結合。
當模型完全不 hallucinate 或者機率非常低,就不需要解釋了,因為它說的東西都是對的。而且解釋有可能也只是 alignment 的一部分,比如說 chain-of-thought(思維鏈) 也可以被認為是一種解釋。
Hallucination 是可以透過 scaling law 來解決。但不一定是在「預訓練」環節,因為其實 alignment 也有 scaling law,它肯定是可以被解決的,只要你能找到對的資料。AI 本質就是一堆 scaling law。
Q:你對 AGI 的預期是什麼?transformer 本質還是一個統計機率模型,它能通往 AGI 嗎?
楊植麟:統計模型沒有什麼問題。當 next token prediction 足夠好的時候,它能夠平衡創造性和事實性。
事實性一般是對統計模型的挑戰,但是今天的語言模型可以有非常尖峰的分佈。讓它回答「中國的首都」,模型對「北」這個字能給出 99% 的機率。同時,如果我今天讓它寫一本小說,那它可能下一個詞的機率分佈就會很均勻。機率其實是一個通用的表示方式。本質上這個世界上有大量的熵,抓住確定性的東西,讓本身是混沌的東西繼續混沌。
通往 AGI 的話,long-context 會是一個很重要的點。所有問題都是 long-context 的問題 ——歷史上所有的架構演進本質上都是在提升有效的 context length。Word2vec 最近拿了 NeurIPS 的「Test of Time」獎。它在 10 年前用一個詞去預測周圍的詞,相當於 context length 是 5。RNN 把有效的 context length 提升到了 20。LSTM 漲到大幾十。transformer 到了幾千。現在我們能做到幾十萬。
如果你有 10 億的 context length,今天看到的問題都不是問題。
此外,其實無失真壓縮就是在一片混沌中學習確定性。一個極端的例子是等差數列,給定前兩個數,接下來每一個數都是確定的,不存在混沌,所以一個完美的模型可以還原整個數列。但真實世界的很多資料都存在噪聲,我們需要過濾掉這些噪聲,讓模型只學能學習到的內容。在這個過程中,對於那些不確定的可能性,也要分配足夠的機率。舉個例子,如果要生成一張圖片,那麼它的損失會比生成一段文字更高,這是因為圖片包含了更多的混沌和資訊量,但只需捕捉其中你能掌握的部分,剩餘的部分可以認為是有機率發生的。比如,水杯的顏色是綠色還是紅色就是有機率會發生的,但顏色這個資訊不會改變「水杯長什麼樣」這件事,所以這裡面需要重點學習的就是水杯的形狀,至於它的顏色,就要做一個機率分配。
Q:context length 的提升存在什麼規律?有技術可預見性嗎?
楊植麟:我自己感覺存在 context length 的摩爾定律。但需要強調:給定長度下的準確率也非常重要,需要同時最佳化長度和準確率(無失真壓縮)兩個指標。
在保證模型能力和智商的情況下,我覺得大機率 context length 的提升是指數級增長的。
02
多模態:大部分架構不值得被 scale up
Q:大家都期待多模態會在 2024 年爆發,相比文字,多模態的技術難度會在哪裡?
楊植麟:現在 state-of-the-art 的影片生成模型的 FLOPs 其實比語言模型少一個數量級以上,並不是大家不想 scale up,而是大部分架構不值得這麼做。
2019 年最流行的是架構是 BERT,後來大家問為什麼沒有人去 scale BERT,其實是因為值得被 scale 的架構需要具備 scalability 和 generality 這兩個條件。我不認為 BERT 沒有 scalability,但是你能明顯看到它沒有 generality —— 不管 scale 到多大,它都不可能給你寫一篇文章。多模態過去幾年也是卡在架構上,缺少真正通用的、有人願意去 scale 的模型。Diffusion 明顯不是,scale 上天了它也不可能是 AGI。今天 auto-regressive 的架構帶來了一些新的可能,犧牲了一些效率解決了通用性。
Auto-regressive 本身是可擴充套件的,但是 tokenizer 不一定,或者最後就不需要 tokenizer,這是 2024 年的核心問題。
Q:如果 tokenizer 不 scalable ,我們需要一個 transformer 之外全新的架構嗎?
楊植麟:光說 transformer 本身,我覺得問題不大。核心還是解決 tokenizer 的問題。transformer 架構其實已經發生很多變化了,今天做 long-context、做 MoE,都不是標準的 transformer。但是 transformer 的靈魂或者思想肯定還會存在很長時間,核心是怎麼在這個思想基礎上解決更多問題。
Q:其實 context length 無限長的話,我們也不需要 tokenizer 了?
楊植麟:對。本質上模型足夠強的話,它可以處理任何的 token、畫素、位元組。有了無限長的 context length,你可以直接把硬碟上所有的東西都輸給它,它會變成你真正的新計算機,根據這些 context 採取行動。
Q:OpenAI、Anthropic 等領先的模型公司覺得 2024 年的一大瓶頸會是資料,所以他們對怎麼用合成數據期待比較高,你怎麼看合成數據?
楊植麟:一個值得被 scale up 的架構是基礎,這個架構首先得支援不斷加入更多資料,然後資料才會真的成為瓶頸。我們現在說的資料瓶頸,從文字模態上,2024 年就會遇到,但多模態資料的引入進來會把這個問題推遲 1-2 年。
如果影片和多模態的卡點解決不了,那文字的資料瓶頸就會很關鍵。這點上其實我們也有些進展 —— 如果限定了問題,比如數學或者寫程式碼,資料是相對好生成的。通用的問題現在還沒有完全的解法,但是存在一些方向可以去探索。
Q:2025 年的瓶頸會是能源?因為到時候單個叢集規模很大,對能源帶來挑戰。
楊植麟:這些問題其實是連在一起的,最後可能是多模態解決資料問題,合成數據解決能源問題。
到了 GPT-6 這一代,掌握合成數據技術的玩家會體現出明顯差距。因為資料其實有兩種,一種是做 pre-training 的資料,另外一種是獲取成本更高的 alignment 資料。如果掌握了資料生成技術,alignment 的成本可能會降低好幾個數量級,或者能用一樣的投入產生更大的幾個數量級的資料,格局就會發生變化。
我覺得 2025、2026 年可能是很重要的里程碑 —— 模型的大部分計算量會發生在模型自己生成的資料上。
2026 年的時候也許模型用於推理的計算量會遠遠大於訓練本身,可能花 10 倍的成本去推理,推理完之後花一倍的成本來訓練。會出現新的正規化,推理即訓練,而且這個推理不是為任何使用者服務的,只為自己本身的合成數據服務。
出現這種情況的話,能源的問題也解決了,因為推理是可以分散式的。而且它不違背定律,本質還是個能源守恆。只不過我把計算正規化改變了,讓能源能夠以分散式的方式解決。
03
超級應用:模型的微調可能最終不存在
Q:Google 和抖音背後的搜尋和推薦有很強的飛輪效應,演算法能根據使用者的行為即時反饋,使用者體驗也能不斷提升。LLM 現在無法即時反饋使用者行為,AI-Native 產品的飛輪效應會是什麼?
楊植麟:我深入思考過這個問題。AI-Native 產品最終的核心價值是個性化互動,這是以前技術實現得不好的,所以這個問題其實是關於個性化的 —— 怎麼讓使用者使用你的產品多了之後,獲得高度個性化的互動體驗。今天對許多產品來說,這個個性化程度幾乎為零。以前我們只能做個性化的推薦,但現在,使用者可以與產品進行互動。這種互動是高度擬人化和個性化的。怎麼實現這一點?
我覺得這背後實際上是個技術問題。傳統 AI 時代,要實現個性化,需要持續更新模型,用小模型解決單點問題。大模型時代,實現個性化的一種方式是微調,但我認為微調可能不是本質的方法,長期來看可能不會存在模型的微調。為什麼?當你的模型指令跟隨能力、推理能力、上下文一致性能力越來越強時,所有東西只需要放在記憶體裡就可以。最終,你對模型個性化的過程實際上就是你所有的互動歷史,也是一個包含了你的偏好和反饋的集合,這些反饋會比上個時代的產品更直接,因為它是完全透過對話介面產生的。
基於這個判斷,進一步就會想:如何在技術層面實現基於 long-context 的定製化去完全取代微調?
我認為現在正在往這個方向走,未來模型不需要微調,而是透過強大的上下文一致性和指令跟隨能力來解決問題,長期趨勢應該是底層技術個性化,這會是一個很重要的變化。
比如,GPT-4 帶來的新的計算正規化,建立 GPTs 並不需要微調。以前的定製化是透過程式編寫實現的,今天實際上是透過讓模型的 prefix 變得非常複雜,從這個通用的集合中抽出你想要的東西。透過這種方式實現個性化才是 AI-native 的個性化,外掛一個傳統的推薦引擎肯定會被新方式淘汰。
Q:你們先做 lossless long-context 這個決策是怎麼做出來的?
楊植麟:我覺得最重要的還是以終為始地思考這個事。大模型作為新的計算機肯定也需要很大的記憶體,因為舊的計算機的記憶體在過去幾十年的時間裡面至少增長了幾個數量級,而且舊的計算機也是一開始的時候只有很少的記憶體。第二點就在於 AI 的終極價值是個性化。
Q:OpenAI 其實也有一定的 long-context 了。
楊植麟:它還沒有把使用者的互動過程真正視為個性化的場景。比如,如果我們去 ChatGPT prompt 某個東西, 不管是今天還是明天,只要模型版本相同,可能效果基本上差不多,這就是我說的缺乏個性化。
最終所有東西都是指令遵循。只不過你的指令會越來越複雜。今天你的指令一開始可能是 10 個詞,但是你到後面有可能它就是 1 萬個詞、100 萬個詞。
Q:Chatbot 一直是 AI 科學家的白月光,如果每個使用者每天和 Chatbot 對話幾百條,Chatbot 系統能採集和理解更多的使用者 context,最終會大幅超越搜尋和推薦系統的匹配準確率嗎?就像我們和同事家人之間的互動,只需要一句話甚至一個眼神對方就懂你的意思。
楊植麟:核心是跨越信任這一步。
我覺得最終衡量一個 AI 產品的長期價值,就是看使用者願意在它上面輸入多少個人化的資訊,然後 lossless long-context 和個性化負責把這些輸入變成有價值的東西。
可能也還需要新的硬體形態,但我覺得模型和軟體現在也還是個瓶頸。因為要再往下鑽一層,讓使用者輸入很多資訊的前提是信任,是你需要有足夠有吸引力和 類人的 AI。不能說是我為了得到你的資訊所以專門設定了一些產品功能。最終效果應該是使用者和 AI 成為了朋友,那所有事情都可以跟它說。
Inflection Pi 的動機其實是很好的,想要建立強信任,只是 Pi 可能要再往前推一步,到底怎樣跟使用者去建立信任,人類社會可能並不接受指派一個終身搭檔的做法,這有點反人性。
Q:月之暗面想做超級應用,你自己理想中的超級應用長什麼樣子?多大才算超級?
楊植麟:還是看破圈程度。周圍的親戚都在用,你才真正成為超級應用。而且我認為 AI 能力的提升會領先於產品破圈。比如假設今天 character.ai 是非常完美的多模態模型,那我覺得它破圈的機率至少會大 10 倍。最終一個應用的上限體現在以年為維度的 AI 和人的聯結的增加。
04
月之暗面:最好的人才需要 unlearn 能力
Q:AGI 公司最理想的 CEO 畫像應該是什麼樣的?
楊植麟:一方面需要有技術遠見。不能一直做別人已經證明過的東西。真的 AGI 公司必須有自己獨特的技術判斷,而且這個判斷應該影響到公司的整體方向。如果一號位不能拍板也不行。我們年初已經在做 auto-regressive 的多模態、lossless long-context 了,但它們都是最近一兩個月才變得非常火,甚至即使今天,lossless long-context 仍然不是一個共識。但如果今天才看到這個事情,已經沒有足夠多的時間去迭代,最後會變成跟隨者。
第二點是能夠很深刻的理解 AI-Native 產品的開發方式,然後基於新的生產方式適配一套組織。以前做產品是通過了解使用者的需求設計功能,新時代需要在製造的過程中完成設計。ChatGPT 就是透過製造完成設計,並沒有先設計出來一堆場景再找對應的演算法。Kimi 的使用者自己去上傳簡歷然後做篩選,也是我們上線之前完全沒有測試過的用例。
資源獲取肯定也很重要。其中主要燒錢的是算力。早期靠融資,到後面就需要更多的產品商業化。商業化也不能照搬上一個時代成熟的東西創新,所以好的 CEO 和團隊應該有一定經驗,但同時也有很強的學習和迭代能力。
Q:但有可能投資人分辨不出來到底誰的技術遠見是最領先的。
楊植麟:我不太擔心這個問題。現在就是最好的分配方式,更接近一個自由市場,最後會有最高的分配效率。我們要跟別人證明的也不是我們的 vision,因為 vision 是一個抽象的東西,還是要透過真實的交付模型和產品。Anthropic 放出 Claude 這些模型之後,馬上就得到了更多的資源。市場是公平的。
Q:從建立產品和公司競爭壁壘的角度,工業時代講究規模效應,網際網路時代講究網路效應,AGI 時代會有新正規化嗎?
楊植麟:短期是組織方式的變化帶來技術上的提升 —— 你透過更好的組織帶來更好的技術,然後在產品上直接傳遞出更好的體驗。
長期大機率還是網路效應。問題在於網路效應的體現方式是什麼?比如以前網際網路的雙邊網路可能仍然會存在,但並不是使用者和創作者雙邊。AI-Native 產品的雙邊網路可能體現在個性化上,使用者和 AI 存在一種共創的關係。
所以我現在看到值得探索的是兩點:模型能力的持續提升,另一個是雙邊效應。它們會在新時代帶來新的正規化。現在 Midjourney 在雙邊效應上已經爆發了,Stable Diffusion 作為開源模型就尷尬在單邊太分散,只能依賴 base model 的提升。
Q:從招聘角度,你怎麼定義好的人才?
楊植麟:我會拆成經驗和學習來看。學習是一個通用的能力,不光是 learn,還要 unlearn(歸零),特別是以前的成功經驗。假設你是從 0 到 1 做了 YouTube,現在做 AI 產品可能比別人更難,因為要 unlearn 很多東西。學習比經驗重要。可能再過 5 年的話, AI 行業會培養出來很多所謂的成熟職能。今天我覺得其實劃分職能沒有什麼意義,需要每個人都很多面。
Q:什麼樣的研究者才會有技術遠見?
楊植麟:核心是兩點,一個是抓大放小,一個是終局思維。我跟很多研究者合作過,容易出現的一個問題就是過分雕花,容易在區域性裡看到有很多可以最佳化的東西,比如我們發現 transformer 解決了 LSTM 的文字長度問題,但如果再跳出來一層,就會發現本質上每一代技術都是在提升文字長度。
Q:你覺得月之暗面還需要多少這樣的人才?
楊植麟:客觀上來說,限制我們的肯定還是供給。現在 AGI 的人才稀缺在於經驗,但其實擁有學習能力的人才還是很多的。
但是需求角度,整個組織不能太大 —— 把自己活生生又弄成了大廠的話,很多組織優勢就丟失了。所以我們肯定還是會維持一個精簡高效的組織。我覺得一個核心判斷是 AGI 不需要那麼多人。而且長期來看,真的「拔掉了資料」之後,GPT-6 水平之後的模型完全可以自我進化,這樣才能突破人類已有能力的邊界。
Q:你怎麼看追平 GPT-4 的難度和時間?
楊植麟:Benchmarking(對標)刷到 GPT-4 非常簡單,但是達到它的實際效果肯定有難度的,而且靠的不只是資源,Google 已經驗證了這一點。其實 GPT-4 的訓練成本也沒那麼高,大幾千萬美元不是一個很嚇人的數字,對我們來說是好事,並且我們已經有比較好的進展。
最重要的還是底層有技術遠見去預判 GPT-5 和 GPT-6 應該是什麼樣,然後提前去執行和積累,不然永遠都不可能超越 Open AI。OpenAI 的很多紅利也在於提前預判,它在 2018 年就大概相信自己在探索正確的方向,花了很長時間積累。
Q:讓你來做圖片生成這種產品的話,你會怎麼做?怎麼兼顧語言理解和圖片質量?
楊植麟:現在 Midjourney 在圖片生成這個單一任務已經做得特別好了,我來做的話會希望它能做很多工,同時在其中的一些任務也能做得很好。這其實也是 OpenAI 的思路,只是它其實沒做成功。
AGI 公司應該是入口邏輯,讓使用者預設用你,此外特定人群會有一些特殊需求和對極致效果的追求,所以市場裡還存在 Midjourney 之類公司的機會。但是 AGI 的通用性足夠強大時,很多使用者也會轉移 —— 如果今天我把 Photoshop 整個軟體都重新封裝成一個 prompt,它變成大家一個外包的全能設計師,那會有更少的人用 Midjourney。
Midjourney 今天的地位在於它透過先發優勢讓飛輪跑起來了。比較棘手的是未來還會不會有這種時間視窗,如果沒時間視窗,那很可能直接被通用模型碾壓。
Q:沿著入口邏輯的話,你覺得未來會有幾個入口?
楊植麟:至少有兩個,一個是有用的,一個是好玩的。
資訊入口可能不存在了,因為我們搜尋資訊本質上是希望端到端完成一個任務。智慧的入口以後大機率會覆蓋搜尋引擎這類資訊入口。人獲取資訊並不是終極需求,它只是一直被強行定義成一種需求。有些時候我們是希望完成一件事,有些時候是希望學習某個東西,AGI 的入口應該直接幫使用者完成任務,而不是幫他們獲取資訊。
 Q:從今天到實現你理想中的 AGI 還需要多少錢?
楊植麟:嚴格的 AGI 還需要百億美元級別。但是它不是一步到位,你需要跑起來一個迴圈,業務能夠自己產出對應的資源。這個百億美元推論的原因是 scale up 的規模還需要至少 2-3 個數量級。當然,過程中會伴隨著成本的最佳化。
Q:AGI 公司的商業模式應該是什麼樣的?
楊植麟:AGI 幫你完成的每個任務對應的價值不一樣。它可能類似一個外包,按照每個任務定價。除此之外,在任務解決過程中,廣告肯定還會扮演重要角色,基於個性化互動和對話的行為,廣告的變現效率可能比現在要高很多。
Q:假如 GPT-4.5、Claude-3、Gemini-2.0 的訓練成本是 3 億美元左右,再往後到 2025 年下一代模型的訓練成本可能要漲到幾十億美元,那要探索出 AGI 會是一場千億美元豪賭,你思考過它最終對人類社會的影響嗎?
楊植麟:相對確定的一點是實打實的生產力提升。現在用一個軟體,其實對應 1000 個程式設計師的智慧,是固定的,以後我們用的應用背後可能對應 100 萬個人的智慧,而且每天都在迭代。
看可能性的話,今天的一切都會變化。這麼多語言被訓練到一起,對文化、價值觀都有影響。人的時間分配可能也會產生很多變化,真正為了錢工作的人可能會變少,更多時間可能花在精神世界裡面,最後可能會有一個巨大的虛擬的精神空間。要實現 Metaverse,可能其實是要先實現 AI。
另外,我相信 AGI 最終是全球化的。
Q:但是現在我們判斷領先的模型又強又便宜,會有很強的馬太效應,最後格局還是很收斂。
楊植麟:5 年的時間視窗的話,頭部效應還是會明顯。但是 50 年之後,我相信 AGI 肯定是同質化的,跟今天的電沒有什麼區別。
推薦閱讀

相關文章