上個月,真格基金管理合夥人戴雨森與「晚點」長聊了一次 AI 與 Agent。我們將這次訪談整理成完整版文字稿,分為(上)、(下)兩期釋出。

去年至今有兩個重要節點:o1 和 R1。它們分別帶來了兩個對 AI 全行業的影響:
-
一是 o1 在大語言模型中引入強化學習,開啟 pre-training(預訓練)Scaling Law 之外的 post-training(後訓練)和 test-time computing(即推理階段的計算)階段的新 Scaling Law,讓模型推理能力大幅提升。
-
二是與 o1 同為推理模型的 DeepSeek R1 強勢開源,以極低的成本,和後續引發的巨大全民影響力,讓很多人重估了大模型行業當前的最重要課題:提升模型能力。R1 的開源和同期釋出了詳細技術報告另一個推理模型的 Kimi-k1.5 ,也明確告訴整個領域,一些方向是「此路不通」,他們都沒有使用蒙特卡洛樹搜尋等方法。
這期節目,雨森和「晚點」從 o1 和 R1 開始聊,二者一同帶來的推理能力的提升、成本的下降,和同期模型程式設計能力與工具使用能力的提升,開啟了 Agent 在 2025 年的應用前景。
雨森詳細分享了他對 Agent 機會的當前觀察,以及在 DeepSeek 帶來的開源生態的變化中,大小 AI 公司的新動作和調整。
01
OpenAI o 系列與 DeepSeek R 系列的啟發
Q:過去這將近 6 個月,AI 屆最重要的兩個事:一個是 OpenAI 去年 9 月 o1 的釋出,另一個是近期 DeepSeek 在釋出 R1 後掀起全球狂潮。我們可以從這兩個最重要的事兒開始聊。你可以先講講,你怎麼看 o1 和 R1 分別的意義?
戴雨森:我覺得 o1 首先讓大家看到了 Reinforcement Learning 應用於 post-training 領域所帶來的智慧提升。因為當時大家都在想在 ChatGPT-4o 之後下一個是什麼?o1 出來之後,確實在推理方面還有很多智慧的表現上得到了很大的提高。後來 o3 釋出,又證明沿著 o 這條技術路線,模型的能力還能持續提升,它的邊際還很遠、空間還很大。
聽說 o4 mini 也訓練完了,從這裡面我們既看到了,在 post-training 階段用 Reinforcement Learning 實現了 post-training 的 Scaling Law。同時也看到了,當模型推理的時間越來越長,給出的回答質量也越來越好,這就是 test-time compute scaling law,也叫推理時間的 Scaling Law。這兩條新的 Scaling Law,在之前 pre-training 的基礎上,讓 AI 模型能進一步提升。
之前頭部的那些公司或多或少也瞭解到 Reinforcement Learning 挺有用的,能提升模型的表現。但 o1 出現之後,大家才確定這條路真的能行得通。我覺得 o 系列模型帶來的推理能力提升,是解鎖 Agent 這種產品形態的關鍵。因為模型的思考能力不夠強,它就沒辦法自主使用工具、制定計劃、檢查自己的工作有沒有完成,可這些都是 Agent 產品必備的點。所以得先靠 o 系列提升模型的思考能力,才能解鎖新的產品形態。
Q:o4 和 o3 大概的區別是什麼?或者說它主要最佳化迭代的是什麼?
戴雨森:最近有一些八卦訊息,據說像 o4 mini,它的推理時間可能達到幾個小時的級別。我就在想,優秀的人類和一般人類的區別是什麼?為什麼博士論文要寫 5 年?因為一個博士他可以透過 5 年的時間得到一個更好的、更高價值的工作。但是換成普通人,給他 10 年可能都寫不出一篇博士論文。所以首先這個人基礎素質要好,其次還得有足夠的時間。
我們常說訓練模型,其實就跟培養一個更聰明的人差不多。但是聰明的人需要更多時間來傳遞更好的工作,這就是推理時間的 Scaling Law。在 o 系列模型,比如 o3、o4 中,模型能夠思考更長的時間、得到更好的結果,逐漸成為一個愈發可及的目標。
Q:剛剛講的是 o1。簡單總結一下:o1 證明了強化學習在後訓練以及測試時間計算的 Scaling Law 方面,有著很大的潛力,而且這事兒還可以走很遠。這是 o 系列的價值。
接下來可以說說 R1,我覺得在某種程度上,它的影響力超過了 o 系列,因為 R1 是全民都在討論的熱點話題。
戴雨森:我覺得 R 系列確實是一個世界級的工作,這裡面給了我們非常多的啟發。第一就是開源 VS 閉源。當它選擇開源後,大家就能瞭解模型的訓練過程。在 R1、V3 的訓練論文裡,我們看到了大量 OpenAI 早就知道,但公眾此前並不知道的事情。比如 DeepSeek-R1-Zero 證明了,在不用 SFT 的情況下,僅基於基礎模型 V3 進行 Reinforcement Learning,就能讓模型輸出更長的長度、獲得更好的智慧,實現推理的 Scaling Law。不用 SFT 這一點是個很重要的創新。然後是 GRPO,聽說 OpenAI 之前就知道它,不過是 DeepSeek 的文章讓大家意識到 GRPO 這條路可行。之前很多人在探討 o1 時,會思考是不是可以透過 MCTS 這種搜尋方式去實現,或者像 PRM 那樣按步驟標註進行 reinforcement 來實現?但 DeepSeek 很慷慨地分享說,他們試過這些方法,都行不通。其實很多時候,知道一條路走不通是很重要的。
我最近學到一個詞,叫「一位元資訊」,意思是有些關鍵資訊,一個位元就足夠傳達了。
我覺得 DeepSeek 這篇論文厲害之處就在於,它給大家提供了這些「一位元資訊」。比如 MCTS 此路不通,至少 DeepSeek 試過不通,那大家就不用在這條路上白費力氣了。這種「一位元資訊」一方面體現了 DeepSeek 慷慨的分享精神,另一方面也反映出矽谷和中國的差距,矽谷可能還有一些「一位元的資訊」我們不知道。根據我們去年做的一些瞭解來看,2024 年年中,在矽谷 RL 這條路線走得通已經是一線實驗室的共識,但這個資訊傳到中國,可能要等到 o1 和 R1 出現後。所以說,前沿探索的關鍵資訊很多都藏在這些「一位元資訊」裡。
開源的分享精神有很多好處。一方面,讓模型的同行訓練者學到了大量知識。另一方面,我們也看到微信、百度這些原本就有自己模型的公司,也因為 DeepSeek 開源接入了它。這樣一來,使更多人能用上好模型,比如我們投資的 Monica,最近推出的國內版也用上了 R1。以前,很多國內的應用開發者在海外做應用,也是因為海外有 ChatGPT-4o、Claude 3.5 等好模型,所以他們能做出好的產品。現在國內有了 R1 這樣好的模型之後,開發者們手頭的「武器」更豐富了。而且,開源還能促進整個行業更快發展,大家可以互相學習、共同進步;
剛才提到了第一點,是開源帶來的勝利。第二點,我覺得是強化學習(RL)的勝利。OpenAI 並沒有公開 o1 訓練的具體細節,但 R1 的公佈讓大家看到,Reinforcement Learning 這條路真的能走得很遠,為大家指明瞭一條值得深入探索的方向,所以我覺得這是 RL 的一大勝利;
第三點,R1、V3 以及整個 DeepSeek,都充分證明了團隊專注的重要性。在資源受限的情況下,大家反而能想出更具創造性的解決辦法。比如,用 MOE 是一種節省資源的方式,要是用傳統的 dense model,推理成本和訓練成本都會高很多。而使用 MOE,並且在晶片等面臨「卡脖子」問題時,透過像 MLA 這樣的技術創新,在合法合規的前提下,讓訓練和推理得以順利進行,還能取得更好的效果。這就說明,資源限制往往能成為創新的動力源泉。
同時,DeepSeek 也是一家在研究方向上做了很多選擇的公司。2023 年,很多人都在做多模態生成、AI 虛擬女友這類專案,也有不少人專注於 to C 產品的開發,但 DeepSeek 並沒有跟風。他們直到 R1 釋出之後才推出自己的 App。雖然 DeepSeek 已經擁有很多卡、錢以及很優秀的人,但他們依然專注於提高智慧、提升模型的基礎能力,把力量集中在一個方向上,最終獲得這樣的結果。這不僅體現了他們對技術發展方向的精準判斷,也展現了堅定選擇、堅決投入所帶來的好的結果。
同時,這也讓我們看到,年輕的 AI native 團隊是有能力跟規模更大、資源及使用者更多的大廠 PK 的。以前大家總覺得大廠在資金、人才、卡和使用者數量上佔據絕對優勢,小公司根本無法與之抗衡。DeepSeek 雖然不是普通意義上的小公司,但相對來說,它還是比較年輕的團隊,團隊裡很多成員都是中國本土培養的研究生、博士生。這讓大家對中國的人才體系充滿信心,這一點也很關鍵;
還有一點對我來說也很重要,DeepSeek 證明了在技術革命的早期,如果能透過技術進步為使用者帶來全新的、像魔法般的體驗,就會收穫意想不到的成果。很多人第一次使用 DeepSeek 的 R1 模型,第一次用到 reasoning model,看到它輸出的結果,使用者會覺很棒。這會引起自發的傳播,帶來了大量的自然流量,在沒有投入一分錢廣告費的情況下,就獲得了幾千萬的日活躍使用者(DAU)。同時,它的 API 也供不應求,很多人都願意付費使用,甚至有人主動提出希望能有一個付費穩定版的 R1 模型。這也意味著,技術進步帶來產品體驗的變革,產品體驗的變革帶來使用者的自發傳播、自然流量,同時也會湧現出商業模式。所以我覺得,在技術革命的早期,要堅持技術的突破、在智慧上的領先,而不是在已有的智慧上進行產品、運營的雕花。
Q:你覺得這個已經是共識了嗎?
戴雨森:之前有不少人提出過,2023 年到 2024 年期間,有很多研究者表達過「智慧很重要,不要在已有的基礎上雕花」。但我覺得大家需要一個實際的、鮮活的例子。在 2024 年 DeepSeek-R1 出世之前,大家都過於關注網際網路時代的指標,比如 DAU、使用者留存率以及使用者使用時長等。就拿當時很火的 AI 虛擬女友和 AI 打電話功能來說,為什麼會有那麼多人熱衷於開發這類產品呢?原因就在於,從資料上看,這類產品的使用者留存率比較高,使用者與它們互動的時間也很長。畢竟和 AI 打電話,時間自然就拉長了。但這真的能代表智慧提升嗎?至少我個人覺得,這更多是滿足了使用者的情感需求,並不是智慧的提升。如果把時長、DAU 作為最佳化指標,就不會去做 Deepseek 這樣提高智慧的產品。
在中國網際網路領域,一直存在著不少爭議。大家都知道企業服務的土壤不足,而且似乎使用者更願意為殺時間付費不為省時間付費,所以大家都習慣性的尋找下一個字節跳動。我在 2024 年 10 月給我們的 LP 做彙報時就提到,未來可能不會再沿用字節跳動的公式,因為字節跳動是透過佔用使用者時間去賺錢的,然而使用者的時間是有限的,抖音、王者榮耀等已經佔據了使用者大量的時間。所以,接下來具有創新性的「殺手應用」,可能會是那些能夠幫使用者節省時間,或者在這 8 小時、 16 個小時以外去給使用者創造價值,而不是一定要把刷抖音的時間搶過來,那是很難搶的,抖音很厲害。在這種情況下,DeepSeek 就成為了一個很好的範例。
02
Agent 帶來資本轉化為生產力的 Scaling Law
Q:以 o 系列和 R 系列為代表的推理模型,接下來會帶來哪些行業和應用變化?有一點你之前已經提到過——推理能力的提升,會指向 Agent 應用,這也是從去年下半年到現在大家頻繁討論的話題。
戴雨森:按照我們剛剛講的框架——技術進步解鎖新的產品形態。我們可以看到,從 GPT 逐步升級到 GPT 3.0,然後對齊成對話模式的 InstructGPT,最後出來 GPT-3.5 模型,解鎖了 Chatbot 這種產品形態;以 Sonnet 為代表的 coding 能力很強的模型,則解鎖了像 Cursor 這樣像程式設計助手的產品形態,可以說是相互成就的關係,如果沒有 Sonnet,Cursor 就不可能火。從 Sonnet 3.5 開始,模型開始具備一定的推理能力,而 o1 及後續的 o 系列模型的進展,讓模型的推理能力變得很強。解鎖對應的產品形態,我覺得可能就是 Agent。
什麼叫 Agent?在英文裡「agency」有主觀能動性的含義,以前地球上只有人類具備主觀能動性,我們清楚自己的目標,能夠制定計劃、使用工具、評估工作成果,這也是人類得以統治世界的原因之一。但是現在 AI 的能力逐漸到達了一個突破點,使得 AI 能夠扮演 Agent。
在我看來,AI 能夠實現這一轉變,是由三個技術的進步解鎖的:
-
第一是 reasoning。推理能力是 AI 的基礎智慧,如果推理能力不足,就會面臨一系列問題。比如,它無法明確自己的任務目標,難以制定出切實可行的執行計劃,更無法判斷自己是否完成了任務。
-
第二是 coding 能力。在數字世界中,理解 code、寫 code、完成各種任務是基礎技能,是賽博世界的「語言」。
-
第三是工具使用能力。在數字世界,人已經為自己造了這麼多的工具、軟體,那 AI 要想充分發揮作用,首先得適應人類用的這些工具。比如,AI 需要藉助人類的瀏覽器、網站來獲取資訊。
在過去的 12 個月裡,推理(reasoning)、程式設計(coding)和工具使用(tool use)這三種能力都發生了翻天覆地的變化,進入指數增長的階段。為了衡量這些能力,業界有一些不同的 benchmark(基準測試)。以推理能力為例,我們常用 GPQA 進行測試,這是一種模擬人類博士生入學資格水平的測試。在這個測試中,普通人類大約能得 20 多分,人類博士生能達到 60 分左右。在 2024 年年初,AI 領域最前沿的模型僅得 10 幾分。但如今,像 o3 這樣的前沿模型,得分已經達到了 70 多分(如果我沒記錯的話),所以這個漲得非常快。
在衡量 AI 的程式設計能力時,大家常用 SWE-Bench 進行測試,它抽取了一系列 GitHub 上真實的人類程式設計任務。在 2024 年初,4o 得分只有個位數,基本是不可用的狀態。但現在,o3 已經到了 70-80 分的程度,這意味著人類 70%-80% 的程式設計任務 AI 都可以解答。
如今,AI 能力的快速發展給我們帶來了一個新的問題,那就是我們很難再找到合適的題目來測試 AI 了。前段時間,陶哲軒提出了一個名為 Frontier Math 的測試,裡面最簡單的題目都是 IMO(國際數學奧林匹克競賽)級別的難題。當時大家認為,這些難題至少能夠擋住 AI 幾年的時間,結果現在 o3 模型在 Frontier Math 測試中已經能拿到 25 分,o4 模型的表現更好。
一旦 Reinforcement learning 應用到某個領域,相關 AI 的成長曲線常常呈現指數式增長。就像之前 AlphaGo 的出現,它運用強化學習技術,在圍棋領域取得了巨大突破。後來,DeepMind 開發的 AlphaStar,在《星際爭霸》遊戲中,也憑藉強化學習,迅速超越了人類頂級玩家。還有自動駕駛技術,其實從技術層面來講,自動駕駛已經比人類駕駛安全很多倍了,只是由於各種監管因素,還沒有大規模應用。我把這種 AI 能力超越人類的標誌性時刻稱為「李世石時刻」。大家應該都記得,李世石與 AI 進行圍棋對決時,五盤棋輸了四盤,那時候發現,AI 原來連最強的人類都能輕鬆打敗。
Q:人類是不是很快就沒有能夠評價 AI 能力的能力了?
戴雨森:我覺得現在已經很缺乏了。就像 Alexandr Wang 弄出的那個「Humanity's Last Exam」的問題,現在也到 20 分了。
Q:滿分是 100 分嗎?
戴雨森:對,從 20 分到 80 分可能很快的。關鍵是人類要想出來難題來,那無疑對人類而言是個很大的挑戰。但是如果 AI 靠花算力、靠 RL、靠更強的 inference 就能實現的話,差距是很難趕上的。
Q:像你剛剛提到的「李世石時刻」,開端肯定是 AI 超越了人類,這一點是很直觀的。我和一些圍棋愛好者交流過,比如樓天城,他說當 AlphaGo Zero 出現後,不僅超越了人類,而且人類的智慧其實不能理解它。他覺得下圍棋和做自動駕駛都是這種感覺,自動駕駛試乘是試不出來什麼東西的。下圍棋也是,人類積累了上千年的定式,被 AI 輕易打破了。
戴雨森:我覺得可理解性和可解釋性其實並不一定存在的。
Q:因為按照第一性原理,人類現在根本沒有辦法掌握世界上所有的真理和規律。
戴雨森:比如我們也沒法理解愛因斯坦當時是怎麼想出那些理論的,如果你進一步來想,貓貓狗狗肯定也理解不了人類為什麼要做各種各樣的事情對吧?如今 AI 發展這麼快,我們可能很快就會面臨一種情況,就好比小學生去考核博士生。現在我們可能正逐漸處於這樣的階段,小學生絞盡腦汁想出自己覺得超難的題目去考博士生,可對博士生來說,這些題目可能並不難。
這對 AI 安全來說,是個至關重要的問題,我們可能無法評價了。因為現在很多人類已有的測試,AI 都能輕鬆刷到 95 分以上。像在清華讀書時經常有人講,有人考 100 分是因為他的能力上限就是 100 分,而有的人考 100 分是因為試卷滿分只有 100 分,如果滿分是 1000 分,他也能考 1000 分。
Q:現在已經到了這個階段嗎?就我們已經無法評價 AI 的能力了。
戴雨森:我覺得還不是無法評價,但已經在可以預見的未來,可能在小几年的時間內就很難去評價了。
Q:那個時候會帶來什麼什麼呢?
戴雨森:其實現在大家已經看到了很多相關的苗頭。比如春節期間有一篇文章,據說是梁文鋒發在知乎上的回應,非常火,後來大家發現那就是 DeepSeek 寫的。
我最近一直在用 OpenAI 的 Deep Research,它給了我很大幫助,也帶來了很多震撼。咱們剛才聊到 Agent,其實 Agent 的第一個應用場景就是幫我做研究。我向它提出一個問題,它得思考如何解答、列出研究計劃、尋找資料、進行總結和對比。從原來沒有 reasoning 能力的 4o,到後來出現了 o1。接著,o1 有了 o1 pro,能進行更深入的思考,再到 o3 mini high,然後又有了 Deep Research。整個過程也就花了 3-6 個月的時間,但我明顯感覺到它的水平提升是呈指數級的。
昨天我就在想,要是從大街上隨便找十個人,我覺得至少有九個人的能力已經比不上 Deep Research。因為 Deep Research 能在幾分鐘內,針對任何你需要的話題,給出一份在我看來達到在較好公司工作一兩年的白領水平的研究報告。其實很多人即便花再多時間,也不具備這樣的思考推理能力、資訊獲取能力以及總結能力。所以我覺得 AGI 已經不再是一個科幻概念。要是兩年前大家談論 AGI,還覺得那是很遙遠的事,但現在在收集資訊、整理資訊這類任務上,AI 已經超過了大多數人。
Q:像我們這樣的人,位元進比特出的資訊工作者。
戴雨森:所以像今天這樣的聊天對話,AI 目前還做不到。畢竟這是我們之間的專有資訊,在聊之前,這些資訊根本不存在。但要是這些資訊已經存在某個地方,不是專有資訊的話,那 AI 肯定比絕大部分人做得要好得多,這點我很確定。可以說,AI 的增長速度真的特別快,我們已經看到了它的指數級增長,也會見證很多剛才提到的「李世石時刻」的到來。
回到最開始的話題,我覺得解鎖 Agent 有著非常重要的意義。過去,網際網路上所有的產品模式,我覺得可以用一句很著名的話來概括,就是「Attention is all you need」。
不管是騰訊還是位元組,它們的核心都是看有多少使用者在自家產品上花了多少時間。這其實可以用一個公式來理解:時長×使用者數×變現率。所以大家都想著怎麼吸引更多使用者,讓他們花更多時間,然後提高變現率。但這件事肯定是有上限的,畢竟總共就這麼多人,每個人一天睡 8 小時,醒著最多 16 個小時,還得吃飯、工作,有些事兒還不能看手機,所以很難把看手機的時間再提高一倍。於是大家就想提高變現率,同樣的一個小時我怎樣在你這獲取更高的價值,就變成了抖音的影片廣告、直播,但這條路肯定也有盡頭。
在人類歷史上,所有事情基本都需要人的 Attention,只有一種情況例外,就是自動化,以前的機械自動化,比如機床,人把自動化系統搭建好後,它就能自行運轉,但它沒有主觀能動性。目前 AI 技術的進步帶來了一種,第一不需要人類的注意力,第二又能自主執行任務的可能。不誇張地說,這是人類誕生以來最大的進步。如果說人類和其他動物的區別在於人類會使用工具,而以前人類用的工具都需要 Attention,直到現在有了 Agent 這種不需要 Attention 的工具。就像我把問題丟給 Deep Research,它自己研究 5 分鐘,這期間我不用 Attention。去年我用 Devin 的時候,給它一個任務,它就自己去幹,我可以中途打斷它,提出新需求,也能看看它的進度,但要是我不打擾,它就自己完成。所以我想提出一句新的話:在 Agent 時代,「Attention is not all you need」。
它會解鎖人類無限的潛能。前面說了,人類的 Attention 是有限的,如果人類的 Attention 不需要再被使用的話,那它的理論倍數是無限的。這就好比從老闆的角度讓員工做事,就不用 Attention。以前大部分人都是執行別人 Attention 的結果,只有少數人是老闆。
但現在 AI 越來越強大,每個人都能當 AI 的老闆。那讓 AI 做什麼是一個很重要的問題。很多人覺得助手很聰明,除了訂機票、訂外賣這些簡單事情,但不知道讓它幹什麼。我覺得這對社會、教育都會有重大影響,不過我相信,等大家適應了這種正規化之後,會發現有更多事可以交給 AI 去做。進一步延展,我覺得我們可能會看到一種工作的 Scaling Law。其實現在工作、生產力不太容易被簡單地擴大,比如一家大廠,即便有 100 億甚至 1000 億資金,也不能直接把這些錢轉化成生產力,還得招人、培訓,人多了還會有內鬥,所以有錢不一定就有生產力。但如果 AI 模型越來越強,模型的推理能力也不斷提升,你會發現有錢就等於有算力,算力越多,就能讓 AI 產生更多生產力,這就是資金轉化為生產力的 Scaling Law。
Q:但世界上需要這麼多的生產力嗎?
戴雨森:這就跟在汽車和飛機發明之前,大家的想法一樣。那時候人們會覺得,要去隔壁村,走路過去就行了,為啥要坐飛機呢?
Q:你覺得它會創造新的需求?
戴雨森:我至少覺得歷史上大量的技術已經重複驗證了這一點。
Q:相比人類物種和長期的古代歷史,其實人類的技術爆炸的時間很短,也就四五百年。
戴雨森:這是個更有意思的點。原來人類的技術爆炸是以「一代人」為單位的,逐漸變成了,一代人的生命週期裡,能經歷幾次技術爆炸?現在技術爆炸的週期已經縮短到了十年以內,從 AlexNet 問世到現在不過 13 年,從 ChatGPT 誕生到現在也沒過去多久。回想 ChatGPT 剛出現的時候,都覺得它的能力很牛,但放到現在來看,當時的它其實還有很大的提升空間。技術變化這麼快,人們可能很難及時適應,這勢必會對社會產生很多影響。
拋開這個之外,指數增長本來是世界的常態,但指數增長在最後陡峭的曲線之前,它看上去很像線性增長。有句話叫「gradually then suddenly」,在進入快速上揚階段之前,一切看起來很平靜。這也是關注 AI 安全的人如此擔心的原因,現在大家都覺得已經進入指數增長階段,這就不叫未雨綢繆了,已經開始打雷、快下雨了。我覺得生產力的大幅提高是一個很重要的變數,如果你認為生產力最後帶來的是經濟價值的話。
那問題就變成了生產力是什麼,以及怎樣讓它為大家創造價值。一方面,就如 Sam Altman 所說,一個人的公司會變得很強大,如果一個人能夠很有效的指揮 AI,甚至透過 AI 指揮 Agent,那他可能創造很大的價值;另一方面,以往創業者之所以有時能打敗大廠,是因為他們能更高效地把資金轉化為生產力,因為他們有更敏銳的 vision、更努力、沒有組織的阻力。但假設大廠投入大量資金去聘請很厲害的創業 Agent,那普通創業者可能就難以與之抗衡了,或許只有頂級創業者能夠打敗大廠,一般創業者可能會被大廠花錢請來的 AI 淘汰,這也是說不好的事情。所以有人認為,這會導致富人更富有,因為富人能買來更多生產力。過去,一個人固然有錢,也可能比不過一個聰明的年輕人,但未來情況可能會不同。
Q:這是兩個方向,一個是其實是超級個人,一個是像「科幻烏托邦」那樣,將資源逐漸匯聚到更厲害的公司。
戴雨森:所以我覺得 AI 帶來的變化是很大的,不管是從生產力角度,還是社會結構角度來看。不過,要解鎖這些變化,前提條件是模型能力得提高。我覺得,在技術革命早期找到第一個 PMF,有時候就像是個甜蜜的陷阱,甚至可以說是詛咒。比如移動網際網路,黑莓算是第一個找到 PMF 的。當時技術有限,處理器弱、網路慢,所以它覺得只能搞發郵件、發黑莓訊息、收推送這些功能。為了做好這個 PMF,就做了帶鍵盤的黑莓手機,還一直以鍵盤為傲。可後來技術進步了,處理器更強、網路更快、螢幕更大,蘋果直接說不要鍵盤,做了全觸屏手機。那時候黑莓還覺得沒鍵盤打字、發郵件肯定不好用,這就是 PMF 的詛咒,當後面技術一升級,就被自己的 PMF 困住了。
網際網路也有這種情況。雅虎是網際網路領域第一個找到 PMF 的公司,搞的是門戶模式,就是把資訊列出來給使用者看。後來搜尋引擎 Google 出現,對雅虎是個巨大的衝擊。原來雅虎是很複雜的,有大量內容,得點進去看,而 Google 就一個搜尋框,直接輸入就行。其實雅虎曾經有機會收購 Google,可惜出價不夠高,後來就被 Google 給顛覆掉了。
所以我想說,像聊天機器人(Chatbot)可能也是個甜蜜的陷阱。現在有這麼多 chatbot,大家可能就想著在這基礎上最佳化。但我一直覺得,chatbot 可能會限制前沿 AI 模型能力。比如你和 ChatGPT、Kimi 或者豆包聊天,是不是習慣像在微信上那樣特別碎片化的短對話。但如果要給 agent 一個指令,很多時候就得寫個更重要的 proposal,就像申請國家自然基金的 Grant,得完整闡述要做的事、目標和條件,得進行完整溝通。但在 chatbot 這種類似微信的語境裡,只能進行碎片化溝通,模型的智慧都不一定能體現出來。
我之前跟 OpenAI 的同學聊,他們說發現先進的模型在和使用者聊天時,並沒有讓使用者滿意度提升太多。這就有點像跟人在微信上聊天,你跟一個普通大學生和一個科學家聊,感覺差別沒那麼大。但要是讓他們寫博士論文,那完全是 0 和 1 的區別。所以說,Chatbot 這種早期容易被大家接受的產品形態,不一定就是能走到最後的產品形態。
如果在這個基礎上進行短期的指標最佳化,比如說想辦法讓大家在 chatbot 上停留更久,然後就出個打電話功能。但打電話和智慧提升是不是一致的?因為把電話打好,可能靠的是說話語氣、情商,跟智慧、提升生產力沒關係。我在想,歷史上經常出現這種情況,那些先找到第一個 PMF 的人,如果不繼續深入探索,很可能就會被這個 PMF 給困住。
Q:我們剛才做了很多關於 Agent 的展望,如果按照你說的工作 Scaling Law 的邏輯,在 2025 年的話,第一批出現的 Agent 會是什麼樣的形態呢?
戴雨森:第一批的話,我覺得像現在最火的 Deep Research。你看 OpenAI 出了 Deep Research,不過最早是 Google 推出的,接著 Perplexity 推出了 Deep Research,而且我知道好多創業公司也打算往這個方向發展。為什麼大家要發展這個方向?因為大家發現,讓 AI 更深度地去研究資訊、獲取更多資源,再根據獲取的內容決定下一步獲取什麼樣的資訊,形成這麼個迴圈,最後給出一個研究報告,這其實就是我們平時讓分析師乾的事情。但大家發現,花差不多的時間,甚至稍微多花點時間,用這個就能得到更好的結果。我們把這叫「read only Agent」,就是它只做讀取操作,不做寫的操作。我覺得目前這個 PMF 已經很明顯了,我用的 Deep Research 確實比我的實習生幹得還好。所以我覺得,對於我們這些知識工作者,需要在電腦前研究某個話題、瀏覽一堆網站然後出報告的人來說,付費意願和使用場景都很明確。
第二步就是從讀到寫。OpenAI 推出了 Operator,Anthropic 推出了 MCP,其實都是在說 AI 怎麼使用工具。不過這也會帶來很多安全隱患,畢竟大家都不希望 AI 亂搞。但顯然,在可控的情況下,讓 AI 可以寫操作、對外發布資訊,是非常重要的能力。我們們投資的 Monica 就在做類似的產品——現在大家知道了,它叫 Manus。昨天他們跟我分享了一件很有意思的事,比如說有個測試問題,要獲取美國某個城市,像鳳凰城之類的地鐵時刻表。這個模型先去官網查,發現連結打不開了,這時候它直接呼叫郵件客戶端,給鳳凰城的市政府發郵件詢問,最後走到了確認是否傳送郵件這一步,它完全能自主做這些事。
Q:這是他們的產品嗎?
戴雨森:對,他們的產品能調動工具、呼叫瀏覽器,這裡面有很多有意思的特點。比如說 AI 能主動使用工具,還有自己的「電腦」,這就很有意思。以前很多人覺得,像國內 AutoGLM 這類應用,是讓 AI 操控我們的手機,比如讓 AI 在我們手機上點外賣。但仔細想想,助理幹活是用自己的裝置還是用你的裝置呢?肯定是用他的。所以應該是我的 AI 助理在雲端,有他自己的手機或者電腦,然後用他自己的裝置給我點外賣,而不是用我的手機,畢竟我自己還得刷抖音、聊微信。這其實就是虛擬化技術。
Q:那在許可權上,他還是你的賬戶體系,對吧?
戴雨森:不一定,有可能給 AI 配一臺它自己的「電腦」。比如說你訂了個很貴的 Bloomberg(彭博終端),說不定你的 AI 助理會說:「老闆,把你的賬號借我用一下。然後你輸入賬號,讓他去用。還有一種情況,你也可能給你的助理也買個 LinkedIn 的 premium,讓他使用,這些情況都有可能發生。
其實你會發現,當 AI 能使用工具時,他能做很多事情。畢竟大部分軟體工具的使用方式,要麼就是呼叫 API,要麼就是操作軟體介面本身。所以 Kimi k1.5 裡的多模態推理很重要,特別是在使用軟體介面的時候,使用軟體介面得看懂網頁才行。現在大家都在說世界模型去理解世界,這其實挺難的。舉個簡單例子,我們看東西能知道物體有前後、有深度,但現在 AI 在識別深度資訊的方面表現一般。不過,要是隻是操作電腦和手機介面,AI 能做很多很多事情。
Q:所以這是第二種,就是既可以讀又可以寫。
戴雨森:我可以寫的話,我再隨便舉個例子,當 AI 遇到問題的時候,理論上它可以發帖求助。甚至它可以懸賞,因為它已經和支付商繫結好了,誰幫它把事兒解決了,就給對方 100 美金。這不是科幻情節,現在完全能做到。而且我們發現,強大的 AI 模型能想出很多人類想不到的解決思路,比如說人類覺得某個問題解不出來,AI 可能就會想能不能換個問題,或者能不能獲取原本沒有的許可權。
不過這也是 AI 安全研究裡需要關注的事情,因為 AI 為了解決問題,可能真會做出一些有傷害性的事。我自己就碰到過一個典型例子,我用 Windsurf 讓它做一個個人網站的示例,它為了部署這個網站,說有兩個程序佔用了埠,要把它們殺掉,我當時同意了,可後來一想,萬一殺掉後系統崩潰了怎麼辦。它只是為了部署那個演示網站,卻沒考慮到可能對我造成的影響。當然這些問題是可以對齊的,但這裡面存在很多潛在風險。
所以說,這種具備「寫」功能的 Agent,一旦做好了能力很大,但部署起來肯定會更慢,因為它可能帶來的後果也很大,需要對它進行大量監控、訓練和對齊,還要防止它被濫用,所以我覺得「讀」會比較快。「寫」的話,Operator 是個例子,你用它訂機票,會發現它還不如自己訂快,每一步都要確認。不過在 AI 領域,慢的問題總能解決,從慢變快、從貴變便宜,這是一直 AI 都在發生的事情。可以想象一下,要是原本助理需要花 30 分鐘完成的事,AI 一秒鐘就能搞定,那每天能多做多少事?空出的時間還能去做其他更多的事,這對大家的衝擊會很大。
Q:這個進階的路程,是不是就是 OpenAI 之前定義的那五個技術級別?Agent 下面就是創新者,再下面就是組織者。
戴雨森:對,這裡面又會衍生出幾個問題。最簡單的一個就是,現在是人指揮 Agent,那能不能實現 Agent 指揮 Agent。假設每個任務都能在一秒鐘內完成,那人類提問題的速度都跟不上了。
Q:以後做採訪提綱,可能就是 Agent 對接雨森的 Agent,然後它們就把提綱寫好了。
戴雨森:我覺得這完全有可能實現,不過有個重要問題,就是 memory(記憶)。現在你用 ChatGPT 和我用 ChatGPT 回答同一個問題的結果差不多。但如果是和我相處了幾年的助手,除了公有的那部分外,回答問題肯定會和你的不一樣。這樣咱倆的 Agent 才能有內容可聊,因為我們都有我們自己的 memory,但現在這個 memory 機制還非常初級。
我覺得記憶這一塊特別重要,大家都在做但還沒做得特別好。就拿 ChatGPT 來說,它所謂的記憶,其實就是跟你交流時形成了一個系統提示(prompt),比如記住「這個人有一條狗,這個人是個大學生」之類的,這很簡單。但實際上,真正的記憶非常長,而且這些記憶有的是你跟它對話時主動灌輸給它的,有的可能是它透過其他方式獲取的。總之,記憶肯定是很關鍵的一點。
還有 online learning 這也是非常重要的點。人有個獨特的能力,目前 AI 還不具備,現在 AI 模型更新權重還得釋出新版本。但人在日常生活中,不管是透過讀書還是社交,都能不斷學習,主動改變大腦裡的「權重」,這是生物的一個特點,而 AI 現在每次更新都得經過一個訓練過程。
另外,現在還有很多很有意思的前沿探索話題。比如說,現在 Agent 用的是人類的工具,但要是它比人類聰明十倍、快十倍,為什麼還要用人類的工具呢?這就好比我們不會用小孩子的餐具吃飯,肯定會用適合大人的餐具。所以,可能會有一系列專門為 AI 設計的工具,給超人設計的工具,肯定和普通人用的不一樣。在這方面,AI 專用工具以及 AI 如何迭代自己的工具都是值得研究的,說不定到時候它的工具我們人類都不會用,就像很多人不會用 EDA 一樣。
Q:而且有可能這個工具 AI 自己能設計。
戴雨森:所以再往下想,這裡面的迭代速度快到科幻領域了。不過現在我們發現,很多原本覺得是純科幻的概念,已經不是遙不可及了,只要模型再發展發展,這些事情就能實現。所以我覺得,這裡面,智慧的進步會解鎖新的產品形態。而且這些新的產品形態可能會非常厲害,要是隻在原來 Chatbot 的基礎上做最佳化、雕花,說不定很快就會被顛覆。
Q:其實我們兩三個月前聊 Agent 的時候,你還會提到 coding,剛才你沒提到 coding。
戴雨森:你是說用來 coding 的 Agent 是吧,我覺得 Agent 和 coding 的關係,第一步是去做 coding 的 Agent,像 Cursor 或者 Windsurf 這樣,這算是目前 Agent 比較容易落地的場景。但我覺得更進一步是 Agent that can code,比如說你的助理可能是文科生,要是讓他學習寫程式碼,他能寫個爬蟲幫你搜集更多資訊,這樣採訪的時候你就知道該採訪誰,相當於你的 Agent 掌握了程式設計這項新技能 code。我覺得這會是接下來更大的發展正規化。
最開始,Agent 主要是用來寫程式碼的,但需要寫程式碼的人沒那麼多。像 Cursor、Windsurf、Devin 這些開發工具,其實主要面向程式設計師。可程式設計師在人群中佔比畢竟有限,那對於更多非程式設計師的知識工作者,也就是普通白領來說,他們的 Agent 該發揮什麼作用呢?我覺得寫程式碼對他們的 Agent 來說是必備能力,因為它只有靠寫程式碼才能夠在這個賽博世界行動自如。
Q:行業發展真的很快,幾個月前大家聊 Agent,還覺得 coding 是一個方向,也有很多人朝著這個方向創業。但現在再聊,就是要有能寫程式碼的 Agent,然後讓它去做更多的事。
戴雨森:以前的 Agent 是專門寫程式碼的 Agent(Coding Agent),現在是一個 Agent 可以寫程式碼(Agent that can code)。
Q:你覺得做好 Agent 還需要哪些能力?
戴雨森:我梳理一下,現在三大能力:推理、程式碼、工具使用,然後再接下來是記憶、online learning。這幾個我覺得都是非常重要、還沒有解決的問題。
Q:在 2025 年做 Agent 這件事,你覺得會是更多由應用公司來做,還是像 OpenAI 推出 Operator、Anthropic 推出 Computer Use 那樣,由模型能力特別強的公司來做呢?
戴雨森:目前來看,模型公司確實能利用 RL 提升模型能力,並且用更強大的模型對自己的模型進行最佳化,它們可能確實有一定優勢。不過,應用公司也有幾個好處。第一,它用多種模型去混合,發揮各個模型的長處;第二就是使用者心智方面,就拿 Perplexity 來說,它一開始做 AI 搜尋,其實是佔據了使用者的心智,它用的模型在不斷升級,多數使用者就覺得它是 AI 搜尋的代名詞。Cursor 也是個很好的例子,一開始大家覺得它就是套殼,但實際上它和模型是相互成就的過程。要是沒有 Sonnet 3.5,Cursor 就不會那麼火,也實現不了預測下一步程式碼的功能;而要是沒有 Cursor,Sonnet 3.5 可能也缺少一個能讓它火的載體。
Q:你剛才提到像 Monica 也是你們投資的公司,他們在做一些 Agent 方面的探索,是基於別的模型或者開源模型來做的,是嗎?
戴雨森:因為他們不進行自己的模型訓練,如果不延期的話,他們下週會發佈一個很有意思的 Agent 產品(Manus 於 2025 年 3 月 6 日面世開始內測)。我們覺得,當你能使用模型,讓模型去使用工具,再透過一系列巧妙的產品設計,其實能帶來很不一樣的體驗。
Q:你剛才提到,chatbot 這種形式,其實對第一個發現 PMF 的人來說,是個「甜蜜的陷阱」。那在 Agent 這種應用形態上,會不會也有類似「陷阱」的部分呢?我是指哪些方面會讓你分心,或者拖慢你去極致逼近 AGI 的腳步呢?
戴雨森:Agent 我還沒想得特別清楚。畢竟它現在還處於探索階段,目前不太好說。但我有個感覺,如果現在有個 AI 產品使用者量很大,為了服務好這麼多使用者,可能在模型的尺寸和能力上就得做些妥協。簡單舉個例子,要是使用者特別多、模型很大、在中國大家覺得收費也比較難,如果免費給大量使用者提供一個推理成本很高的模型,那肯定不划算。這時候可能就得把模型做得更輕便一些。但更輕便的模型會不會和追求 AGI 有衝突、有阻礙呢?所以我覺得,當 DeepSeek 有這麼多使用者的時候,很多人討論要不要留住這些使用者,我認為其實這也是個「甜蜜的陷阱」。有幾千萬 DAU,而且世界各地使用者的使用場景各不相同,要把他們服務好,不管是算力、產品設計還是運營方面,都得投入大量的時間和精力,我覺得這會影響探索 AGI 的資源,畢竟資源不是無限的。
Q:現在看起來,DeepSeek 好像並沒有有意的去留住(使用者)。
戴雨森:我認為這是正確的,這樣才能跟微信合作。如果 DeepSeek 也想借助這個機會,做一款超級 App,那微信估計很難跟他們合作。
Q:其實我剛想到一個點,就是多模態。不過我覺得做 Agent 的話,更相關的是多模態的理解,而不是生成那部分。
戴雨森:我覺得多模態肯定很重要,但目前它對智慧的提升沒那麼快。因為語言是一種非常濃縮的智慧,依靠語言來提升智慧是一條比較快的途徑。要是語言這方面研究得差不多了,接下來就是影像。影像裡的資訊量很大,隨便拍張照片都包含很多資訊。但影像裡包含的智慧卻不多,得看很多影片才可能從中總結出一些智慧。可要是理解牛頓定律,可能幾句話就能明白,但是要看多少影片才能總結出牛頓定律?所以我覺得影片更多是在具體應用方面發揮作用,在智慧產生這塊,目前它的資訊壓縮率還不夠高。
Q:那一段時間為什麼大家都在訓多模態的模型?
戴雨森:這分成兩種情況。第一種是像 Sora 走的多模態生成路線,我覺得這種路線有很明確的 PMF ,因為全世界那麼多影片廣告,像現在很火的「做飯大橘貓」,這類的影片做得差不多就能拿來變現,所以有這樣的商業模式。像 Midjourney,它都沒融資,其實就已經初步實現了 PMF。既然有 PMF,效果也挺不錯,自然就有人去做。
Q:現在 Midjourney 和 Sora 的 DAU 怎麼樣?掉了嗎?
戴雨森:Midjourney 的情況還還不錯,第一批使用者已經用上了,他們本來就是自帶「乾糧」。Sora 我覺得,像可靈、海螺這些按照它的技術方案做出來的效果也挺好,反而現在看 Sora,起了個大早,最後卻沒那麼驚豔。不過昨天 Google 釋出的 Veo 2 還挺驚豔的,至少在單鏡頭的情況下,它是目前最好的影片生成模型。
但現在大家普遍覺得,影片生成在提升智慧方面可能不是最重要的方向,目前還是往 reasoning 的方向上「卷」。我覺得這就跟走路一樣,當你眼前有一條明確的路可以走時,很多人就會先選這條路走。所以在 AI 領域,我們會不斷經歷探索和奔跑交替的過程。當遇到瓶頸時,你會發現之前那些看似漫無目的的分支探索,說不定能帶來新的突破。所以從公司的角度來說,一方面得「直道狂奔」,就像大家在賽跑。另一方面,同時也要有這種 frontier 的探索,因為短期內不知道會發生什麼。
Q:所以說還是得大公司來搞嗎?在美國就是 Google,在中國就是字節跳動。
戴雨森:美國還有 OpenAI。
Q:所以創業公司根本沒有資源。
戴雨森:我覺得也不能這麼講。得看現在處於哪個階段,以及這個階段會持續多久。如果現在處於需要創新的階段,那創業公司有可能透過不同的 vision 去避開大廠的競爭。但如果現在就是「直道狂奔」,那肯定是誰有錢、誰有卡,誰就更容易往前衝。一直以來,創業公司的長處就是去做那些大公司沒看到的事情,如果都已經「明牌」了,那肯定大公司就更有優勢。
Q:我們剛才討論 Agent 在 2025 年可能會普及的時候,其實沒特別提到成本這個維度。成本降低是不是推動 Agent 發展很重要的點?
戴雨森:當然,而且我相信成本降低是一定會發生。所以我有個基礎假設,先讓它能做,再把它變便宜。因為成本降低肯定會實現,Agent 的能力也會不斷變強,但中間遇到瓶頸、碰到卡點也是完全有可能的。所以我覺得,得先讓它能用,再讓它變得好用,最後變得便宜。要是連能用都做不到,那就更別提便宜了。
而且我覺得在中國和美國,Agent 落地的難度也不一樣。美國現在人工成本特別高,大家總能看到那邊就業市場很緊張,很多崗位都招不到人。所以對他們來講,像 Devin 當時定價是每小時工作大概幾美金,咱們可能覺得貴,但對美國公司而言,美國加州平均最低工資是 16 美金,就算去麥當勞打工一小時都得 16 美金,而一個 Agent 每小時只要 6-8 美金。第一是很便宜,第二是一年之後它能力會更強,同樣的價格就變得更便宜。所以在這種習慣為企業服務付費的環境下,是合理的。
包括我自己也是 GPT Pro 每月 200 美金套餐的訂閱使用者,我覺得太划算了。它能讓你做 100 次 Deep Research,每次 2 美金。要是讓我的實習生做,首先我不可能半夜兩點要求他五分鐘內給我一份報告,而且他做出來的報告質量基本沒 GPT Pro 好。所以我總跟實習生說,如果只是收集資訊,弄出一份模稜兩可的報告,可能真不如人家 2 美金一次的服務。
威廉·吉布森說過:「未來早已到來,只是尚未平均分佈」。我覺得現在那些已經在使用前沿 AI 或者用得很好的人對未來的想象,和很多第一次用 Chatbot 甚至還沒用過的人,分佈是非常不均勻的。所以我真覺得,在文書工作方面,AI 替代人已經不是想象,而是正在發生的事。
Q:那你覺得在 RL 之後,就是解鎖 Agent 之後,下一個技術正規化可能是什麼呢?
戴雨森:首先我覺得 RL可以走很遠。其次,我認為接下來很重要的一點是發現新知識。Anthropic 的創始人 Dario 寫了一篇文章叫《Machines of Loving Grace》,他提到未來 AI 要進一步就是如何發現新的科學、獲取新的知識,這好像也在 OpenAI 的五級分類裡。
Q:第四級。第四級是 innovator(創新者)。
戴雨森:因為大量的科學發現通常是先提出設想,再透過實驗去驗證。在想這方面,AI 可能已經做得很好了。但在驗證環節,有時需要觀察,有時要進行物理、化學或醫療實驗,這方面可能會受到一些限制。如果我們能找到一種方法,大規模並行地開展實驗,來驗證 AI 提出的假設是否正確,包括有些像數學定理這類的,還能透過純思考產生新知識。那從這一步來看,AI 可能就會進入一種「左腳踩右腳」的狀態,它產生新知識,再用新知識來自我改進,可能形成一個自我迭代進化的過程。
但到那個時候,誕生的產品形態可能又會不一樣。很多大佬都問我什麼時候能發明出長生不老藥?我覺得這可能是大家賺了很多錢之後的共同目標。大家可能不再只想著讓 Agent 幹很多活兒,而是希望能有長生不老藥。而且還能解決人類面臨的很多重大問題,比如癌症的治療方法到底是什麼。
Q:AI 變得更聰明之後,可能自己就能找到一些更高效利用能源的辦法,甚至能解決可控核聚變這個人類 50 年都沒攻克的問題,形成一個閉環。
戴雨森:就是 AI 能完成人類能完成的任務,但很快就會遇到人類解決不了的任務時候。這就跟當年李世石遇到的「第 37 手」一樣,不知道這一步棋是怎麼下出來的,但只要能驗證這個結果,雖然不知道它是怎麼產生的,但發現它確實可行、能用,那就可能帶來很多新的進步。

推薦閱讀

