LLM的正規化轉移：RL帶來新的ScalingLaw

01.

為什麼我們期待 RL 改變 LLM 正規化？

1.1 LLM 利用現有資料，RL 探索長距離推理

2018 年，Lex Fridman 邀請 Ilya 來 MIT 客座講一節課，Ilya 選擇的主題是 RL 和 self-play，因為他認為這是通往 AGI 的路上最關鍵的方法之一。Ilya 在講座中用一句話概括了強化學習：讓 AI 用隨機路徑去嘗試一個新的任務，如果效果超出預期，就更新神經網路的權重讓 AI 記得多使用成功的實踐，然後開始下一次嘗試。

這個概括中可以看到強化學習和其他 AI 正規化的重要區別，經典三大正規化（監督學習、非監督學習、強化學習）中只有強化學習的假設是讓 AI 進行自主探索、連續決策，這個學習方式最接近人類的學習方式，也符合我們想象中的 AI agent 應該具備的自主行動能力。

強化學習的核心在於"探索"（Explore）和"利用"（Exploit）之間的權衡。LLM 在"利用"現有知識上做到了現階段的極致，而在"探索"新知識方面還有很大潛力，RL 的引入就是為了讓 LLM 能透過探索進一步提升推理能力。

在實現 RL 的過程中，有兩個核心元件。他們之間一直在反覆互動，agent 在環境中執行 action，並且根據環境的變化評估 reward：

• Environment：AI 探索完成任務的環境，當 Alphago 下圍棋時，環境就是 19×19 的棋盤。環境會發生變化，AI 會從環境變化中收到 reward value 判斷過去的那一系列探索是否有明顯的收益，例如距離下圍棋勝利是否更接近了。

• Agent：agent 會根據對環境的觀測和感知來輸出一個動作，目標是得到更高的 reward。agent 這個概念最早就是來自強化學習。

如果把這裡的 agent 主體換成 LLM，那麼會在探索的過程中做很多 LLM inference。因此這裡

RL 在 LLM 中應用的思路本質是用 inference time 換 training time，來解決模型 scale up 暫時邊際收益遞減的現狀。

這勢必也會對 scaling law 帶來很多變化，詳細的變化我們會在 2.3 節進行分析。

1.2 self-play + MCTS：高質量博弈資料提升 reasoning 能力

要讓 RL 演算法能夠在連續推理任務上做到最好，理解 self-play + MCTS 的思路是最重要的。放到 LLM 語境下，self-play 是讓 LLM 同時扮演一個或多個 agent model 去做推理任務，並由另一個 LLM 作為 reward model 來給出打分評價，一定次數後更新 LLM 權重讓其多記住做得好的推理方式。

Self-play 是 AlphaZero 等強化學習演算法的合成數據方法，最早可以追溯到 1992 年的 TD-Gammon 演算法。這個方法的本質是利用 AI 無限的計算能力來補足它資料利用效率不夠的短板，更符合當下 AI 的優勢。好的 self-play 能合成大量高質量的資料，甚至可能比人類歷史上見過的棋局、遊戲數更多，用資料量來做到 super human：AlphaGo， Dota Five 都探索出了和人類不一樣的遊戲套路，並戰勝了大部分職業選手。

讓我們以 AlphaZero 為例，在每一局對弈中，模型使用蒙特卡洛樹搜尋（Monte Carlo Tree Search，MCTS）來選擇動作。MCTS 結合了當前神經網路提供的策略（policy）和價值（value），從而在每個遊戲狀態下評估出最優的行動。其具體步驟如下：

1)隨機初始化： 模型從完全隨機初始化的狀態開始，沒有任何人類先驗知識。

2) 自我對弈（self-play）： 模型自己與自己進行對弈，生成大量的遊戲資料。這些對弈中好的結果用於更新模型的引數。

3) 蒙特卡洛樹搜尋（MCTS）：在每一次對弈中，AlphaZero 會使用 MCTS 來搜尋最佳動作。MCTS 使用策略網路（policy network）提供的動作機率分佈和價值網路（value network）提供的局面評估結果來引導搜尋。

4) 策略更新（policy network）： 根據自我對弈的結果，使用強化學習的方式來更新神經網路的引數，使得模型逐步學習到更優的策略。

這張圖來自 AlphaTensor 論文，是Alphazero 在矩陣運算解題時的變種。圖中的 acting 包含了上文中的前三步任務，learning 步驟對應著第4步：策略更新

AlphaZero 的神經網路架構就是 policy network，包含了 policy head 和 value head。這是 self-play 定義的來源：policy 是負責下棋的部分，value 是負責評估的 reward model，他們來自同一個神經網路。

• 策略網路（Policy head）： 輸出當前棋盤上每一個可能走子的地方的機率分佈，表示模型在當前狀態下認為的最佳行動。

• 價值網路（Value head）： 輸出一個標量值，表示當前棋盤狀態的評估，即模型認為從當前狀態到達遊戲結束的勝負機率。

對比 LLM，AlphaZero 強調從零開始的自我學習，不依賴任何人類的歷史資料或先驗知識。所有知識均透過自我對弈產生和最佳化，在 explore 上做到了極致；LLM 依賴於大量的預訓練資料，這些資料所有網際網路文字和程式碼內容，反映了人類知識和語言模式，在 exploit 上做到了極致。

可能會問，為什麼 RLHF 中的 RL 很難進一步給模型很強的探索推理能力，因為 RLHF 的任務目標並不是機器智慧，而是人機對齊。在像 average human 的偏好資料上做 RL 能做到“更像人”，但不能做到 super human 的智慧。舉個例子，人類總是更喜歡好理解而不是邏輯嚴謹的內容。

1.3 如何評估 RL reasoning model 的能力？

當 OpenAI 和 Anthropic 的 reasoning model 釋出時，應該怎麼評估其模型的智慧程度呢？我們可以想到這樣幾個重要的 milestone，難度從低到高：

• Milestone 1：強推理能力的“理科生”

RL reasoning model 一定能在這兩個垂直領域達到很強的可用性：90%+ 複雜數學問題正確率，完整生成 1000+ 行程式碼的 github repo。

• Milestone 2：能規劃執行 long horizon task 的 AI agent

如果 self-play 有可能透過自由探索網際網路資料，在一些任務上能為使用者執行瀏覽器/作業系統級的 autopilot，這時 AI agent 就真正來到了 ChatGPT 時刻。

• Milestone 3：AI society 對話系統

RL reasoning model 可以模擬兩個角色的對話，發現和最佳化對話策略。例如一個 LLM 可以扮演銷售和客戶、老師和學生、各國外交官等各種角色，透過自我對話學習如何在各種語境下的社交、溝通技巧，從中獲得真正的語言理解和共情能力。如果這裡有 emergent capability 湧現，AI 智慧能真正的社會化。

總結來說，self-play 給了模型一個自己“卷"自己不斷進步的框架，MCTS 方法讓模型在連續決策中更容易“打出連招”，self-play+LLM+MCTS 會成為 LLM post-training 中新的正規化。至於能走到哪一個 milestone，這裡的核心 bottleneck 就是 reward model，我們在下一節中將重點討論。

02.

Reward model：

RL reasoning 的核心難點

Self-play RL 是要在好的策略上持續探索，怎麼定義“好”就尤其重要。因此， Reward model（獎勵模型）是 RL 中最關鍵的模組之一，有兩個關鍵的卡點是需要解決的，那就是 reward model 的泛化性和連續性。

2.1 可驗證的 reward model 讓 code & math 提升路徑明晰

Self-play RL 在棋牌、電子遊戲、數學競賽上之所以有效，是因為這些領域都有明確的勝負標準，可以作為 reward model 的基礎。有了 LLM 的 in-context learning，我們相信程式碼、數學是可以透過 LLM + self-play RL 來持續進步的。根據 The information 報道，strawberry 目前能力最強的領域就在 math 和 code 上，Sonnet 3.5 在程式碼的提升也是很好的佐證。

這兩個領域具有準確、快迭代的評判標準，使得模型能夠獲得明確的反饋：我們可以把 code script 放進 Python Interpreter/ compiler，把 math proof 放進 Lean（Lean 是一種程式語言，透過計算機驗證資料定理，廣泛用在 AI 形式化數學證明中幫助 AI 理解數學題），就能自動驗證其準確性。

數學作為形式化邏輯的典範，擁有一套可驗證、精準的符號系統。在這次 IMO 中，DeepMind 用 Alphaproof + AlphaGeometry 2 的方案成功獲得銀牌，Alphaproof 解決了 3 道題目，alphageometry 解決了 1 道題。其進行做 RL 的方法有幾個值得關注的點：

1）Fine-tune Gemini 用於對數學問題形式化，生成了～100M 用於訓練的資料。這個資料量遠比人類解數學題需要的量大。

2）用 AlphaProof 和 Lean Compiler 作為外部監督訊號告訴 solver network 其答案是否正確（今年 IMO 的題目是可以驗證答案是否錯誤的），再利用 MCTS 搜尋更好的答案並訓練。

3）由於問題很難，Alphaproof 在推理過程中也會訓練網路（這可能是為什麼他耗時那麼久），即針對特定問題 MCTS 取樣後，會把取樣中較好的 reasoning path 再投入訓練，這種做法相當於對特定任務 finetune。

4）AlphaProof & Alphageometry 2 拆成了兩個策略網路來達到最好的效果。因為不同特定任務可能需要分別設定 prior，比如 AlphaGeometry 需要增加輔助線。

Code 領域的可驗證性也非常強，AI 能透過 compiler/interpreter 自行驗證可用性。如果不成功，報錯資訊也能幫助 AI 自己去發現和理解錯誤在哪裡。而且 coding 領域相比 math 還有兩個獨特的優勢：

• 海量高質量資料。開源領域已經有很多專案程式碼，而且其資料質量很高：有程式碼專案的檔案結構、最佳化歷史、遇到問題時的修復方案，還有大量基於自然語言的註釋。

• 明確的分工方式。math 是一個比較個人英雄主義的領域，頂尖優秀的數學家進行自己的思維實驗，能夠與其同頻協作的人非常少。而 code 領域已經出現了複雜分工：PM 理解需求設計原型、SWE 開發程式、QA 驗證程式碼、SRE 進行運維。前面提到 self-play 其實是一個 multi-agent 分工環境，高效的分工影響了 RL 的質量上限。

OpenAI 在今年 6 月宣佈內部訓練了 CriticGPT 用於 post-training，是一個 AI code verifier：CriticGPT 能夠對 ChatGPT 生成的程式碼進行評估，識別出錯誤並提修改建議。其訓練方式也比較直接：透過在程式碼中故意設定 bug 並進行詳細標註，訓練出能夠 debug 的模型。儘管沒有說明，我們相信其目標一定是給 Q-star 訓練 reward model。

Anthropic Artifact 也是這個領域非常好的案例：Sonnet 3.5 從能生成 20 行可靠程式碼進化到可以生成 200 行，自然也就帶來了這個產品 UI 上的創新。Anthropic 也完全有可能把這裡的使用者資料作為 reward model 喂回給模型，是比 ChatGPT 的資料飛輪更高效的。

如果說 ai for math 可能對人類的科學探索有很大幫助，ai for coding 是更能產生直接的經濟價值的。知識工作者有非常多的任務可以用程式碼來定義並實現，只是目前沒有公司能為個性化長尾需求寫程式碼。這一部分可能是 RL 成熟之後最大的創業機會，這將在文章的第 4 部分繼續深入。

2.2 reward model 對其他領域的泛化性並不明確

在數學和程式設計等領域，我們有明確的正確性標準，但在文字的開放域我們沒有，很多時候任務的目標是模糊的、沒有最優解，這讓我們對智慧透過 RL 在所有語言任務上產生泛化感到悲觀：

•物理、醫藥有明確的標準答案，但需要很長的實驗驗證週期。這兩個領域看似是最接近 math、code 的，但缺少實驗資料驗證的 synthetic data 可用性無法保障。

•法律、金融的問題往往沒有通用解法，很難用通用的 reward model 實現。例如在科技投資中，一級市場研究就會 reward 前瞻性強的研究，而二級市場研究則對前瞻性的 reward 就相對少一些，reward 需要分配給很多強時效性的判斷。

• 文字創意領域的 reward 很多時候不符合馬爾可夫模型，也就是其 reward 常常會有跳變。一本好的小說、劇本，會講究反轉，試想 LLM next-token prediction 到一個反轉之前其 reward 函式還很低，一個精彩的反轉讓 reward 函式突然大幅提升，self-play RL 很難捕捉這個突然的變化。

因此這裡孕育著新正規化下的第二個創業機會：垂直領域的 reward model，同樣會在第 4 部分詳細展開。

而要讓 reward function 能捕捉到更多的訊號，在垂直領域之外泛化，最重要的方向就是怎麼用好 LLM 作為 reward model，並同時輸出數字和文字評估。

2.3 LLM as a PRM （process reward model）：通往泛化的重要路線

要實現泛化，背後的核心問題是怎麼設計 reward function 才讓資料訊號能被更高效地運用，才能讓 AI 循序漸進的學習。在 code 和 math 領域已經有了一些解決方案：使用 LLM 作為 PRM + curriculum learning。這套方法的持續突破，一定會讓 reasoning model 訓練得更好，配合 LLM 的語義表達能力甚至有可能實現 reward model 的泛化。

PRM （Process reward model）是獎勵好的推理步驟，而不僅僅是正確的結果。這更接近人類的學習和推理方式，實現方式常常是用 chain-of-thought 來表示推理過程，對每一步進行打分。這是因為 LLM 的語義理解能力才成為可能的。在傳統 RL 中，我們按照最終結果評分，其評分模型稱為 ORM（outcome reward model）；而透過專門訓練 LLM 成為 process verifier ，新的評分模型叫做 PRM，往往是使用嬌小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓練的 PRM 在解決 MATH 資料集測試集中 78.2%的問題時表現優於 ORM。在今年 Google Research 的一篇 paper 中提到，PRM 在過程中一旦成功發現第一個錯誤，就能使 RL 訓練效果顯著提升。

而且在 process supervision 過程中，reward 的形式也不止限於數值，文字評價也可以作為指導模型繼續行動的 reward。Google DeepMind 最新發布的 Generative Verifier 中，他們微調的 verifier 可以把問題每一步都用數值和文字評估，給模型作為 reward。

Process learning 保證了推理思考過程得到評估，而 Curriculum learning 是為了讓思考過程得到由淺入深、循序漸進的引導，其核心理念是將複雜任務分解為多個難度遞增的子任務，讓智慧體逐步學習。這樣由簡單到難的設計過程是很有必要的，這樣一方面避免了 reward model 在早期過於稀疏的問題，一方面可以透過資料的多樣性來使 LLM 學習最適合其能力的課程，防止出現下棋時能贏李世石、但不能贏公園老大爺的過擬合情況。

在課程學習中，有兩種關鍵的獎勵機制：探索獎勵和競爭獎勵。探索獎勵是在完成簡單子任務時給予的，旨在鼓勵智慧體學習基礎技能。競爭獎勵則是在完成最終複雜任務時給予的。為了平衡這兩種獎勵，課程學習引入了獎勵退火機制：隨著訓練的進行，探索獎勵逐漸減少，而競爭獎勵的比重逐漸增加。課程學習的設計原則遵循一個漸進的過程。在訓練的早期階段，系統提供稠密的探索獎勵，幫助智慧體快速掌握基礎技能。隨著訓練的深入，探索獎勵逐步減少，競爭獎勵的比重逐漸增加。

03.

Scaling Law 正規化變化

3.1 RL 合成數據的 unit economics 估算

在 RL 的新正規化下，LLM 訓練的 scaling law 需要被重寫。因為訓練時計算量不再只是和引數量的上升有關，還多了一個新變數：self-play 探索時 LLM inference 的計算量。RL 的思路本質是用 inference time 換 training time，來解決模型 scale up 暫時邊際收益遞減的現狀。最近 DeepMind 也釋出了一篇paper 叫做：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters，正是在討論這個正規化變化。

在 MCTS 這樣的樹狀搜尋演算法中，在樹的每個節點多次模擬。在圍棋這樣範圍相對確定的任務裡，AlphaGo 的計算量已經很大。其訓練過程模型透過反覆進行 self-play，不斷最佳化其 policy 和 reward 評估能力。在 AlphaZero 的訓練中，模型進行了大約 500 萬局自我對弈，每局大約 200 步，做好每一步平均需要 1600 次模擬。這使得總的模擬次數達到了 1.6 萬億次。

MCTS 中的樹狀結構示例

但 AlphaZero 只是一個千萬引數量級的神經網路，和 LLM 差了 3-4 個數量級。要想搜尋所有人類思考過程的可能性，還得處理更多資料和更復雜的引數，計算量只會更加龐大。要讓 LLM 做這樣大樣本量的 self-play 的算力需求是非常大的。好在我們大部分的推理問題都可以拆解為一個 3-10 步的 chain-of-thought，接下來我們就計算一下 LLM 需要的推理成本，每一次模擬需要以下資料：

• context：問題和之前的推理過程。

• action：基於 context 接下來的行動選擇。這裡是和傳統 RL 差異最大的地方，文字可以用無限開放的方式進行組合，而傳統任務比如下圍棋有著有限的決策空間。實踐中一些 paper 提到會用 temperature sampling 來生成 k 種回答（k 是一個固定數字，具體值需要實踐），把這 k 個回答作為決策空間。我們可以按 k = 32 進行計算，也就是每一步推理需要 32 次 inference 模擬。

• reward：對每一步行動，需要輸出 reward 來評估其效果。輸出的 process reward 一定包括數值，可能也包括文字。

那麼這三部分資料的推理成本我們可以做一個大致的簡單估算：

• Agent model 是一個 50B LLM（$0.5/M tokens），reward model 是一個 10B LLM（$0.1/M tokens）；

• Reasoning 任務有 5 步推理深度，每步會模擬 32 種結果，選取 top 10% 的推理結果往下推理，那麼總計需要大約 10000 次模擬；

• 每一次模擬平均 1000 tokens；

那麼一個推理任務的總成本為 6 美金。由於大部分 token 都是在重複 context，高質量比例不會很大，可以認為 10000 次模擬中有 1% 也就是 100 次模擬是有價值的（包括正例和負例，RL 中負例同樣很有幫助的），也就是 100k tokens。

3.2 新的scaling law 正在浮現：算力週期性從 scaling 轉移到 inference-time compute

對於 GPT-4， Claude-3.5 水平的模型，我們推測要合成 1-10T 量級的高質量推理資料才能真正讓模型大幅提升其推理能力，對應的成本大致需要 6-60 億美金，這個在模型訓練實驗的算力中佔的比例也是比較大的。

因此 RL 正規化下，scaling law 仍然存在，計算成本仍然會大幅提升來獲得更優的智慧，但提升不再是模型的引數量本身的持續增長，而是透過 RL reasoning model 的方式來 scale up。今年中 OpenAI 正式推出了 mid-training 這個崗位，可能就是透過 RL reasoning model 合成大量高質量資料做繼續學習。

但與預訓練需求不同的是，inference 對單張卡效能和叢集規模的需求相對低一些，也就是說不一定要最頂尖的卡、3 萬卡以上的叢集才能再能跑 RL inference。因此各家大廠要追求 RL 正規化下的 scaling law 還是需要在 GPU 算力上持續投入，但一年內不會再去追求超大 H100 叢集了。下一次大模型從 scaling up parameters 中獲取智慧的時間點，可能是明年下半年 NVidia B 系列的釋出，可以實現更大的 20 萬量級互聯叢集。

因此並不是未來 foundational model 就不再需要 scale up 了，未來的趨勢可能是週期式的：2 年的 model scaling-up 週期，2 年的 RL reasoning 提升週期。硬體更新、類 transformer 架構最佳化、next token prediction 目標有關，都可能再次點燃模型 scale up 的趨勢。

3.3 推理成本大幅上升：MCTS 搜尋加入 LLM inference

在去年的 LLM 正規化預測中我們提到過，LLM 直接生成是可以類比系統 1 的慢思考。而 RL 就為 LLM 帶來了系統 2 慢思考。

引入了 MCTS 之後，LLM inference 會變得更慢、更貴、更智慧。因為每一次回答問題時都會推演很多種可能的思考路徑，並自行評估哪一個能獲得最高的 reward，然後再將最終的生成結果輸出給使用者。理想中越難的問題需要分配更多的算力和時間：簡單問題 1s 直接輸出答案，複雜問題可能需要 10min 甚至 10h 來思考最佳的解決方式。MCTS 實際推理中，可能是和之前我們預測成本的正規化類似：把任務拆解成 5 步推理，每一步嘗試 k 次模擬，搜尋一整個決策樹中的最佳方案。Alphago 下圍棋時也是這麼在推理時深度推演之後的下棋決策的，只是應用到 LLM 上對算力的要求更高了，需要更多智慧剪枝等最佳化方式。

因此這一部分很難定量的計算其實際對推理需求帶來了多大數量級的提升：理論上 MCTS 推演的策略集越全面一定是效果越好的，但是推理算力、使用者體驗的角度來說一定需要 LLM 廠商去做嚴格的資源約束，來達到效能和成本之間的平衡。

04.

RL 新正規化帶來了什麼創業和投資機會？

4.1 AI for coding 帶來程式設計能力民主化

程式碼開發是最近 AI 提升最大、熱度最高的領域，背後最重要的原因就是 sonnet3.5 的釋出帶來的推理能力的提升。這個提升最直接的 benchmark 就是寫出可靠程式碼的行數：原本 4o 只能可以寫 20 行可靠的程式碼，Sonnet 3.5 可以寫 200 行。

如果 reasoning model 的突破把這個 benchmark 擴大到 1000 行，那麼很多簡單的程式碼專案其實不需要專業的開發者來完成，而是 ai 獨立完成一整個專案。這時使用這類產品的使用者數，都會有一個數量級的提升，每個專案的平均 DAU 會下降，對程式碼的效能要求也會降低。

我們會把 AI for coding 分為兩類。第 1 類目前已經有比較成熟的產品了，而第 2 類在 reasoning model 出現前後才剛剛開始：

• AI for developers，為專業開發者的 ai 提效。這個領域已經有一些比較成熟的產品了，我們比較看好 AI IDE 的入口級效應和 e2e coding agent 對工作流的顛覆，Cursor 是目前明顯的領先者。

• No-code AI developers，人人都成為產品經理，為自己的需求設計軟體。完成一個軟體專案的無程式碼開發品牌。

AI for developers

Cursor

Anysphere 是一家專注於開發 AI 驅動工具以提升軟體開發效率的初創公司，其旗艦產品是名為 Cursor 的 AI IDE。加持了 Sonnet 3.5 之後，Sonnet 的產品口碑特別優秀，就像去年上半年我看到 Perplexity 的使用者口碑那樣。他們的產品對使用者正在開發專案的 context 做了非常深入的理解，同時也有優秀的 chat UI，和各種支援 AI 協同編輯的快捷鍵。由於其產品體驗很優秀，甚至可以在 Youtube 上看到一個美國的 8 歲女孩用 cursor 在 45 分鐘內實現了一個自己想要的哈利波特 chatbot。

Cursor 團隊下一步的開發目標也是 AI 自動化提升，減少 human in the loop。比如他們提到正在開發後臺獨立執行的 shadow workspace，AI 可以在其中持續自由修改程式碼、執行測試和獲取反饋，而不會影響實際專案檔案，並再將最終的建議反饋給使用者。這樣的 AI 沙盒的下一步就是 AI 能夠獨立完成所有程式碼，屆時 Cursor 團隊也完全有可能去切入一個更大的普通使用者開發市場。

Zed

Zed 是一款由 Atom 和 Tree-sitter 的建立者開發的高效能多人程式碼編輯器。他們主打的特點是支援多人甚至 AI 即時協作編輯程式碼。開發者可以即時看到其他使用者的編輯操作，同時多人修改同一個檔案，並透過聊天、語音、視訊會議等工具進行即時溝通。在釋出了 Zed AI 之後，這樣一些協同功能都有可能成為 AI 開發使用的重要 context。

這裡盤點的還只是應用工具層的典型產品，還有 4-5 家 e2e agent 公司尚未釋出產品，會在之後另外發布相關研究。

No-code AI developers

這個新賽道不是服務專業開發者的，而是能用低門檻方式服務普通使用者的，設計出低門檻的互動方式非常重要。這就像攝像頭在手機上便攜之後，出現了 Instagram、Tik tok 這樣的產品，產品的主要價值就在其前端互動幫助普通使用者都能拍出高質量的照片影片並形成內容平臺。

Websim

Websim 是這個領域中重要的互動創新，其 vison 是 no-code 的方式用 AI 生成模擬出一個新的網際網路。其產品形態用內嵌的瀏覽器做互動，使用者可以透過多次的 prompt 生成複雜度還不錯的網頁。

這個專案從今年初就已經出現了，而 Sonnet 3.5 讓這個 idea 可以實現了。現在 Websim 社群中已經有各種 hobbyist 在開發產品，甚至由使用者在其中開發出了一個完整的 3D 建模編輯器。使用者可以在產品上不斷迭代測試網站的原型，也可以瀏覽其他使用者創作出的產品，有一些從工具到平臺的轉移。

使用者在 Websim 上創作的 Google2.0

Wordware

Wordware 也在從工具到平臺轉移上做得很好。他們的產品用類似 notion 的方式做互動，把 IDE 的門檻降低，普通使用者能像用 notion 文件一樣構建一個好玩的 app。

Wordware 是 ProductHunt 最成功的釋出之一，釋出當天獲得了 6151 票。他們在 10 天內有 700 萬用戶用了 twitter agent，新增 25 萬 wordware 使用者，總計註冊使用者達到 27.2 萬。

Wordware 團隊擅長用自己的產品去推出病毒式傳播的內容：twitter.wordware.ai。Wordware 的增長負責人 Kamil Ruczynski 提出了這個 idea：可以閱讀你所有推文，對你的個性進行吐槽和分析的 AI Agent。這款 Agent 產品的核心邏輯非常簡單：提示詞 + 推特 API + AI，主打犀利吐槽、獵奇有趣，命中了最大量的 18-29 歲推特使用者群體。

4.2 Reasoning model Lab 有新的模型層機會？

上一波正規化下的 startup 開始收斂，Inflection、Adept、Character 都被收購。在新正規化下又有新的 research lab 又湧現出來，其中我們認為最值得關注的有以下三家。

SSI

Safe Superintelligence Inc. （SSI）是由 Ilya Sutskever、Daniel Gross 和 Daniel Levy 共同創立的公司，專注於開發安全的超級人工智慧。他們公司還在 lab research 階段，選擇的很可能就是從有 self-play RL 的 LLM 路線開始。

Chief scientist Ilya 的前瞻性無需多言，從 AlexNet、Seq2seq、Dota Five 到 ChatGPT，他完整地引領了過去十年中所有 AI 領域的 milestone。SSI 是有了 Ilya 離開 OpenAI 才成為可能。

CEO Daniel Gross 在矽谷核心圈子的影響力很大。他出生於耶路撒冷，曾是 Y Combinator 的合夥人，投過 Uber、Instacart、Figma、Github 等專案。從 YC 離開後他和 Nat Fridman 一起創立了 AI grant，投資了 CAI、Perplexity 等專案。做投資人之前他 cofound 過搜尋引擎公司 Cue，後來被蘋果收購。這次和 Ilya 聯合創立公司，他和 Sam Altman 的定位類似，為公司籠絡足夠多的商業資源。

CTO Daniel Levy 是 22 年加入 OpenAI 的 researcher，在 GPT-4 報告中定位是 Overall vision co-lead， optimization lead，並參與了 Training run babysitting，在多模態研究上擔任了很核心的工作，離開前是 OpenAI optimization lead。此外關於他的資訊不多，在 researcher 之間有著很好的口碑。

Harmonic

Harmonic 是一家由前 Robinhood CEO Vlad Tenev 和前 Helm AI CTO Tudor Achim 於 2023 年底 cofound 的公司。該公司專注於 AI for 數學推理的人工智慧平臺，並透過數學推理智慧能力的不斷提升去解決可驗證的問題，未來可能透過 math + code 去解決醫藥、科學、金融等行業的問題。

他們最新的數學證明模型 Aristotle 已經在 MiniF2F 任務上做到了 90% 的準確度（MiniF2F 是一個數學規範問題 benchmark，問題來源於數學競賽和大學課本）。他們還提到 Harmonic 開發了一種自動將自然語言問題和解決方案翻譯為其形式表示的能力，稱為自動形式化。這使得 Aristotle 能夠與可能不熟悉 Lean 的數學家和教育工作者合作。優秀的模型能力和對 reasoning interpreter 互動泛化性的重視都是他們值得關注的原因。

Symbolica

嚴格來說，Symbolica 要做的事情和上文中的 RL 路線不同，他們更偏向符號主義方法論。不過由於他們主攻的方向也是基於程式碼、math 等形式化邏輯的 reasoning model，也應該放在這裡作為一個差異化路線進行介紹。

Symbolica 的 vision 是將傳統符號人工智慧（透過定義的符號、規則集來解決任務）的數學抽象與神經網路結合起來，來開發開發可控、可解釋的 AI 模型。他們模型最先解決的任務也會是生成程式碼、證明數學定理。

不過這個領域的競爭會非常激烈和 capital intensive， OpenAI、Anthropic、Google DeepMind 這三個 LLM 的頭部玩家在 RL 領域的技術積累非常深，是否有其他創業公司彎道超車的機會還有待時間驗證。

4.3 Vertical reward model 會成為應用層的新主題

Reward model 能泛化到整個文字推理領域的機率是比較小的，因為不同行業領域對 reward value 的定義非常不一樣。這就留給創業公司去建立垂直領域 reward model 的創業機會，其具體如何與 LLM 結合還得看 Anthropic/OpenAI 是否會為公司開放 reward model fine-tune 的介面。但每一個垂直領域都是值得建立 reward model 的，因為大部分領域現在都會遇到 fine-tune 和 RAG 能解決問題有限的問題。

這個領域和 No-code AI developers 一樣才剛剛開始，我們判斷會有兩類機會：

• 給一個垂直行業建立 reward model，比如金融/法律。以 Harvey 為代表。

• 給一類 agent 使用場景建立 reward model，比如操作瀏覽器。以 Induced AI 為代表。

Harvey

Harvey AI 我們之前發過一個獨立的研究。他們的首個產品是一個在 GPT4 底座模型上加入大量法律專業資料 finetune 的 AI Chatbot，它的主要能力包括：

• 法律寫作：撰寫長篇、格式化的法律檔案，幫助起草合同，撰寫客戶備忘錄，作為工作起點；

• 掌握專業法律知識，可以回答複雜的法律問題等；

• 進行合同及檔案的理解與處理。

這些任務都是在處理法律行業最 junior 的工作。如果要深入到行業中更為複雜、需要決策和行動的任務，需要與這些頂級律所持續合作制定一個法律行業專用的 reward model。由於 Harvey 是所有垂直領域中與 OpenAI 合作最為密切的（常常在 PR 中提到互相合作的案例），他們很可能也是最早有機會開始合作垂直領域 reward model 的。

Induced AI

Induced 是一個 AI-native 的瀏覽器自動化 RPA 平臺。其收集使用者使用資料的過程可以認為是在做 browser 領域的 reward model。

使企業能夠用簡單的自然語言輸入 workflow，或給 AI 觀看操作錄屏影片，就能將指令即時轉換為虛擬碼，模擬人類的網路瀏覽行為，自動瀏覽網頁，收集並有效地處理和分析關鍵資訊，來處理通常由後臺管理的許多重複性任務，如銷售、合規、內部運營等方面。它應用了一種雙向互動系統，允許人類根據需要在某些步驟中進行干預，而其餘步驟則由 AI 自主管理。

Induced AI 透過雲優先構建，意味著自動化的任何任務都在後臺執行，不會影響本地計算機。同時，在 Chromium 上專門構建了一個瀏覽器環境，用於自主工作流程執行。它擁有自己的記憶體、檔案系統和認證憑證（電子郵件、電話號碼），能夠處理複雜流程。

總的來說，我們期待用 RL self-play + MCTS 提升 LLM 推理能力的方式能成為下一代技術正規化，並實現智慧的泛化，扮演 LLM 思考中的系統 2。這樣一定能帶來 AI reasoning 能力大幅提升，解鎖很多 AI 應用 use case 的落地，帶來新的一波 AI 創業投資機會。