TheSecondHalf：一位OpenAI科學家的AI下半場啟示錄

作者：姚順雨，OpenAI researcher

編譯：海外獨角獸

本篇內容是 OpenAI Agent Reseacher 姚順雨對於 AI 下半場的解讀，授權海外獨角獸編譯。

在 OpenAI o1 模型釋出前，我們猜想 LLM 迎來 RL 新正規化，AGI 路線也隨之進入下半場。如果說 LLM 的 pre-training 是對已有知識進行壓縮學習，RL 則更需要和環境互動產生新知識。相比 pre-training，RL 的演算法和環境搭建更復雜，頭部 Labs 對 RL 的探索也尚未收斂。我們該如何思考 RL 的意義，如何更好理解 AI 的下半場？ Shunyu 的這篇文章帶來了很多啟發。他認為在 AI 訓練中，定義問題將比解決問題更重要，evaluation 將比 training 更重要，enviornment 和 priors 的重要性被低估了。

有評論稱這篇文章是 Bitter Lesson 級別的存在，或許是因為和 Bitter Lesson 類似，這篇文章也試圖從 high level 指出 AI 研究中一種思維正規化的徹底改變。Bitter Lesson 啟發了大家從“人類指導 AI” 轉向算力和資料的 scaling，而 The Second Half 告訴大家在 RL 全面到來時，我們應該徹底重新思考問題定義和真實用例的 evaluation。

姚順雨本科畢業於清華姚班，是姚班聯席會主席，2024 年從 Princeton 博士畢業後加入 OpenAI 擔任 Research Scientist，參與了 OpenAI 的 Computer-Using Agent，Deep Research 等多個產品專案。他是 Agent 領域的最前沿探索者，這個領域不少最重要的 framework 和 benchmark 都來自他 Phd 期間的工作：ReAct、Tree of Thought、SWE_Bench。

這篇 Blog 主要內容來自姚順雨在 CS 224N 和 Columbia 大學所做的演講，初稿由 OpenAI Deep Research 閱讀演講 Slides 後完成。

💡 目錄 💡

01 我們正處於 AI 的半場時刻

02 什麼是 AI 上半場

03 AI 的有效配方

04 歡迎來到 AI 下半場

01.

我們正處於AI 的半場時刻

We’re at AI’s halftime

數十年來，AI 的核心一直在於開發新訓練方法和模型。這種路徑確實有效：打敗國際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO（國際數學奧林匹克）和 IOI （國際資訊學奧林匹克）金牌，這些寫進 AI 歷史書裡的里程碑——DeepBlue，AlphaGo，GPT-4 和 o 系列，都來自底層訓練方法的創新，search，deep RL，scaling，reasoning。一切都在隨著時間持續進步。

那麼現在到底有什麼變了？

簡單來說，強化學習（reinforcement learning, RL）終於有效了。更確切地說，RL 終於有了泛化能力。經過幾次彎路，也跨過了一系列重要里程碑後，我們終於找到了正確的配方（recipe），能透過語言模態和推理能力來解決廣泛的強化學習任務。

即便在一年前，如果你告訴大多數 AI 研究者，有一種 recipe 能同時應對軟體工程、創意寫作、IMO 級別的數學問題、滑鼠鍵盤操作以及長篇問答——他們只會嘲笑你在幻想。這些任務每一項都極其艱難，許多研究者整個博士期間只專注於其中一個細分領域。

但今天這件事的確發生了。

接下來會發生什麼？

AI 的下半場——從現在開始——會從解決問題轉向定義問題。在這個新階段，Evaluation（模型評估）會比 Training （模型訓練）更重要。我們不再只是問，“我們能不能訓練模型來解決 X ？” 而是開始問：“我們究竟應該訓練模型來做什麼，如何衡量真正的進展？”要想贏得 AI 的下半場，我們必須及時轉變心態和技能，也許要更像產品經理。

02.

什麼是 AI 上半場

The First half

要理解 AI 上半場的意義，可以看看這個階段的 winners。

先來想一個問題，你認為迄今最具影響力的 AI 論文有哪些？我在 Stanford CS 224N 的課堂現場提出了這個問題，大家的答案並不意外：Transformer、AlexNet、GPT-3 等。這些論文的共同點在於它們提出了訓練更強模型的一些基礎性突破，但同時也在一些 benchmark 上展示了顯著的效能提升，從而得以發表。

💡

CS 224N 是 Stanford 深度學習與 NLP 主題的公開課，是過去十年 AI 領域的很多學生和學者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。

Chris Manning 是 Stanford 語言學和計算機科學系首任 Thomas M. Siebel 機器學習教授、人工智慧實驗室（SAIL）主任和以人為本人工智慧研究所（HAI）聯合創始人，他還是 ACM、AAAI 和 ACL 的 Fellow，並曾於 2015 年擔任 ACL 主席，是自然語言處理和機器學習領域的先鋒人物。

這些經典論文還有一個潛在共性：它們幾乎都是訓練方法或模型，而不是 benchmark 或者 tasks。即便是被認為是最有影響力的基準資料集 ImageNet，它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。

比如，Transformer 使用的主要 benchmark 是 WMT’14，WMT’14 的 workshop report 引用量大約為 1300 次，而 Transformer 本身的論文引用早已突破 16 萬次。

這些對比形象地說明了 AI 上半場是關注於構建新的模型和訓練方法，evaluation 和 benchmark 則位於第二位，儘管對於學術發表體系而言，後者是十分必要的。

為什麼會出現這種現象？

一個重要原因是，在 AI 上半場，訓練方法比定義 tasks 更難也更令人興奮。從零開始發明一種全新的演算法或模型架構，比如反向傳播演算法、卷積神經網路（AlexNet），或是 GPT-3 所用的 Transformer，都需要非凡的洞察力和工程能力。

相比之下，為 AI 定義 tasks 往往顯得更直接：我們只是把人類已經在做的事情，比如翻譯、影像識別或下棋，轉化為 benchmark，這個過程幾乎不需要太多洞察，甚至不需要多少工程工作。

訓練方法往往比具體任務更通用、適用範圍更廣，因此顯得格外有價值。比如，Transformer 架構最終推動了 CV、NLP、RL 等多個領域的進展，影響範圍遠遠超出最初驗證它效果的 WMT'14 這個翻譯資料集。一個出色的新訓練方法往往能在多個 benchmark 上取得較好效果，因為它足夠簡單、通用，它的影響也因此會超越某個具體任務。

過去數十年來都是訓練方法論的創新先行，催生了許多改變世界的理念和突破，並透過在各個領域不斷提升的 benchmark 表現出來。

那麼，為什麼今天這件事會發生改變？因為這些理念和突破的積累，在解決任務方面帶來了本質改變，造就了一套真正有效的 recipe。

03.

AI 的有效配方

The recipe

這套 recipe 到底是什麼？recipe 的關鍵成分並不讓人意外：大規模的語言 pre-training，資料和算力的 scaling，reasoning 和 acting 的理念。這幾個詞乍一聽很像今天出現頻率極高的 buzzwords。

為什麼將這幾個詞稱為 recipe ？我們可以從 RL 的角度來看。

RL 通常被認為是 AI 的“終極形態”，畢竟從理論上，它能夠保證在 game 中取勝，而在實踐上，幾乎所有 superhuman 水平的 AI 系統（比如 AlphaGo）都離不開 RL 的支撐。

💡

game：在博弈論中，game 指的是所有在封閉環境中，有明確輸贏的博弈任務。

RL 領域有三個關鍵組成部分：演算法（algorithm）、環境（environment）和先驗知識（priors）。

很長時間以來，RL 研究者主要關注演算法，比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等，也就是 agent 如何學習的這一核心機制。

💡

DQN：Deep Q-Network，即深度 Q 網路，是深度強化學習的一種重要演算法，使用深度神經網路來逼近Q 值函式，並透過最大化 Q 值來選擇最優動作，其中 Q 值計算的是 Agent 執行某個行動帶來的價值變化。

TD-learning：Temporal difference learning，即時序差分學習，結合了動態規劃（Dynamic Programming）和蒙特卡羅方法（Monte Carlo）的優點。

Actor-critic：即演員-評論家演算法，是一種結合策略梯度和時序差分學習的強化學習方法，包括演員（Actor，負責行動）和評價者（Critic，負責評價）用神經網路分工進行博弈。

PPO：Proximal Policy Optimization，即近端策略最佳化，是 OpenAI 在 2017 年提出的一種強化學習演算法，被認為是目前強化學習領域的 SOTA 方法，也是適用性最廣的演算法之一。PPO 簡化了以前的策略梯度演算法，通過幾個關鍵技術提高了訓練的穩定性和效率。這是之前 RLHF 最常用的 RL 演算法，在 reasoning model 場景下 Deepseek 提出的 GRPO 演算法正在取代成為主流。

TRPO：Trust Region Policy Optimization，即置信域策略最佳化，是一種用於強化學習的策略最佳化演算法。

相比之下，環境（environment）和先驗知識（priors）往往被當作既定條件，或者被儘可能簡化處理。例如，Sutton 和 Barto 的經典教材幾乎講的都是演算法，對於環境和先驗知識幾乎隻字未提。

但在深度強化學習時代，環境在實踐中的重要性凸顯：一個演算法的效果往往高度依賴於它所開發和測試的環境。如果忽視環境，可能會導致我們構建的最優演算法只在過於簡化的環境中有效。

那麼，為什麼我們不先思考清楚真正想要解決的環境，再去尋找最適合它的演算法？

OpenAI 最初就是這麼計劃的。

OpenAI 先是打造了 Gym，一個用於各類 game 的標準 RL 環境，接著又推出了 World of Bits 和 Universe，試圖將網際網路或計算機變成一個 game。這個設計很好，一旦我們可以將所有數字世界轉化為 environment，再用 RL 演算法來解決問題，我們就能實現數字領域 AGI。

💡

Gym：Gym 是 OpenAI 在 2016 年 4 月釋出的一個用於開發和比較 RL 演算法的工具包，提供了多種預定義環境，以便研究者和開發者可以在相同的 benchmarks 下測試他們的演算法。

World of Bits 和 Universe：OpenAI 的 World of Bits 是基於 Universe 的訓練平臺，也是 Universe 專案的前身。Universe 釋出於 2016 年 12 月，是一個能在幾乎所有環境中衡量和訓練 AI 通用智慧水平的開源平臺，目標是讓 AI Agent 能像人一樣使用計算機。

這個設計很好，但並不完全奏效。雖然 OpenAI 取得了巨大的進展，比如利用 RL 解決了 Dota、機器人手等問題，但還沒有解決 computer use 或 web navigation ，並且，在一個領域表現出色的 RL agent 並不能遷移到另一個領域。某些關鍵因素仍然缺失。

直到 GPT-2 或 GPT-3 出現，我們才發現缺失的是先驗知識（priors）。你需要進行大規模 pre-training，將常識和語言知識提煉到模型中，然後透過微調使其成為網路 agent（WebGPT）或聊天 agent（ChatGPT），從而改變世界。

結果發現，RL 中最重要的部分可能甚至不是 RL 演算法或環境，而是先驗知識，而這些先驗知識的獲取方式與 RL 完全無關。

語言模型的 pre-training 為對話類任務提供了良好的先驗知識，但在控制計算機或玩電子遊戲方面卻不夠理想。因為這些領域和網際網路的文字分佈相差很大，直接在這些領域上做 SFT 或 RL 的泛化效果很差。

我是在 2019 年意識到的這個問題，當時 GPT-2 剛剛釋出，我在它的基礎上做了 SFT 或 RL 來解決基於文字的 game，最終做出了 CALM。CALM 是世界上第一個基於 pre-training 語言模型構建的 agent，但它要花費上百萬步的 RL，才能在單一 game 中取得進展，而且無法遷移到其他 game 上。

雖然這正是 RL 的特點，對 RL 研究者來說並不意外，但我仍覺得很反常，因為人類可以輕鬆上手一款新遊戲，而且在零樣本的前提下做得比 agent 更好。

這時，我迎來了人生中第一個頓悟時刻：人類之所以能泛化，是因為人類不僅能做“去 2 號櫃子”、“用 1 號鑰匙開啟 3 號箱子”或“用劍殺死地牢怪物”這類操作，還能思考：“地牢很危險，我需要一件武器。附近沒有武器，我需要在鎖著的櫃子或箱子裡找，3 號箱子在 2 號櫃子裡，那我應該先去那裡把櫃子開啟。”

思考（thinking）或推理（reasoning）是一種很特殊的行為，它並不會直接改變外部世界，但卻擁有一個開放、無限組合的空間，我們可以想一個單詞、一句話、一段話，或者一萬個隨機英語單詞，但周圍環境不會立刻發生變化。

在經典 RL 理論中，reasoning 是一個糟糕的存在，因為它會讓決策變得不可能。比如，一個人需要從兩個盒子中選一個，其中一個裝著 100 萬美元，另一個是空的，這個時候預期收益是 50 萬美元。現在如果我們往這個人面前放了無數個空盒子，那麼他的預期收益就變成了 0。

但如果我們在 RL 環境的動作空間（Action Space）中加上 reasoning，我們就能利用語言模型 pre-training 中獲得的先驗知識進行泛化，並可以在不同的決策中靈活分配 test-time compute。

💡

動作空間：不同的環境允許不同種類的動作，在給定的環境中，有效動作的集合被稱為動作空間（Action Space）。在離散動作空間（Discrete Action Space），agent 的動作數量是有限的，在連續動作空間（Continuous Action Space），動作是實值的向量。

這個過程很神奇，我會在未來專門寫一篇 blog 來講。可以透過 ReAct 這篇論文先了解我對 agent reasoning 的看法。

💡

ReAct：ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架，到今天還在 agent framework 中佔有一席之地。

當下，我對於這件事的解釋是：雖然一個人面前被放置了無數個空盒子，但他在此之前，他已經在各種 game 中見過這些盒子，之前的這些選盒子的經驗能幫助他更好地識別出哪個盒子更可能裝著錢。

用一句抽象的話來說：語言透過 agent reasoning 來實現泛化（language generalizes through reasoning in agents.）。

一旦我們擁有了正確的 RL 先驗知識（語言 pre-training）和 environment（將語言推理作為行動），演算法可能是最微不足道的部分。現在我們有了 o 系列、R1、deep research、computer-using agent，未來還會有更多的成果。多麼諷刺的轉折！

長期以來，RL 研究者更關心演算法，遠勝於關心 environment ，幾乎沒有人關注先驗知識——所有的 RL 實驗本質上都是從零開始的，但我們繞了幾十年的彎路，才意識到也許我們的優先順序應該反過來。

但正如 Steve Jobs 所說：You can’t connect the dots looking forward; you can only connect them looking backward.

04.

歡迎來到 AI 下半場

The second half

這套 recipe 在徹底改變 AI 的遊戲規則，AI 上半場的遊戲規則是：

• 我們開發出新穎的訓練方法或模型，在各種 benchmarks 上取得更好的成果。

• 我們創造出更難的 benchmarks，並繼續這個迴圈。

現在這個遊戲規則正在被徹底改變，原因在於：

• 這套 recipe 本質上已經把攻克 benchmark 的過程標準化、流程化了，我們不再需要太多新的想法。並且因為這套 recipe 具有較好的 scaling 和泛化能力，你為某個具體任務設計的全新方法可能只能帶來 5% 的提升，而下一代的 o 系列模型即使沒有專門針對這個任務訓練，也能帶來 30% 的提升。

• 即使我們設計出了更難的 benchmark，它們也往往會很快（而且越來越快）被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖，直觀地展示了這個趨勢。

那 AI 下半場應該做什麼？如果新的訓練方法不再必要，更難的 benchmark 也會被越來越快地攻克，我們應該怎麼做？

我認為我們需要從根本上重新思考“評估”（evaluation），這不僅意味著設計更新、更難的 benchmarks，而是要徹底質疑現有的評估方法，創造新的評估方法，這樣才能迫使我們發明超越現有有效的 recipe 的新方法。

但這很難，因為人類有慣性，人類很少去質疑最基礎的假設——你只是理所當然地接受它們，卻沒意識到它們其實只是“假設（assumptions）”，而不是“定律（laws）”。

用一個例子來說明這種慣性，假如你基於人類考試，發明出了一種史上最成功的 AI 評估方法之一。在 2021 年這也許是一個突破性的想法，但到了 3 年後，這一方法已被很多人使用，屬於非常常規的評估方法。那麼你接下來會做什麼？很可能是再設計一套更難的考試。

再比如，你已經成功解決了基礎的程式設計任務，那麼你接下來會做什麼？很可能是尋找更難的程式設計任務，直到達到 IOI 金牌的水平。

慣性是一種很自然的現象，但問題也正出在這裡。AI 已經在國際象棋和圍棋上戰勝了世界冠軍，在 SAT 和律師資格考試中超過了大多數人類，達到了 IOI 和 IMO 金牌的能力，但至少從經濟或 GDP 的角度看，世界並沒有發生太大變化。

我將這個稱之為“效用問題（utility problem）”，我認為這是當下 AI 領域最重要的問題。

也許我們很快就能解決“效用問題”，也許還不能。但無論結果如何，這個問題背後的根源可能非常簡單：我們的評估方法在很多基本假設上與現實世界的設定不同。

舉兩個假設為例：

• 假設 1：評估應該是自動執行

通常一個 agent 會收到一個任務輸入，自動完成任務，最後得到一個任務獎勵。但現實中，agent 往往需要在整個任務過程中持續與人類互動，比如你不會給客服發一條長資訊，然後等十分鐘，期待對方給出一條詳細答覆來解決所有問題。當我們質疑這種評估假設時，就催生出了新的 benchmarks，要麼將真實人類引入互動環節（例如 Chatbot Arena），要麼引入使用者模擬（例如 tau-bench）。

•假設 2：被評估的任務應該是獨立同分布（i.i.d.）的

如果你有一個包含 500 個任務的測試集，評估的時候，你會將每個任務獨立執行，最後對結果取平均，得出整體評分。

但現實中，任務往往是順序進行的，而不是並行的。一位 Google 的軟體工程師在逐步熟悉 google3 倉庫後，會越來越高效地解決問題，但一個軟體工程 agent 在同一個倉庫中解決多個問題，卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法（事實上已經有一些相關嘗試），但學術界缺乏能合理體現這種需求的正確 benchmarks，甚至缺乏質疑 i.i.d. 這個被視為機器學習基礎假設的勇氣。

💡

獨立同分布：Independent and identically distributed，即 i.i.d.，是機器學習中一個重要的假設，它表明訓練資料和測試資料遵循相同的機率分佈。這個假設確保了在訓練集上訓練的模型能夠有效地在測試集上進行泛化，從而在未知資料上保持良好效能。

這些假設一直以來就是預設存在的。在 AI 上半場，基於這些假設來設計 benchmarks 是合理的，因為在智慧水平較低時，提高智慧通常就能提升效用。現在在這些假設下，那套通用 recipe 已幾乎被保證奏效。那麼 AI 下半場這個新遊戲的玩法會是：

• 我們需要開發面向現實世界效用的全新評估設定或 task；

• 我們需要用 recipe 來攻克這些評估設定或 task，或用新元件來增強 recipe，然後重複這個迴圈。

這個遊戲很難，因為它充滿了未知，但也格外令人興奮。AI 上半場的玩家專注於攻克電子遊戲和標準化考試，AI 下半場的玩家則透過把智慧轉化為有用的產品，打造出數十億甚至萬億美元的公司。

上半場充斥著各種不斷迭代的訓練方法和模型，而下半場在某種程度上對它們進行了篩選。通用 recipe 會輕鬆碾壓你的漸進式改進，你創造出能打破這套 recipe 的新假設。那時，你就能做出真正改變遊戲規則的研究。

歡迎來到 AI 下半場！