三萬字實錄對話GoogleDeepmind研究員：拆解OpenAIo1及LLM+RL新正規化｜ZTalk

Z Talk 是真格分享認知的欄目。

提起今年最受關注的事件，一定繞不開 OpenAI o1 模型的釋出，OpenAI CEO Sam Altman 也稱之為新正規化的開始。經過強化學習（Reinforcement Learning）並結合 Chain-of-Thought 思維鏈（CoT）技術，o1 在處理物理、數學、程式設計等複雜問題時，甚至和該領域的博士生水平不相上下。

真格基金投資副總裁 Monica 在其播客「OnBoard!」釋出的最新一期對談中，與在一線大模型機構有實際訓練大語言模型（LLM）經驗的研究員針對 OpenAI o1 模型進行了三個多小時的拆解與解讀。

強化學習如何給大語言模型帶來新的邏輯推理能力？這種能力的來源、實現方式和未來潛力又是怎樣的？o1 帶來的「新正規化」會對行業有怎樣的影響？以最前沿的視角，五位在 160 分鐘的討論中碰撞出無數火花。

本文經「張無常」整理，經真格基金編輯，以下是 3.5 萬字對談全文：

核心觀點

關於 Agent 系統的基礎構建：

– Foundation model 的推理能力是 agent 發展的基礎，但真正構建有效的 agent 系統還需要解決多個 AI 之間的協作、競爭關係，以及複雜任務的分工方式。　

– Tool use 要有意義必須有足夠廣的覆蓋面，關鍵是提升模型對 prompt 中 tool 的 function 理解和呼叫能力。只要有強大的 prompt 理解和 reasoning 能力，加上完善的說明文件，模型就能正確呼叫這些 tool。　

– 構建強大的 agent 能力需要四個要素：強大的 base model 和 reasoning（推理）能力、高質量的 tool、優質的 prompt，以及透過資料集學習如何更好地使用 tool。

– 收集 agent 相關資料集的理想方式是將資料標註自然地嵌入到使用者的日常工作流程中，而不是讓使用者感知到在標註資料，這樣才能確保資料質量，最理想的情況是特斯拉。　

關於思維鏈 CoT 與強化學習：

– 在解決問題時，如果在答案中給出更詳細的步驟，而不是直接給出結果，模型的表現會更好。這就是 Chain-of-Thought 的核心思想。　

– Chain-of-Thought 分為兩大流派：顯式流派，使用明確的 token 展示思維過程；隱式流派，更像人類的直覺思考，答案會在某個瞬間突然出現，難以用邏輯完全解釋。　

– 傳統語言模型最大的問題是不能回撤，一旦生成錯誤的 token 就無法糾正。但如果允許模型反思並修正錯誤，在 reasoning 任務上的表現就能得到顯著提升。　

– 強化學習的核心是透過 agent 與 environment 的互動和 reward 的指引來實現學習，這三個要素構成了強化學習的基本框架。　

關於 AI 反饋系統與 Human in the Loop：

– AI 不僅能快速處理和理解海量文字，還能進行總結，這使它在處理複雜評估任務時具有獨特優勢。　

– 在某些需要大量時間和精力評估的領域（比如閱讀兩本長篇小說並總結大意），AI 能夠提供比人類更高效的反饋，這是 AI feedback 被低估的價值所在。　

– 未來最具可擴充套件性的方案是「Human in the loop 配合 AI feedback」——AI 將複雜問題簡化到人類可理解的程度，再由人類做出最終判斷。　

關於 Multi-Agent 與角色分類：

– 在語言模型中，所謂的 Multi-Agent 本質上更像是 Multi-Task，模型需要在生成內容和評判結果之間切換角色。　

– 透過 prompt 不同的 persona，我們可以把 generator 和 critic 的角色分開，讓它們各自專注於生成和評判任務，這是當前語言模型領域 Multi-Agent 應用的主要方向。　

– 模型在多工切換時面臨 attention 轉換的挑戰，這也是為什麼需要透過角色分離來實現更有效的 Multi-Agent 系統。　

關於 Single-Agent 與 Multi-Agent：

– 在 Single-Agent 達到超人類水平之前，Multi-Agent 必然會表現更優，因為它能提供多樣的視角和思路，就像人類社會需要分工合作才能取得重大突破一樣。　

– Multi-Agent 很可能是一個過渡階段的產物。從 AGI 的終極目標來看，未來應該是一個能夠處理所有任務的單一模型，而不是多個 AGI 模型協作。　

– 目前使用 Multi-Agent 主要是為了解決模型在 corner case 和推理過程中的不穩定性，隨著基礎模型能力的提升，這種需求會逐漸減少。　

– 當前許多透過 Multi-Agent 解決的問題，如 tool use 的準確理解和呼叫，都可能被更強大的單一模型（比如 o1）所取代。　

嘉賓介紹

Kimi Kong：現於 Google Deepmind 擔任 Research engineer，在斯坦福讀書期間就接觸強化學習，研究領域從機器人到大語言模型，對強化學習的理論和使用沿革有非常系統的理解。　

Eric Li：加州理工大學博士，現於 Google Cloud 擔任 Research Scientist。大家都猜測 o1 將蒙特卡洛樹搜尋（MCTS）應用到了 LLM，認為這是提升邏輯推理能力的重要方式之一。Eric 發表了多篇 LLM 和 MCTSS 結合的論文，是領域內絕對的專家。　

蘇輝：前微信 Al 研究員，現國內一線網際網路公司大模型負責人。

本期播客聯合主持人 Cage：原位元組資料科學家，現拾象科技研究員，公眾號「海外獨角獸」撰稿人。

「OnBoard! 」主持人 Monica：真格基金投資副總裁，前 AWS 矽谷團隊+AI 創業公司打工人。

注：本期錄製時間為 2024 年 9 月 27 日　

嘉賓自我介紹

Monica：

你們期待已久的最硬核最乾貨的 OpenAI o1 模型技術解讀來了！最近最值得關注的事件當然就是 9 月 12 號 OpenAI o1 模型的釋出。大家對於這個模型可謂期待已久，而 OpenAI 的 CEO Sam Altman 也稱之為新正規化的開始。

透過結合強化學習和 Chain-of-Thought 的思維鏈技術，o1 在處理物理數學程式設計等非常複雜的問題時，甚至能達到與該領域博士生不相上下的水平。　

這次，我邀請到幾位非常重磅的嘉賓做了一場三個多小時的解讀，他們都有過實際訓練大模型的一線經驗。其中兩位來自強化學習的絕對高地 Google，也是 AlphaGo、AlphaFold 等一系列世界領先的強化學習工作的發源地。　

首先邀請幾位嘉賓做一個自我介紹，跟大家簡單介紹一下你的過去經歷，是怎麼開始進入到 LM（語言模型）或者說強化學習這個領域的。當然按照老規矩，除了 o1 之外，如果最近你看到了一個比較有意思的專案或者論文，也可以跟大家分享一下。那就從今天的返場嘉賓 Eric 開始吧。

Eric Li：

大家好，我是 Eric，現在在 Google 做 LLM 相關的研究，主要是做 LLM 的 post-training reasoning 和 Multi-Agent 相關內容。我開始做 LLM 是在大約兩年前，當時 Instruction Tuning（指令微調）這個概念剛出來不久，我們在做一些 FLAN（fine-tuned language net，微調語言網路）相關的模型，主要是去 scale up Instruction Tuning 的資料，研究對模型會有什麼樣的影響。

我做強化學習主要是從去年開始，在 Google 內部做 PaLM 2 以及 Gemini 的時候開始做強化學習相關的研究和工作。最近我覺得有一系列將 LLM 和 MCTS 結合的論文都非常有意思，把 planning 融入到 LLM 的 reasoning 是個很 promising 的方向。

Monica：

那正好 MCTS 也是我們後面要討論的話題，對於這個名詞還不是那麼瞭解的朋友們，Eric 正好可以在這裡簡單介紹一下。

Eric Li：

MCTS 是蒙特卡洛樹搜尋，是一種比較經典的搜尋演算法。它最經典的應用是在 Google 的圍棋 AI 專案中被廣泛使用併為大家所知。

在 LLM 的 reasoning 這一塊，蒙特卡洛樹搜尋主要用在兩個方面：一個是產生更好的高質量的合成 reasoning 資料，另一個是在 inference time 的時候能夠把 planning 融入到 reasoning 步驟中去（在推理階段，模型透過 MCTS規劃多種推理路徑，幫助其選擇最佳的推理結果），可以用 MCTS 來最佳化 reward 和 reasoning 的路徑。我覺得這兩個都是非常有意思的方向。

我們最近有一篇論文是用 MCTS 的方法來幫助標註 process supervision 的資料。因為大模型在做 reasoning 時，它的某些 reasoning step 可能會出錯，但讓人類去標註每個 reasoning step 的正確性是非常耗費資源的。我們使用 MCTS 加上一些蒙特卡洛估計的方法來最佳化這個過程，提出了一種完全不需要人工參與，只依靠 AI 就能獲得 feedback annotation 的方法。

Monica：

論文連結都放在 shownotes 裡。我多問一句，那大家都說如果要繼續提升 reasoning 能力，要加入 multi-step 的資料，它主要是在 pre-training 還是在 post-training 的階段？　

Eric Li：

它主要在 post-training 中起作用。比如說在強化學習的過程中，如果只是經典的 RLHF（Reinforcement Learning from Human Feedback），那最終可能只有在最後才能知道一個答案是正確還是錯誤的，需要依靠模型自己去判斷在整個推理過程中哪幾步出錯或哪幾步推理得非常正確。

但有了這些 process supervision 的 data，你就能夠讓模型更好地學習它的 value function，在強化學習的過程中更準確地知道哪一個 reasoning step 是錯的哪一個是對的，這樣能夠提高強化學習訓練的效率。　

Monica：

的確，MCTS 在 LM 的訓練中包括它有沒有用在強化學習也是大家經常討論的一個話題，我們待會請 Eric 來一起討論。好的，下一位是 Kimi。　

Kimi Kong：

非常感謝 Monica 今天的邀請。我是 Kimi，中文名叫孔令傑。我是斯坦福的機械和計算機雙碩士，不過我至今依舊沒有 claim 我的 CS degree，這樣我就可以賴在斯坦福再去讀個 part-time 的 Business School。　

我本來是 robotics by training 做 control theory 出身的，主要做 state-space model，但不是現在大家常說的 model-based state-space model，而是純 control theory 的 state-space model，就是 model-based 一脈相承的經典 control theory 裡面的東西。

我進入 AI/ML 其實是非常偶然的。2016 年我在斯坦福機械快畢業的時候，認識了 Stefano Ermon。當時我正在上他的 probabilistic graphical model 和 deep generative model 的課。

有天雨下特別大，沒人去上課，教室裡只剩下我一個人，我就這樣跟 Stefano 熟了起來。他很鼓勵我去探索用 Learning approach 來解決 robotic control 問題。　

後來我就說，如果 Stefano 給我寫推薦信的話，我就申請 CS degree。很幸運 Stefano 給我寫了推薦信，我又被斯坦福錄取了。

在之前我 2016 年在 Microsoft 實習，畢業後去了 AWS 和 Monica 做同事。在 AWS 時我 lead 過兩個專案：

一個是 distributed simulation 專案，幫助 Amazon robot 用分散式方式來進行更多搜尋和採集資料，提高強化學習訓練速度；　

同時我也 lead 過一個 medical image 的 CV 相關專案。在那之後，我在 2023 年初，也就是 Google massive layoff 的前一週加入了 DeepMind。在 Google 最開始是幫他們用 AI 做一些 forecasting 的 task，後來隨著 LM 的發展，主要在做 Gemini 的 auto eval，講白了就是用 LM 來評估新模型出來時的 performance 好不好，這是個能 scale 的 solution。最近主要在做 agent 方向。　

Monica：

所以說大家不要輕易翹課，每一節課都可能有驚喜。

Kimi Kong：

雖然那是一節 video recording 的課，我非常清楚地記得那天我遲到了兩分鐘，走進教室時我看到 Stefano 還有點迷茫，因為那時候沒人來他覺得要一個人給大家上網課了，結果看到有人來他非常開心。

我幫助 Google 的 Search Department 用 agent 的方式來提高他們的廣告點選率。說論文和專案，我最近非常受啟發於一篇比較早的論文，這篇論文是關於 scaling law of reward model over optimization 的，是 OpenAI 在 2021 或 2022 年發表的。我讀了很多相關論文，特別關注 reward model 這塊。

其實在做強化學習的時候，reward model 是一個非常 mysterious 的 component，因為到現在為止，沒有人真正知道如何定義和設計一個好的 reward model。　

我讀那篇 paper 的時候獲得了很多靈感。最近我非常迷上了 Cursor 這個工具，每天從 Google 下班後都會使用它。用 Cursor 在家裡三小時能完成相當於在 Google 一週的程式碼量，這真是非常 mind blowing 的事情。　

Monica：

作為一個資深程式設計師，你覺得你用 Cursor 會替代掉你用的 Copilot 嗎？　

Kimi Kong：

我認為 Cursor 比 Copilot 多了一個很好的 feature，叫 composer。Cursor 本質上是 VSCode 的一個 fork，因為 Microsoft 的 VSCode 是開源專案。Cursor 底層接入了各種不同的大模型，包括 Claude 3.5，最近還接入了 GPT-4o。　

Cursor 相比 Copilot 的優勢在於，Copilot behind the same 可能只接入了一些 Microsoft OpenAI 的小模型，雖然後來也接入了 GPT-4o，但因為成本很高，始終沒有把最好的模型拿出來。而 Cursor 可以很容易地接入最好的模型，比如 Claude 3.5 等各種模型。　

我已經把 VSCode 刪掉了。Cursor 在 AI 程式設計方面做了很多介面最佳化。我特別喜歡的 composer 功能可以幫助快速 scaffold 一個 project。對於 machine learning engineer 來說特別有用，因為我的前端已經很生疏了，很多年不做 backend 也做得不太好，但我可以快速搭建 Chrome 外掛，這在以前是不可能完成的事情。

Monica：

關注 AI 領域的朋友最近應該都能感覺到 Cursor 的出圈。Cursor 是在 2022 或 2023 年成立的公司，獲得了 OpenAI 的早期投資。在使用新的模型後，Cursor 在語言理解和程式設計能力上有了極大提升。　

最近他們還獲得了 a16z 的新一輪融資，估值約 4 億美金。有意思的是，Cursor 的兩位創始人都是 MIT 的 00 後，他們證明了 IDE（Integrated Development Environment，整合開發環境）仍然是一個可以重新創新的領域。從投資人的角度來看，我很感慨年輕人能夠用 AI 做出這樣 AI native 的產品。非常謝謝 Kimi 的分享，蘇輝也可以跟大家自我介紹一下。　

蘇輝：

大家好，我叫蘇輝。在 ChatGPT 出來之前的幾年時間裡，我在微信的 AI 團隊做 dialogue system 研究，包括部分時代的 research 工作。那個時間點經歷了從傳統 language model 到 LM research 的研究過渡期，ChatGPT 出來後加入了創業大軍的大潮。　

經過一段創業時間後，現在在大廠負責大模型方向，主要負責模型訓練，也包括一些前沿的 research study 和創新型應用的探索。

我從早期就開始關注 AI 的發展，見證了各種設計的變革、訓練正規化的變化，以及各種架構的迭代。現在主要在應用場景上進行大規模探索，研究強化學習的落地方式，尋找從使用者反饋到模型迭代的有效路徑。關於 Cursor 這個專案，我是重度使用者，基本已經到了離不開的狀態，不過前面嘉賓已經討論過了。　

我覺得非常好的是 Allen Zhu 的 Physics of Language Models 工作系列，從去年開始到最近。它跟 reasoning 的關係沒有那麼強，但在 reasoning 這部分做了比較多的、相對紮實的實驗和一些結論。雖然它的實驗規模比較小，但是非常紮實。我認為很多 research paper 都應該向他學習這種可控實驗的工作正規化。　

我覺得可以 follow 他的工作研究 reasoning，包括跟 Chain-of-Thought 的關係，以及透過 reasoning 如何去提升。沿著他的工作脈絡是非常好的一個開始，我也在這裡把這個工作推薦給剛進入 LM 或者 reasoning 方向的研究者。　

Monica：

你為什麼會覺得這是值得大家學習的研究方法？　

蘇輝：

因為有些做 research 的方式是基於一些特定版本的模型或某個系列的模型。這些 research 結論有時候欠缺一些嚴謹的基礎，因為你會受制於這些模型的資料格式或資料組成部分。對你來說這是一個非常黑盒的環境，而且你的測試資料很可能在它的預訓練過程中有未知的耦合。所以很多結論是不夠紮實的。　

他設計了一個完全可控的環境，從資料到結構都是自己掌控的，訓練資料也是完全自己合成的。這樣難度和邏輯都是完全自主可控的，最終的實驗結果就取決於你的資料。這讓你在做研究時可以排除掉資料的干擾。而且他比較嚴謹地在做 scan 的工作，在某些 size 上觀察變化，推匯出一些比較好的結論。雖然由於計算資源的限制沒有做到特別大的規模，但有計算資源的團隊可以 scale 到比較大的規模去驗證，並且提出自己的理論和實驗設計。　

Monica：

接下來請我們今天的聯合主持人 Cage 來做個介紹。　

Cage：

Hello，感謝 Monica 邀請。我現在在拾象科技做 AI 技術相關的投資研究，我們主要研究 AI 海外獨角獸。　

在 o1 釋出前，我們寫過一篇《LLM 的正規化轉移：RL 帶來新的 Scaling Law》的文章，對強化學習策略和技術路線做了較多分析和預測，o1 釋出後證實了當時的分析預期。　

在加入拾象之前，我在位元組做過 data scientist，在 CMU（卡內基梅隆大學）的 NLP research lab 工作過。那時正值 GPT-2 最火的時候，我做過 Bert 和 VAE 結合的文字分析。　

說到 fun fact，最近我在研究 LM 結合 MCTS 的論文時，看到 Nature 上一篇很有意思的認知科學文章，跟 o1 能力上限很相關。

這篇文章叫《Language is primarily a tool for communication, rather than thought》，主要觀點是語言可能不直接帶來人類的思考推理能力，reasoning 能力只是在一定程度上反映思想並做文化傳播。比如失語症患者也有完整的邏輯推理能力。　

這對今天我們討論的 o1 強化學習路線有個重要啟示：語言能在多大程度上反映和壓縮我們的思考推理過程，這可能決定了強化學習技術路線下 LLM 未來的能力上限。

Monica：

非常有趣的文章。如果這個假設是對的，就是我們能超越語言來做 reasoning，你覺得這對模型訓練的方法和需要的資料會有什麼樣的影響？　

Cage：

是的，我覺得人類語言並不是推理最好的形式，這很有可能。雖然現在我們看到 o1 的 Chain-of-Thought 是用英語表達的，但接下來 AI 可能會發明出一套更高效的形式化邏輯語言來做 Chain-of-Thought，這樣可能對 AI 之間的溝通會更高效。　

Monica：

非常棒，自我介紹環節有很多驚喜的地方，而且在我們整個 structure 之外，讓大家能夠更前瞻地感受到，我們邀請的這些優秀嘉賓都在每天關注著行業前沿的進展。　

如何規模化標註和篩選高質量資料，

是最根本的問題

Monica：

言歸正傳，今天的主題是 OpenAI 的 o1 釋出。作為一直在這個領域工作的資深研究員，想請問各位看到 o1 釋出並親自嘗試後的第一印象如何？有哪些讓你印象深刻的地方？　

Eric Li：

我自己體驗了 o1 之後，主要有這樣的感受：

首先在研究層面，我覺得它整體的大思路非常有意思。他們真正地提出並實現了 scaling up the inference time 的方案，這可能會對 reasoning 帶來更好的效果提升。　

在實際使用中讓我很驚訝的一點是，對於任何一個 reasoning 的問題，在它的 thinking process 裡面會自發地展現出不同的思維和推理模式。比如說它會自己考慮我應該要 think step by step 還是要去評價自己前面思考中的錯誤。這種能夠自主決定下一步該如何思考的能力，我覺得非常有意思。這是我在之前的 GPT-4 等模型中都沒有看到過的特點。　

Monica：

但其實 o1 所展示出來的邏輯推理過程都還是比較有限，你覺得它藏了哪些東西是你希望能夠展示給大家的？　

Eric Li：

其實這裡面和剛才一個嘉賓講的很類似，我自己也不太確定一件事情，就是模型藏的那些 thinking process 是否是人類可讀的。

比如之前關於 Chain-of-Thought 的研究發現，思維鏈的長度越長，模型的 performance 就會越來越好。包括也有一些研究嘗試新增特殊的 think token，發現這確實能讓模型思考得更多，提升表現，但這些 think token 對人類來說很難理解其含義。

如果這個思考過程是可讀的，我相信模型應該會展示更多內容，不只是下一步要做什麼的推理模式，而是包括為什麼要選擇某個步驟、進行自我反思，或者為什麼要將問題分解成特定的子問題等這些更深層次的思考。

Monica：

有哪些覺得做得不是很好的地方？

Eric Li：

確實我自己嘗試了一些測試，比如說計算 strawberry 裡面有多少個字母這個經典例子。我發現在這方面 o1 還不能達到非常高的準確率。但我覺得這個是可以接受的，如果它只是一個大語言模型而不是一個系統的話。有些事情確實不需要讓語言模型去做，比如做一些計算器的計算等等。

我更關注它內部的 reasoning pattern 能不能有一些很有意思的表現。

Monica：

Eric 提到測試 strawberry 裡有多少個 r，有些聽眾也許會好奇，為什麼大家總喜歡用這個問題來測試語言模型？　

Eric Li：

我個人認為這個問題並不需要強求讓語言模型去做到，因為這涉及到模型內部實現原理，包括怎麼做 tokenizer 等技術細節。這些任務 by nature 可能用一些 tool use 去做會更自然。

對於人類來說，給一兩個例子就能做得很好，但給語言模型兩三個例子，它也不一定能做好。這是一個比較簡單的測試方法，用來檢驗模型能否理解輸入到輸出的對映關係。

從更 scientific 的角度來說，在數學、程式設計或者一些更難的領域，比如量子物理等方面的測試，可能更能體現出模型的 reasoning performance。

Monica：

那 Kimi 呢？　

Kimi Kong：

最後我想引用 UCLA 的數學教授 Terence Tao 說的一句話，他說使用 o1 的體驗大概就像「在指導一個平庸但並非完全無能的研究生」。

我覺得在某些方面，o1 對我來說確實非常驚豔。比如說我之前用 Cursor 做 Claude 3.5 Sonnet 的時候，它經常會寫出有 bug 的程式碼，我跑一遍後把錯誤資訊貼回去，它就會說「oh I'm sorry」，然後幫我修正之前的錯誤，最終能讓程式碼正常執行。

而用 o1 的時候，它能非常流暢地幫我寫出程式碼。這涉及到了 behind the scenes 的問題，就是當代碼出錯後，它們如何進行 self-correct。這讓我想到關於 reasoning token 的問題：它到底是顯式的還是隱式的？

在看 o1 preview 時，最讓我感興趣的是數學問題的例子。我覺得數學和程式設計整體上還是比較相似的。在解決數學問題時，它會不斷思考：讓我們考慮這個方案，實際上，讓我們考慮另一種方案，展現出持續 self-refine 思維過程的能力。這樣就不需要我在中間去糾正很多錯誤了，這是 o1 好的方面。

至於不好的方面，就像 Terence Tao 說的某種程度上平庸的研究生。網上有人讓它回答如何安裝 CUDA 的問題，結果它想了 27 小時後說「I don't know」。這說明它在某些擅長的領域表現確實很驚豔，但在其他方面還有很多侷限，我很期待他們未來的工作能解決這些問題。

Monica：

你覺得還有哪些侷限是希望在可能下一個版本里面看到提升的？

Kimi Kong：

幾個方面吧，首先是怎麼樣讓資料的 coverage 更多，其次是怎麼讓資料的 evaluation 方式可以更 scalable。

OpenAI 有一個讓我非常 fascinating 的工作，就是很多年前的 PRM（Process Reward Model）。我覺得 OpenAI 應該是花了非常多時間去研究怎麼來做資料這個方面。

不論是對 Google 還是其他公司來說，最基礎的問題就是怎麼建立大量高質量資料，以及如何用一個 scalable 的方式來篩選高質量資料。

在篩選高質量資料的時候，你給它標 reward signal 時需要一個 scalable way，而不是僅僅給出 sparse reward。比如說不是像數學問題那樣，最終只看對錯。　

對於很多問題，其實是沒有一個 closed solution 的，你非常難去 evaluate 這個東西是好還是壞，所以怎麼定義一個系統化的方式來規模化標註高質量資料，我覺得這是個非常 fascinating 的問題。如果這個問題可以被解決，我期待這些 reasoning 的 task 可以有再往上一個質的飛躍。　

Monica：

你提到 OpenAI 釋出了很多與資料相關的工作。那麼要訓練出 o1 這樣的模型，需要什麼樣的資料獲取和處理方法？與傳統 LM 訓練有什麼不同？　

Kimi Kong：

這是個很好的問題。當 OpenAI 首次釋出 InstructGPT 時，Google 還在專注於製作高質量的 SFT 資料（在監督微調過程中使用的標註資料集）。而 InstructGPT 劍走偏鋒，選擇做 preference 資料（尤指在強化學習階段如 RLHF 中，用於表達使用者或標註者偏好的一類資料）。

不論是做 SFT 還是 RLHF 的 preference data，都需要非常好的資料。但有趣的是，preference 資料的高質量資料實際比 SFT 的更容易獲取。這是他們第一個讓我覺得非常驚豔的地方。　

這種 preference 資料是 sparse 的，意思是你只能在對話結束後對整個 conversation 進行好壞評價。如果中間有很多 intermediate step reasoning（中間推理步驟），你沒法對中間的每一步進行打分。　

為了解決這個問題，他們釋出了 PRM800K 資料集，這是一個 verify step by step（逐步驗證）的資料集。這種研究思路一直延續到今天 o1 的開發過程。從根本上說，我們要解決的是如何用 scalable 的方式來標註 high quality 的資料。　

這些 high quality 的資料不一定要是 SFT 資料，可以是 preference 資料，也可能某一天我們會發現比標註 preference 資料更容易的方式。如果在資料方面的 scaling law 能再做一個 10X 或 100X 的提升，那模型可能會在知識方面達到新的飛躍。

Cage：

剛剛 Kimi 提到 scalable，這讓我想討論一下 InstructGPT。關於 Anthropic 的 Constitutional AI 論文和 Reinforcement Learning from AI feedback（RLAIF，透過人工智慧反饋的強化學習）的方法，我在思考一個問題：如果我們要準備高質量的 reasoning tokens 資料，人類高質量標註和未來可以透過 AI 協助完成的標註應該各佔多少比例？　

Kimi Kong：

人類標註有幾種使用方式。最直接的方式是 Direct Preference Optimization（DPO）。很多人發現在做 RLHF 時，training reward model 太複雜了，而且在訓練時需要用 PPO（Proximal Policy Optimization），不僅要在 memory 裡儲存現在的模型，還要儲存之前的模型。　

這種複雜性促使我們轉向 DPO。DPO 的好處是不需要機器生成的資料，人類標註的資料可以直接用於訓練。這是最直接的使用方式。　

但這裡存在一個典型的「chicken and egg」問題：你需要好的模型來建立高質量資料，但在此之前又需要訓練一個高質量模型。因此，通常的做法是先用人工標註部分資料來訓練 reward model，然後用這個 reward model 來像人類一樣標註其他沒有 preference 的資料。　

這種 RLAIF 方式存在潛在的 reward hacking 問題（當以 reward model 的評分作為獎勵進行最佳化時，如果 reward model 不能完全代表人類的偏好，就可能出現獎勵駭客）。作為人類，我們可以很系統地分析不同 response 的好壞，但在實際應用中可能出現問題。　

比如，面對 unsafe question 時，模型可能直接選擇不回應，reward model 反而認為這是好的——這是非常糟糕的情況。模型應該做出回應，但 language model 可能會因此出現異常，這成為了模型的一個 back door。

總的來說，這是個非常有趣但棘手的話題。我們需要投入更多時間研究如何訓練 reward model，這是擴充套件 RLHF 或 RLAIF training 的基礎性工作。　

蘇輝：

我分享一下使用 o1 的測試體驗。除了測試 LeetCode 周賽題目外，我特別關注複雜場景下的旅遊問題。　

我所說的複雜場景，指的是家庭跨國旅行這種場景，我會在 prompt 中提供機票時間和景點等資訊。之前測試 GPT-4 時，它給出的方案表面看起來不錯，但仔細看行程細節就會發現問題，比如沒有合理考慮路程時間，導致某天大量時間耗在交通上，實際遊覽時間非常少。　

這次測試 o1 的效果非常 impressive，特別是它考慮到了時差問題。因為我經常選擇北京和紐約作為測試地點，這兩個城市是模型學習得最多的城市。它會把時差換算好，判斷到達時間，建議應該先休息再安排行程。而且像一個貼心的當地導遊一樣，會考慮不同地區的特點，比如中美兩國博物館的開閉館時間差異。　

如果只說 LeetCode 周賽題目，那主要反映的是模型在程式碼和數學推理方面的能力，這在強化學習中比較容易定義 reward。但泛化到旅遊規劃這樣的場景，如果不是因為泛化能力，我覺得是很難做到的。　

我認為可能有兩種解釋：一種是找到了定義通用任務 reward 的好方法，使得 reasoning 效果有良好的反饋；另一種是在程式碼和數學這類強 reasoning 方向上的訓練，也能泛化到這類場景。從結果來看，確實達到了很好的泛化程度。　

Monica：

像你所說的旅行規劃這種在日常生活中需要做一些相對複雜的工作的場景，所需要做的 reasoning 與 coding、數學題做的 reasoning 有什麼不一樣？　

比如說一個特別好的私人秘書、特別好的 travel agency，或者說特別好的 EA（Executive Assistant）去做這個工作，他不需要是 IOI 金牌得主，也不需要懂 coding，那該怎麼理解這兩種能力之間的轉化關係呢？

蘇輝：

我覺得這是對 reasoning 的一個定義問題。比如說你做 coding 或數學題這種 reasoning，是在解一個明確的問題，中間有推理過程，這個往往是邏輯嚴謹並且是基於符號學去做的。但還有大量的 reasoning 其實是基於你對這個世界的常識認知去做的推導。　

我舉個例子，比如說現在在下雨，那你可能去賣傘可能是一個很好的生意。這其實是一個 reasoning 的過程，你需要對這個世界有一些通用的認知，並且能夠泛化出一些新的場景。如果以前沒有人在下雨天賣過傘，你可能透過其他的商業場景方法，泛化到這個場景，推斷出在下雨天賣傘會賣得更好。　

旅遊場景更貼近我剛才說的這種基於常識的場景。因為它要考慮到的事情是有邏輯順序關係的，比如說在一個大家族裡面，如果老人體力不行，就應該考慮什麼樣的行程安排。　

以前往往需要用一個比較複雜的 agent pipeline 去做這個事情，而且需要大量對業務的理解，需要自己去定製規則，在 prompt 裡面去設計。但現在它能夠很好地理解，我要舒適就意味著不應該花大量時間在舟車勞頓上，這個就是基於 common sense 的 reasoning。　

OpenAI o1 的能力提升來源於什麼？

Monica：

我想請教一下，o1 在 reasoning 這方面的能力提升，主要來源是哪幾個方向？如果要拆解的話，你覺得在傳統 LLM 訓練正規化中加入了哪些重要元件讓它有了這樣的能力？　

Kimi Kong：

我班門弄斧說幾句吧，我並不知道他們具體怎麼訓練的。如果要猜的話，我覺得最關鍵的是資料（It's all about data）。Reasoning 其實是大語言模型做得非常好的基礎能力。　

為什麼呢？因為這些資料非常容易獲取。比如 Stack Overflow 就是問題到程式碼的對映，Wikipedia 是 Q&A 形式的資料。

這些資料不僅容易獲取，質量還很高。你可以看 Wikipedia 頁面被點選多少次，Stack Overflow 的回答被 upvote 多少次，很容易就能判斷資料質量。所以模型在這方面表現好是很自然的事。　

說到 reasoning，首先要考慮如何定義 reasoning，更關鍵的是如何獲得 reasoning 的資料。如果我問 Monica，你覺得什麼是好的 reasoning 資料集，你會去哪裡找這些資料？　

我們知道 Wikipedia 是非常好的 Q&A 來源，Stack Overflow 對寫程式碼的人來說也是很好的問答平臺。但說實話，我並不確定什麼才是真正好的 reasoning 資料，也不知道從哪裡可以找到這樣的資料。　

Monica：

還有論文以及其他來源啊，比如 Reddit 和知乎的問答內容。　

Kimi Kong：

對，但這些內容都比較 noisy，知乎上確實有一些比較不錯的 AI/ML 科普內容，這些可能是好的 reasoning 資料。但從根本上來說，那些包含非常長邏輯鏈的 reasoning 資料集基本上都不是公開的。

蘇輝：

是 valuable 的對吧？　

Kimi Kong：

所以，OpenAI 其實是換了一個思路來產生這些資料。我個人 bet 的是，很多這些都是透過各種不同的合成方式 generated 出來的，透過不同的 filter 方式把好的 filter 留下來。

比如說寫一個數學題：3X 加 5 等於 100，求 X 等於多少？當你知道 X 等於 50 是正確結果時，你可以問 LLM 說：help me reasoning through step by step，這樣就是強迫它把 reasoning 過程完整地告訴你。如果它最後推理的結果不是正確答案，就說 OK，this is the bad reason I don't want it。你可以跑個一百次，然後透過 heuristic 或者 reward model 的方式把高質量的推理過程 filter 出來。如果完全不知道什麼是對的什麼是錯的，那就可以透過 self consistent 的方式來 filter。　

我覺得 reasoning 的能力是能不斷地被提純出來的。就像我現在寫 PhD 論文，你先讀了很多人的 paper，然後想想 reason through 這些 paper 我都讀了，我大概有什麼 idea，最後你得出自己的想法。

我覺得它是一個不斷吸收消化的過程，只是對 LLM 來說，我們要 force 它說：No，you must reason. Then tell me what you're thinking step by step。要讓它告訴我們它消化這些知識的過程，然後把這些資料再返回來 train 給 LLM，讓它有更好的 reasoning 能力，而不是簡單地吐出一個答案。　

這是我個人的一些看法，我也非常希望聽一聽別的嘉賓的想法。　

Monica：

這類資料的形態與傳統 One-shot Learning（一次學習）的形態不一樣，你覺得在訓練方法上會有什麼難點？　

Kimi Kong：

現在 language model 就是兩種訓練方法，單純 SFT 和 RLHF。我覺得 DPO（Direct Preference Optimization）其實越來越泛化得跟 RLHF 沒有特別大的區別了。如果你能非常確定所有的 data 都是非常好的，我覺得用 SFT 的方法也完全沒問題，但就像我剛開始說的，你很難 generate 出來非常 high 的 SFT 的 data。

你有可能這個東西說，我有這兩個結果，這兩個可能都不是我特別想要，但我覺得 A 比 B 稍微好一點，然後可以用這個 A 的 trajectory，透過強化學習的方式把這模型往好的地方推一點點。就是說 OK，我更 prefer A，你看到 A 這種結果你更傾向做 A 一點，雖然 A 可能不是最好的，但請你不要傾向於做 B。　

透過這個 step，模型知道了一個 better solution，基於之前的 base 模型，你就有一個 step better 的模型了。你用這個模型再把同樣的 query 問一遍，說 OK，我知道你 do one step better now，基於這個問題，請你再給我 racing 一遍。你會拿到兩個新的 preference 資料。哦，這次 B 比 A 好一點，而且這次的 B 不但比 A 好，還比上一次的 A 也好，這樣你就可以把模型的 frontier 再往前推一下。透過不斷的 iteration 和 reasoning 的方式，讓這個模型慢慢具有更強的 reasoning 能力。　

從根本上來說，這是一個強化學習的方式。這讓我想到接下來要討論的 self-play（自我博弈技術）這個話題。　

Monica：

最近大家看到 DeepMind 做的 Alpha Geometry 在特定的數學測試上表現很好。我在想，讓它來解各種數學題產生資料，是不是也可以用於 o1 這樣的模型訓練？　

Kimi Kong：

我並不瞭解 Alpha Geometry 的基礎模型具體是什麼。不過就像剛剛前面嘉賓說的，你必須要有非常強大的基礎模型，才能在特定領域獲得更好的表現。如果基礎模型不夠好，解決 domain 的問題基本上很難做到。　

對於你剛才提到的，如果在特定領域解決問題，其實相對更簡單，因為你可以用更具體的 reward model 來訓練。如果能訓練出 domain specific（特定領域）的模型，而且這些資料質量好的話，完全可以用這些資料來反哺更通用的模型。這是我的一些個人想法。　

Monica：

很有啟發，Eric 你有什麼補充嗎？　

Eric Li：

我自己認為主要有兩點，是資料和強化學習這兩塊。從 o1 的 reasoning 這麼好的表現來看，我覺得我們需要很多關於 reasoning preference 的資料，這跟 Kimi 剛才講的流程中的 reward model 很相似。　

如果要訓練出一個很好的 o1 model，我覺得在資料層面應該讓它的 reasoning step 更加 make sense，更高效，甚至更 optimal。所以設計 reward model 去評判 reasoning step 的好壞是最重要的。

有了 reward model 後，合成數據這塊就會比較好解決。包括我們剛才講到的 MCTS，就可以基於 reward model 來產生更好的合成數據。這些方法結合起來可以產生更高質量的 reasoning 資料。我相信模型產生的 reasoning 資料遠好於人類的，因為從實踐看，人類生成的大多數內容都比較缺乏邏輯性，而模型反而會遵循一定的邏輯，所以合成數據很可能是訓練出 o1 的一個主要因素。

另外，我覺得強化學習的重要性更加明顯了。我看到最近 OpenAI 的一個研究員分享了 don't teach incentive 的 presentation。這跟兩年前 Google 強調 SFT（Supervised Fine-tuning）和 insertion tuning 的思路不同。因為現在 LM 太強大了，直接教它怎麼做 reasoning 反而很難，而且可能不是最優解，因為人類的 reasoning 也未必最優。　

我覺得應該用強化學習的思路，讓模型自己去探索怎麼推理，我們只需要告訴它結果好壞並給予獎懲。這樣模型可能能找到比人類更好的 reasoning 方式。o1 給我的感覺是強化學習的重要性被強化了，不再只是傳統 InstructGPT 裡用於 alignment 或 safety 的工具。　

Monica：

這個是不是有點像 AlphaGo？它在下棋過程中，自己能夠創造出一些連頂尖棋手都沒有想到的下法。　

Eric Li：

我覺得現在的 LLM 確實有這種能力。比如說，我們在做 RLHF 時就經常遇到一個很頭疼的問題，就是 reward hacking。這個問題的本質是模型的能力特別強，它能夠找到 reward model 中的一些不完美之處並加以利用，從而提高自己的 reward 分數。　

但這並不意味著它真的找到了更好的解決方案，只是利用了 reward model 的漏洞。如果我們能有一個很好的 reasoning 相關的 reward model，我相信 LLM 就能自己找到更好的 reasoning 路徑，實現自主最佳化。這也反映了 AI 行業一個很普遍的現象，就是 AI 能夠代替很多人類設計的模型架構或工作流程，並自動進行最佳化。　

Monica：

那我想最後追問一句，如果我不需要模型去學習 step 之間的關係，是不是說有個特別好的 reward model 的話，其實就並不需要這麼多的 multi-step data？　

Eric Li：

對，這裡面是相互關聯的，multi-step data 能起作用的前提是你對每個 reasoning step 的判斷、你給它的 reward 打分判斷都非常可靠。如果你有這一步，那這種比較 dense 的 reward 對 training 是非常有用的。　

但從 o1 給我的感覺來看，在做 reasoning 的時候我們不需要用 SFT 去告訴模型該怎麼做。比如說剛才有位嘉賓提到的 3X 加 5 等於 100 這樣的題目，你不需要先算 100 減 5 等於 3X，模型可能直接用公式或其他更好的方法來解決。關鍵是不需要用人類自己的 reasoning step 去教它如何做推理，而是更多地對它的每個 reasoning step 或整體 reasoning path 做評判，只是對它的推理做獎勵激勵。　

Monica：

那聽聽你的想法。　

蘇輝：

其實我覺得有一個比較重要的方法，它解決了我們之前很多人在做 MCTS 和強化學習與 LM 結合時遇到的問題。就是關於強化學習的粒度問題，你到底是以 token 為粒度去做，還是以 sentence 或者 step 為單位來做反饋。　

我看過不少例子，特別是在 OpenAI 官網給出的完整例子中，發現了一些很有意思的特點。有些沒有明顯的分割符，但會出現一些語氣詞，很像我們人類在聊天時的停頓。就像我們在解題時會想，我是不是可以在這裡畫根線？好像也不太行，然後停頓一下，加個嗯，這些思維過程的特徵都被保留在了完整的 Chain-of-Thought 裡面。

我覺得這裡可能包含了一些人類標註的痕跡。他們很可能獲取了一批高質量的 Chain-of-Thought 資料，並且以 step 為單位進行切分，讓模型學習這種思維方式。在每個 step 後，reward model 會給出反饋，決定是否需要進行回收或 reflection 這樣的動作。這種方法已經被證明是可行的，給了很多人信心，相信沿著這個方向繼續探索是有價值的。　

模型推理能力只是 Agent 的基礎，

構建一套 Agent 系統面臨更多的挑戰

Monica：

我們前面提到不需要用大模型來解決特別簡單的數學問題。當問它簡單的數學問題時，模型會用非常複雜的方式來解答，使用最高級別的 inference。既然模型有很強的能力，知道這只是一個簡單的比大小或加減的數學題，或者簡單推理，為什麼不會自己選擇用計算器這樣的方式來解決呢？這是模型能力的問題，還是 tool use 方面的工程問題？　

蘇輝：

當看到 o1 釋出時，我第一反應是疑惑它為什麼以這種形式出現。OpenAI 自己也展示了，在某些任務如文字寫作上，o1 可能略遜於 GPT-4o 的表現，但在強推理場景中是完勝的。很多人會嘗試用 o1 解決一些在我看來比較基礎的問題，這其實沒有必要。　

如果要提供好的產品，應該實現一個 root LLM 的策略：需要強推理的任務走 o1，不需要強推理的用 GPT-4o 或 GPT-4o-mini 就能解決，這對於使用者介面來說會更合理。　

我並不需要去關心呼叫的是哪個模型，我只要解決問題就好。強的問題就讓 o1 去解決，弱的問題讓 4o-mini 去解決。　

這對 OpenAI 來說是很簡單的事情，但他們沒這麼做。因為 OpenAI 跟別的做 pipeline 的或者做產品的邏輯不一樣，它就是純 model service，每次 deliver 一個產品就是 deliver 一個新 model。所以不管 query 適不適合用 o1 解決，都用一套邏輯處理。　

而 o1 是在強推理環境下訓練出來的，即使遇到很簡單的問題，還是要走很複雜的 Chain-of-Thought。雖然 o1 也是個多模態模型，但並沒有特別強調這點，使用者介面上也沒有很好地體現出來。其實這些包括 tool use 在內都是可以被整合進去的，whole 釋出後完整版的 4o 的表現其實跟 o1 差不多，但這個階段他只是想秀一下 o1 這個強 reasoning 模型到底是個什麼樣的模型。　

Cage：

我特別同意蘇輝說的，因為我自己用它回答一些很簡單的問題，但它會想了 42 秒才給我一個非常簡單的回答。所以我感覺 OpenAI 的 research 和產品有點分離了。

我們一開始還聊到 Cursor，感覺如果是 Cursor 做這個事情，可能就是先把問題打好之後 @，@ 的時候它會自動判斷是 @o1 還是 @4o，找到更準確的模型來負責這個問題。我覺得這種 model routing 應該是 OpenAI 接下來一定會做的方向，這樣對我們的使用體驗會更好一些。　

Monica：

從去年大家開始講 agent 這個概念的時候就提到 tool use，但到現在我們還沒有看到通用的 agent 能做得很好。大家認為核心是 Foundation model 的推理能力問題。第二步是它需要理解能用哪些 tool，以及這些 tool 的功能和侷限。　

你們覺得，如果像 o1 展示出來的 reasoning 能力足夠強，後續實現執行任務的功能是相對來說比較容易的，還是說這個過程中可能還有什麼我們看不到的 gap？　

蘇輝：

我覺得 OpenAI 在整合 tool 時比較糾結，因為 tool 需要有足夠廣的覆蓋面才有意義。如果只是 Calculator 或查天氣這樣的 API，工作量很大但產品覆蓋面不夠全面。他們的重點是提升對 prompt 裡面 tool 的 function 理解和呼叫能力。　

研究驗證表明，在真實生產環境中這個事情做得很好，只要有非常強的 prompt 理解和 reasoning 能力，提供完善的說明文件，模型就能在適當時候正確呼叫這些 tool 並返回好的結果。　

Eric Li：

我覺得一個單一的 LLM 有很強大的 reasoning 能力，這是構建 agent 的一個很基礎的 Foundation。OpenAI 在定義不同 level 的 AGI 時，level 1 是 chatbot，level 2 是 reasoning，「To figure chat bot level 2 to figure reason then go so here」。　

關於行動決策，我認為它能夠決定如何處理複雜的 task。reasoning 更像是 OpenAI 還在基礎的 foundation model 層面努力推進的邊界。我相信 agents 會是 next level 的技術，但這並不是說每個 foundation 的模型做得足夠好後，agents 就能自然而然做得很好。　

agents 涉及到多個 LLM、多個 AI agents 之間的相互協作，包括競爭關係，以及如何合作分工去解決複雜的系統和 task。LLMs 只是其中一個元件，而系統架構設計、分工方式，這些都是從 reasoning 發展到 agent system 過程中我們接下來要面對的挑戰。

Monica：

的確，我們看到從創業投資的角度來看，今年以來 agent 領域出現了很大的變化。特別是在 Agent Ops 和 Agent Info 這個領域，出現了很多新公司。　

這些公司主要專注於工程實現和 tooling 方向。這說明 agent 技術已經開始逐步進入實際的生產環境，大家正在思考如何將其作為產品來管理，就像 Eric 剛才說的那樣，建立起系統化的管理方法論。我覺得這是今年看到的一個重要趨勢。　

Kimi，你前面提到你在做 agent 相關的工作，o1 這個提升會對你的工作有什麼影響？　

Kimi Kong：

我想說兩點。第一點是關於 OpenAI 為什麼不做 router 這件事。我覺得 OpenAI 的 foundational belief 是「search and learning will solve everything, any over engineer problem will actually get washed in the way」。所以對他們來說，不是不願意做這件事，而是這根本不符合他們的基本理念。

關於 agent 開發，我非常認同前面蘇輝和 Eric 的觀點。如果要開發具有更強 agent 能力的模型，我認為需要四點：

第一點需要有非常強的 base model 和 reason 能力，提升 base model 是個非常好的方式。　

第二是需要非常好的 tool，你不能給我 noisy and bad 的結果，必須簡潔準確。　

第三是需要非常好的 prompt，目前 agent 仍然是個 over prompting 的過程。我在使用一些開源的 agent 工具時，比如 AutoGen、HuggingGPT、LangChain，發現一個很 tricky 的問題：隨便執行一個 agent workflow，使用 GPT-4o（現在大約是 15 美元/百萬 tokens）可能就會消耗掉一百萬 tokens，而你可能都不知道發生了什麼。

最後是 learning，包括如何 incentivize 模型更好地使用 tool，什麼時候使用 tool，為什麼應該用 tool A 而不是 tool B，這需要我們 curate 很多 agent 的資料集，透過二維的方式來解決這些問題。　

Monica：

這個 agent 的資料集比前面討論的更難獲取。如果沒有這些資料，是不是可以先透過一些 engineering 方式實現 agent，然後收集資料，再看哪些部分可以被 automate 或者直接由 AI 來做。　

Kimi Kong：

我覺得有兩點。第一點還是跟之前一樣，是關於怎麼透過這個方式來使用工具。Meta 發的那篇 Tool Former paper 討論的就是怎麼建立資料來告訴模型如何使用 tool。另一種方式，說難聽點，其實我每天在 Google 工作就是在幫 Google 標資料。比如同事讓我寫個 feature，我給他們寫 code，相當於我在幫他們做 question to code 的資料集。　

這些可以用來 train 他們內部的模型。當我在寫 code 時用 prompt、呼叫 tool，其實也是在幫他們做 agent 的資料集。這已經不是個科學問題了，而是個產品問題。比如 Tesla 就是個非常棒的例子，更棒的是我們每天都在幫它標資料，而你開車的時候都感覺不到這點。

但你不能讓使用者不開心地去標資料，因為這樣資料質量會很差，除非給很多錢。我聽說 OpenAI 僱了一堆數學 PhD，一小時給幾百刀來標 reasoning 資料集——這只是個傳聞，別引用我說的。關鍵是怎麼把標資料這個工作嵌入到工作流程中，讓使用者自然而然地完成，這才是個完美的產品。

強化學習的三個核心要素：

Agent、Environment、Reward

Monica：

大家來聊聊 Chain-of-Thought。對於只是聽說過或者不太瞭解的同學，能否解釋一下 Chain-of-Thought 究竟是什麼？這個方法並不新，前兩年就提出來了。我想請教一下，o1 在使用 Chain-of-Thought 時，與之前的應用相比有什麼不同？蘇輝，不如你來聊聊。　

蘇輝：

Chain-of-Thought 大約是在 2022 年首次被提出，最早來自現在在 OpenAI 的 Jason Wei 的論文。他的研究發現，在解決問題時，如果在答案中給出更詳細的步驟，而不是直接給出結果，模型的表現會更好。

在同期或兩三個月後，另一篇論文提出了「let's think step by step」的概念，在生成過程中，模型就會自然而然地以 Chain-of-Thought 的方式去生成。這兩篇論文可以說奠定了 Chain-of-Thought 的基礎。　

之後很多工作都在這個基礎上進行改進，Chain-of-Thought 很快就在 mass reasoning、常識推理、邏輯推理等多個任務中得到了應用。

我發現在使用這個技術後開始去刷榜，效果提升非常明顯。這個領域產生了很多論文，研究人員也將 Chain-of-Thought 應用到 reasoning 和 visual language model 等領域。

目前主要分兩大流派：第一個是顯式流派，使用顯式 token 表現出思維過程。這裡面有很多可以發揮的空間，比如你的 Chain-of-Thought 本身可以是串式結構、樹結構，甚至可以用圖片結構。生成的不僅是 linear 的 Chain-of-Thought，還可以做 verification 和 refine。我們可以引入 critic model 或 reward model 來完善 Chain-of-Thought 的生成。有些工作會對問題本身做 decomposition，讓 Chain-of-Thought 變得更結構化，這樣都能提升效果。這些顯式方法需要更多的 inference token，呼應了現在大家討論的 scaling inference 和 compute 這個話題。　

另一個流派是做隱式的，最近有 researcher 在嘗試把 system two 整合到 system one 裡面。雖然這個任務很難，但我們認為 transformer 的潛力很強大。這其實很像人類思考過程，我們思考時並不是所有過程都需要顯式的文字表達。在 reasoning 這個過程中，即使你在思考，有時答案會在某個瞬間突然出現，這個過程更類似於直覺，是難以用邏輯解釋的。　

最近我發現一些有趣的現象，如果我們把 reasoning 看作與傳統任務相關的過程，澤源在 Physical RM 中提到，雖然我們在做 scaling 工作時發現總引數量會與 loss 和模型表現相關，但在 reasoning 任務上，深度（即模型的層數）比寬度（即每層的神經元數）更重要，模型越深效果越好。感興趣的 researcher 可以做實驗驗證這一點。

我們也看到很多工作印證這一點，比如最近的 MiniCPM-V3，雖然是小模型，但使用了六十多層的深度。業界正在收斂到這樣一個結論：即使在引數量固定的情況下，我們寧願犧牲 inference 的成本。　

因為模型越深，inference 成本就越高，比如在做最佳化時，寬的模型要比深的模型容易最佳化，但我們寧願增加層數來提升 reasoning 能力，因為在生成每個 token 時都需要經過所有層的計算，如果把生成的總 token 數與總層數的關係考慮進來，token 數量越多，每個 token 經過的層數越多，都可能提升 reasoning 的效果。這意味著不僅是增加生成的 token 數，模型的深度增加後，兩者相乘會顯著增加 inference 時的計算量。　

其實當層數和 token 都增加了以後，每個 token 經過更多的層數，並且每個 token 的數量也變多了，這些相乘之後計算成本就會更高。　

在這個層面上，我們確實發現這樣做能提升 reasoning 的表現。包括加入一些 reflection 這樣的操作，這其實在之前的 LLM 裡就有很多人在做。　

因為傳統 LM 最大的問題是不能回撤，如果生成了錯誤的 token 就沒辦法糾正自己之前的錯，只能順著錯誤繼續生成，這會導致很多 Hallucination（模型的幻覺）的問題。但如果顯式地學習這個 pattern，允許模型去反思之前的問題，承認自己可能有問題，然後給一個回撤的機會，把這種資料 pattern 加到訓練裡面去，在 reasoning 任務上的表現就提升了很多。某種意義上這也是增加了生成 token 的數量，畢竟在反思過程中引入了額外的 token。但最終我們看到一個結論：無論是透過增加層數，還是直接增加生成 token 的數量，都能在 reasoning 的表現上得到提升。

Cage：

我想請教一個問題，前面我們討論了 CoT，也聊過 MCTS，能否請幾位嘉賓介紹一下在 o1 框架中它們的關係？因為 CoT 後續的演化也有層數的深度，也發展出了 Tree-of-Thought，聽起來和 MCTS 的思想已經比較接近了，所以想請教大家覺得這兩者的耦合程度如何？　

蘇輝：

技術的發展是相互影響的，你會發現在不同方向的工作最終會呈現出一些相似性。這些工作最初其實是獨立開展的，一方面在研究如何透過引數來提升模型的表現，另一方面在從演算法層面提升模型表現。但最終都殊途同歸，都採用了類似 MCTS 這樣的方式。　

Monica：

你覺得 o1 它使用 training source 方式跟之前我們訓練 LM 時的使用方式可能會有哪些不一樣的地方？　

蘇輝：

其實有一個很大的改變。之前發生過一個烏龍事件，就是那個 reflection model，可能兩個月前在推特上，跟 Llama 3 V1 差不多，就是有點道具的感覺。它其實只是用了一小部分 reflection 資料做 SFT，然後就說自己是個很強的模型，但最後大家發現並沒有那麼好，某種意義上是不太誠實的行為。　

但是這種 pattern 其實是值得驗證的。我們在 SFT 過程中，如果用一些質量比較高的 reflection 資料，它跟傳統 Chain-of-Thought 是不一樣的。傳統方法是一步步解決問題，沒有回溯的過程，我不會去反思之前的問題出在哪裡，完全是順序執行，下一步的結論一定是基於上一步得出來的。但有了 reflection 這個操作，就有很多回撤的空間。　

模型在生成 Chain-of-Thought 之前，很可能已經知道怎麼做了，但在生成過程中如果犯錯就沒機會返回。這確實很痛苦，但如果給它 reflect 的機會，只要它最早確定能解決問題，最終就能做對。這是 o1 展現出來的例子和我們之前做的最大區別。當然，之前 Chain-of-Thought 的工作裡也有一些這種樸素的思想。　

但是如果只通過 SFT 方式學習，或者只是透過外部的 verify 模型來實現回撤，因為沒有那麼強的 reward model 提供策略學習，效果會弱很多。模型可能只是學到了一個表象的行為，就是我可以去回撤，也許到後面正確的時候也會去回撤，它只是學到了一個 pattern，並沒有真正理解自己在做什麼。　

Monica：

就剛才開始的那個問題，我想聽聽 Eric 的想法。　

Eric Li：

我覺得這兩個是有相關性的，就像剛才另外一位嘉賓講的，有點殊途同歸的感覺。　

在 Chain-of-Thought 這邊，我們看到有很多衍生的研究，比如 Chain-of-Thought 是 chain，那可能有 Tree-of-Thought、Graph-of-Thought 這一系列的文章。這些都是在探索當你的推理結構有多個不同選擇時，應該選哪一個最好。　

而 MCTS 作為一個比較傳統的 planning 或者搜尋方法，它是在估計傳統強化學習中，當我有多個可能的 action 時，哪一個 action 可以獲得更大的 reward、更大的 value。　

MCTS 的發展路線更多是從 AlphaZero 那邊，就是比較特定領域下的圍棋發展起來的。但是 Chain-of-Thought 或 Tree-of-Thought、Graph-of-Thought 這一系列，更多的是基於自然語言處理的情況，在語言模型中自身演化出來的思路。　

本質上，我覺得這兩個都是在探索如何規劃推理，從這點來說，其實兩個都是比較高度相關的。　

Monica：

大家其實都在猜測 o1 裡邊有沒有用 MCTS，我很好奇你的猜測是怎樣的？　

Eric Li：

我自己其實也不確定，但是我覺得如果要用 MCTS，應該有兩種方式。　

第一種是在 inference time 使用，這需要一個非常好的 reward model。在思考過程中，系統會不斷嘗試各種路線，就像下圍棋一樣。比如當我們下到一半時要決定下一步，假設有五個不同的選擇，我會估計每個選擇可能帶來的潛在 reward，然後選擇能最大化 reward 的方向。之前讀了你分享的知乎文章，從 reverse engineer 的角度來看，如果現在看到它的 token cost 是線性的，那麼 MCTS 可能並不在 inference 階段。　

我認為更可能的是第二種方式：在資料處理階段使用 MCTS。比如在處理訓練資料時，用 MCTS 策略找到最佳的推理資料來訓練模型，或者在強化學習過程中將搜尋策略整合進來，幫助 policy model 找到最佳的推理方式。所以如果讓我猜測的話，我覺得 MCTS 在資料層面或強化學習過程中使用的可能性要大於在 inference time 使用。

Monica：

讓我們回到 Kimi 這邊，我們剛才討論了很多關於 o1 使用強化學習的可能性，你覺得還有什麼我們沒有 cover 到的角度嗎？　

Kimi Kong：

讓我往回撤一步，跟大家講講強化學習到底是什麼。這樣可以幫助大家更好理解為什麼強化學習能在不同行業中發揮作用。強化學習需要幾個基本 component。　

首先你需要一個 agent，也就是一個模型。在 language 領域，它就是一個 LM。在 robotic 領域，比如 physical robots、simulation、Atari game，或者是 Google 的 AlphaGo，都需要 agent。

有了 agent 之後，你需要一個 environment 來讓 agent 進行互動。比如 physical robot 需要與周圍的物理世界互動，但物理世界很難 model，這也是為什麼我們還沒有看到真正的機器人被廣泛應用。不過我相信這個領域未來非常有前景，maybe very soon 就會出現 robotic domain 的 GPT-3.5 時刻。

更 generalize 的 environment 包括 Atari game 和 Go。強化學習在這些領域發展更快是因為它們是 well-controlled 的 environment。在這些環境中，sample data 是 free 的。你 run 一個 LM 來 sample 是很 expensive 的，但在 simulation 中，你可以進行 infinite sampling，用任何 speed 和 frequency，甚至可以比實際時間快兩倍來 sample，這使得 simulation 成為 perfect 的 reinforcement environment。　

最後你需要一個 reward，用於告訴模型它每一步 action 的好壞。比如在 Atari game 中，輸贏是一個很 deterministic 的 reward；在 AlphaGo 中，最終的勝負也是個 deterministic 的 reward。這些 well-controlled 的 environment 為早期的強化學習研究論文創造了良好的條件。　

在強化學習上見到了長足的進步，第一個是 DQN 這篇論文，然後往後 DQN 有了各種演化，比如 Double DQN、Dueling DQN。大家不只是在做 value function，還開始做 policy network 這些方面，比如 REINFORCE。然後大家發現不只需要一個 policy network，還需要一個 value network，要把兩個結合在一起，形成 actor-critic 的方式。　

這又可以演化成 on-policy、off-policy，或是 deterministic、stochastic 這些方向。比如說 DeepMind 的 DDPG，還有就是原來在 OpenAI、後來去了 Anthropic 的我非常仰慕的強化學習 researcher 做的 TRPO 和 PPO 這些工作。　

說到底，強化學習已經很多年沒有在演算法層面有發展了，最 SOTA 的應該是 Sergey Levine 他們實驗室的那篇 SAC 的論文，大概是 2018 或 2019 年的 work。從那之後，在強化學習的演算法層面就沒有更多的長足進步了。　

現在大家主要關注強化學習在 specific domain 的應用，尤其在 LM 領域很火。

如果你往回看這個問題，其實 AlphaGo 跟 LM 非常像。AlphaGo 也有兩個步驟，有一個 pre-training step，當時叫 pre-training phase，也就是 imitation learning，從專家下棋中學習。有了這個好的 base model 後，就想怎麼能做到 better than human。這就回到之前 Eric Li 說的，我們可以讓模型透過 self-play 來提升自己。　

在做了 AlphaGo 之後，他們想能不能把 pre-training 這個 step 去掉，完全用強化學習來訓練，就做了 AlphaGo Zero。然後他們又想能不能讓它不止會下一種棋，就做了 AlphaZero，可以下日本將棋、圍棋和國際象棋。　

最後他們的 ultimate solution 是 MuZero，不僅能學會怎麼贏得遊戲，還能學習 simulation network，就是說給定 environment state 和要採取的 action，模型就能預測下一個 state 會是什麼。　

那你可能會想，LM 是不是也可以完全不要 pre-training，用強化學習的方式來訓練，就像 AlphaZero 那樣純靠 self-play。　

但這其實是非常難的，原因在於強化學習需要一個 deterministic reward function（確定性的獎勵函式），而 LM 很難有這樣的 reward function。　

第二，你需要一個 control environment。對 Atari game 或者圍棋來說，我有個 perfect control environment，但對 LM 來說，人是 environment，我不可能一直陪著 LM 問答。雖然可以用一些 trick 來做 self-play，比如兩個 LM 互相問答，但因為缺少這兩個條件，強化學習目前只能做 LM 的 alignment 工作，而不能完全靠 self-play 強化學習來解決 LM 的問題。　

這就是強化學習的演化過程，以及它在 LM 上的應用。　

Reward Model 可擴充套件的模式也許是

「Human in the loop 配合 AI feedback」

Monica：

可以展開講講 Robotics 在強化學習裡面的應用嗎？結合你之前做 LLM robotics 的工作經驗，有什麼啟發可以借鑑的地方？　

Kimi Kong：

這是個好問題。我認為強化學習本質上就是一種通用技術（general technic），不僅僅侷限於 robotic 強化學習。它就是在你定義好的環境中，透過 agent、environment 和 reward function 來實現目標。

說實話，我非常懷念當年做強化學習研究的時光，那時候環境非常純粹。就是很簡單，你只需要贏得遊戲，reward 是完全確定的，都不需要考慮 reward function 的設計。現在反而變得更復雜了，但這種複雜性也帶來了更大的潛力，因為 reward model 不再是確定性的，不只是侷限於玩遊戲，而是可能泛化到其他領域。　

在 robotics 強化學習領域，主要有兩個研究方向。　

第一個是 locomotion，比如斯坦福的 Tony 他們的工作。這個方向其實跟 language model 關係不大，主要是透過 imitation learning 加上強化學習 approach，需要人類示範來教會 robot 如何操作和移動。　

另一個方向是 planning，比如 Google DeepMind 早期的 SayCan 專案，這類工作需要明確描述任務而不是示範。在 planning 任務中，LLM 是一個非常 popular 的 approach，從早期的 SayCan、Code as Policies，到後面的 PaLM-E，再到 RT-1、RT-2、RT-X 等系列工作。　

實際應用中，因為 robot data 量有限，我們不想純用 robot data 導致 model performance 下降，所以會把 robot data 和 vision data 以及 VQA task 一起做 co-fine tuning，然後收集強化學習資料來 refine 模型。　

從根本上講，其實沒有特別大的區別，主要是應用場景和資料形式不同。這些資料可能不是傳統的 token，而是 robot motor 的 force、torque，或者是 sensor 的資料。但 backbone 都是用 transformer 架構，都是用強化學習的 training technique 來讓模型在 specific domain 更好地收斂。　

Monica：

剛才你也提到了 self-play，它在強化學習領域的研究歷史和行業應用情況是怎樣的？你覺得 o1 有沒有用到 self-play 技術？　

Kimi Kong：

這個不好確定。但如果讓我做這個事，我一定會使用 self-play，因為它可以讓你不斷地 scale 和 refine 這個過程。強化學習最大的優勢在於可以讓你每一步都實現增量改進。這與 SFT 不同，SFT 是訓練完一個 epoch 就結束了。不一步到位，我們可以完成得更好，資料和 query 還在那裡，你可以透過這個 query 再執行一遍模型，再做一次標註，可以把這個 query 做無數遍的 self-play。　

我認為 self-play 是一個可以 scale 的強化學習訓練技術，在語言模型領域是一個非常好的 technique。　

Monica：

那它與我們之前討論的 CoT 和 reflection 之間是什麼關係呢？　

Kimi Kong：

這是個好問題。我認為在討論 CoT 時，更多是作為一個 prompting technique，就是說我希望 prompt 這個模型幫我做某件事。你可以用 CoT 的方式來解決問題，也可以用 CoT 的方式來產生 synthetic data 來訓練模型。　

但 self-play 更多是一個 training technique，是在訓練 reinforcement learning 模型時，用來持續推進強化學習步驟的技術。我覺得這是兩個相對獨立的 topic。Feel free to correct if I'm wrong。　

Monica：

關於 self-play，想聽聽你對它和 CoT 之間的關係，以及它在 o1 或未來提升模型能力方面的作用的看法。就是 DeepMind Danny 最近的那篇《Train of Thought empowers Transformers to solve inherently serial problems》，在 Twitter 上寫得非常抓眼球，說 Performance limit when scaling our inference sky is the limit。這篇文章本質上在講 CoT 是如何讓 transformer 的能力得到提升的，它跟剛才 Kimi 提到的 self-play 又是什麼關係？　

Eric Li：

我覺得 CoT 和 self-play 是兩個相對獨立的方法。CoT 更多是透過思維鏈，透過增加 inference time 的計算，讓模型能夠解決一些本身比較難解決的問題。self-play 更像之前 AlphaZero 那樣，透過自我博弈的方式能夠不斷地 incrementally 提升自己，比如下圍棋的水平。　

關於 o1，我不確定他們有沒有用 self-play，但從 MCTS 這個脈絡來看，在 LM 加強化學習這個方向上，大家還是會傾向於借鑑上一代強化學習的那些成功經驗。MCTS 是之前 DeepMind 做 AlphaZero 時變得非常 popular 的方法。我相信 self-play 即使現在沒有被 OpenAI 在 o1 上使用，也是一個很 promising 的方式。說不定已經有很多人在研究，我對它的未來比較看好，它可以作為一種模型 self improvement 的策略。　

我自己沒有完全讀這篇論文，只是看了一下 abstract，但我覺得這是一篇理論分析很有意思的文章。它能夠告訴我們現在整個 AI 學術界需要的東西——一些理論文章來揭示我們現有模型 capability 的上限在哪裡。對我來說，這是一篇非常 insightful 的文章，它至少能夠回答一件事情：transformer 加 CoT 的架構，它的表達能力是非常強的。　

當然，我也看到有人在說這可能和當年 deep neural network 的時候情況類似。不過我覺得這篇論文是從數學上告訴我們上限在哪裡，這等於是可以激勵我們下一步去設計更好的 CoT，設計更好的 transformer 架構。這樣就把問題從能不能解決轉變成了應該如何更好地解決。　

從計算不可約性的角度來看，很多問題如果想要獲得答案，可能都有一個 minimal 的 computation cost 要求。比如說，你想要模擬一個流體力學狀態，在保證一定精度的情況下，至少需要的計算成本是有一個非零的下限。這在 CoT 這塊也有相應的體現：對於複雜的問題，你確實需要有一些 additional computation 才能得到相對準確的解。這就是我對為什麼 CoT 被認為是一種 adaptive computation 的理解。　

蘇輝：

我先來討論一下 Sky 這篇論文。這篇 paper 在推特上引起了很多討論，包括田園東老師等研究者都表示反對。他們認為這個論文的 claim 本質上和「兩層神經網路能夠擬合任何函式」的說法類似，都只是在構造一個位置來擬合特定的 target 函式。　

但理論上能否達到這個 solution，或者找到更好的路徑都是無法保證的。雖然透過窮舉方法可以解出答案，但這種方法並不現實，我們真正需要的是能夠準確、直接給出答案的能力。我比較認同這個觀點，即存在答案和能否透過現有方法正確求解是兩回事，不能說隨機出現某個機率就等於能實現這個功能。　

關於 play 的使用情況，我注意到在 OpenAI 官網上搜索「play」的內容，可以追溯到 2017-2018 年，一直持續到 2022 年。雖然後來 OpenAI 並未官方承認使用 play，但這與新一代研究者如 Noam Brown 的背景有關。他們之前主要做 Deep AI 相關的零和博弈研究，這些研究者的研究品味和研究路徑短期內不會有大的改變。　

Noam Brown 最近在 YouTube 上的演講中，結尾提到了關於 LLM 的重要結論：他認為需要保證 generator 和 verifier 都足夠強大才能實現目標。從時間順序來看，現在已經達到了他之前提出的先決條件，所以這種方法用在 LLM 中是完全合理的。　

Cage：

Raw Model（指預訓練後未經任何特定領域微調或最佳化的原始模型）確實會是未來很大的一個研究方向。正好前面 Monica 提問說大家覺得 GPT-4o 表現怎麼樣？兩位嘉賓的回答都是和數學推理、coding 有關的。

reasoning 和 math 的 raw 都比較好定義，它本身有 verify 可以直接給一個結果說它是對的還是錯的。但其實別的領域就很難有這麼明確的 reward model。不知道幾位嘉賓對未來 reward model 能不能泛化並在領域上做到 scalable 這件事情怎麼想？　

蘇輝：

像這種 process 的 reward model 肯定是已經被大規模實踐過的，從數學上來說，包括後面的 critic GPT 這些工作，都是一脈相承的。我們的基座模型，比如說 GPT-4 就已經是一個強 generator 的 model 了，然後 verify model 也是基於 GPT-4 level 的模型去訓練的。它的 reward model 雖然給出的還是離散的訊號，但是過程是更加可置信的，因為它可能透過嵌入式推理去給出更強有力的 confidence，然後最終給出訊號。　

這某種意義上擺脫了之前 RLHF 那種訓練模式，以前 RLHF 是建立在二元的 Bradley-Terry 統計模型上，你一定要收集一些偏好資料，至少要有兩個選項的排序。但如果走這種模式，就是強模型重複去 reasoning，然後給出結果，它可能就不需要這種訓練 pattern 了。　

我用的是通用模型，主要用來目的是打分，這個打分很可能是基於我自己的一套比較強的規則，而且我應該是透過自己生成的這個思維鏈去給出結果。我覺得這可能是一個不太一樣的地方。　

Eric Li：

我很贊同，reward model 是一個被低估的問題，特別是相比那些有可檢查的數學題或 coding 這種比較容易 verify 的情況。　

現在很多人在研究 AI feedback 這塊，因為我們希望在某些領域中，AI 確實能夠給出比人類更 effective 的反饋。比如說考慮一個場景，如果我要寫兩個科幻小說，寫了兩個版本要判斷哪個更好，對人類來說要讀上幾百萬字是比較難的，也很耗時。　

但對 LLM 來說，它可以幫助你快速做資料 processing，理解文字內容，然後做 summarize。我覺得未來一個可擴充套件的方式是「Human in the loop 配合 AI feedback」，在面對那些人類需要花很長時間，或者普通人不容易看出 preference 的情況下，藉助 AI 把難度降低到人類可以探測可以理解的程度，然後由人類給出自己的 preference。我覺得這個對一些領域會是一個更加 scalable 的方式。　

Multi-Agent 是超級模型出現前的過渡狀態

Cage：

幾位幫我們把幾個單點的技術慢慢拼湊成了一個比較有全景的感覺。基於這個想再問一下，最近還有一個大家討論比較多，推特上也有人在爭論的問題，就是大家覺得 o1 是一個單一的模型，還是它可能是一個 Multi-Agents 的多系統？　

因為其實一方面我們看到 OpenAI 的 AMA hour，他們會說我們只是 one model，但是與此同時，Noam Brown，正好前面蘇輝提到了這個年輕學者，他最近在招聘的一個崗位就是做 Multi-Agent 研究。　

提到 AlphaGo 和 AlphaZero 那套系統，其實它一個 network 也不是單目標的，它同時有 policy network 和 value network，那麼它同時在做執行任務和評估兩件事。　

那麼我想請教幾位嘉賓，o1 如果要去復現的話，它是可能是一個多模型組合起來的系統，還是它可能就是一個神經網路解決了所有的問題？　

Monica：

純猜測，我不用為猜測結果負責。我在知乎看到一篇類似的猜測文章，作者說我這純猜測，要按這個訓練把公司訓倒閉了我也不負責。大家只是想聽聽彼此思考這個問題的思路。　

Kimi Kong：

我比較同意 Eric 之前說的五個不同 level 的 AI 發展路徑。第一個 conversation 已經完成了，現在屬於第二個 level，也就是 reasoner 階段。根據 roadmap，我個人觀點是它更可能是一個單一的大模型，而 next one 那個歷史可能會是 Multi-Agent，至少是單一 agent 的模型。　

Monica：

你這是更多從效果和 open 的技術審美路徑角度來猜測的？　

Kimi Kong：

對，更多是從 strategic 的角度考慮。我覺得要 one thing at a time，先做個非常好的基礎 chatbot 模型，然後用它 prompt 出 reasoning 的資料。有了強大的 reasoning 後，就能做更好的 tool use 和 function call，這可能就是下一版模型要做的。　

我認為 open 的 research direction 不是一個 over engineer solution。現在業界還沒找到一個最好的方式來 train Multi-Agent 的 LLM。我更傾向於先解決 low hanging fruit，先有個強大的 reasoning 模型作為基礎，然後一步步實現 roadmap，最終達到 level 5。　

Monica：

我 Google 了一下，AI 發展分為 Level 2 Reasoners、Level 3 Agents、Level 4 Innovators、Level 5 Organizations。所以現在我們還在 reasoner 和 agents 的階段。　

Kimi Kong：

對，可能處於 2.1 到 2.5 的狀態。　

Monica：

其實在應用層面，我們用 Multi-Agent 這種架構時會遇到一些反對的聲音。他們說用 Multi-Agent 就是增加了系統的複雜性，而且 agent 之間的通訊可能造成很多浪費。本質原因其實就是你的 agent 自己本身不夠牛逼，如果你有一個很牛逼的 agent 的話，在很多場景下其實你並不需要 Multi-Agent。就像 Tanu Robotics 的自動駕駛汽車，在 model 替換時就需要考慮這些系統架構選擇上的 trade-off。　

Kimi Kong：

我覺得大概有這麼幾個問題需要回答。首先我們可以 go through 一下 Multi-Agent 這個領域的歷史。　

Multi-Agent 是經典強化學習中的一個重要主題，最著名的論文應該是 David Silver 的，我非常喜愛的一篇論文 MADDPG（Multi-Agent Deep Deterministic Policy Gradient）。相比於 DDPG（Deterministic Policy Gradient）只在單一環境中訓練一個 agent 做一件事，MADDPG 可以訓練很多 agent 來完成一個非零和博弈的協作任務。為了讓這個問題可行，它做了很多簡化處理，否則這將是一個非常 computation-wise infeasible 的問題。　

關於 Multi-Agent，我知道一些 background。在 MADDPG 之後出現了很多 Multi-Agent 的 research，但我之後就沒有繼續 follow 這個方向了。說到 Multi-Agent 在 language model 中的應用，其實就是你可以 prompt 一個模型讓它做一件事情，對吧？　

首先你讓它做 Step 1，putting your generative model hat on 去生成內容。完成第一步後，透過 CoT 進入第二步，告訴它 now put your critic hat on 去評判結果。這個版本的模型需要仔細思考，如果認為一切正確就給出 final result，否則就回到 step one 重來。　

其實在這個過程中，模型在做很多事情，對吧？與其說是 Multi-Agent，不如說是 Multi-Task。問題是模型在 Multi-Task 時，可能沒有辦法很容易地把 attention 從 generation 轉到 critic。現在大家在 language model 領域做 Multi-Agent，主要是透過 prompt 不同的 persona，把 generator 和 critic 分開：generator 的任務就是生成內容，critic 則專注於評判結果。我覺得這是個很有趣的方向，尤其是在開發下一代 agent 方面，雖然我可能沒有完全 follow 最新的 Multi-Agent research on language model。　

譯者按：非常有意思的觀點，把寫作和編輯分開，凱文·凱利說過幾乎一模一樣的觀點。

我其實更傾向於，短期內我們更可能看到 Single-Agent 的 breakthrough，就跟傳統意義上的 o1 一樣。因為 o1 首先的 breakthrough 都是在 Single-Agent 領域出現的。當你有了一個非常強的 agent，就有可能很容易用類似的訓練方法泛化出 Multi-Agent 系統。　

Monica：

OpenAI o1 是 end to end 還是 Multi-Agent？　

Eric Li：

我的猜想比較保守，我認為它可能是 single 或 two agents 的情況，但不太可能是更復雜的 Multi-Agent system。　

OpenAI 之前做了很多關於 reasoning and verification 的工作，比如兩個 agent 在解決數學或 coding 題目時的 framework setup。我認為 o1 很可能只是一個 single agent，但在 inference 階段可能會 incorporate its critic 或 light supervision 來 verify。關於為什麼大家對 Multi-Agent 形成挑戰，這取決於 single agent 的能力水平。

我相信在現在以及可預見的未來，Multi-Agent 都會 outperform Single-Agent 的能力。即使是人類，也需要透過合作分工才能做出更好的成果。比如愛因斯坦那種 level 的人也會 make mistake。我因為是讀物理的 PhD，所以知道上個世紀做 quantum physics 需要一堆人合作分工，才能真正 build up 完整的物理理論。所以在我們的 Single-Agent 達到愛因斯坦那個智商水平之前，我相信 Multi-Agent 的 performance 一定會更好，因為它能提供不同的 perspective 和思路。

當然，如果未來出現了 superhuman 級別的 Single-Agent，最終的演化形態可能會迴歸到 Single-Agent，這是一個偏哲學層面的思考。

蘇輝：

在我看來，沒有必要懷疑這個事情，他們本質上都是一個 model。包括之前的端對端 model，現在越來越多的證據也能夠呼應這一點。我個人傾向於相信他們一定是一個模型，雖然多模型在現在這個階段確實能夠提升很多工的表現。在正式工作流中設定各種 role 一起配合解決問題，我認為這是過渡階段的產物。　

如果大家的目標是星辰大海、是 AGI 的話，最終的模型應該不是多個 AGI 模型一起工作，而是一個 single model 去處理所有事情，是全知全能的。　

目前大家使用 Multi-Agent 或其他方法，主要是為了解決 corner case 或中間推理過程不穩定的情況，但這些都是過渡時期的做法。　

比如在 tool use 時，模型可能無法很好地理解和呼叫功能，因為它只理解 function call 或 tool use 的基本功能描述。很多 agent 最佳化工作會根據人類使用模式，透過持續總結使用者使用情況和反饋，將這些資訊新增到 prompt 中，完善功能說明和呼叫可能性。　

但在 o1 釋出後，很多這樣的 case 都會被取代，因為模型能力夠強，它能夠百分百正確地進行呼叫。

為什麼玩遊戲的能力

對 LLM 來說很值得關注？

Monica：

最近有個 project 是用 o1-preview 來玩黑神話，雖然遊戲和 LLM 的結合並不是新鮮事。最近有些具備更強 reasoning 能力的 LLM 用來玩遊戲，有沒有讓你覺得特別 impressive 的地方？另外，用遊戲來做 training 生成資料，在有了 o1-preview 這種新正規化後，對進一步提升會有什麼幫助？　

蘇輝：

我看到這個新聞後去查了相關論文，發現它用的是 GPT-4o。它的實現原理是把遊戲截圖作為輸入，透過 vision model 進行場景理解，然後生成 Python 程式碼形式的動作來操作遊戲。如果用 GPT-4o 來做這個，成本確實會很高。　

AI 玩遊戲其實一直都很厲害，最早是打 Dota，後來還有星際爭霸。以前大家都認為需要透過大量對局來進行強化學習，但現在不一樣了。之前的方法都不是用 language model，而是要自己定義遊戲的各種狀態空間，用純強化學習的方法。　

這次玩黑神話是個非常特殊的 case，因為它直接用了訓練好的 vision model 和 language model，沒有額外訓練。最讓人驚訝的是現在模型的視覺和文字理解能力已經如此強大。我覺得下一步用更強的模型去玩那些人類喜歡的遊戲，很可能都能超過人類水平。而且關鍵是不需要在特定遊戲上專門訓練，這已經達到了一個新的分水嶺。　

Monica：

我知道前面大家提到要使用更多新型別的 multi-step 資料，所以我很好奇在遊戲中完全模擬的場景裡是不是相對來說更更容易收集這種 step by step 的資料？　

蘇輝：

對，資料收集肯定是會更容易一些。這讓我想到了 AlphaGo 的演進過程，早期的 AlphaGo 是離不開人類棋譜的，但到了 AlphaZero 時代就完全不需要人類棋譜了。對於開放世界遊戲來說也是類似的，如果你採用 AlphaGo 的路線，就需要人類的操作記錄來學習。　

但如果採用 AlphaZero 的方式，你只需要定義動作空間，讓 AI 在開放世界中從零開始自主探索。這是兩種完全不同的方式。

Eric Li：

用大模型玩遊戲這個話題，我認為有兩個非常 impressive 的點。第一點，像蘇輝剛才提到的，它沒有專門訓練一個模型用強化學習去玩遊戲，這和 Google DeepMind 打 Dota 時的思路完全不同。它完全靠 in-context learning 的能力去做 sequential decision making 的問題。

這體現了 Foundation model 非常 impressive 的能力，展示了它的 planning 能力。它能規劃在打怪獸時應該先做哪個 action，再做哪個 action，最終才能打得過。這不僅展現了 image understanding，更重要的是展示了很好的決策能力。　

關於用 gameplay data 獲取更多資料，這個 Jason Wei 之前做過一篇文章，研究如何學習真實世界中的物理知識。他們用物理 simulator engine 來獲取 signal。從更廣闊的角度來說，對於一個模擬 AI system 或單一 agent，當它和開放世界 interact 時，收集到的資料特別有意思。這些 feedback 能很好地產生 reasoning data，因為不管是 gameplay 還是開放世界中的問題，都比較容易檢測最終結果的正確性。這和 human feedback 只告訴你 pairwise 哪個更好不同，像打遊戲、coding 和 math 一樣，你能知道最後是贏了還是輸了。這種清晰的 signal 可以幫助我們更好地 synthetic 產生 reasoning 和 planning 的資料。　

Monica：

現在在這個大模型的訓練中，gameplay 資料用得多嗎？　

Eric Li：

目前我沒有看到很多人在使用這一塊。我不知道 OpenAI 或者別的公司是怎麼樣的情況。感覺 Google 因為比較看重現有的產品線，在那些產品線上做提升可能優先順序更高一些。但我覺得這是一個比較有意思的方向，可以去嘗試。　

Monica：

大家都提到大模型公司都開始用 data，我以為會有相當一部分是從 gameplay data 裡面出來的。　

Eric Li：

目前 synthetic data 更多是用於啟用模型生成（how to activate image generation model generated AI model）。雖然 simulation 的資料還比較少見，但像我們之前提到的 Multi-Agents 和斯坦福小鎮這些專案，展示了未來可以透過模擬社會來生成資料。這些都可以透過 Multi-Agent 做 simulation，用 simulator 和 game engine 來模擬，再配合 physics engine 來實現。　

OpenAI o1 帶來的強化學習新正規化，

拉高了追趕者的難度

Monica：

我們今天邀請 DeepMind 的嘉賓在 io 和 ncts 這些領域都有很深的研究。前段時間大家討論到，Google 其實比較早就開始了與 o1 路徑類似的研究。比如 Google DeepMind 釋出的論文《Compute optimally can be more efficient than scaling model parameters inference time》。我很好奇在座幾位 researcher 怎麼看這個關係，似乎這個研究路徑 Google 早就開始了，為什麼是 OpenAI 先把 o1 給 deliver 出來了呢？　

Kimi Kong：

（略顯遲疑）我用一句話簡單概括，然後剩下的留給大家腦補吧：transformer 是 Google 發明的，但 GPT 是 OpenAI 第一個 train 出來的。大家可以自行腦補為什麼他們先發布了 o1 而不是我們。　

Monica：

這個工作在 o1 出來之前的關注度和評價怎麼樣？聽起來並沒有怎麼受到關注。　

Kimi Kong：

哈，一時語塞。我可能聽到過類似的 research，就是大家做的這種小的 research。比如說這些 Google 的 paper，都是在 specific domain 資料集上做出來，證明 reasoning helps。

但我沒有看到一個非常 large scale 的嘗試。fundamentally 這是關於你是想釋出 paper 在 clean 資料集上證明它 work，還是真正要解決 nasty problem 並做 10X、100X 的 scale up，我覺得這需要不同的心態。　

Eric Li：

我之前在 Google 內部看到過一些關於降低 inference cost 的相關研究，但都是比較零散的、獨立的分析。不過在 o1 出來之前，我確實沒有關注到這篇 paper。這篇 paper 給出了一個更系統的分析，總結得非常好。　

從研究方向看，既然 o1 的 PR 做得這麼好，Google 肯定會提升自己模型的 reasoning 能力，爭取和 o1 差不多或更好。但是對於 scaling inference cost 的策略，在一些商業化場景，特別是對 latency 要求很高的場景並不適用。相比之下，大家可能更關注的是 Gemini 或在自己領域內效能的提升。　

Monica：

那是否可以理解為 o1 的出現讓這個方向成為了業界的共識？蘇輝有什麼補充嗎？　

蘇輝：

延遲確實是一個很致命的問題。如果能找到一種應用方式，讓使用者接受等待 10 分鐘、20 分鐘或更長時間，並且最終能完成很好的任務，或者在產品設計上做一些離線操作，這可能會帶來新的產品機會。　

但對於現有的一些產品形態，比如角色扮演或通用的 chatbot，這種方式會比較難實現。　

不過，如果能夠把這套訓練的邏輯框架遷移到提升 Pareto 邊界上會很有價值，比如在安全性和推理能力之間做 trade-off，透過這種訓練方式提升上限。在特定應用場景下，比如需要平衡安全性和角色扮演能力的場景，這種方式是可行的。　

Cage：

前面大家討論的 latency（延遲）問題，我很認同。我自己用 Cursor 接入 o1 後就有這種體驗，跟之前相比差別很大。之前的 auto completion 包括 composer 都很快，現在要想很久，所以需要很大的效能提升才能彌補這個時間上的 trade-off。

從大廠和商業化的角度來看，之前追趕 GPT-3.5 和 GPT-4 可能需要半年到一年時間，那麼 o1 這套用強化學習提升 reasoning 能力的技術，整個 AI 社群追趕的速度會不會比之前更快？　

Monica：

這種新正規化對追趕者意味著什麼？　

蘇輝：

我傾向於認為是更難了。

首先，你需要站在更強的基座模型基礎上做這件事，如果是弱模型，你就不會有很強的 reward model，那麼做這件事的收益極低，泛化可能性也很小。

其次，如果使用 MCTS 這樣的策略，這是一個非常 GPU-bound 的 inference time 訓練方式，你的 MFU 或 GPU 利用率是極低的。相比現在訓練 Dense 或 MoE 時已經達到相對較好的 GPU 狀態，這帶來的 compute 消耗不會比 pre-train 低，甚至可能更高。對很多公司來說這是更大的挑戰，因為你可能就是 double 了你 pre-train 的算力成本。

Cage：

關於 GPU 利用率低卻反而消耗更多資源這個問題，能解釋一下為什麼 o1 這一套訓練方法會帶來這樣的變化嗎？　

蘇輝：

因為在 sample 和 decode 過程中，GPU 利用率會比訓練階段低很多。這個過程需要結合到訓練中，會產生很多等待時間。　

Monica：

對算力的要求很高，但那時候需要的是非常強的訓練晶片，同時要非常大的叢集。你看像 OpenAI、Meta 都要做十萬級的叢集。那在 post-training 階段，如果它更像是 inference 的算力，是不是對 GPU 效能和叢集規模的要求就相對較低？　

蘇輝：

這是一個很大的工程挑戰。我們說的不是訓練完後的推理部署，而是訓推一體的過程。純推理時可以用效能較低的 GPU，主要需要在通訊上做些處理。但在規模化訓練時，因為這個過程嵌在訓練中，不是說推理出來文字後再拿到另外機器上去處理，這種方式工程實現不太現實。所以還是需要用最好的 GPU 來做強化學習訓練。　

Kimi Kong：

我覺得任何一個 task 都離不開幾個大的步驟：資料、模型和訓練框架。就像蘇輝剛才說的訓練上的算力挑戰，他也 touch 到了 base 模型很難 access 到最新的開源 SOTA 模型。我在想現在開源最 SOTA 的是不是 Llama 405B？　

如果你在 Google 或 OpenAI，你 train 出來就那麼一個最大的模型，你根本不用考慮用哪個 base model。但是現在沒有好的 open source 的 base model，這就意味著你在選擇 base model 時可能已經走了很多彎路。　

在資料這方面，你能看到 OpenAI purposely 把它的 reasoning 的內容 hide 掉了，只是把 reasoning 的 summary 給你。我覺得他這麼做是因為如果你有這些 reasoning 的資料，訓練會比較容易，但因為沒有這些資料，你就要自己從頭研究這個問題。　

整體來說這是一個非常 challenging 的事情。如果這三點都很 challenging 的話，作為一個追趕者可能會更難。說到蘇輝他們是追趕者，對我們來說，其實我們現在何嘗不是個追趕者呢？　

Monica：

Eric 怎麼看？　

Eric Li：

我覺得 o1 的難度和之前 GPT-4 出來時的難度都很高，但難度點不太一樣。當時 GPT-4 出來時只有 OpenAI 一家做出了 multimodal 模型，要實現 multimodal 這個能力，不管是 pre-training、post-training，還是 SFT 和強化學習，每個訓練階段都需要去做。　

主要難度在於資料問題，因為怎樣獲得最好的 reasoning 資料，比起 outcome 的 human feedback 來說更加耗費資源。另外就是它的實現方法，不像去年從 text-only 變成 multimodal 模型那麼清晰。那時候大家已經知道怎麼做 modality fusion，知道怎麼處理這些資料集，但現在大家還在猜測它到底是怎麼實現的，以及背後的原理。　

所以我認為難點主要在於：第一，要建立這樣的資料集；第二，因為有很多可能的實現路線，需要更多 research 投入去確定最優路線。

對於中小公司來說還有個 challenge，就是強化學習的重要性。之前很多創業公司或資源不夠豐富的公司都不會去做強化學習，而是用 DPO 等比較偏 off-policy 的方法。如果強化學習現在已經被強調得這麼重要，我們是否必須做 RLHF 而不是用 RL-free 的方法，這對小公司來說是個很大的挑戰。　

Monica：

在追趕 o1 的過程中，你覺得最容易被大家高估和低估的方面是什麼？　

Eric Li：

我認為最容易被低估的是資料層面，特別是如何判斷 reasoning 好壞的資料。以前做 RLHF 時，一些場景或創業公司還能獲取 human feedback，但要獲得高質量的 reasoning feedback 資料，難度會高得多。至於高估的點…沒有什麼高估的，難就是難。

蘇輝：

我之前也講過，我覺得大家是偏低估工程上的挑戰。現在從一些觀點來看，訓練工程的挑戰其實很大。你需要站在一個 GPT-4 水平的模型基礎上，並且要掌握訓練這件事情才能繼續往前發展。　

Kimi Kong：

我非常同意 Eric 和蘇輝的觀點。這既是一個 science 非常難的問題，也是個 engineering 非常難的問題。　

science 的難點在於如何篩選高質量資料，而 engineering 的難點在於 training 中需要引入 inference，相當於說你必須是六邊形戰士，沒有短板才能把這件事做出來。　

未來 1-3 年，

最期望在領域內看到的發展

Monica：

我們已經討論了很多解讀和猜想，現在讓我們來談談對未來的期待。在看到 o1 展現出這些能力之後，大家對近期一年以及未來三年，最期望在這個領域看到什麼樣的發展？還有哪些難題是你們最希望能夠被解決的？　

Kimi Kong：

我覺得在一年之內，coding 很可能會變成一種 commodity，變成人人都可以擁有寫程式碼的技能。我之前和組裡的 PM 聊天時，他就說：我可以用 Cursor 自己寫程式碼，不需要你們幫我做 prototype。雖然他只是在談論自己的個人專案時開的玩笑，但我覺得這種情況在一年內可能真的會實現，也許吧。　

其實我是一個 robotics by training 的研究者，我非常期待大語言模型和 robotics 結合的這個領域能有更長足的進步，特別是在 embodiment 這個方向。但是在一到三年內，我覺得最難解決的還是 domain 資料的問題。其實你知道，大多數的配方都已經擺在桌面上了，無論是大公司還是開源界都在用差不多的配方。　

你可以選擇配方，但你知道，配方需要原材料來烹飪，而這裡的原材料就是資料。當一個 domain 沒有很好的資料，或者資料很難採集，或者資料還沒有被數字化，這就是最大的挑戰。具體到 Embodied Robotics，這個問題雖然有挑戰，但也不是特別難。對於 robots 來說，它的資料還沒有被很好地數字化，但這個過程已經開始了。　

這讓我想到了 GPT-1、2、3 的發展階段，當時大家也在不斷擴充套件資料的質量和數量。所以我非常期待看到我的 robotics 同事們能夠開發出一個令人驚豔的 emergent 的具身智慧模型。　

Monica：

最近我投資了一個機器人公司。看到機器人的資料已經在逐漸被數字化，我感到非常欣慰，因為我們天天都在聊機器人的資料有多難。　

Kimi Kong：

RTX 確實是一個 good step forward。RTX 團隊的一些人後來出去創業做 Physical Intelligence。在 Facebook Todens team 裡，讓我印象深刻的是一位越南裔成員，他是 RTX 的發起者。

Monica：

你能用一句話解釋一下 RTX 具體是做什麼的？　

Kimi Kong：

RTX 是開源的。傳統上，robotist scientist 需要自己收集資料集，比如 Tony 搞了一堆燒飯、開桌子、刮鬍子的資料集，然後訓練 imitate 模型。　

就像 hugging face 在 NLP 領域做 summarize、semantic understanding 一樣，他們聯合了世界上 17 個實驗室，把幾十個 robot 的資料集整合在一起，建立了統一標準的 robot dataset，總共有兩個 million 的 robotic trajectory demonstration。　

相比之下，PaLM-E 花了 18 個月收集了約 150K 的 human demonstration。但是跟 LM 比，比如說 Chinchilla 的 scaling law，幾萬億的 token，機器人這邊還是差得很遠。但正因為難，才讓人 excited，因為這是個 not fair game，everybody can win。　

Monica：

這有點像機器人領域的 ImageNet。　

Kimi Kong：

沒錯，所有人都是在一個起跑線上的。大廠跟你而言是在一個起跑線上，這就是為什麼我非常 excited，期待在未來三到五年看到 robot 的落地和應用，期待我的同事們有更加驚豔的作品。　

Monica：

我很期待看到你什麼時候能迴歸機器人研究這個老本行。　

Kimi Kong：

我一直在關注這個領域。從 technology wise 的角度來看，我覺得並沒有太大的區別，都是 AI 在不同行業的應用。機器人的模態本質上就是個多模態問題，我覺得 robot 的模型與 VQA 或者 VLM 沒有那麼多的區別。講白了就是用同樣的技術來解決不同 data set 的問題。

對我而言，雖然 robot 是我的 passion，但我更 excited 的是把 robot 抽離之後的問題——我的 passion 是在強化學習上的，就是如何用強化學習來解決 foundational 的 state action 的 World State Topological Agent Problem。　

蘇輝：

在未來一年內，我很希望看到多模態在 reasoning 方向的突破性進展。之前很多 research 工作表明，引入多模態 token 並沒有讓語言模型的能力得到提升，這讓很多人略感失望，因為混合模態後 compute 增加了，但單個模態的能力並未提升。　

一年內，我們的訓練資料資源量會有較大的 scale。不過我們應該注意到，人類學習根本不需要那麼多 data。現在模型訓練中充斥著大量無意義的資料，比如新聞稿或一些無意義的字串，這些都被模型學習進去了，浪費了大量資源。　

我很希望在這一年內能看到 data 工作方面的重大突破，找到真正有代表性的 data，用很小的資料量就能達到現在大規模資料的效果。如果展望三年以後，我比較樂觀，希望能看到接近 AGI 狀態的模型出現，解決所有問題，讓我們也不用上班了。

Monica：

這是三年嗎？小心你老闆把這個給你設成 KPI 啊。　

Kimi Kong：

我非常好奇，關於多模態這個問題，其實現在訓練裡面多模態資料的佔比還是非常少的。另外我很好奇的是，現在多模態的 vision encoder size 比 text encoder 相比要小很多，為什麼沒有人去做 vision encoder 方面的 scaling 研究？這是我個人的好奇。　

蘇輝：

我其實也不太清楚具體原因，但我覺得這是一個很 promising 的方向，我很看好 encoder scaling 上去。　

Kimi Kong：

對，因為現在都是零點幾 B，我對 Gemini 可能不是特別瞭解，但那些開源的基本都是幾十 B 的模型，它的 vision encoder 也就基本零點幾 B 到 1B 的規模。　

蘇輝：

這確實是一件很 surprising 的事情。我覺得一個比較大的原因是 vision encoder 對工程來說是比較大的挑戰。　

Kimi Kong：

Interesting，good to know。　

Monica：

Eric。　

Eric Li：

我自己覺得一年之內我比較看好的是多模態的 reasoning。我看了很多 paper，發現模型在 text 的 reasoning 非常好，但有了多模態之後反而都沒有那麼好。這裡面同時涉及兩個問題：一個是模態之間的 alignment，另一個是 reasoning，這兩個混合在一起問題就更加複雜。但是有了 o1 這個模型珠玉在前，我相信很多人可能會考慮怎麼去把這些相關技術更多地用在多模態的 RLHF 上面。　

另外一個看好的方向是 Multi-Agents。之前的很多 agents 效果沒有那麼好，主要是因為 foundational 的一些能力，比如說 reasoning 的能力還不夠強。我估計這一年內，其他的競爭者應該也會有 o1 level 的模型會出來。這對於創業公司或其他團隊來說，作為一個更強大的 Multi-Agent 的基礎，應該會更有希望。我期待這一塊能夠解鎖一些新的應用場景，或者在一些對準確性要求比較高但之前沒有做到的任務上取得突破。　

未來三年，我希望能看到 AGI 作為 innovator 發揮更大作用，比如自主發現新事物或進行前沿研究。我最近注意到已經有一些相關的 paper 發表，讓 AI 幫助我們進行 research，但目前還處於比較初級階段。當 reasoning 和 Multi-Agents 的系統架構更加成熟後，AI scientist 可能會給我們帶來意想不到的結果。　

Monica：

你覺得 AI scientist 是透過提升 reasoning 的能力就可以實現嗎？作為一個能夠定義問題、解決問題的 scientist，還需要什麼別的能力？　

Eric Li：

現在的 AI scientist 寫出的 paper 更多是一些偏炒作式的科研，比如簡單地把 A 和 B 結合起來。要解決更加棘手的 open question，我們需要 AI 具備更深度的思考能力，以及推翻重來的能力。還有就是能夠提出更好的問題，而不是僅僅解決問題。有了更好的 reasoning 能力後，AI 就能進行更長遠和深入的思考，這會讓它在提出問題和解決方案方面有質的飛躍。　

Monica：

一到三年內你覺得會有哪些比較難解決的問題？　

Eric Li：

我覺得 innovator 這個問題本身就是非常具有挑戰性的問題。其中比較難解決的一個問題是讓 AI 不要只是去 retrieve 它自己 pre-training 中的資料，而是要更多地去質疑自己曾經學到的知識是否正確或已經過時。我覺得這可能是 AI 要達到 innovator 水平的一個非常難的點，就是讓 AI 能夠去質疑，很 challenge 地去挑戰自己已經透過 SFT 和 pre-training 學到的知識。如果能做到這一點，應該會有很大的進步。　

Monica：

Echo 之前提到的很對。作為投資人，我跟很多創業者討論時發現，o1 更像是一個 GPT 時刻，而不是 ChatGPT 時刻。它能解決要求更高層次 reasoning 的場景，這與 ChatGPT 展現的 chatbot 場景有很大區別。對這些場景來說，產品設計就不能像 chatbot 那樣只用一個 search bar 就能解決問題。我們需要考慮如何在很長的 inference reasoning 鏈路中加入人的 feedback。　

這些都是從 GPT 到 ChatGPT 過程中的產品問題，值得整個行業 ecosystem 一起探討。我認為這更適合創業公司，而不是大廠，因為大廠現在都在全力去做 GPT 模型本身。產品層面還有很多機會。Cage 一直在這個領域做了很多研究，想請你也跟大家分享下對未來的期待。　

Cage：

我會把這個話題分為 coding 和其他領域來看。就 coding 來說，我非常認為 coding 能力會持續提升。世界上會 coding 的人可能只有 1%不到，但實際上有產品需求的人遠遠大於這個比例。這裡會不會有一些新的技術突破和產品來彌補這個差距呢？比如說 Cursor 這個產品，現在小白使用者還用不上，不太會用。那麼可能會有更低門檻、更民主化的產品出現，就像 Canva 那樣。

其次我最期待的是 reward model 能否在 mass code 之外的問題上實現泛化。　

這個泛化可能透過兩種方式實現：一是依靠 OpenAI、Anthropic、Google 等公司在模型層面的提升，二是透過開放 API 或其他形式，讓企業使用者共同參與提供高質量的 reasoning 資料，從而在金融、法律等領域獲得提升。我希望能在一年之內看到一些 signal 出現突破。　

這並不是很明確強推力領域想看到的一個進展。在三年的時間尺度上，我最期待的是 AI 真的能夠幫我完成高價值的研究任務，可能持續一天、一週或一個月。在這個過程中，如果 AI 遇到什麼問題，它可以主動發郵件給我，我給個 comment 後它就能繼續完成任務。這正好 Echo 到前面幾位嘉賓提到的問題：現在還沒有產品能讓使用者願意接受那麼高的 latency，但如果 AI 真的能做很高價值的任務，可能在 industry research 甚至人類科學問題上都有突破。　

我期待看到技術和產品層面的突破，讓人與 AI 能夠實現非同步協作。這樣可能會呈現一個新的 AI Agent 作業系統或 UI/UX 設計模式，這是我三年內最期待的。　

Monica：

大家都從不同角度分享了對未來的期待。今天本來說兩個小時，聊了三個多小時，非常感謝大家。我覺得有非常非常多的啟發，也希望給聽眾帶來一些收穫。

希望讓更多人加入到創新的大潮中。越是有這樣不斷的新正規化突破、新的模型能力提升，讓我們在這個基礎上進行進一步創新的時刻，就越是能激發我們更多的想象力和期待。