【3.5萬字實錄】OnBoard！對話GoogleDeepmind研究員：OpenAIo1及LLM+RL新正規化

轉眼就到年末，今年最值得關注的事件，或許就是9月12號 OpenAI o1模型的釋出了，大家對這個新的模型翹首以待許久，OpenAI CEO Sam Altman 也稱之為新正規化的開始。經過強化學習（Reinforcement Learning）並結合Chain of thoughts 思維鏈技術，o1在處理物理、數學、程式設計等複雜問題時，甚至和該領域的博士生水平不相上下。

強化學習如何給大語言模型帶來新的邏輯推理能力這？這種能力的來源、實現方式和未來潛力又是怎樣的？o1帶來的“新正規化”會對行業有怎樣的影響？

OnBoard! 在9月27日邀請到幾位在一線大模型機構有實際訓練LLM經驗的一線研究員，進行了三個多小時的解讀：

其中兩位來自 RL 絕對高地的 Google Deepmind, 他們分別在RL和MCTS（蒙特卡洛樹搜尋）領域有長期的研究和實踐經驗；

另一位嘉賓則是在網際網路大廠從LLM預訓練到RLHF都有一手經驗！

最前沿的視角，160分鐘的討論，碰撞出太多火花！雖然內容非常幹，需要一定技術（和英文）背景，上線以來還是廣受好評~

因為實在太乾，很多朋友都在呼喚文字稿 —— 我們萬能的粉絲，這就來了！

要特別感謝我們的粉絲“張五常“同學，AI+人工，花了很多時間整理了這麼長、中英夾雜、專業術語繁雜的 transcipt! 還做了很多脫水處理，超過3萬字，預計閱讀時長約1小時。真的太敢動了！

歡迎大家關注他的公眾號，也有不少不錯的文章~手動比心感謝！

什麼是“脫水”版

“脫水”版是對於影片/播客全文的一個整理，力求保留所有資訊和每個資訊是由誰說的，目標是能夠讓讀者在任何情況下都不必去看原文。喜歡播客的朋友可以掃碼直達（也可以在Apple Podcast, 喜馬拉雅等各大播客平臺找到）：

本期目錄

01核心觀點總結

02嘉賓介紹 & 主要話題

033萬字實錄正文

核心觀點

關於Agent系統的基礎構建

Foundation model的推理能力是agent發展的基礎，但真正構建有效的agent系統還需要解決多個AI之間的協作、競爭關係，以及複雜任務的分工方式。　

Tool use要有意義必須有足夠廣的覆蓋面，關鍵是提升模型對prompt中tool的function理解和呼叫能力。只要有強大的prompt理解和reasoning能力，加上完善的說明文件，模型就能正確呼叫這些tool。　

構建強大的agent能力需要四個要素：強大的base model和reasoning能力、高質量的tool、優質的prompt，以及透過資料集學習如何更好地使用tool。

收集agent相關資料集的理想方式是將資料標註自然地嵌入到使用者的日常工作流程中，而不是讓使用者感知到在標註資料，這樣才能確保資料質量，最理想的情況是特斯拉。　

關於思維鏈 CoT與強化學習RL

在解決問題時，如果在答案中給出更詳細的步驟，而不是直接給出結果，模型的表現會更好。這就是Chain of Thought的核心思想。　

Chain of Thought分為兩大流派：顯式流派，使用明確的token展示思維過程；隱式流派，更像人類的直覺思考，答案會在某個瞬間突然出現，難以用邏輯完全解釋。　

傳統語言模型最大的問題是不能回撤，一旦生成錯誤的token就無法糾正。但如果允許模型反思並修正錯誤，在reasoning任務上的表現就能得到顯著提升。　

強化學習(RL)的核心是透過agent與environment的互動和reward的指引來實現學習，這三個要素構成了RL的基本框架。　

關於AI反饋系統與 Human in the Loop

AI不僅能快速處理和理解海量文字，還能進行總結，這使它在處理複雜評估任務時具有獨特優勢。　

在某些需要大量時間和精力評估的領域（比如閱讀兩本長篇小說並總結大意），AI能夠提供比人類更高效的反饋，這是AI feedback被低估的價值所在。　

未來最具可擴充套件性的方案是「Human in the loop配合AI feedback」——AI將複雜問題簡化到人類可理解的程度，再由人類做出最終判斷。　

關於Multi-Agent與角色分類

在語言模型中，所謂的multi-agent本質上更像是multi-task，模型需要在生成內容和評判結果之間切換角色。　

透過prompt不同的persona，我們可以把generator和critic的角色分開，讓它們各自專注於生成和評判任務，這是當前語言模型領域multi-agent應用的主要方向。　

模型在多工切換時面臨attention轉換的挑戰，這也是為什麼需要透過角色分離來實現更有效的multi-agent系統。　

關於Single-Agent與Multi-Agent

在Single-Agent達到超人類水平之前，Multi-Agent必然會表現更優，因為它能提供多樣的視角和思路，就像人類社會需要分工合作才能取得重大突破一樣。　

Multi-Agent很可能是一個過渡階段的產物。從AGI的終極目標來看，未來應該是一個能夠處理所有任務的單一模型，而不是多個AGI模型協作。　

目前使用Multi-Agent主要是為了解決模型在corner case和推理過程中的不穩定性，隨著基礎模型能力的提升，這種需求會逐漸減少。　

當前許多透過Multi-Agent解決的問題，如tool use的準確理解和呼叫，都可能被更強大的單一模型（比如 o1）所取代。　

嘉賓介紹

Kimi Kong，Research engineer @Google deepmind，他在Stanford讀書期間就接觸強化學習，從機器人到現在的大語言模型，對強化學習的理論和使用的沿革有非常系統的理解。　
Eric Li(返場嘉賓!)，Research scientist @Google Cloud，PhD@Caltech。大家都猜測o1將蒙特卡洛樹搜尋(MCTS)應用到了了LLM，是提升邏輯推理能力的重要方式之一。Eric就發表了多篇LLM和MCTSS結合的論文，絕對的專家。　
蘇輝，前微信Al研究員，現國內一線網際網路公司大模型負責人。　
Cohost：Cage，原位元組資料科學家，現拾象科技研究員，公眾號"海外獨角獸"撰稿人　
OnBoard!主持：Monica：美元VC投資人，前AWS矽谷團隊+AI創業公司打工人，公眾號M小姐研習錄(ID：MissMStudy)主理人 | 即刻：莫妮卡同學

主要話題

嘉賓自我介紹，MCTS科普，為什麼對LLM+RL新正規化很重要;Cursor　
為何值得關注，Physics in LLM from Allen Zhu，語言對推理能力的價值　
對o1釋出有什麼印象深刻的地方，資料的重要性和難點　
如何拆解o1能力提升的來源？如何重新訓練一個o1？　
為什麼複雜的o1卻解決不好簡單的數學或常識問題？　
用於tool use的任務，可能有什麼挑戰？對agent產品有什麼影響？　
如何看待agent資料集難收集的問題？　
什麼是Chain of Thoughts (CoT)和MCTS？對o1的作用跟以前CoT做法有什麼不一樣？MCTS在LLM推理中可能有什麼作用？　
什麼是強化學習(RL)？在LLM中應用RL是怎樣的演進過過程？　
RL和self play其他領域，比如機器人，有怎樣的應用？跟在LLM的應用有何異同？　
RL，CoT，self-play之間是怎樣的關係？真的可以無上限提升LLM推理能力嗎？　
o1有可能是單一模型還是multi-agent system？　
LLM和遊戲有什麼相互影響？為什麼玩遊戲的能力對LLM很值得關注？　
遊戲資料對LLM訓練有什麼價值？　
Google很早就開始RL相關研究，為什麼OpenAlo1先出來了？　
新正規化的出現，對於追趕者來說意味著什麼？更容易還是更難？　
要追趕 OpenAl o1，最容易被低估和高估的是什麼？　
對未來的展望：未來1年和3年，預期AI領域會發生什麼？

正文

注：本期錄製時間為2024年9月27日

00：00：03 – 00：00：12　

Monica：　

歡迎來到onboard真實的一線經驗，走心的投資思考。我是Monica。　

高寧：　

我是高寧，我們一起聊聊軟體如何改變世界。　

00：00：16 – 00：02：35　

Monica：　

大家好，歡迎來到onboard，我是Monica。你們期待已久的最硬核最乾貨的OpenAI o1模型技術解讀來了。　

上個月最值得關注的事件當然就是9月12號OpenAI o1模型的釋出。大家對於這個模型可謂期待已久，而OpenAI的CEO Sam Altman也稱之為新正規化的開始。　

透過結合強化學習reinforcement learning和chain-of-thought的思維鏈技術，o1在處理物理數學程式設計等非常複雜的問題時，甚至能達到該領域博士生不相上下的水平。　

這次我邀請到了幾位非常重磅的嘉賓來做了一場三個多小時的解讀，他們最重要的特點就是都有實際訓練大模型的一線經驗。其中兩位來自reinforcement learning的絕對高地Google，也是AlphaGo、AlphaFold等一系列世界領先的強化學習工作的發源地。　

Kimi Kong是Google DeepMind的research engineer，他在Stanford讀書的時候就接觸強化學習，從機器人到現在的大語言模型，對於強化學習的理論和使用都有非常系統的理解。　

我們的返場嘉賓Eric Li是加州理工的博士生，在Google Cloud做研究員，他發表了多篇LM和MCTS結合的論文。　

此外，蘇輝在國內的網際網路公司負責大模型訓練，從預訓練到RLHF都有第一手的經驗。　

我們還邀請到了海外獨角獸的Cage，他的公眾號海外獨角獸的文章很值得大家關注。　

這次探討會涉及很多技術細節，而嘉賓們長期在海外工作學習也難免穿插英文，我們會把涉及到的概念和文章都寫在show notes中方便大家深入理解。　

00：02：36 – 00：05：24　

邀請幾位嘉賓做一個自我介紹，跟大家簡單介紹一下你的過去經歷，你是怎麼開始進入到LLM或者說強化學習這個領域的。當然了，按照老規矩，除了o1之外，最近你看到了一個比較有意思的project或者paper，可以跟大家分享一下。那我就從今天的返場嘉賓Eric開始吧。　

Eric Li：　

大家好，我是Eric，我現在在Google做LLM相關的研究，主要是做LLM的post training reasoning和multi agent相關內容。我開始做LLM是在大約兩年前，當時instruction tuning這個概念剛出來不久，我們在做一些FLAN相關的模型，主要是去scale up instruction tuning的資料，研究對模型會有什麼樣的影響。　

我做RL主要是從去年開始，在Google內部做PaLM 2以及Gemini的時候開始做RL相關的研究和工作。最近我覺得有一系列將LM和MCTS結合的paper都非常有意思，把planning融入到LM的reasoning是個很promising的方向。　

Monica：　

那正好MCTS也是我們後面要討論的話題，對於這個名詞還不是那麼瞭解的朋友們，Eric正好可以在這裡簡單介紹一下。　

Eric Li：　

MCTS是蒙特卡洛樹搜尋，是一種比較經典的搜尋演算法。它最經典的應用是在Google的圍棋AI專案中被廣泛使用併為大家所知。　

在LLM的reasoning這一塊，蒙特卡洛樹搜尋主要用在兩個方面：一個是產生更好的高質量的合成reasoning資料，另一個是在inference time的時候能夠把planning融入到reasoning步驟中去，可以用MCTS來最佳化reward和reasoning的路徑。我覺得這兩個都是非常有意思的方向。　

00：05：24 – 00：07：10　

我們最近有一篇paper是用MCTS的方法來幫助標註process supervision的資料。因為大模型在做reasoning時，它的某些reasoning step可能會出錯，但讓人類去標註每個reasoning step的正確性是非常耗費資源的。我們使用MCTS加上一些蒙特卡洛估計的方法來最佳化這個過程，提出了一種完全不需要人工參與，只依靠AI就能獲得feedback annotation的方法。　

Monica：　

paper的連結都放在show notes裡。我多問一句，那大家都說如果要繼續提升reasoning能力，要加入這個multi step的資料，它主要是在pre-training還是在post-training的階段？　

Eric Li：　

它主要在post-training中起作用。比如說在RL的過程中，如果只是經典的RLHF，那最終可能只有在最後才能知道一個答案是正確還是錯誤的，需要依靠模型自己去判斷在整個推理過程中哪幾步出錯或哪幾步推理得非常正確。但有了這些process supervision的data，你就能夠讓模型更好地學習它的value function，在RL的過程中更準確地知道哪一個reasoning step是錯的哪一個是對的，這樣能夠提高RL訓練的效率。　

00：07：10 – 00：10：14　

Monica：　

嗯，的確，MCTS在LM的訓練中包括它有沒有用在RL也是大家經常討論的一個話題，我們待會請Eric來一起討論。好的，下一位是Kimi。　

Kimi Kong：　

非常感謝Monica今天的邀請。我是Kimi，中文名叫孔令傑。我是斯坦福的機械和計算機雙碩士，不過我至今依舊沒有claim我的CS degree，這樣我就可以賴在斯坦福再去讀個part-time的Business School。　

我本來是robotics by training做control theory出身的，主要做state-space model，但不是現在大家常說的model-based state-space model，而是純control theory的state-space model，就是model-based一脈相承的經典control theory裡面的東西。　

我進入AI/ML其實是非常偶然的。2016年我在斯坦福機械快畢業的時候，認識了Stefano Ermon。當時我正在上他的probabilistic graphical model和deep generative model的課。　

有天雨下特別大，沒人去上課，教室裡只剩下我一個人，就這樣somehow跟Stefano熟了起來。他很鼓勵我去探索用Learning approach來解決robotic control問題。　

後來我就說，如果Stefano給我寫推薦信的話，我就申請CS degree。很幸運Stefano給我寫了推薦信，我又被斯坦福錄取了。　

在之前我2016年在Microsoft實習，畢業後去了AWS和Monica做同事。在AWS時我lead過兩個專案：　

一個是distributed simulation專案，幫助Amazon robot用分散式方式來進行更多搜尋和採集資料，提高RL訓練速度；　

同時我也lead過一個medical image的CV相關專案。在那之後，我在2023年初，也就是Google massive layoff的前一週加入了DeepMind。在Google最開始是幫他們用AI做一些forecasting的task，後來隨著LM的發展，主要在做Gemini的auto eval，講白了就是用LM來evaluate新模型出來時的performance好不好，這是個能scale的solution。最近主要在做agent方向。　

Monica：　

所以說大家不要輕易翹課，每一節課都可能有驚喜。

Kimi Kong：　

雖然那是一節video recording的課，我非常清楚地記得那天我遲到了兩分鐘，走進教室時還有點迷茫，覺得今天要一個人看網課了，結果Stefano看到有人來非常開心。　

00：10：15 – 00：10：50　

我幫助Google的Search Department用agent的方式來提高他們的廣告點選率。說到最近的paper和project，我最近非常受啟發於一篇比較早的論文，這篇論文是關於scaling law of reward model over optimization的，是OpenAI在2021或2022年發表的。我讀了很多相關論文，特別關注reward model這塊。其實在做RL的時候，reward model是一個非常mysterious的component，因為到現在為止，沒有人真正知道如何定義和設計一個好的reward model。　

00：10：51 – 00：12：51　

我讀那篇paper的時候獲得了很多靈感。最近我非常迷上了Cursor這個工具，每天從Google下班後都會使用它。用Cursor在家裡三小時能完成相當於在Google一週的程式碼量，這真是非常mind blowing的事情。　

Monica：　

作為一個資深程式設計師，你覺得你用Cursor會替代掉你用的Copilot嗎？　

Kimi Kong：　

我認為Cursor比Copilot多了一個很好的feature，叫composer。Cursor本質上是VS Code的一個fork，因為Microsoft的VS Code是開源專案。它底層接入了各種不同的大模型，包括Claude 3.5、之前的o1，最近還接入了GPT-4o。　

Cursor相比Copilot的優勢在於，Copilot behind the same可能只接入了一些Microsoft OpenAI的小模型，雖然後來也接入了GPT-4o，但因為成本很高，始終沒有把最好的模型拿出來。而Cursor可以很容易地接入最好的模型，比如Claude 3.5等各種模型。　

我已經把VS Code刪掉了。Cursor在AI程式設計方面做了很多介面最佳化。我特別喜歡的composer功能可以幫助快速scaffold一個project。對於machine learning engineer來說特別有用，因為我的前端已經很生疏了，很多年不做backend也做得不太好，但我可以快速搭建Chrome外掛，這在以前是不可能完成的事情。　

00：12：53 – 00：13：55　

Monica：　

關注AI領域的朋友最近應該都能感覺到Cursor的出圈。Cursor是在2022或2023年成立的公司，獲得了OpenAI的早期投資。在使用新的模型後，Cursor在語言理解和程式設計能力上有了極大提升。　

最近他們還獲得了a16z的新一輪融資，估值約4億美金。有意思的是，Cursor的兩位創始人都是MIT的00後，他們證明了IDE仍然是一個可以重新創新的領域。從投資人的角度來看，我很感慨年輕人能夠用AI做出這樣AI native的產品。非常謝謝Kimi的分享，蘇輝也可以跟大家自我介紹一下。　

00：13：57 – 00：15：18　

蘇輝：　

嗯，好的，Monica。大家好，我叫蘇輝。在ChatGPT出來之前的幾年時間裡，我在微信的AI團隊做dialogue system研究，包括部分時代的research工作。那個時間點經歷了從傳統language model到LM research的研究過渡期。後來ChatGPT出來後加入了創業大軍的大潮。　

經過一段創業時間後，現在在大廠負責大模型方向，主要負責模型訓練，也包括一些前沿的research study和創新型應用的探索。　

我從早期就開始關注AI的發展，見證了各種設計的變革、訓練正規化的變化，以及各種架構的迭代。現在主要在應用場景上進行大規模探索，研究強化學習的落地方式，尋找從使用者反饋到模型迭代的有效路徑。關於Cursor這個專案，我是重度使用者，基本已經到了離不開的狀態，不過因為前面嘉賓已經討論過了。　

我覺得非常好的是艾倫朱的physical LM工作系列，從去年開始到最近。它跟reasoning的關係沒有那麼強，但在reasoning這部分做了比較多的、相對紮實的實驗和一些結論。雖然它的實驗規模比較小，但是非常紮實。我認為很多research paper都應該向他學習這種可控實驗的工作正規化。　

我覺得可以follow他的工作研究reasoning，包括跟chain-of-thought的關係，以及透過reasoning如何去提升。沿著他的工作脈絡是非常好的一個開始，我也在這裡把這個工作推薦給剛進入LM或者reasoning方向的研究者。　

Monica：　

你為什麼會覺得這是值得大家學習的研究方法？　

蘇輝：　

因為有些做research的方式是基於一些特定版本的模型或某個系列的模型。這些research結論有時候欠缺一些嚴謹的基礎，因為你會受制於這些模型的資料格式或資料組成部分。對你來說這是一個非常黑盒的環境，而且你的測試資料很可能在它的預訓練過程中有未知的耦合。所以很多結論是不夠紮實的。　

他設計了一個完全可控的環境，從資料到結構都是自己掌控的，訓練資料也是完全自己合成的。這樣難度和邏輯都是完全自主可控的，最終的實驗結果就取決於你的資料。這讓你在做研究時可以排除掉資料的干擾。而且他比較嚴謹地在做scan的工作，在某些size上觀察變化，推匯出一些比較好的結論。雖然由於計算資源的限制沒有做到特別大的規模，但有計算資源的團隊可以scale到比較大的規模去驗證，並且提出自己的理論和實驗設計。　

00：17：46 – 00：20：24　

Monica：　

我們今天邀請的幾位嘉賓在這個領域都有很深的研究和實踐歷史，相信今天的討論會給大家很多啟發。讓我們的cohost Cage來做個介紹。　

Cage：　

Hello，感謝Monica邀請。我現在在拾象科技做AI技術相關的投資研究，我們主要研究AI海外獨角獸。　

在o1釋出前，我們寫過一篇《LLM的正規化轉移：RL帶來新的》的文章，對RL策略和技術路線做了較多分析和預測，o1釋出後證實了當時的分析預期。　

在加入拾象之前，我在位元組做過data scientist，在CMU的NLP research lab工作過。那時正值GPT-2最火的時候，我做過Bert和VAE結合的文字分析。　

說到fun fact，最近我在研究LM結合MCTS的論文時，看到Nature上一篇很有意思的認知科學文章，跟o1能力上限很相關。這篇文章叫《Language is primarily a tool for communication， rather than thought》，主要觀點是語言可能不直接帶來人類的思考推理能力，reasoning能力只是在一定程度上反映思想並做文化傳播。比如失語症患者也有完整的邏輯推理能力。　

這對今天我們討論的o1 RL路線有個重要啟示：語言能在多大程度上反映和壓縮我們的思考推理過程，這可能決定了RL技術路線下LLM未來的能力上限。　

Monica：　

非常有趣的文章。如果這個假設是對的，就是我們能超越語言來做reasoning，你覺得這對模型訓練的方法和需要的資料會有什麼樣的影響？　

Cage：　

是的，我覺得人類語言並不是推理最好的形式，這很有可能。雖然現在我們看到o1的chain-of-thought是用英語表達的，但接下來AI可能會發明出一套更高效的形式化邏輯語言來做chain-of-thought，這樣可能對AI之間的溝通會更高效。　

00：20：25 – 00：21：04　

Monica：　

非常棒，自我介紹環節有很多驚喜的地方，而且在我們整個structure之外，讓大家能夠更前瞻地感受到我們邀請的這些優秀嘉賓都在每天關注著行業前沿的進展。　

好，言歸正傳，今天的主題是OpenAI的o1釋出。作為一直在這個領域工作的資深研究員，想請問各位看到o1釋出並親自嘗試後的第一印象如何？有哪些讓你印象深刻的地方？　

00：21：05 – 00：22：19　

Eric Li：　

我自己體驗了o1之後，主要有這樣的感受：　

首先在研究層面，我覺得它整體的大思路非常有意思。他們真正地提出並實現了scaling up the inference time的方案，這可能會對reasoning帶來更好的效果提升。　

在實際使用中，讓我很驚訝的一點是，對於任何一個reasoning的問題，在它的thinking process裡面會自發地展現出不同的思維和推理模式。比如說它會自己考慮我應該要think step by step還是要去critique自己前面思考中的錯誤。這種能夠自主決定下一步該如何思考的能力，我覺得非常有意思。這是我在之前的GPT-4等模型中都沒有看到過的特點。　

00：22：21 – 00：24：02　

Monica：　

但其實這個o1所展示出來的邏輯推理過程都還是比較有限，你覺得它藏了哪些東西是你希望能夠展示給大家的？　

Eric Li：　

其實這裡面和剛才一個嘉賓講的很類似，我自己也不太確定一件事情，就是模型藏的那些thinking process是否是人類可讀的。　

比如之前關於chain of thought的研究發現，思維鏈的長度越長，模型的performance就會越來越好。包括也有一些研究嘗試新增特殊的think token，發現這確實能讓模型思考得更多，提升表現，但這些think token對人類來說很難理解其含義。　

如果這個思考過程是可讀的，我相信模型應該會展示更多內容，不只是下一步要做什麼的推理模式，而是包括為什麼要選擇某個步驟、進行自我反思，或者為什麼要將問題分解成特定的子問題等這些更深層次的思考。　

00：24：03 – 00：26：17　

Monica：　

有哪些覺得做得不是很好的地方？　

Eric Li：　

確實我自己嘗試了一些測試，比如說計算strawberry裡面有多少個字母這個經典例子。我發現在這方面O1還不能達到非常高的準確率。但我覺得這個是可以接受的，如果它只是一個語言模型而不是一個系統的話。有些事情確實不需要讓語言模型去做，比如做一些計算器的計算等等。　

我更關注它內部的reasoning pattern，能夠有一些很有意思的表現。　

Monica：　

Eric提到測試strawberry裡有多少個R，有些聽眾也許會好奇，為什麼大家總喜歡用這個問題來測試語言模型？　

Eric Li：　

我認為這個問題並不需要強求讓語言模型去做到，因為這涉及到模型內部實現和tokenizer等技術細節。這些任務by nature可能用一些tool use去做會更自然。　

對於人類來說，給一兩個例子就能做得很好，但給語言模型兩三個例子，它也不一定能做好。這是一個比較簡單的測試方法，用來檢驗模型能否理解輸入到輸出的對映關係。　

從更scientific的角度來說，在數學、程式設計或者一些更難的領域，比如量子物理等方面的測試，可能更能體現出模型的reasoning performance。　

00：26：20 – 00：28：28　

Monica：　

那 Kimi 呢？　

Kimi Kong：　

最後我想引用 UCLA 的數學教授 Terence Tao 說的一句話，他說使用 o1 的體驗大概就像在指導一個平庸但並非完全無能的研究生（The experience is roughly on par with trying to advise a mediocre but not completely incompetent graduate student）。　

我覺得在某些方面，o1 對我來說確實非常驚豔。比如說我之前用 Cursor 做 Claude 3.5 Sonnet 的時候，它經常會寫出有 bug 的程式碼，我跑一遍後把錯誤資訊貼回去，它就會說oh I'm sorry，然後幫我修正之前的錯誤，最終能讓程式碼正常執行。　

而用 o1 的時候，它能非常流暢地幫我寫出程式碼。這涉及到了 behind the scenes 的問題，就是當代碼出錯後，它們如何進行 self-correct。這讓我想到關於 reasoning token 的問題：它到底是顯式的還是隱式的？　

在看 o1 preview 時，最讓我感興趣的是數學問題的例子。我覺得數學和程式設計整體上還是比較相似的。在解決數學問題時，它會不斷思考：讓我們考慮這個方案，實際上，讓我們考慮另一種方案，展現出持續 self refine 思維過程的能力。這樣就不需要我在中間去糾正很多錯誤了，這是 o1 好的方面。　

至於不好的方面，就像 Terence Tao 說的某種程度上平庸的研究生。網上有人讓它回答如何安裝 CUDA 的問題，結果它想了 27 小時才說I don't know。這說明它在某些擅長的領域表現確實很驚豔，但在其他方面還有很多侷限，我很期待他們未來的工作能解決這些問題。　

00：28：30 – 00：30：05　

Monica：　

你覺得還有哪些侷限是希望在可能下一個版本里面看到？　

Kimi Kong：　

呃，我覺得就是說這個幾個方面吧。首先是怎麼樣讓它的資料的coverage更多，其次是怎麼讓資料的evaluation的方式可以更scalable。OpenAI有一個讓我非常fascinating的工作，就是很多年前的PRM（Process Reward Model）。我覺得OpenAI應該是花了非常多時間去研究怎麼來做資料這個方面。　

不論是對Google還是其他公司來說，最基礎的問題就是怎麼建立大量高質量資料，以及如何用一個scalable的方式來篩選高質量資料。

在篩選高質量資料的時候，你給它標reward signal時需要一個scalable way，而不是僅僅給出sparse reward。比如說不是像數學問題那樣，最終只看對錯。　

對於很多問題，其實是沒有一個closed solution的，你非常難去evaluate這個東西是好還是壞，所以怎麼定義一個systematic way來規模化標註高質量資料，我覺得這是個非常fascinating的問題。如果這個問題可以被解決，我期待這些reasoning的task可以有再往上一個質的飛躍。　

00：30：05 – 00：32：40　

Monica：　

你提到OpenAI釋出了很多與資料相關的工作。那麼要訓練出o1這樣的模型，需要什麼樣的資料獲取和處理方法？與傳統LM訓練有什麼不同？　

Kimi Kong：　

這是個很好的問題。當OpenAI首次釋出InstructGPT時，Google還在專注於製作高質量的SFT資料。而InstructGPT劍走偏鋒，選擇做preference資料。不論是做SFT還是RLHF的preference data，都需要非常好的資料。但有趣的是，preference資料的高質量資料實際比SFT的更容易獲取。這是他們第一個讓我覺得非常驚豔的地方。　

這種preference資料是sparse的，意思是你只能在對話結束後對整個conversation進行好壞評價。如果中間有很多intermediate step reasoning，你沒法對中間的每一步進行打分。　

為了解決這個問題，他們釋出了prm 800K資料集，這是一個verify step by step的資料集。這種研究思路一直延續到今天o1的開發過程。從根本上說，我們要解決的是如何用scalable的方式來標註high quality的資料。　

這些high quality的資料不一定要是SFT資料，可以是preference資料，也可能某一天我們會發現比標註preference資料更容易的方式。如果在資料方面的scaling law能再做一個10X或100X的提升，那模型可能會在知識方面達到新的飛躍。

00：32：40 – 00：35：24　

Cage：　

剛剛Kimi提到scalable，這讓我想討論一下InstructGPT。關於Anthropic的Constitutional AI論文和RL from AI feedback的方法，我在思考一個問題：如果我們要準備高質量的reasoning tokens資料，人類高質量標註和未來可以透過AI協助完成的標註應該各佔多少比例？　

Kimi Kong：　

讓我分析一下人類標註的幾種使用方式。最直接的方式是Direct Preference Optimization（DPO）。很多人發現在做RLHF時，training reward model太複雜了，而且在訓練時需要用PPO，不僅要在memory裡儲存現在的模型，還要儲存之前的模型。　

這種複雜性促使我們轉向DPO。DPO的好處是不需要機器生成的資料，人類標註的資料可以直接用於訓練。這是最直接的使用方式。　

但這裡存在一個典型的chicken and egg問題：你需要好的模型來建立高質量資料，但在此之前又需要訓練一個高質量模型。因此，通常的做法是先用人工標註部分資料來訓練reward model，然後用這個reward model來像人類一樣標註其他沒有preference的資料。　

這種RLAIF方式存在潛在的reward hacking問題。作為人類，我們可以很系統地分析不同response的好壞，但在實際應用中可能出現問題。　

比如，面對unsafe question時，模型可能直接選擇不回應，reward model反而認為這是好的——這是非常糟糕的情況。模型應該做出回應，但language model可能會因此出現異常，這成為了模型的一個back door。　

總的來說，這是個非常有趣但棘手的話題。我們需要投入更多時間研究如何訓練reward model，這是擴充套件RLHF或AIF training的基礎性工作。　

00：35：26 – 00：38：03　

蘇輝：　

我分享一下使用o1的測試體驗。除了測試leetcode周賽題目外，我特別關注複雜場景下的旅遊問題。　

我所說的複雜場景，指的是家庭跨國旅行這種場景，我會在prompt中提供機票時間和景點等資訊。之前測試GPT-4時，它給出的方案表面看起來不錯，但仔細看行程細節就會發現問題，比如沒有合理考慮路程時間，導致某天大量時間耗在交通上，實際遊覽時間非常少。　

這次測試o1的效果非常impressive，特別是它考慮到了時差問題。因為我經常選擇北京和紐約作為測試地點，這兩個城市是模型學習得最多的城市。它會把時差換算好，判斷到達時間，建議應該先休息再安排行程。而且像一個貼心的當地導遊一樣，會考慮不同地區的特點，比如中美兩國博物館的開閉館時間差異。　

如果只說leetcode周賽題目，那主要反映的是模型在程式碼和數學推理方面的能力，這在強化學習中比較容易定義reward。但泛化到旅遊規劃這樣的場景，如果不是因為泛化能力，我覺得是很難做到的。　

我認為可能有兩種解釋：一種是找到了定義通用任務reward的好方法，使得reasoning效果有良好的反饋；另一種是在程式碼和數學這類強reasoning方向上的訓練，也能泛化到這類場景。從結果來看，確實達到了很好的泛化程度。　

00：38：03 – 00：40：14　

Monica：　

就是像你所說的travel planning這種我日常需要做的一些相對複雜的工作，這個裡面所需要做的reasoning跟coding、數學題做的reasoning有什麼不一樣？　

比如說一個特別好的私人秘書、特別好的travel agency，或者說特別好的EA去做這個工作，他不需要是IOI金牌得主，也不需要懂coding，那該怎麼理解這兩種能力之間的轉化關係呢？　

蘇輝：　

我覺得這是對reasoning的一個定義問題。比如說你做coding或math這種reasoning，是在解一個明確的問題，中間有推理過程，這個往往是邏輯嚴謹並且是基於符號學去做的。但還有大量的reasoning其實是基於你的common sense，就是基於你對這個世界的常識認知去做的推導。　

我舉個例子，比如說現在在下雨，那你可能去賣傘可能是一個很好的生意。這其實是一個reasoning的過程，你需要對這個世界有一些通用的認知，並且能夠泛化出一些新的場景。如果以前沒有人在下雨天賣過傘，你可能透過其他的商業場景方法，泛化到這個場景，推斷出在下雨天賣傘會賣得更好。　

這個旅遊場景更貼近我剛才說的這種基於常識的場景。因為它要考慮到的事情是有邏輯順序關係的，比如說在一個大家族裡面，如果老人體力不行，就應該考慮什麼樣的行程安排。　

以前往往需要用一個比較複雜的agent pipeline去做這個事情，而且需要大量對業務的理解，需要自己去定製規則，在prompt裡面去設計。但現在它能夠很好地理解，我要舒適就意味著不應該花大量時間在舟車勞頓上，這個就是基於common sense的reasoning。　

00：40：15 – 00：41：55　

Monica：　

我想請教一下，o1在reasoning這方面的能力提升，主要來源是哪幾個方向？如果要拆解的話，你覺得在傳統LM訓練正規化中加入了哪些重要元件讓它有了這樣的能力？　

Kimi Kong：　

我班門弄斧說幾句吧，我並不知道他們具體怎麼訓練的。如果要猜的話，我覺得最關鍵的是資料（it's all about data）。reasoning其實是大語言模型做得非常好的基礎能力。　

為什麼呢？因為這些資料非常容易獲取。比如Stack Overflow就是問題到程式碼的對映，Wikipedia是QA形式的資料。這些資料不僅容易獲取，質量還很高。你可以看Wikipedia頁面被點選多少次，Stack Overflow的回答被upvote多少次，很容易就能判斷資料質量。所以模型在這方面表現好是很自然的事。　

說到reasoning，首先要考慮如何定義reasoning，更關鍵的是如何獲得reasoning的資料。如果我問Monica，你覺得什麼是好的reasoning資料集，你會去哪裡找這些資料？我們剛說了question answer這種形式。　

我們知道Wikipedia是非常好的question answer來源，Stack Overflow對寫程式碼的人來說也是很好的問答平臺。說實話，我並不確定什麼才是真正好的reasoning資料，也不知道從哪裡可以找到這樣的資料。　

Monica：　

還有論文（paper）啊，還有很多其他來源，比如Reddit和知乎的問答內容。　

Kimi Kong：　

對，但這些內容都比較noisy。讓我們一個一個來看，我覺得知乎上確實有一些比較不錯的AI/ML科普內容，這些可能是好的reasoning資料。但從根本上來說，那些包含非常長邏輯鏈的reasoning資料集基本上都不是公開的。

00：42：28 – 00：44：31　

蘇輝：　

是valuable的對吧？　

Kimi Kong：　

我們其實是換了一個思路來產生這些資料。我個人bet的是，很多這些都是透過各種不同synthetic的方式generated出來的，透過不同的filter方式把好的filter留下來。比如說寫一個數學題：3X加5等於100求X等於多少？　

當你知道X等於50是正確結果時，你可以問LM說：help me reasoning through step by step，這樣就是在force它的情況下，讓它把reasoning過程完整地告訴你。如果它最後推理的結果不是正確答案，就說OK，this is the bad reason I don't want it。你可以跑個一百次，然後透過either heuristic或者reward model的方式把高質量的推理過程filter出來。如果完全不知道什麼是對的什麼是錯的，那就可以透過self consistent的方式來filter。　

我覺得reasoning的能力是會不斷地distillate出來的。就像我現在寫PhD論文，你先讀了很多人的paper，然後想想reason through這些paper我都讀了，我大概有什麼idea，最後you come up with your own idea。　

我覺得它是一個不斷吸收消化的過程，只是對LM來說，我們要force它說：No，you must reason. Then tell me what you're thinking step by step。要讓它告訴我們它是怎麼消化這些知識的過程，然後把這些資料再返回來train給LM，讓它有更好的reasoning能力，而不是簡單地吐出一個答案。　

這是我個人的一些看法，我也非常希望聽一聽別的嘉賓的想法。　

00：44：32 – 00：46：10　

Monica：　

這類資料的形態與傳統one-shot的形態不一樣，你覺得在訓練方法上會有什麼難點？　

Kimi Kong：　

現在language model就是兩種訓練方法，你either就是純SFT或者是RLHF。我覺得這個DPO（Direct Preference Optimization）其實越來越泛化成，跟RLHF沒有特別大的區別了。如果你能非常確定所有的data都是非常好的，我覺得SFT totally fine，但就像我剛開始說的，你很難generate出來非常high的SFT的data。　

你有可能這個東西說，我有這兩個結果，這兩個可能都不是我特別想要，但我覺得A比B稍微好一點，然後可以用這個A的trajectory，透過 RL的方式把這模型往好的地方推一點點。就是說OK，我更prefer A，你看到A這種結果你更傾向做A一點，雖然A可能不是最好的，但請你不要傾向於做B。　

透過這個step，模型知道了一個better solution，基於之前的base模型，你就有一個step better的模型了。你用這個模型再把同樣的query問一遍，說OK，我知道你do one step better now，given這個問題，請你再給我racing一遍。你會拿到兩個新的preference資料。哦，這次B比A好一點，而且這次的B不但比A好，還比上一次的A也好，這樣你就可以把模型的frontier再往前推一下。透過不斷的iteration和reasoning的方式，讓這個模型慢慢具有更強的reasoning能力。　

從根本上來說，這是一個強化學習的方式。這讓我想到接下來要討論的self play這個話題。　

Monica：　

最近大家看到DeepMind做的Alpha Geometry在特定的數學測試上表現很好。我在想，讓它來解各種數學題產生資料，是不是也可以用於o1這樣的模型訓練？　

Kimi Kong：　

我並不瞭解Alpha Geometry的base模型具體是什麼。不過就像剛剛前面嘉賓說的，你必須要有非常強大的base模型，才能在特定領域獲得更好的表現。如果base模型不夠好，解決domain的問題基本上很難做到。　

對於你剛才提到的，如果在特定領域解決問題，其實相對更簡單，因為你可以用更具體的reward model來訓練。如果能訓練出domain specific的模型，而且這些資料質量好的話，完全可以用這些資料來反哺更通用的模型。這是我的一些個人想法。　

00：47：09 – 00：50：36　

Monica：　

很有啟發啊，Eric你有什麼補充嗎？　

Eric Li：　

我自己認為主要有兩點，是資料和強化學習這兩塊。從o1的reasoning這麼好的表現來看，我覺得我們需要很多關於reasoning preference的資料，這跟Kimi剛才講的process的reward model很相似。　

如果要訓練出一個很好的o1 model，我覺得在資料層面應該讓它的reasoning step更加make sense，更高效，甚至更optimal。所以設計reward model去評判reasoning step的好壞是最重要的。

有了reward model後，合成數據這塊就會比較好解決。包括我們剛才講到的MCTS，就可以基於reward model來產生更好的合成數據。這些方法結合起來可以產生更高質量的reasoning資料。我相信模型產生的reasoning資料遠好於人類的，因為從實踐看，人類生成的大多數內容都比較缺乏邏輯性，而模型反而會遵循一定的邏輯，所以合成數據很可能是訓練出o1的一個主要因素。

另外，我覺得強化學習的重要性更加明顯了。我看到最近OpenAI的一個研究員分享了don't teach incentive的presentation。這跟兩年前Google強調SFT（Supervised Fine-tuning）和insertion tuning的思路不同。因為現在LM太強大了，直接教它怎麼做reasoning反而很難，而且可能不是最優解，因為人類的reasoning也未必最優。　

我覺得應該用RL的思路，讓模型自己去探索怎麼推理，我們只需要告訴它結果好壞並給予獎懲。這樣模型可能能找到比人類更好的reasoning方式。o1給我的感覺是RL的重要性被強化了，不再只是傳統instruct gpt裡用於alignment或safety的工具。　

00：50：38 – 00：52：09　

Monica：　

這個是不是有點像AlphaGo？它在下棋過程中，自己能夠創造出一些連頂尖棋手都沒有想到的下法。　

Eric Li：　

我覺得現在的LLM確實有這種能力。比如說，我們在做RHF時就經常遇到一個很頭疼的問題，就是reward hacking。這個問題的本質是模型的能力特別強，它能夠找到reward model中的一些不完美之處並加以利用，從而提高自己的reward分數。　

但這並不意味著它真的找到了更好的解決方案，只是利用了reward model的漏洞。如果我們能有一個很好的reasoning相關的reward model，我相信LLM就能自己找到更好的reasoning路徑，實現自主最佳化。這也反映了AI行業一個很普遍的現象，就是AI能夠代替很多人類設計的模型架構或工作流程，並自動進行最佳化。　

00：52：10 – 00：53：45　

Monica：　

那我想最後追問一句，如果我不需要模型去學習step之間的關係，是不是說有個特別好的reward model的話，其實就並不需要這麼多的multi-step data？　

Eric Li：　

對，這裡面是相互關聯的，multi-step data能work的前提是你對每個reasoning step的判斷、你給它的reward打分判斷都非常可靠。如果你有這一步，那這種比較dense的reward對training是非常有用的。　

但從o1給我的感覺來看，在做reasoning的時候我們不需要用SFT去告訴模型該怎麼做。比如說剛才有位嘉賓提到的3X加5等於100這樣的題目，你不需要先算100減5等於3X，模型可能直接用公式或其他更好的方法來解決。關鍵是不需要用人類自己的reasoning step去教它如何做推理，而是更多地對它的每個reasoning step或整體reasoning path做評判，只是對它的推理做獎勵激勵。　

00：53：47 – 00：56：10　

Monica：　

那聽聽你的想法。　

蘇輝：　

其實我覺得有一個比較重要的方法，它解決了我們之前很多人在做MCTS和RL與LM結合時遇到的問題。就是關於強化學習的粒度問題，你到底是以token為粒度去做，還是以sentence或者step為單位來做反饋。　

我看過不少例子，特別是在OpenAI官網給出的完整例子中，發現了一些很有意思的特點。有些沒有明顯的分割符，但會出現一些語氣詞，很像我們人類在聊天時的停頓。就像我們在解題時會想，我是不是可以在這裡畫根線？好像也不太行，然後停頓一下，加個嗯，這些思維過程的特徵都被保留在了完整的chain-of-thought裡面。

我覺得這裡可能包含了一些人類標註的痕跡。他們很可能獲取了一批高質量的chain-of-thought資料，並且以step為單位進行切分，讓模型學習這種思維方式。在每個step後，reward model會給出反饋，決定是否需要進行回收或reflection這樣的動作。這種方法已經被證明是可行的，給了很多人信心，相信沿著這個方向繼續探索是有價值的。　

00：56：10 – 00：57：46　

Monica：　

我們前面提到不需要用大模型來解決特別簡單的數學問題。當問它簡單的數學問題時，模型會用非常複雜的方式來解答，使用最高級別的inference。既然模型有很強的能力，知道這只是一個簡單的比大小或加減的數學題，或者簡單推理，為什麼不會自己選擇用計算器這樣的方式來解決呢？這是模型能力的問題，還是tool use方面的工程問題？　

蘇輝：　

當看到o1釋出時，我第一反應是疑惑它為什麼以這種形式出現。OpenAI自己也展示了，在某些任務如文字寫作上，o1可能略遜於GPT-4o的表現，但在強推理場景中是完勝的。很多人會嘗試用o1解決一些在我看來比較基礎的問題，這其實沒有必要。　

如果要提供好的產品，應該實現一個root LM的策略：需要強推理的任務走o1，不需要強推理的用GPT-4o或GPT-4o-mini就能解決，這對於使用者介面來說會更合理。　

00：57：46 – 01：00：15　

我並不需要去關心呼叫的是哪個模型，我只要解決問題就好。強的問題就讓o1去解決，弱的問題讓4o-mini去解決。　

這對OpenAI來說是很簡單的事情，但他們沒這麼做。因為OpenAI跟別的做pipeline的或者做產品的邏輯不一樣，它就是純model service，每次deliver一個產品就是deliver一個新model。所以不管query適不適合用o1解決，都用一套邏輯處理。　

而o1是在強推理環境下訓練出來的，即使遇到很簡單的問題，還是要走很複雜的chain-of-thought。雖然o1也是個多模態模型，但並沒有特別強調這點，使用者介面上也沒有很好地體現出來。其實這些包括tool use在內都是可以被整合進去的，whole釋出後完整版的4o的表現其實跟o1差不多，但這個階段他只是想秀一下o1這個強reasoning模型到底是個什麼樣的模型。　

Cage：　

我特別同意蘇輝說的，因為我自己用它回答一些很簡單的問題，但它會想了42秒才給我一個非常簡單的回答。所以我感覺OpenAI的research和產品有點分離了。我們一開始還聊到Cursor，感覺如果是Cursor做這個事情，可能就是先把問題打好之後at，然後at的時候它會自動判斷是at o1還是at 4o，找到更準確的模型來負責這個問題。我覺得這種model routing應該是OpenAI接下來一定會做的方向，這樣對我們的使用體驗會更好一些。　

01：00：16 – 01：02：50　

Monica：　

從去年大家開始講agent這個概念的時候就提到tool use，但到現在我們還沒有看到通用的agent能做得很好。大家認為核心是Foundation model的推理能力問題。第二步是它需要理解能用哪些tool，以及這些tool的功能和侷限。　

你們覺得，如果像o1展示出來的reasoning能力足夠強，後續實現執行任務的功能是相對來說比較容易的，還是說這個過程中可能還有什麼我們看不到的gap？　

蘇輝：　

我覺得OpenAI在整合tool時比較糾結，因為tool需要有足夠廣的覆蓋面才有意義。如果只是Calculator或查天氣這樣的API，工作量很大但產品覆蓋面不夠全面。他們的重點是提升對prompt裡面tool的function理解和呼叫能力。　

研究驗證表明，在真實生產環境中這個事情做得很好，只要有非常強的prompt理解和reasoning能力，提供完善的說明文件，模型就能在適當時候正確呼叫這些tool並返回好的結果。　

Eric Li：　

我覺得一個單一的LLM有很強大的reasoning能力，這是構建agent的一個很基礎的Foundation。OpenAI在定義不同level的AGI時，level 1是chatbot，level 2是reasoning，"To figure chat bot level 2 to figure reason then go so here"。　

01：02：51 – 01：04：04　

關於行動決策，我認為它能夠決定如何處理複雜的task。reasoning更像是OpenAI還在基礎的Foundation model層面努力推進的boundary。我相信agents會是next level的技術，但這並不是說每個Foundation的LM做得足夠好後，agents就能自然而然做得很好。　

agents涉及到多個LM、多個AI agents之間的相互協作，包括競爭關係，以及如何合作分工去解決複雜的系統和task。LLMs只是其中一個元件，而系統架構設計、分工方式，這些都是從reasoning發展到agent system過程中我們接下來要面對的挑戰。　

01：04：05 – 01：04：39　

Monica：　

的確，我們看到從創業投資的角度來看，今年以來agent領域出現了很大的變化。特別是在Agent Ops和Agent Info這個領域，出現了很多新公司。　

這些公司主要專注於工程實現和tooling方向。這說明agent技術已經開始逐步進入實際的生產環境，大家正在思考如何將其作為產品來管理，就像Eric剛才說的那樣，建立起系統化的管理方法論。我覺得這是今年看到的一個重要趨勢。　

01：04：39 – 01：06：45　

Kimi，你前面提到你在做agent相關的工作，o1這個提升會對你的工作有什麼影響？　

Kimi Kong：　

我想說兩點。第一點是關於OpenAI為什麼不做router這件事。我覺得OpenAI的foundational belief是"search and learning will solve everything，any over engineer problem will actually get washed in the way"。所以對他們來說，不是不願意做這件事，而是這根本不符合他們的基本理念。

關於agent開發，我非常認同前面蘇輝和Eric的觀點。如果要開發具有更強agent能力的模型，我認為需要四點：

第一點需要有個非常強的base model和reason能力，提升base model是個非常好的方式。　

第二是需要非常好的tool，你不能給我noisy and bad的結果，必須簡潔準確。　

第三是需要非常好的prompt，目前agent仍然是個over prompting的過程。我在使用一些開源的agent工具時，比如AutoGen、HuggingGPT、LangChain，發現一個很tricky的問題：隨便執行一個agent workflow，使用GPT-4o（現在大約是15美元/百萬tokens）可能就會消耗掉一百萬tokens，而你可能都不知道發生了什麼。　

最後是learning，包括如何incentivize模型更好地使用tool，什麼時候使用tool，為什麼應該用tool A而不是tool B，這需要我們curate很多agent的資料集，透過二維的方式來解決這些問題。　

01：06：46 – 01：08：38　

Monica：　

這個agent的資料集比前面討論的更難獲取。如果沒有這些資料，是不是可以先透過一些engineering方式實現agent，然後收集資料，再看哪些部分可以被automate或者直接由AI來做。　

Kimi Kong：　

我覺得有兩點。第一點還是跟之前一樣，是關於怎麼透過這個方式來使用工具。Meta發的那篇Tool Former paper討論的就是怎麼建立資料來告訴模型如何使用tool。另一種方式，說難聽點，其實我每天在Google工作就是在幫Google標資料。比如同事讓我寫個feature，我給他們寫code，相當於我在幫他們做question to code的資料集。　

這些可以用來train他們內部的模型。當我在寫code時用prompt、呼叫tool，其實也是在幫他們做agent的資料集。這已經不是個科學問題了，而是個產品問題。比如Tesla就是個非常棒的例子，更棒的是我們每天都在幫它標資料，而你開車的時候都感覺不到這點。

但你不能讓使用者不開心地去標資料，因為這樣資料質量會很差，除非給很多錢。我聽說OpenAI僱了一堆數學PhD，一小時給幾百刀來標reasoning資料集——這只是個傳聞，別引用我說的。關鍵是怎麼把標資料這個工作嵌入到工作流程中，讓使用者自然而然地完成，這才是個完美的產品。

01：08：38 – 01：10：13　

Monica：　

大家來聊聊Chain of Thought。對於只是聽說過或者不太瞭解的同學，能否解釋一下Chain of Thought究竟是什麼？這個方法並不新，前兩年就提出來了。我想請教一下，o1在使用Chain of Thought時，與之前的應用相比有什麼不同？蘇輝，不如你來聊聊。　

蘇輝：　

好的。Chain of Thought大約是在2022年首次被提出的，最早是來自現在在OpenAI的Jason Wei的論文。他的研究發現，在解決問題時，如果在答案中給出更詳細的步驟，而不是直接給出結果，模型的表現會更好。

在同期或兩三個月後，另一篇論文提出了"let's think step by step"的概念，在生成過程中，模型就會自然而然地向Chain of Thought的方式去生成。這兩篇論文可以說奠定了Chain of Thought的基礎。　

之後很多工作都在這個基礎上進行改進，Chain of Thought很快就在mass reasoning、常識推理、邏輯推理等多個任務中得到了應用。　

01：10：14 – 01：12：21　

我發現在使用這個技術後開始去刷榜，效果提升非常明顯。這個領域產生了很多paper，研究人員也將chain of thought應用到reasoning和visual language model等領域。　

目前主要分兩大流派：第一個是顯式流派，使用顯式token表現出思維過程。這裡面有很多可以發揮的空間，比如你的chain of thought本身可以是串式structure、樹結構，甚至可以用圖structure。生成的不僅是linear的chain of thought，還可以做verification和refine。我們可以引入critic model或reward model來完善chain of thought的生成。有些工作會對問題本身做decomposition，讓chain of thought變得更結構化，這樣都能提升效果。這些顯式方法需要更多的inference token，呼應了現在大家討論的scaling inference和compute這個話題。　

另一個流派是做隱式的，最近有researcher在嘗試把system two整合到system one裡面。雖然這個任務很難，但我們認為transformer的潛力很強大。這其實很像人類思考過程，我們思考時並不是所有過程都需要顯式的文字表達。在reasoning這個過程中，即使你在思考，有時答案會在某個瞬間突然出現，這個過程更類似於直覺，是難以用邏輯解釋的。　

最近我發現一些有趣的現象，如果我們把reasoning看作與傳統任務相關的過程，澤源在physical RM中提到，雖然我們在做scaling工作時發現總引數量會與loss和模型表現相關，但在reasoning任務上，深度比寬度更重要，模型越深效果越好。感興趣的researcher可以做實驗驗證這一點。　

我們也看到很多工作印證這一點，比如最近的mini CPM V3，雖然是小模型，但使用了六十多層的深度。業界正在收斂到這樣一個結論：即使在引數量固定的情況下，我們寧願犧牲inference的成本。　

因為模型越深，inference成本就越高，比如在做最佳化時，寬的模型要比深的模型容易最佳化，但我們寧願增加層數來提升reasoning能力。因為在生成每個token時都需要經過所有層的計算，如果把生成的總token數與總層數的關係考慮進來，token數量越多，每個token經過的層數越多，都可能提升reasoning的效果。這意味著不僅是增加生成的token數，模型的深度增加後，兩者相乘會顯著增加inference時的計算量。　

其實當layer和token都增加了以後，每個token經過更多的layer，並且每個token的數量也變多了，這些相乘之後計算成本就會更高。　

在這個層面上，我們確實發現這樣做能提升reasoning的表現。包括加入一些reflection這樣的操作，這其實在之前的LM裡就有很多人在做。　

因為傳統LM最大的問題是不能回撤，如果生成了錯誤的token就沒辦法糾正自己之前的錯，只能順著錯誤繼續生成，這會導致很多Hallucination的問題。但如果顯式地學習這個pattern，允許模型去反思之前的問題，承認自己可能有問題，然後給一個回撤的機會，把這種資料pattern加到訓練裡面去，在reasoning任務上的表現就提升了很多。某種意義上這也是增加了生成token的數量，畢竟在反思過程中引入了額外的token。但最終我們看到一個結論：無論是透過增加層數，還是直接增加生成token的數量，都能在reasoning的表現上得到提升。

01：15：58 – 01：16：51　

Cage：　

我想請教一個問題，前面我們討論了CoT，也聊過MCTS，能否請幾位嘉賓介紹一下在O1框架中它們的關係？因為CoT後續的演化也有層數的深度，也發展出了tree of thought，聽起來和MCTS的思想已經比較接近了，所以想請教大家覺得這兩者的耦合程度如何？　

蘇輝：　

技術的發展是相互影響的，你會發現在不同方向的工作最終會呈現出一些相似性。這些工作最初其實是獨立開展的，一方面在研究如何透過引數來提升模型的表現，另一方面在從演算法層面提升模型表現。但最終都殊途同歸，都採用了類似MCTS這樣的方式。　

01：16：52 – 01：19：03　

Monica：　

你覺得o1它使用training source方式跟之前我們train LM的時候，它使用方式可能會有哪些不一樣的地方？　

蘇輝：　

其實有一個很大的改變。之前發生過一個烏龍事件，就是那個reflection model，可能兩個月前在推特上，跟Llama 3 V1差不多，就是有點道具的感覺。它其實只是用了一小部分reflection資料做SFT，然後就說自己是個很強的模型，但最後大家發現並沒有那麼好，某種意義上是不太誠實的行為。　

但是這種pattern其實是值得驗證的。我們在SFT過程中，如果用一些quality比較高的reflection資料，它跟傳統Chain of Thought是不一樣的。傳統方法是一步步解決問題，沒有回溯的過程，我不會去反思之前的問題出在哪裡，完全是順序執行，下一步的結論一定是基於上一步得出來的。但有了reflection這個操作，就有很多回撤的空間。　

模型在生成Chain of Thought之前，很可能已經知道怎麼做了，但在生成過程中如果犯錯就沒機會返回。這確實很痛苦，但如果給它reflect的機會，只要它最早確定能解決問題，最終就能做對。這是o1展現出來的例子和我們之前做的最大區別。當然，之前Chain of Thought的工作裡也有一些這種樸素的思想。　

但是如果只通過SFT方式學習，或者只是透過外部的verify模型來實現回撤，因為沒有那麼強的reward model提供police學習，效果會弱很多。模型可能只是學到了一個表象的行為，就是我可以去回撤，也許到後面正確的時候也會去回撤，它只是學到了一個pattern，並沒有真正理解自己在做什麼。　

01：19：04 – 01：20：55　

Monica：　

就剛才開始的那個問題，我想聽聽 Eric 的想法。　

Eric Li：　

我覺得這兩個是有相關性的，就像剛才另外一位嘉賓講的，有點殊途同歸的感覺。　

在 chain of thought 這邊，我們看到有很多衍生的研究，比如 chain of thought 是 chain，那可能有 tree of thought、graph of thought 這一系列的文章。這些都是在探索當你的推理結構有多個不同選擇時，應該選哪一個最好。　

而 MCTS 作為一個比較傳統的 planning 或者搜尋方法，它是在估計傳統強化學習中，當我有多個可能的 action 時，哪一個 action 可以獲得更大的 reward、更大的 value。　

MCTS 的發展路線更多是從 AlphaZero 那邊，就是比較特定領域下的圍棋發展起來的。但是像我們這個 chain of thought 或 tree of thought、graph of thought 這一系列，更多的是基於自然語言處理的情況，在語言模型中自身演化出來的思路。　

本質上，我覺得這兩個都是在探索如何規劃推理，從這點來說，其實兩個都是比較高度相關的。　

01：20：56 – 01：23：06　

Monica：　

大家其實都在猜測o1裡邊有沒有用MCTS，我很好奇你的猜測是怎樣的？　

Kimi Kong：　

嗯。　

Eric Li：　

我自己其實也不確定，但是我覺得如果要用MCTS，應該有兩種方式。　

第一種是在inference time使用，這需要一個非常好的reward model。在思考過程中，系統會不斷嘗試各種路線，就像下圍棋一樣。比如當我們下到一半時要決定下一步，假設有五個不同的選擇，我會估計每個選擇可能帶來的潛在reward，然後選擇能最大化reward的方向。前讀了你分享的知乎文章，從reverse engineer的角度來看，如果現在看到它的token cost是線性的，那麼MCTS可能並不在inference階段。　

我認為更可能的是第二種方式：在資料處理階段使用MCTS。比如在處理訓練資料時，用MCTS策略找到最佳的推理資料來訓練模型，或者在RL過程中將搜尋策略整合進來，幫助policy model找到最佳的推理方式。所以如果讓我猜測的話，我覺得MCTS在資料層面或RL過程中使用的可能性要大於在inference time使用。

01：23：07 – 01：25：46　

Monica：　

讓我們回到Kimi這邊，我們剛才討論了很多關於o1使用RL的可能性，你覺得還有什麼我們沒有cover到的角度嗎？　

Kimi Kong：　

讓我take a step back，跟大家講講RL到底是什麼。這樣可以幫助大家更好理解為什麼RL能在不同行業中發揮作用。RL，也就是reinforcement learning（強化學習），需要幾個基本component。　

首先你需要一個agent，也就是一個模型。在language領域，它就是一個LM。在robotic領域，比如physical robots、simulation、Atari game，或者是Google的AlphaGo，都需要agent。　

有了agent之後，你需要一個environment來讓agent進行互動。比如physical robot需要與周圍的物理世界互動，但物理世界很難model，這也是為什麼我們還沒有看到真正的機器人被廣泛應用。不過我相信這個領域未來非常有前景，maybe very soon就會出現robotic domain的GPT-3.5時刻。　

更generalize的environment包括Atari game和Go。RL在這些領域發展更快是因為它們是well-controlled的environment。在這些環境中，sample data是free的。你run一個LM來sample是很expensive的，但在simulation中，你可以進行infinite sampling，用任何speed和frequency，甚至可以比實際時間快兩倍來sample，這使得simulation成為perfect的reinforcement environment。　

最後你需要一個reward，用於告訴模型它每一步action的好壞。比如在Atari game中，輸贏是一個很deterministic的reward；在AlphaGo中，最終的勝負也是個deterministic的reward。這些well-controlled的environment為早期的RL研究論文創造了良好的條件。　

在RL上見到了長足的進步，第一個是DQN這篇paper，然後往後DQN有了各種演化，比如Double DQN、Dueling DQN。大家不只是在做value function，還開始做policy network這些方面，比如REINFORCE。然後大家發現不只需要一個policy network，還需要一個value network，要把兩個combine在一起，形成actor-critic的方式。　

這又可以演化成on-policy、off-policy，或是deterministic、stochastic這些方向。比如說DeepMind的DDPG，還有就是原來在OpenAI、後來去了Anthropic的這位我非常admire的RL researcher做的TRPO和PPO這些工作。　

說到底，RL已經很多年沒有在演算法層面有發展了，最SOTA的應該是Sergey Levine他們lab那篇SAC的paper，大概是2018或2019年的work。從那之後，在RL的演算法層面就沒有更多的長足進步了。　

現在大家主要關注RL在specific domain的應用，especially in language model is hot。That so OK， how can I actually apply RL for better， you know， language model application？　

01：27：10 – 01：29：34　

如果你往回看這個問題對吧，其實AlphaGo跟language model非常像。AlphaGo也有兩個step，有一個pre-training step，當時叫pre-training phase，也就是imitation learning，就是從專家下棋中學習。有了這個好的base model後，就想怎麼能做到better than human。這就回到之前Eric Li說的，我們可以讓模型透過self-play來提升自己。　

在做了AlphaGo之後，他們想能不能把pre-training這個step去掉，完全用RL來訓練，就做了AlphaGo Zero。然後他們又想能不能讓它play more than one game，就做了AlphaZero，可以下日本將棋、圍棋和國際象棋。　

最後他們的ultimate solution是MuZero，不僅能學會怎麼贏得遊戲，還能學習simulation network，就是說給定environment state和要採取的action，模型就能predict下一個state會是什麼。　

那你可能會想，LM是不是也可以完全不要pre-training，用RL的方式來訓練，就像AlphaZero那樣純靠self-play。　

但這其實是非常難的，原因在於RL需要一個deterministic reward function，而LM很難有這樣的reward function。　

第二，你需要一個control environment。對Atari game或者圍棋來說，我有個perfect control environment，但對LM來說，人是environment，我不可能一直陪著LM問答。雖然可以用一些trick來做self-play，比如兩個LM互相問答，但因為缺少這兩個條件，RL目前只能做language model的alignment工作，而不能完全靠self-play RL來解決language model的問題。　

這就是RL的演化過程，以及它在language model上的應用。　

01：29：35 – 01：32：45　

Monica：　

可以展開講講Robotics在RL裡面的應用嗎？結合你之前做LLM robotics的工作經驗，有什麼啟發可以借鑑的地方？　

Kimi Kong：　

這是個好問題。我認為RL本質上就是一種通用技術（general technic），不僅僅侷限於robotic RL。它就是在你定義好的環境中，透過agent、environment和reward function來實現目標。　

說實話，我非常懷念當年做RL研究的時光，那時候環境非常純粹。就是很簡單，你只需要贏得遊戲，reward是完全確定的，都不需要考慮reward function的設計。現在反而變得更復雜了，但這種複雜性也帶來了更大的潛力，因為reward model不再是確定性的，不只是侷限於玩遊戲，而是可能泛化到其他領域。　

在robotics RL領域，主要有兩個研究方向。　

第一個是locomotion，比如Stanford的Tony他們的工作。這個方向其實跟language model關係不大，主要是透過imitation learning加上RL approach，需要人類示範來教會robot如何操作和移動。　

另一個方向是planning，比如Google DeepMind早期的SayCan專案，這類工作需要明確描述任務而不是示範。在planning任務中，LLM是一個非常popular的approach，從早期的SayCan、Code as Policies，到後面的PaLM-E，再到RT-1、RT-2、RT-X等系列工作。　

實際應用中，因為robot data量有限，我們不想純用robot data導致model performance下降，所以會把robot data和vision data以及VQA task一起做co-fine tuning，然後收集RL資料來refine模型。　

從根本上講，其實沒有特別大的區別，主要是應用場景和資料形式不同。這些資料可能不是傳統的token，而是robot motor的force、torque，或者是sensor的資料。但backbone都是用transformer架構，都是用RL的training technique來讓模型在specific domain更好地收斂。　

01：32：46 – 01：34：28　

Monica：　

剛才你也提到了self play，它在RL領域的研究歷史和行業應用情況是怎樣的？你覺得o1有沒有用到self play技術？　

Kimi Kong：　

這個不好確定。但如果讓我做這個事，我一定會使用self play，因為它可以讓你不斷地scale和refine這個過程。RL最大的優勢在於可以讓你每一步都實現增量改進。這與SFT不同，SFT是訓練完一個epoch就結束了。Not in one step you becoming better，資料和query還在那裡，你可以透過這個query再執行一遍模型，再做一次標註，可以把這個query做無數遍的self play。　

我認為self play是一個可以scale的RL訓練技術，在語言模型領域是一個非常好的technique。　

Monica：　

那它與我們之前討論的CoT和reflection之間是什麼關係呢？　

Kimi Kong：　

這是個好問題。我認為在討論CoT時，更多是作為一個prompting technique，就是說我希望prompt這個模型幫我做某件事。你可以用CoT的方式來解決問題，也可以用CoT的方式來產生synthetic data來訓練模型。　

但self play更多是一個training technique，是在訓練reinforcement learning模型時，用來持續推進RL步驟的技術。我覺得這是兩個相對獨立的topic。Feel free to correct if I'm wrong。　

01：34：29 – 01：36：58　

Monica：　

關於self-play，想聽聽你對它和CoT之間的關係，以及它在o1或未來提升模型能力方面的作用的看法。就是DeepMind Danny最近的那篇《Train of Thought empowers Transformers to solve inherently serial problems》，在Twitter上寫得非常抓眼球，說Performance limit when scaling our inference sky is the limit。這篇文章本質上在講CoT是如何讓transformer的能力得到提升的，它跟剛才Kimi提到的self-play又是什麼關係？　

Eric Li：　

我覺得CoT和self-play是兩個相對獨立的方法。CoT更多是透過思維鏈，透過增加inference time的計算，讓模型能夠解決一些本身比較難解決的問題。self-play更像之前AlphaZero那樣，透過自我博弈的方式能夠不斷地incrementally提升自己，比如下圍棋的水平。　

關於o1，我不確定他們有沒有用self-play，但從MCTS這個脈絡來看，在LM加RL這個方向上，大家還是會傾向於借鑑上一代RL的那些成功經驗。MCTS是之前DeepMind做AlphaZero時變得非常popular的方法。我相信self-play即使現在沒有被OpenAI在o1上使用，也是一個很promising的方式。說不定已經有很多人在研究，我對它的未來比較看好，它可以作為一種模型self improvement的策略。　

01：37：00 – 01：39：52　

我自己沒有完全讀這篇論文，只是看了一下abstract，但我覺得這是一篇理論分析很有意思的文章。它能夠告訴我們現在整個AI學術界需要的東西——一些理論文章來揭示我們現有模型capability的上限在哪裡。對我來說，這是一篇非常insightful的文章，它至少能夠回答一件事情：transformer加Chain of Thought這樣一個架構，它的表達能力是非常強的。　

當然，我也看到有人在說這可能和當年deep neural network的時候情況類似。不過我覺得這篇論文是從數學上告訴我們上限在哪裡，這等於是可以激勵我們下一步去設計更好的Chain of Thought，設計更好的transformer架構。這樣就把問題從能不能解決轉變成了應該如何更好地解決。　

從計算不可約性的角度來看，很多問題如果想要獲得答案，可能都有一個minimal的computation cost要求。比如說，你想要模擬一個流體力學狀態，在保證一定精度的情況下，至少需要的計算成本是有一個非零的下限。這在Chain of Thought這塊也有相應的體現：對於複雜的問題，你確實需要有一些additional computation才能得到相對準確的解。這就是我對為什麼Chain of Thought被認為是一種adaptive computation的理解。　

01：39：52 – 01：42：44　

蘇輝：　

我先來討論一下Sky這篇論文。這篇paper在推特上引起了很多討論，包括田園東老師等研究者都表示反對。他們認為這個論文的claim本質上和"兩層神經網路能夠擬合任何函式"的說法類似，都只是在構造一個位置來擬合特定的target函式。　

但理論上能否達到這個solution，或者找到更好的路徑都是無法保證的。雖然透過窮舉方法可以解出答案，但這種方法並不現實，我們真正需要的是能夠準確、直接給出答案的能力。我比較認同這個觀點，即存在答案和能否透過現有方法正確求解是兩回事，不能說隨機出現某個機率就等於能實現這個功能。　

關於play的使用情況，我注意到在OpenAI官網上搜索"play"的內容，可以追溯到2017-2018年，一直持續到2022年。雖然後來OpenAI並未官方承認使用play，但這與新一代研究者如Noam Brown的背景有關。他們之前主要做Deep AI相關的零和博弈研究，這些研究者的研究品味和研究路徑短期內不會有大的改變。　

Noam Brown最近在YouTube上的演講中，結尾提到了關於LLM的重要結論：他認為需要保證generator和verifier都足夠強大才能實現目標。從時間順序來看，現在已經達到了他之前提出的先決條件，所以這種方法用在LLM中是完全合理的。　

01：42：44 – 01：44：50　

Cage：　

就是raw model確實會是未來很大的一個研究方向。然後正好前面Monica提的問題，就是大家覺得GPT-4o表現怎麼樣？兩位嘉賓的回答都是和數學推理、coding有關的。我不知道大家覺得，reasoning和math的raw都比較好定義，它本身有verify可以直接給一個結果說它是對的還是錯的。但其實別的領域就很難有這麼明確的reward model。不知道幾位嘉賓對未來reward model能不能泛化，在領域上做到scalable，大家會怎麼想？　

蘇輝：　

像這種process的reward model肯定是已經被大規模實踐過的，從數學上來說，包括後面的critic GPT這些工作，都是一脈相承的。我們的基座模型比如說GPT-4就已經是一個強generator的model了，然後verify model也是基於GPT-4 level的模型去訓練的。它的reward model雖然給出的還是離散的訊號，但是過程是更加可置信的，因為它可能透過嵌入式推理去給出更強有力的confidence，然後最終給出訊號。　

這某種意義上擺脫了之前RLHF那種訓練模式，以前RLHF是建立在二元的Bradley-Terry統計模型上，你一定要收集一些偏好資料，至少要有兩個選項的排序。但如果走這種模式，就是強模型重複去reasoning，然後給出結果，它可能就不需要這種訓練pattern了。　

01：44：51 – 01：46：54　

我用的是通用模型，主要用來目的是打分，這個打分很可能是基於我自己的一套比較強的規則，而且我應該是透過自己生成的這個思維鏈去給出結果。我覺得這可能是一個不太一樣的地方。　

Eric Li：　

我很贊同，reward model是一個被低估的問題，特別是相比那些有checkability的數學題或coding這種比較容易verify的情況。　

現在很多人在研究AI feedback這塊，因為我們希望在某些領域中，AI確實能夠給出比人類更effective的反饋。比如說考慮一個場景，如果我要寫兩個科幻小說，寫了兩個版本要判斷哪個更好，對人類來說要讀上幾百萬字是比較難的，也很耗時。　

但對LLM來說，它可以幫助你快速做資料processing，理解文字內容，然後做summarize。我覺得未來一個可擴充套件的方式是Human in the loop配合AI feedback，在面對那些人類需要花很長時間，或者普通人不容易看出preference的情況下，藉助AI把難度降低到人類可以探測可以理解的程度，然後由人類給出自己的preference。我覺得這個對一些領域會是一個更加scalable的方式。　

01：46：56 – 01：47：55　

Cage：　

幾位幫我們把幾個單點的技術慢慢拼湊成了一個比較有全景的感覺。然後正好基於這個想再問一下，最近還有一個大家討論比較多，推特上也有人在爭論的問題，就是大家覺得o1是一個單一的模型，還是它可能是一個multi agents的多系統？　

因為其實一方面我們看到OpenAI的AMA hour，他們會說我們只是one model one model，但是與此同時，Noam Brown，正好前面蘇輝提到了這個年輕學者，他最近在招聘的一個崗位就是做multi agent研究。　

提到Alpha go和Alpha zero那套系統，其實它一個network也不是單目標的，它同時有policy network和value network，那麼它同時在做執行任務和評估兩件事。　

那麼我想請教幾位嘉賓，o1如果要去復現的話，它是可能是一個多模型組合起來的系統，還是它可能就是一個神經網路解決了所有的問題？　

01：47：57 – 01：50：26　

Monica：　

純猜測，我不用為猜測結果負責。我在知乎看到一篇類似的猜測文章，作者說我這純猜測，要按這個訓練把公司訓倒閉了我也不負責。大家只是想聽聽彼此思考這個問題的思路。　

Kimi Kong：　

我比較同意Eric之前說的五個不同level的AI發展路徑。第一個conversation已經完成了，現在屬於第二個level，也就是reasoner階段。根據roadmap，我個人觀點是它更可能是一個單一的大模型，而next one那個歷史可能會是multi-agent，至少是單一agent的模型。　

Monica：　

你這是更多從效果和open的技術審美路徑角度來猜測的？　

Kimi Kong：　

對，更多是從strategic的角度考慮。我覺得要one thing at a time，先做個非常好的基礎chatbot模型，然後用它prompt出reasoning的資料。有了強大的reasoning後，就能做更好的tool use和function call，這可能就是下一版模型要做的。　

我認為open的research direction不是一個over engineer solution。現在業界還沒找到一個最好的方式來train multi-agent的LLM。我更傾向於先解決low hanging fruit，先有個強大的reasoning模型作為基礎，然後一步步實現roadmap，最終達到level 5。　

Monica：　

我Google了一下，AI發展分為Level 2 Reasoners、Level 3 Agents、Level 4 Innovators、Level 5 Organizations。所以現在我們還在reasoner和agents的階段。　

Kimi Kong：　

對，可能處於2.1到2.5的狀態。　

01：50：26 – 01：51：07　

Monica：　

其實在應用層面，我們用multi-agent這種架構時會遇到一些反對的聲音。他們說用multi-agent就是增加了系統的複雜性，而且agent之間的通訊可能造成很多浪費。本質原因其實就是你的agent自己本身不夠牛逼，如果你有一個很牛逼的agent的話，在很多場景下其實你並不需要multi-agent。就像Tanu Robotics的自動駕駛汽車，在model替換時就需要考慮這些系統架構選擇上的trade-off。　

01：51：08 – 01：52：02　

Kimi Kong：　

我覺得大概有這麼幾個問題需要回答。首先我們可以go through一下Multi-agent這個領域的歷史。　

Multi-agent是經典強化學習中的一個重要主題，最著名的論文應該是David Silver的、我非常喜愛的一篇論文MADDPG（Multi-Agent Deep Deterministic Policy Gradient）。相比於DDPG（Deterministic Policy Gradient）只在單一環境中訓練一個agent做一件事，MADDPG可以訓練很多agent來完成一個非零和博弈的協作任務。為了讓這個問題可行，它做了很多簡化處理，否則這將是一個非常非常computation-wise infeasible的問題。　

關於multi-agent，我知道一些background。在MADDPG之後出現了很多multi-agent的research，但我之後就沒有繼續follow這個方向了。說到multi-agent在language model中的應用，其實就是你可以prompt一個模型讓它做一件事情，對吧？　

首先你讓它做Step 1，putting your generative model hat on去生成內容。完成第一步後，透過chain of thought進入第二步，告訴它now put your critic hat on去評判結果。這個版本的模型需要仔細思考，如果認為一切正確就給出final result，否則就回到step one重來。　

其實在這個過程中，模型在做很多事情，對吧？與其說是multi-agent，不如說是multi-task。問題是模型在multi-task時，可能沒有辦法很容易地把attention從generation轉到critic。現在大家在language model領域做multi-agent，主要是透過prompt不同的persona，把generator和critic分開：generator的任務就是生成內容，critic則專注於評判結果。我覺得這是個很有趣的方向，尤其是在開發下一代agent方面，雖然我可能沒有完全follow最新的multi-agent research on language model。　

無常按：非常有意思的觀點，把寫作和編輯分開，凱文·凱利說過幾乎一模一樣的觀點：

01：53：31 – 01：56：44　

我其實更傾向於，短期內我們更可能看到single agent的breakthrough，就跟傳統意義上的o1一樣。因為o1首先的breakthrough都是在single agent領域出現的。當你有了一個非常強的agent，就有可能很容易用類似的訓練方法泛化出multi-agent系統。　

Monica：OpenAI o1是end to end還是multi agent？　

Eric Li　

我的猜想比較保守，我認為它可能是single或two agents的情況，但不太可能是更復雜的multi-agent system。　

OpenAI之前做了很多關於reasoning and verification的工作，比如兩個agent在解決數學或coding題目時的framework setup。我認為o1很可能只是一個single agent，但在inference階段可能會incorporate its critic或light supervision來verify。關於為什麼大家對multi-agent形成挑戰，這取決於single agent的能力水平。　

我相信在現在以及可預見的未來，multi-agent都會outperform single agent的能力。即使是人類，也需要透過合作分工才能做出更好的成果。比如愛因斯坦那種level的人也會make mistake。我因為是讀物理的PhD，所以知道上個世紀做quantum physics需要一堆人合作分工，才能真正build up完整的物理理論。所以在我們的single agent達到愛因斯坦那個智商水平之前，我相信multi agent的performance一定會更好，因為它能提供不同的perspective和思路。　

當然，如果未來出現了superhuman級別的single agent，最終的演化形態可能會迴歸到single agent，這是一個偏哲學層面的思考。

01：56：45 – 01：59：09　

蘇輝：　

在我看來，沒有必要懷疑這個事情，他們本質上都是一個model。包括之前的端對端model，現在越來越多的證據也能夠呼應這一點。我個人傾向於相信他們一定是一個模型，雖然多模型在現在這個階段確實能夠提升很多工的表現。在正式工作流中設定各種role一起配合解決問題，我認為這是過渡階段的產物。　

如果大家的目標是星辰大海、是AGI的話，最終的模型應該不是多個AGI模型一起工作，而是一個single model去處理所有事情，是全知全能的。　

目前大家使用multi agent或其他方法，主要是為了解決corner case或中間推理過程不穩定的情況，但這些都是過渡時期的做法。　

比如在tool use時，模型可能無法很好地理解和呼叫功能，因為它只理解function call或tool use的基本功能描述。很多agent最佳化工作會根據人類使用模式，透過持續總結使用者使用情況和反饋，將這些資訊新增到prompt中，完善功能說明和呼叫可能性。　

但在o1釋出後，很多這樣的case都會被取代，因為模型能力夠強，它能夠百分百正確地進行呼叫。　

01：59：11 – 02：01：23　

Monica：　

最近有個project是用o1-preview來玩黑神話，雖然遊戲和LLM的結合並不是新鮮事。最近有些具備更強reasoning能力的LLM用來玩遊戲，有沒有讓你覺得特別impressive的地方？另外，用遊戲來做training生成資料，在有了o1-preview這種新正規化後，對進一步提升會有什麼幫助？　

蘇輝：　

我看到這個新聞後去查了相關paper，發現它用的是GPT-4o。它的實現原理是把遊戲截圖作為輸入，透過vision model進行場景理解，然後生成Python程式碼形式的動作來操作遊戲。如果用GPT-4o來做這個，成本確實會很高。　

AI玩遊戲其實一直都很厲害，最早是打Dota，後來還有星際爭霸。以前大家都認為需要透過大量對局來進行強化學習，但現在不一樣了。之前的方法都不是用language model，而是要自己定義遊戲的各種狀態空間，用純強化學習的方法。　

這次玩黑神話是個非常特殊的case，因為它直接用了訓練好的vision model和language model，沒有額外訓練。最讓人驚訝的是現在模型的視覺和文字理解能力已經如此強大。我覺得下一步用更強的模型去玩那些人類喜歡的遊戲，很可能都能超過人類水平。而且關鍵是不需要在特定遊戲上專門訓練，這已經達到了一個新的分水嶺。　

02：01：24 – 02：02：22　

Monica：　

我知道前面大家提到要使用更多新型別的multi-step資料，所以我很好奇在遊戲中完全模擬的場景裡是不是相對來說更更容易收集這種step by step的資料？　

蘇輝：　

對，資料收集肯定是會更容易一些。這讓我想到了AlphaGo的演進過程，早期的AlphaGo是離不開人類棋譜的，但到了AlphaZero時代就完全不需要人類棋譜了。對於開放世界遊戲來說也是類似的，如果你採用AlphaGo的路線，就需要人類的操作記錄來學習。　

但如果採用AlphaZero的方式，你只需要定義動作空間，讓AI在開放世界中從零開始自主探索。這是兩種完全不同的方式。　

02：02：23 – 02：05：17　

Eric Li：　

用大模型玩遊戲這個話題，我認為有兩個非常impressive的點。第一點，像蘇輝剛才提到的，它沒有專門訓練一個模型用RL去玩遊戲，這和Google DeepMind打Dota時的思路完全不同。它完全靠in-context learning的能力去做sequential decision making的問題。　

這體現了Foundation model非常impressive的能力，展示了它的planning能力。它能規劃在打怪獸時應該先做哪個action，再做哪個action，最終才能打得過。這不僅展現了image understanding，更重要的是展示了很好的決策能力。　

關於用gameplay data獲取更多資料，這個Jason Wei之前做過一篇文章，研究如何學習真實世界中的物理知識。他們用物理simulator engine來獲取signal。從更廣闊的角度來說，對於一個模擬AI system或單一agent，當它和開放世界interact時，收集到的資料特別有意思。這些feedback能很好地產生reasoning data，因為不管是gameplay還是開放世界中的問題，都比較容易檢測最終結果的正確性。這和human feedback只告訴你pairwise哪個更好不同，像打遊戲、coding和math一樣，你能知道最後是贏了還是輸了。這種清晰的signal可以幫助我們更好地synthetic產生reasoning和planning的資料。　

02：05：18 – 02：06：53　

Monica：　

現在在這個大模型的訓練中，gameplay資料用得多嗎？　

Eric Li：　

目前我沒有看到很多人在使用這一塊。我不知道OpenAI或者別的公司是怎麼樣的情況。感覺Google因為比較看重現有的產品線，在那些產品線上做提升可能優先順序更高一些。但我覺得這是一個比較有意思的方向，可以去嘗試。　

Monica：　

啊，大家都提到這個大模型公司都開始用data，我以為會有相當一部分是從gameplay data裡面出來的。　

Eric Li：　

目前synthetic data更多是用於啟用模型生成（how to activate image generation model generated AI model）。雖然simulation的資料還比較少見，但像我們之前提到的multi-agents和斯坦福小鎮這些專案，展示了未來可以透過模擬社會來生成資料。這些都可以透過multi-agent做simulation，用simulator和game engine來模擬，再配合physics engine來實現。　

02：06：54 – 02：09：26　

Monica：　

我們今天邀請DeepMind的嘉賓在io和ncts這些領域都有很深的研究。前段時間大家討論到，Google其實比較早就開始了與o1路徑類似的研究。比如Google DeepMind釋出的論文Compute optimally can be more efficient than scaling model parameters inference time。我很好奇在座幾位researcher怎麼看這個關係，似乎這個研究路徑Google早就開始了，為什麼是OpenAI先把o1給deliver出來了呢？　

Kimi Kong：　

（略顯遲疑）我用一句話簡單概括，然後剩下的留給大家腦補吧：transformer是Google發明的，但GPT是OpenAI第一個train出來的。大家可以自行腦補為什麼他們先發布了o1而不是我們。　

Monica：　

這個工作在o1出來之前的關注度和評價怎麼樣？聽起來並沒有怎麼受到關注。　

Kimi Kong：　

哈，一時語塞。我可能聽到過類似的research，就是大家做的這種小的research。比如說這些Google的paper，都是在specific domain資料集上做出來，證明reasoning helps。但我沒有看到一個非常large scale的嘗試。fundamentally這是關於你是想釋出paper在clean資料集上證明它work，還是真正要解決nasty problem並做10X、100X的scale up，我覺得這需要不同的mentality。　

02：09：27 – 02：12：52　

Eric Li：　

我之前在Google內部看到過一些關於降低inference cost的相關研究，但都是比較零散的、獨立的分析。不過在o1出來之前，我確實沒有關注到這篇paper。這篇paper給出了一個更系統的分析，總結得非常好。　

從研究方向看，既然o1的PR做得這麼好，Google肯定會提升自己模型的reasoning能力，爭取和o1差不多或更好。但是對於scaling inference cost的策略，在一些商業化場景，特別是對latency要求很高的場景並不適用。相比之下，大家可能更關注的是Gemini或在自己領域內效能的提升。　

Monica：　

那是否可以理解為o1的出現讓這個方向成為了業界的共識？蘇輝有什麼補充嗎？　

蘇輝：　

延遲確實是一個很致命的問題。如果能找到一種應用方式，讓使用者接受等待10分鐘、20分鐘或更長時間，並且最終能完成很好的任務，或者在產品設計上做一些離線操作，這可能會帶來新的產品機會。　

但對於現有的一些產品形態，比如角色扮演或通用的chatbot，這種方式會比較難實現。　

不過，如果能夠把這套訓練的邏輯框架遷移到提升Pareto邊界上會很有價值，比如在安全性和推理能力之間做trade off，透過這種訓練方式提升上限。在特定應用場景下，比如需要平衡安全性和角色扮演能力的場景，這種方式是可行的。　

02：12：53 – 02：13：12　

Cage：　

前面大家討論的latency問題，我很認同。我自己用Cursor接入o1後就有這種體驗，跟之前相比差別很大。之前的auto completion包括composer都很快，現在要想很久，所以需要很大的效能提升才能彌補這個時間上的trade off。

從大廠和商業化的角度來看，之前追趕GPT-3.5和GPT-4可能需要半年到一年時間，那麼o1這套用RL提升reasoning能力的技術，整個AI社群追趕的速度會不會比之前更快？　

Monica：　

這種新正規化對追趕者意味著什麼？　

蘇輝：　

我傾向於認為是更難了。　

首先，你需要站在更強的基座模型基礎上做這件事，如果是弱模型，你就不會有很強的reward model，那麼做這件事的收益極低，泛化可能性也很小。　

其次，如果使用MCTS這樣的策略，這是一個非常GPU-bound的inference time訓練方式，你的MFU或GPU利用率是極低的。相比現在訓練Dense或MoE時已經達到相對較好的GPU狀態，這帶來的compute消耗不會比pre-train低，甚至可能更高。對很多公司來說這是更大的挑戰，因為你可能就是double了你pre-train的算力成本。　

02：15：01 – 02：17：08　

Cage：　

關於GPU利用率低卻反而消耗更多資源這個問題，能解釋一下為什麼o1這一套訓練方法會帶來這樣的變化嗎？　

蘇輝：　

因為在sample和decode過程中，GPU利用率會比訓練階段低很多。這個過程需要結合到訓練中，會產生很多等待時間。　

Monica：　

對算力的要求很高，但那時候需要的是非常強的訓練晶片，同時要非常大的叢集。你看像OpenAI、Meta都要做十萬級的叢集。那在post-training階段，如果它更像是inference的算力，是不是對GPU效能和叢集規模的要求就相對較低？　

蘇輝：　

這是一個很大的工程挑戰。我們說的不是訓練完後的推理部署，而是訓推一體的過程。純推理時可以用效能較低的GPU，主要需要在通訊上做些處理。但在規模化訓練時，因為這個過程嵌在訓練中，不是說推理出來文字後再拿到另外機器上去處理，這種方式工程實現不太現實。所以還是需要用最好的GPU來做RL訓練。　

02：17：10 – 02：18：30　

Kimi Kong：　

我覺得任何一個task都離不開幾個大的步驟：資料、模型和訓練框架。就像蘇輝剛才說的訓練上的算力挑戰，他也touch到了base模型很難access到最新的開源SOTA模型。我在想現在開源最SOTA的是不是Llama 405B？　

如果你在Google或OpenAI，你train出來就那麼一個最大的模型，你根本不用考慮用哪個base model。但是現在沒有好的open source的base model，這就意味著你在選擇base model時可能已經走了很多彎路。　

在資料這方面，你能看到OpenAI purposely把它的reasoning的內容hide掉了，只是把reasoning的summary給你。我覺得他這麼做是因為如果你有這些reasoning的資料，訓練會比較容易，但因為沒有這些資料，你就要自己從頭研究這個問題。　

02：18：31 – 02：21：42　

整體來說這是一個非常challenging的事情。如果這三點都很challenging的話，作為一個追趕者可能會更難。說到蘇輝他們是追趕者對我們來說，其實我們現在何嘗不是個追趕者呢？　

Monica：　

Eric怎麼看？　

Eric Li：　

我覺得o1的難度和之前GPT-4出來時的難度都很高，但難度點不太一樣。當時GPT-4出來時只有OpenAI一家做出了multimodal模型，要實現multimodal這個能力，不管是pre-training、post-training，還是SFT和RL，每個訓練階段都需要去做。　

主要難度在於資料問題，因為怎樣獲得最好的reasoning資料，比起outcome的human feedback來說更加耗費資源。另外就是它的實現方法，不像去年從text-only變成multimodal模型那麼清晰。那時候大家已經知道怎麼做modality fusion，知道怎麼處理這些資料集，但現在大家還在猜測它到底是怎麼實現的，以及背後的原理。　

所以我認為難點主要在於：第一，要建立這樣的資料集；第二，因為有很多可能的實現路線，需要更多research投入去確定最優路線。對於中小公司來說還有個challenge，就是RL的重要性。之前很多創業公司或資源不夠豐富的公司都不會去做RL，而是用DPO等比較偏off-policy的方法。如果RL現在已經被強調得這麼重要，我們是否必須做RLHF而不是用RL-free的方法，這對小公司來說是個很大的挑戰。　

02：21：43 – 02：23：47　

Monica：　

在追趕o1的過程中，你覺得最容易被大家高估和低估的方面是什麼？　

Eric Li：　

我認為最容易被低估的是資料層面，特別是如何判斷reasoning好壞的資料。以前做RLHF時，一些場景或創業公司還能獲取human feedback，但要獲得高質量的reasoning feedback資料，難度會高得多。至於高估的點…沒有什麼高估的，難就是難。

蘇輝：　

我之前也講過，我覺得大家是偏低估工程上的挑戰。現在從一些觀點來看，訓練工程的挑戰其實很大。你需要站在一個GPT-4水平的模型基礎上，並且要掌握訓練這件事情才能繼續往前發展。　

Kimi Kong：　

我非常同意Eric和蘇輝的觀點。這既是一個science非常難的問題，也是個engineering非常難的問題。　

science的難點在於如何篩選高質量資料，而engineering的難點在於training中需要引入inference，相當於說你必須是六邊形戰士，沒有短板才能把這件事做出來。　

02：23：48 – 02：24：15　

Monica：　

我們已經討論了很多解讀和猜想，現在讓我們來談談對未來的期待。在看到o1展現出這些能力之後，大家對近期一年以及未來三年，最期望在這個領域看到什麼樣的發展？還有哪些難題是你們最希望能夠被解決的？　

02：24：16 – 02：24：42　

Kimi Kong：　

我覺得在一年之內，coding很可能會變成一種commodity，變成人人都可以寫程式碼的技能。Coding can become a commodity. Everybody can just write code。我之前和組裡的PM聊天時，他就說：我可以用Cursor自己寫程式碼，不需要你們幫我做prototype。雖然他只是在談論自己的個人專案時開的玩笑，但我覺得這種情況在一年內可能真的會實現，也許吧。　

其實我是一個robotics by training的研究者，我非常期待大語言模型和robotics結合的這個領域能有更長足的進步，特別是在embodiment這個方向。但是在一到三年內，我覺得最難解決的還是domain資料的問題。其實你知道，大多數的配方都已經擺在桌面上了，無論是大公司還是開源界都在用差不多的配方。　

你可以選擇配方，但你知道，配方需要原材料來烹飪，而這裡的原材料就是資料。當一個domain沒有很好的資料，或者資料很難採集，或者資料還沒有被數字化，這就是最大的挑戰。具體到Embodied Robotics，這個問題雖然有挑戰，但也不是特別難。對於robots來說，它的資料還沒有被很好地數字化，但這個過程已經開始了。　

這讓我想到了GPT-1、2、3的發展階段，當時大家也在不斷擴充套件資料的質量和數量。所以我非常期待看到我的robotics同事們能夠開發出一個令人驚豔的emergent的具身智慧模型。　

02：25：58 – 02：28：50　

Monica：　

最近我投資了一個機器人公司。看到機器人的資料已經在逐漸被digitize，我感到非常欣慰，因為我們天天都在聊機器人的資料有多難。　

Kimi Kong：　

RTX確實是一個good step forward。RTX團隊的一些人後來出去創業做Physical Intelligence。在Facebook Todens team裡，讓我印象深刻的是一位越南裔成員，他是RTX的發起者。　

Monica：　

你能用一句話解釋一下RTX具體是做什麼的？　

Kimi Kong：　

RTX是開源的。傳統上，robotist scientist需要自己收集資料集，比如Tony搞了一堆燒飯、開桌子、刮鬍子的資料集，然後訓練imitate模型。　

就像hugging face在NLP領域做summarize、semantic understanding一樣，他們聯合了世界上17個lab，把幾十個robot的資料集整合在一起，建立了統一標準的robot dataset，總共有兩個million的robotic trajectory demonstration。　

相比之下，PaLM-E花了18個月收集了約150K的human demonstration。但是跟language model比，比如說Chinchilla的scaling law，幾個trillion的token，機器人這邊還是差得很遠。但正因為難，才讓人excited，因為這是個not fair game，everybody can win。　

Monica：　

這有點像機器人領域的ImageNet。　

Kimi Kong：　

Exactly，所有人都是在一個起跑線上的。大廠跟你而言是在一個起跑線上，這就是為什麼我非常excited，期待在未來三到五年看到robot的落地和應用，期待我的同事們有更加驚豔的作品。　

02：28：51 – 02：29：34　

Monica：　

我很期待看到你什麼時候能迴歸機器人研究這個老本行。　

Kimi Kong：　

我一直在關注這個領域。從technology wise的角度來看，我覺得並沒有太大的區別，都是AI在不同行業的應用。機器人的模態本質上就是個多模態問題，我覺得robot的模型與VQA或者VLM沒有那麼多的區別。講白了就是用同樣的技術來解決不同data set的問題。

對我而言，雖然robot是我的passion，但我更excited的是把robot抽離之後的問題——我的passion是在RL上的，就是如何用reinforcement learning來解決foundational的state action的World State Topological Agent Problem。　

02：29：39 – 02：31：10　

蘇輝：　

在未來一年內，我很希望看到多模態在reasoning方向的突破性進展。之前很多research工作表明，引入多模態token並沒有讓語言模型的能力得到提升，這讓很多人略感失望，因為混合模態後compute增加了，但單個模態的能力並未提升。　

一年內，我們的訓練資料資源量會有較大的scale。不過我們應該注意到，人類學習根本不需要那麼多data。現在模型訓練中充斥著大量無意義的資料，比如新聞稿或一些無意義的字串，這些都被模型學習進去了，浪費了大量資源。　

我很希望在這一年內能看到data工作方面的重大突破，找到真正有代表性的data，用很小的資料量就能達到現在大規模資料的效果。如果展望三年以後，我比較樂觀，希望能看到接近AGI狀態的模型出現，解決所有問題，讓我們也不用上班了。

02：31：13 – 02：32：21　

Monica：　

這是三年嗎？就小心你老闆把這個給你設成KPI啊。　

Kimi Kong：　

我非常好奇，關於多模態這個問題，其實現在訓練裡面多模態資料的佔比還是非常少的。另外我很好奇的是，現在多模態的vision encoder size比text encoder相比要小很多，為什麼沒有人去做vision encoder方面的scaling研究？這是我個人的好奇。　

蘇輝：　

我其實也不太清楚具體原因，但我覺得這是一個很promising的方向，我很看好encoder scaling上去。　

Kimi Kong：　

對，因為現在都是零點幾B，我對Gemini可能不是特別瞭解，但那些開源的基本都是幾十B的模型，它的vision encoder也就基本零點幾B到1B的規模。　

蘇輝：　

這確實是一件很surprising的事情。我覺得一個比較大的原因是vision encoder對工程來說是比較大的挑戰。　

Kimi Kong：　

interesting，good to know。　

02：32：25 – 02：34：15　

Monica：　

Eric。　

Eric Li：　

我自己覺得一年之內我比較看好的是多模態的reasoning。我看了很多paper，發現模型在text的reasoning非常好，但有了多模態之後反而都沒有那麼好。這裡面同時涉及兩個問題：一個是模態之間的alignment，另一個是reasoning，這兩個混合在一起問題就更加複雜。但是有了o1這個模型珠玉在前，我相信很多人可能會考慮怎麼去把這些相關技術更多地用在多模態的RLHF上面。　

另外一個看好的方向是multi-agents。之前的很多agents效果沒有那麼好，主要是因為foundational的一些能力，比如說reasoning的能力還不夠強。我估計這一年內，其他的競爭者應該也會有o1 level的模型會出來。這對於創業公司或其他團隊來說，作為一個更強大的multi-agent的基礎，應該會更有希望。我期待這一塊能夠解鎖一些新的應用場景，或者在一些對準確性要求比較高但之前沒有做到的任務上取得突破。　

02：34：15 – 02：36：14　

未來三年，我希望能看到AGI作為innovator發揮更大作用，比如自主發現新事物或進行前沿研究。我最近注意到已經有一些相關的paper發表，讓AI幫助我們進行research，但目前還處於比較初級階段。當reasoning和multi agents的系統架構更加成熟後，AI scientist可能會給我們帶來意想不到的結果。　

Monica：　

你覺得AI scientist是透過提升reasoning的能力就可以實現嗎？作為一個能夠定義問題、解決問題的scientist，還需要什麼別的能力？　

Eric Li：　

現在的AI scientist寫出的paper更多是一些偏炒作式的科研，比如簡單地把A和B結合起來。要解決更加棘手的open question，我們需要AI具備更深度的思考能力，以及推翻重來的能力。還有就是能夠提出更好的問題，而不是僅僅解決問題。有了更好的reasoning能力後，AI就能進行更長遠和深入的思考，這會讓它在提出問題和解決方案方面有質的飛躍。　

02：36：15 – 02：37：13　

Monica：　

一到三年內你覺得會有哪些比較難解決的問題？　

Eric Li：　

我覺得innovator這個問題本身就是非常具有挑戰性的問題。其中比較難解決的一個問題是讓AI不要只是去retrieve它自己pre-training中的資料，而是要更多地去質疑自己曾經學到的知識是否正確或已經過時。我覺得這可能是AI要達到innovator水平的一個非常難的點，就是讓AI能夠去質疑，很challenge地去挑戰自己已經透過SFT和pre-training學到的知識。如果能做到這一點，應該會有很大的進步。　

02：37：14 – 02：38：37　

Monica：　

Echo之前提到的很對。作為投資人，我跟很多創業者討論時發現，o1更像是一個GPT時刻，而不是ChatGPT時刻。它能解決要求更高層次reasoning的場景，這與ChatGPT展現的chatbot場景有很大區別。對這些場景來說，產品設計就不能像chatbot那樣只用一個search bar就能解決問題。我們需要考慮如何在很長的inference reasoning鏈路中加入人的feedback。　

這些都是從GPT到ChatGPT過程中的產品問題，值得整個行業ecosystem一起探討。我認為這更適合創業公司，而不是大廠，因為大廠現在都在全力去做GPT模型本身。產品層面還有很多機會。Cage一直在這個領域做了很多研究，想請你也跟大家分享下對未來的期待。　

02：38：38 – 02：39：21　

Cage：　

我會把這個話題分為coding和其他領域來看。就coding來說，我非常認為coding能力會持續提升。世界上會coding的人可能只有1%不到，但實際上有產品需求的人遠遠大於這個比例。這裡會不會有一些新的技術突破和產品來彌補這個差距呢？比如說Cursor這個產品，現在小白使用者還用不上，不太會用。那麼可能會有更低門檻、更民主化的產品出現，就像Canva那樣。　

02：39：22 – 02：40：01　

這樣的產品，其次我最期待的是reward model能否在mass code之外的問題上實現泛化。　

這個泛化可能透過兩種方式實現：一是依靠OpenAI、Anthropic、Google等公司在模型層面的提升，二是透過開放API或其他形式，讓企業使用者共同參與提供高質量的reasoning資料，從而在金融、法律等領域獲得提升。我希望能在一年之內看到一些signal出現突破。　

02：40：01 – 02：41：09　

這並不是很明確強推力領域想看到的一個進展。在三年的時間尺度上，我最期待的是AI真的能夠幫我完成高價值的研究任務，可能持續一天、一週或一個月。在這個過程中，如果AI遇到什麼問題，它可以主動發郵件給我，我給個comment後它就能繼續完成任務。這正好Echo到前面幾位嘉賓提到的問題：現在還沒有產品能讓使用者願意接受那麼高的latency，但如果AI真的能做很高價值的任務，可能在industry research甚至人類科學問題上都有突破。　

我期待看到技術和產品層面的突破，讓人與AI能夠實現非同步協作。這樣可能會呈現一個新的AI Agent作業系統或UI/UX設計模式，這是我三年內最期待的。　

02：41：12 – 02：42：28　

Monica：　

大家都從不同角度分享了對未來的期待。今天本來說兩個小時，聊了三個多小時，非常感謝大家。我覺得有非常非常多的啟發，也希望對所有聽眾有一些啟發。希望讓更多人加入到創新的大潮中。越是有這樣不斷的新正規化突破，新的模型能力提升出現，讓我們在這個基礎上進行進一步的創新時，就有了更多的想象力和讓人期待的東西。以上就是本次播客的全部內容，感謝大家的收聽，希望對你有所啟發。　

播客原文&推薦閱讀&參考文章：見下方或點選底部閱讀原文。　

如果你看完了這麼長的實錄，那咱們一定得好好聊聊！歡迎在公眾號後臺給我留言~

如果你想聽聽原汁原味的播客，可以下方掃碼直達，或者在各大播客平臺搜尋 OnBoard!

都看到這兒了，

還不關注一下這麼有誠意的公眾號？

點贊、轉發、打賞，是對我最好的鼓勵 ❤️

趕緊同步關注我的播客：OnBoard!
（小宇宙、Apple Podcast, 喜馬拉雅等播客平臺同步更新）