對談Pokee.ai朱哲清：強化學習做核心，Agent的少數派造法

可能是更高效、更便宜的 Agent 實現路徑。

文丨孫海寧

編輯丨程曼祺

主流 AI Agent 都把大語言模型（LLM，或者它的多模態版本）當作 “大腦”，靠一個或幾個 LLM 編排工作、呼叫工具。但也有另一條路：Agent 規劃、作業靠不依賴自然語言的強化學習模型，LLM 只充當 Agent 和人類的 “互動層”。

不一樣的想法，來自去年 10 月成立，至今只有 4 個正式員工的 Pokee.ai。

Pokee.ai 創始人朱哲清有十餘年強化學習研究、落地經驗。2017 年起，從杜克大學計算機科學專業畢業的朱哲清，一邊在斯坦福大學攻讀強化學習方向博士學位，師從 Benjamin Van Roy；一邊在 Meta 工作，曾任 Meta“應用強化學習” 部門負責人，他用強化學習演算法改善內容推薦系統，把上任前只剩 3 人，一度要關停的部門擴張至 10 餘人，為 Meta 增收 5 億美元。

靠 LLM 規劃、決策，是個自然而主流的想法。OpenAI Operator 和網頁互動、操作電腦的能力基於 GPT-4o 模型，Manus 完成任務則是靠 Claude 3.5 Sonnet 模型做長程規劃。Claude 提出方便 LLM 理解、使用第三方工具的通用協議 MCP 後，LLM 能呼叫的工具變多，把 LLM 當作 Agent 大腦的趨勢增強。

但這種方法也有侷限：現有的 LLM 仍無法大量呼叫工具。“LLM 可能呼叫超過 50 個工具，就會產生幻覺。” 朱哲清說。因為描述工具用途、用法的資訊需要先放入上下文，而 LLM 能接受的上下文長度有限。

Agent 靠 LLM 完成任務也可能更慢、更貴。朱哲清舉例 LLM 用 browser-use 瀏覽網站、多步互動時，單次可能消耗數百萬個 Token，成本在幾美元到幾十美元之間。“用 browser-use 的初創公司多數在虧錢。”

Pokee.ai 使用的強化學習模型不用上下文理解工具用途。它掌握工具是靠訓練時成千上萬次 “試錯”，由此記住工具和問題的正確組合。朱哲清說他們的 Agent 在訓練時已經見過 15000 個工具，之後出現類似的新工具，自然會用。

同時，強化學習方法訓練的模型引數量更小，這意味著完成任務耗時更短、成本更低。Pokee.ai 官方演示中，Agent 產品 Pokee 完成一項任務只要幾分鐘。朱哲清說相比同類產品，Pokee 的單任務成本也只有它們的 1/10。

因為覺得 MCP 過於複雜，需要開發者自己設定 MCP 伺服器，宣告如何設定引數，保證工具之間能相互銜接，Pokee.ai 團隊另做了一套方便 Agent 呼叫工具的協議，開發者說明工具的輸入、輸出、喚起方式，就能被 Pokee 呼叫。同時，Pokee 未來也會支援 MCP。

試用 Pokee 時，《晚點 LatePost》發現，它能較好地呼叫各個平臺數據介面完成讀取、寫入等任務。沿著個方向最佳化，是因為 Pokee 的目標場景之一，是幫從事營銷、運營等崗位的 “專業使用者” 完成社媒運營等日常工作。朱哲清認為只有繫結使用者工作流，Agent 產品才獲得競爭壁壘。

Pokee 試用案例

任務：查詢關於 OpenAI o3 模型的最新報道，尤其是其優缺點，以及它與其他大型模型相比的表現。然後從 Google 圖片中獲取相關圖片。使用以上資訊製作新的 Google 幻燈片，併發送至 [email protected]。（影片全程未加速。）

我們也遇到了一些 bug，比如把整理好的內容寫入 Google 雲盤時，Pokee 會在只需要一個的情況下，同時建立兩個新文件；執行較複雜的搜尋任務時，相關資料介面表現不穩定，容易卡住。朱哲清說目前 Pokee 仍然在內測階段，已經能勝任很多工，同時團隊在努力提升大規模任務下的穩定性。

本週二 Pokee 在海外內測前，《晚點 LatePost》訪談了朱哲清。本次訪談的播客版也已釋出，可點選文首、文末的圖示中的二維碼，跳轉收聽。

AI Agent，但以強化學習模型為核心

晚點：你是什麼時候想到要用強化學習方法做 Agent 的？

朱哲清：我之前在 Facebook 應用強化學習（Applied Reinforcement Learning）團隊，用強化學習方法推薦內容有很多成功落地案例，估算下來，Facebook 每年將近 5 億美元的年收入是由我們團隊帶來的。

但我很早就意識到強化學習的潛力不止於讓 Facebook 廣告收入提高几個百分點。你可以把向用戶推薦每篇文章理解成一個個抽象的 “動作”，動作之間需要做規劃。它和 Agent 拆解任務、設計工作流是異曲同工的。

晚點：那為什麼在 LLM 出現、變得可用後，你才離職創業？

朱哲清：強化學習模型是個很聰明的大腦，能把現實世界抽象成一個個陣列，做決策、執行任務。但人類不可能理解一個個陣列。LLM 的輸入、輸出都是自然語言，它的出現解決了 Agent 如何與人互動的問題。

晚點：互動之外，LLM 也有推理、規劃的能力，Pokee 為什麼不直接把 LLM 作為 Agent 的大腦？

朱哲清：Agent 要好用，得能呼叫工具，它們可能有上千個。但現在最好的 LLM 在呼叫 100 個甚至 50 個工具的時候，就已經開始出現幻覺。

因為 LLM 的 “注意力” 有限，能支援的上下文 Token 長度有限。比如有 50 個工具，每個工具用 1000 個 Token 描述，那光工具就有 5 萬個 Token。完成任務時，呼叫一個工具拉出一篇文章，文章對應的 Token 也要作為上下文餵給 LLM。十幾步下來，就是上百萬個 Token，百分之百產生幻覺。

晚點：如果考慮到模型能力持續進步呢？

朱哲清：LLM 注意力基本上和模型引數量成正比，如果有無限的計算量，可以無限放大模型，當然能在沒幻覺的情況下呼叫上千個工具。但這不現實。

另外，未來任務越來越複雜，工具數量會按照幾何級數上漲，而 LLM 的引數量、上下文長度只能線性增長，不可能把世界上所有的工具包進來。

晚點：或者 LLM 不用掌握 1000 個工具，只要用好少數幾個造工具的工具，比如 Python 程式碼就行了？

朱哲清：靠程式碼只能做出一些常規、通用的工具。假設要 LLM 寫個工具幫你預定騰訊會議，它起碼得看過騰訊會議的開發者文件，才會寫吧？想找到開發者文件，又可能得呼叫大量工具，回到 LLM 呼叫工具能力有限的問題。

晚點：為什麼強化學習模型能比 LLM 模型更好地呼叫工具？

朱哲清：強化學習模型完成任務的能力來自 self-play（自我對弈）——在一個虛擬的環境裡無數次試錯，找到最優路徑，然後記住它，之後遇到類似的情況就知道該怎麼做。它不靠 Token 決策，不用像 LLM 一樣先生成 1000 個 Token 理解工具是什麼、怎麼用，再生成 1000 個 Token 理解問題是什麼，再生成 1000 個 Token 匹配問題和工具。

完成多步任務時，LLM 開始每一步動作前，都要掃描一遍之前生成的 Token，再選工具，有 N 個步驟，就得做 N 次決策；而強化學習模型一次決策，就能計劃好在哪一步該呼叫什麼工具。

晚點：兩類模型思考的方式又有什麼不同？

朱哲清：LLM 本質還是在學人類的思維模式，它預訓練時提煉文字中的人類知識，微調時也和人類對齊。但強化學習模型只靠試錯尋找最優路徑，有時會跳出人類思考框架。

之前我讓 Pokee 幫我和投資人預約會議，但忘記給它郵箱的閱讀許可權。一個基於 LLM 的 Agent 按照人類思路，這時可能直接問使用者要收件地址，但 Pokee 直接 Google 了投資人的公開資訊，拿到了郵箱地址。

晚點：LLM 在搭 Agent 時，應該扮演什麼角色？

朱哲清：長期看 LLM 可能會是一個使用者互動介面，是網際網路的前端。而在後端，所有工具的互動是由某種協議加某種決策機制來完成的，不必然用自然語言。

比如你讓 Agent 去買菜，它會用 LLM 理解你在說什麼，然後交給另一個以強化學習為核心的模型做。後者再把資訊傳達商家端的 Agent。商家端 Agent 確定庫存、收貨地址，向送貨員發請求。這過程應該由 Agent 和 Agent 之間的溝通來完成。

先服務專業使用者，再進入企業工作流

晚點：在你看來，一個合格的 Agent 有哪些特點？

朱哲清：首先，完成任務耗時短。如果一個 Agent 完成任務比人工久，不管過程中有沒有人參與，這個 Agent 一定都不會成功。因為人有一個慣性——機器完成某件任務時，他會在旁邊盯著，而不是交給機器就走開了。

晚點：等等，就算有人習慣盯著，一邊刷手機一邊盯著，和全神貫注地盯著，還是有蠻大區別的吧？

朱哲清：這麼說也沒錯。但在人能一邊刷手機一邊盯著的簡單場景下，Agent 都比人要慢，這 Agent 還是不夠聰明。

第二，Agent 動作要連貫，能最小化人工指導、輸入，不能完成了第一個任務，還需要人工複製、貼上，放到第二個任務裡面去再繼續執行。

第三，Agent 不能只讀取資訊，還得能寫入。現在多數 Agent 都只有抓取資訊、做分析的能力，但不能寫入網際網路，或者寫入個人賬戶、公司賬戶。

最後，成本要足夠低，低到人工的 1/10，甚至是 1//100，這樣才能提高 Agent 的使用頻率。

晚點：Pokee 現在單次任務成本、完成任務的時間大概是多少？

朱哲清：大概是市面上已有 Agent 產品的 1/10，完成一項任務大概只要小几分鐘。這是靠強化學習模型相對於 LLM 的優勢實現的。

晚點：除了耗時、成本，Pokee 還和其他 Agent 產品有哪些不同？

朱哲清：使用者操作介面上，我們沒有內嵌一個螢幕展示 Agent 具體在做什麼，因為我們不用 browse-use（讓 Agent 操控瀏覽器的開源工具）。瀏覽器是給人看的，是落後的。LLM Agent 用 browser-use 把網頁扒下來、多步操作非常慢，單次可能消耗數百萬個 Token，成本在幾美元到幾十美元之間，用 browser-use 的初創公司多數在虧錢。

執行任務時，Pokee 直接透過資料介面和各個平臺互動，已經打通了 Facebook、Google、Amazon 等大平臺的幾千個資料介面——這個目前市面上沒人能做到。由此，Pokee 能讀取已有資料、寫入新資料。

晚點：為什麼把 “呼叫各個平臺數據介面” 作為 Pokee 的主攻方向？

朱哲清：我們的目標使用者是 prosumer（專業消費者），他們用消費級產品完成日常工作。最早有創業想法的時候，我和很多做廣告營銷的朋友聊，他們反饋生產完內容後，手動在各個平臺上傳播、推廣得花三、四個小時。後續運營也很麻煩，一個帖子後有十幾個評論，都得人工點開回復。這些完全可以用 Agent 替代。

Agent 產品純靠技術不足以形成護城河。總有一天，對手能用相似的技術做出類似的產品。更重要的是靠先發優勢，把使用者的工作流繫結在產品內。

滲透完專業消費者後，我們會進一步拓展企業客戶。現在很多公司沒接入 OpenAI，一是擔心資料安全，需要能部署在本地的 Agent；二是成本問題，模型得足夠小、單次任務成本低，才能反覆呼叫。這是我們努力的方向。

晚點：很多公司追求穩定勝過效率——人工排出一個工作流、所有部門都同意後，可能並不需要一個 Agent 去改變它，哪怕 Agent 更高效。

朱哲清：這就是為什麼我們要先突破專業消費者。改變已有工作流確實很難，但需求也確實存在。我們向專業消費者證明原先二、三十步的人工操作能被 Agent 搞定，他們可能會自下而上地推動公司改變。

另外，我們也在產品里加了護欄。使用者可以點一下，讓 Pokee 完成所有子任務；也可以讓 Pokee 分步完成任務，每個新步驟開始前都要確認，增加安全感。

一些很好的跡象是，我們把 Pokee 的用例發給公司老闆後，他們是有購買意願的。

晚點：你們不用 LLM 決策，是不是意味著沒辦法接入 MCP，呼叫其他開發者做好的工具？

朱哲清：我們支援 MCP，但 MCP 部署對非 AI 方向的開發者來說比較複雜。所以我們做了一個自己的協議，開發者只要宣告工具的輸入、輸出是什麼，如何喚起工具，就可以被 Pokee 呼叫。

晚點：接入新工具後，需要重新訓練嗎？

朱哲清：多數情況下不用。現在這版 Agent 訓練時已經見過 15000 個工具了，給了它很好的泛化能力。如果要呼叫小眾的工具，那可能還需要做微調，和以 LLM 為核心的 Agent 一樣。

晚點：你怎麼看接下來 Agent 市場的競爭？

朱哲清：我覺得未來一年之內，至少看到十家通用 Agent 公司，最後會存留三、四家。同質化的通用 Agent 湧現出來後，它們一定會想辦法差異化，類似現在 Claude 專攻程式碼、ChatGPT 打磨普通使用者使用體驗。

始終相信強化學習潛力，從垂直迴歸通用

晚點：你從本科開始對強化學習感興趣，到博士畢業都一直研究同一個領域。中間沒有考慮過轉向嗎？

朱哲清：沒換過方向，但會有誘惑。之前有人拉我做基於 LLM 的聊天機器人、3D 卷積神經網路模型等等，都沒做多久，因為它和我的核心路徑沒太大關係，我最瞭解的還是強化學習，就應該沿著這條路走下去。

如果你覺得某個方向是正確的，那就得軸一點。Richard Sutton（強化學習奠基人，圖靈獎獲得者）早年非常不順利，他的研究近四年無人問津，也找不到教職。Geoffrey Hinton（深度學習奠基人，圖靈獎、諾貝爾獎獲得者）也類似，當時他提出深度神經網路的時候，所有人都說這是狗屁，沒人覺得它有未來。

晚點：但沿著一個技術方向走到底之前，總得先判斷它的前景如何。

朱哲清：這方面我和 Richard Sutton 交流過，結論是得找到 “Toy Example”（玩具案例）——用極少的計算量驗證一個問題別的技術解決不了，而你的技術可以做。案例必須有現實意義、普適性。

我本科上 AI 課的時候，有一個下棋的資料集。其他演算法都假設未來是完全隨機的，每次只預測一步，但強化學習演算法會考慮策略整體的合理性，有規劃地改變局勢走向。類似地，人面對生活中大多數問題時，不會每次只規劃一個步驟。這時你就能知道強化學習在規劃問題時有第一性原理優勢。

晚點：按照這個思路會錯過大語言模型嗎？大語言模型規模沒到一定程度前，效果並不驚豔。

朱哲清：但沒有任何代替方案效果接近大語言模型。

晚點：最初你提出要以強化學習演算法為核心搭建 Agent 後，得到的反饋如何？

朱哲清：最開始我和投資人聊是去年九、十月份的時候，那時候其實 AI Agent 還不火，強化學習也不火。有投資人說 “沒人會投你們的，你們過於超前了。”

學界、業界的人聽到我想法後，則覺得非常有潛力。甚至我十月份出來創業以後，有人直接問我能不能加入新公司。當時我們還沒透露融資等各種情況。

晚點：然後沒幾個月，靠強化學習提升智慧的 o1 模型就釋出了。

朱哲清：OpenAI 說 o1 是強化學習驅動的，但大家不知道他背後的邏輯是什麼。

真正帶火強化學習的是 DeepSeek。它類似當年 Alpha Go 到 Alpha Zero 的中間態，不需要人為標註每一個結果的好壞，透過某種規則就能判斷 Agent 一系列行為的優劣。這意味著不再需要人工創造大量資料，Agent 的每一個行為結果都可以立刻被檢驗。

晚點：OpenAI o1、DeepSeek R1 用的強化學習方法，和你們用的強化學習方法區別是什麼？

朱哲清：強化學習只是一種方法，它可以用來訓練 o1、R1 這樣的 LLM，也可以用來訓練 Pokee 用的、不基於自然語言的強化學習模型。兩者原理都是一樣的，但為模型構建的環境不一樣、模型學習時的試錯方法也不一樣。

晚點：DeepSeek R1 帶火強化學習後，對你們有什麼影響？

朱哲清：強化學習不是共識前，很多人建議我們先落地一個應用。於是我們先花了兩個月做了個垂直電商 Agent，它集成了 Shopify（一個幫助商家搭建網店的服務公司）官方提供的所有資料介面，能幫 Shopify 商家給顧客推薦產品、提供售後服務。

R1 教育完市場後，上百個投資人來找我們、客戶也有幾十個，問我們是不是有做通用 Agent 的能力。這確實是我們創業的初衷。所以當時決定轉向做通用 Agent。

晚點：Shopify 允許外部 Agent 呼叫站內工具，類似開放的生態在中國也存在嗎？

朱哲清：相比北美和歐洲，中國網際網路生態更封閉。Facebook 開放更新 Facebook Page（公司、機構、KOL 等的公共主頁）的介面，Instagram 直接開放了專業使用者和創作者相關的幾乎全部介面。我們已經把 Google 和 Meta 的資料介面全部接完了，國內能不能整合百度或者騰訊所有的功能，得打個巨大的問號。

我猜因為商業環境更開放，通用 Agent 會先在北美爆發。

題圖來源：《芬奇》

– FIN –