對談Pokee.ai朱哲清:強化學習做核心,Agent的少數派造法

可能是更高效、更便宜的 Agent 實現路徑。
孫海寧
編輯程曼祺
主流 AI Agent 都把大語言模型(LLM,或者它的多模態版本)當作 “大腦”,靠一個或幾個 LLM 編排工作、呼叫工具。但也有另一條路:Agent 規劃、作業靠不依賴自然語言的強化學習模型,LLM 只充當 Agent 和人類的 “互動層”。
不一樣的想法,來自去年 10 月成立,至今只有 4 個正式員工的 Pokee.ai。
Pokee.ai 創始人朱哲清有十餘年強化學習研究、落地經驗。2017 年起,從杜克大學計算機科學專業畢業的朱哲清,一邊在斯坦福大學攻讀強化學習方向博士學位,師從 Benjamin Van Roy;一邊在 Meta 工作,曾任 Meta“應用強化學習” 部門負責人,他用強化學習演算法改善內容推薦系統,把上任前只剩 3 人,一度要關停的部門擴張至 10 餘人,為 Meta 增收 5 億美元。
靠 LLM 規劃、決策,是個自然而主流的想法。OpenAI Operator 和網頁互動、操作電腦的能力基於 GPT-4o 模型,Manus 完成任務則是靠 Claude 3.5 Sonnet 模型做長程規劃。Claude 提出方便 LLM 理解、使用第三方工具的通用協議 MCP 後,LLM 能呼叫的工具變多,把 LLM 當作 Agent 大腦的趨勢增強。
但這種方法也有侷限:現有的 LLM 仍無法大量呼叫工具。“LLM 可能呼叫超過 50 個工具,就會產生幻覺。” 朱哲清說。因為描述工具用途、用法的資訊需要先放入上下文,而 LLM 能接受的上下文長度有限。
Agent 靠 LLM 完成任務也可能更慢、更貴。朱哲清舉例 LLM 用 browser-use 瀏覽網站、多步互動時,單次可能消耗數百萬個 Token,成本在幾美元到幾十美元之間。“用 browser-use 的初創公司多數在虧錢。”
Pokee.ai 使用的強化學習模型不用上下文理解工具用途。它掌握工具是靠訓練時成千上萬次 “試錯”,由此記住工具和問題的正確組合。朱哲清說他們的 Agent 在訓練時已經見過 15000 個工具,之後出現類似的新工具,自然會用。
同時,強化學習方法訓練的模型引數量更小,這意味著完成任務耗時更短、成本更低。Pokee.ai 官方演示中,Agent 產品 Pokee 完成一項任務只要幾分鐘。朱哲清說相比同類產品,Pokee 的單任務成本也只有它們的 1/10。
因為覺得 MCP 過於複雜,需要開發者自己設定 MCP 伺服器,宣告如何設定引數,保證工具之間能相互銜接,Pokee.ai 團隊另做了一套方便 Agent 呼叫工具的協議,開發者說明工具的輸入、輸出、喚起方式,就能被 Pokee 呼叫。同時,Pokee 未來也會支援 MCP。
試用 Pokee 時,《晚點 LatePost》發現,它能較好地呼叫各個平臺數據介面完成讀取、寫入等任務。沿著個方向最佳化,是因為 Pokee 的目標場景之一,是幫從事營銷、運營等崗位的 “專業使用者” 完成社媒運營等日常工作。朱哲清認為只有繫結使用者工作流,Agent 產品才獲得競爭壁壘。
Pokee 試用案例
任務:查詢關於 OpenAI o3 模型的最新報道,尤其是其優缺點,以及它與其他大型模型相比的表現。然後從 Google 圖片中獲取相關圖片。使用以上資訊製作新的 Google 幻燈片,併發送至 [email protected]。(影片全程未加速。)
我們也遇到了一些 bug,比如把整理好的內容寫入 Google 雲盤時,Pokee 會在只需要一個的情況下,同時建立兩個新文件;執行較複雜的搜尋任務時,相關資料介面表現不穩定,容易卡住。朱哲清說目前 Pokee 仍然在內測階段,已經能勝任很多工,同時團隊在努力提升大規模任務下的穩定性。
本週二 Pokee 在海外內測前,《晚點 LatePost》訪談了朱哲清。本次訪談的播客版也已釋出,可點選文首、文末的圖示中的二維碼,跳轉收聽。
AI Agent,但以強化學習模型為核心
晚點:你是什麼時候想到要用強化學習方法做 Agent 的?
朱哲清:我之前在 Facebook 應用強化學習(Applied Reinforcement Learning)團隊,用強化學習方法推薦內容有很多成功落地案例,估算下來,Facebook 每年將近 5 億美元的年收入是由我們團隊帶來的。
但我很早就意識到強化學習的潛力不止於讓 Facebook 廣告收入提高几個百分點。你可以把向用戶推薦每篇文章理解成一個個抽象的 “動作”,動作之間需要做規劃。它和 Agent 拆解任務、設計工作流是異曲同工的。
晚點:那為什麼在 LLM 出現、變得可用後,你才離職創業?
朱哲清強化學習模型是個很聰明的大腦,能把現實世界抽象成一個個陣列,做決策、執行任務。但人類不可能理解一個個陣列。LLM 的輸入、輸出都是自然語言,它的出現解決了 Agent 如何與人互動的問題。
晚點:互動之外,LLM 也有推理、規劃的能力,Pokee 為什麼不直接把 LLM 作為 Agent 的大腦?
朱哲清:Agent 要好用,得能呼叫工具,它們可能有上千個。但現在最好的 LLM 在呼叫 100 個甚至 50 個工具的時候,就已經開始出現幻覺。
因為 LLM 的 “注意力” 有限,能支援的上下文 Token 長度有限。比如有 50 個工具,每個工具用 1000 個 Token 描述,那光工具就有 5 萬個 Token。完成任務時,呼叫一個工具拉出一篇文章,文章對應的 Token 也要作為上下文餵給 LLM。十幾步下來,就是上百萬個 Token,百分之百產生幻覺。
晚點:如果考慮到模型能力持續進步呢?
朱哲清:LLM 注意力基本上和模型引數量成正比,如果有無限的計算量,可以無限放大模型,當然能在沒幻覺的情況下呼叫上千個工具。但這不現實。
另外,未來任務越來越複雜,工具數量會按照幾何級數上漲,而 LLM 的引數量、上下文長度只能線性增長,不可能把世界上所有的工具包進來。
晚點:或者 LLM 不用掌握 1000 個工具,只要用好少數幾個造工具的工具,比如 Python 程式碼就行了?
朱哲清:靠程式碼只能做出一些常規、通用的工具。假設要 LLM 寫個工具幫你預定騰訊會議,它起碼得看過騰訊會議的開發者文件,才會寫吧?想找到開發者文件,又可能得呼叫大量工具,回到 LLM 呼叫工具能力有限的問題。
晚點:為什麼強化學習模型能比 LLM 模型更好地呼叫工具?
朱哲清:強化學習模型完成任務的能力來自 self-play(自我對弈)——在一個虛擬的環境裡無數次試錯,找到最優路徑,然後記住它,之後遇到類似的情況就知道該怎麼做。它不靠 Token 決策,不用像 LLM 一樣先生成 1000 個 Token 理解工具是什麼、怎麼用,再生成 1000 個 Token 理解問題是什麼,再生成 1000 個 Token 匹配問題和工具。
完成多步任務時,LLM 開始每一步動作前,都要掃描一遍之前生成的 Token,再選工具,有 N 個步驟,就得做 N 次決策;而強化學習模型一次決策,就能計劃好在哪一步該呼叫什麼工具。
晚點:兩類模型思考的方式又有什麼不同?
朱哲清:LLM 本質還是在學人類的思維模式,它預訓練時提煉文字中的人類知識,微調時也和人類對齊。但強化學習模型只靠試錯尋找最優路徑,有時會跳出人類思考框架。
之前我讓 Pokee 幫我和投資人預約會議,但忘記給它郵箱的閱讀許可權。一個基於 LLM 的 Agent 按照人類思路,這時可能直接問使用者要收件地址,但 Pokee 直接 Google 了投資人的公開資訊,拿到了郵箱地址。
晚點:LLM 在搭 Agent 時,應該扮演什麼角色?
朱哲清:長期看 LLM 可能會是一個使用者互動介面,是網際網路的前端。而在後端,所有工具的互動是由某種協議加某種決策機制來完成的,不必然用自然語言。
比如你讓 Agent 去買菜,它會用 LLM 理解你在說什麼,然後交給另一個以強化學習為核心的模型做。後者再把資訊傳達商家端的 Agent。商家端 Agent 確定庫存、收貨地址,向送貨員發請求。這過程應該由 Agent 和 Agent 之間的溝通來完成。
先服務專業使用者,再進入企業工作流
晚點:在你看來,一個合格的 Agent 有哪些特點?
朱哲清:首先,完成任務耗時短。如果一個 Agent 完成任務比人工久,不管過程中有沒有人參與,這個 Agent 一定都不會成功。因為人有一個慣性——機器完成某件任務時,他會在旁邊盯著,而不是交給機器就走開了。
晚點:等等,就算有人習慣盯著,一邊刷手機一邊盯著,和全神貫注地盯著,還是有蠻大區別的吧?
朱哲清:這麼說也沒錯。但在人能一邊刷手機一邊盯著的簡單場景下,Agent 都比人要慢,這 Agent 還是不夠聰明。
第二,Agent 動作要連貫,能最小化人工指導、輸入,不能完成了第一個任務,還需要人工複製、貼上,放到第二個任務裡面去再繼續執行。
第三,Agent 不能只讀取資訊,還得能寫入。現在多數 Agent 都只有抓取資訊、做分析的能力,但不能寫入網際網路,或者寫入個人賬戶、公司賬戶。
最後,成本要足夠低,低到人工的 1/10,甚至是 1//100,這樣才能提高 Agent 的使用頻率。
晚點:Pokee 現在單次任務成本、完成任務的時間大概是多少?
朱哲清:大概是市面上已有 Agent 產品的 1/10,完成一項任務大概只要小几分鐘。這是靠強化學習模型相對於 LLM 的優勢實現的。
晚點:除了耗時、成本,Pokee 還和其他 Agent 產品有哪些不同?
朱哲清:使用者操作介面上,我們沒有內嵌一個螢幕展示 Agent 具體在做什麼,因為我們不用 browse-use(讓 Agent 操控瀏覽器的開源工具)。瀏覽器是給人看的,是落後的。LLM Agent 用 browser-use 把網頁扒下來、多步操作非常慢,單次可能消耗數百萬個 Token,成本在幾美元到幾十美元之間,用 browser-use 的初創公司多數在虧錢。
執行任務時,Pokee 直接透過資料介面和各個平臺互動,已經打通了 Facebook、Google、Amazon 等大平臺的幾千個資料介面——這個目前市面上沒人能做到。由此,Pokee 能讀取已有資料、寫入新資料。
晚點:為什麼把 “呼叫各個平臺數據介面” 作為 Pokee 的主攻方向?
朱哲清:我們的目標使用者是 prosumer(專業消費者),他們用消費級產品完成日常工作。最早有創業想法的時候,我和很多做廣告營銷的朋友聊,他們反饋生產完內容後,手動在各個平臺上傳播、推廣得花三、四個小時。後續運營也很麻煩,一個帖子後有十幾個評論,都得人工點開回復。這些完全可以用 Agent 替代。
Agent 產品純靠技術不足以形成護城河。總有一天,對手能用相似的技術做出類似的產品。更重要的是靠先發優勢,把使用者的工作流繫結在產品內。
滲透完專業消費者後,我們會進一步拓展企業客戶。現在很多公司沒接入 OpenAI,一是擔心資料安全,需要能部署在本地的 Agent;二是成本問題,模型得足夠小、單次任務成本低,才能反覆呼叫。這是我們努力的方向。
晚點:很多公司追求穩定勝過效率——人工排出一個工作流、所有部門都同意後,可能並不需要一個 Agent 去改變它,哪怕 Agent 更高效。
朱哲清:這就是為什麼我們要先突破專業消費者。改變已有工作流確實很難,但需求也確實存在。我們向專業消費者證明原先二、三十步的人工操作能被 Agent 搞定,他們可能會自下而上地推動公司改變。
另外,我們也在產品里加了護欄。使用者可以點一下,讓 Pokee 完成所有子任務;也可以讓 Pokee 分步完成任務,每個新步驟開始前都要確認,增加安全感。
一些很好的跡象是,我們把 Pokee 的用例發給公司老闆後,他們是有購買意願的。
晚點:你們不用 LLM 決策,是不是意味著沒辦法接入 MCP,呼叫其他開發者做好的工具?
朱哲清:我們支援 MCP,但 MCP 部署對非 AI 方向的開發者來說比較複雜。所以我們做了一個自己的協議,開發者只要宣告工具的輸入、輸出是什麼,如何喚起工具,就可以被 Pokee 呼叫。
晚點:接入新工具後,需要重新訓練嗎?
朱哲清:多數情況下不用。現在這版 Agent 訓練時已經見過 15000 個工具了,給了它很好的泛化能力。如果要呼叫小眾的工具,那可能還需要做微調,和以 LLM 為核心的 Agent 一樣。
晚點:你怎麼看接下來 Agent 市場的競爭?
朱哲清:我覺得未來一年之內,至少看到十家通用 Agent 公司,最後會存留三、四家。同質化的通用 Agent 湧現出來後,它們一定會想辦法差異化,類似現在 Claude 專攻程式碼、ChatGPT 打磨普通使用者使用體驗。
始終相信強化學習潛力,從垂直迴歸通用
晚點:你從本科開始對強化學習感興趣,到博士畢業都一直研究同一個領域。中間沒有考慮過轉向嗎?
朱哲清:沒換過方向,但會有誘惑。之前有人拉我做基於 LLM 的聊天機器人、3D 卷積神經網路模型等等,都沒做多久,因為它和我的核心路徑沒太大關係,我最瞭解的還是強化學習,就應該沿著這條路走下去。
如果你覺得某個方向是正確的,那就得軸一點。Richard Sutton(強化學習奠基人,圖靈獎獲得者)早年非常不順利,他的研究近四年無人問津,也找不到教職。Geoffrey Hinton(深度學習奠基人,圖靈獎、諾貝爾獎獲得者)也類似,當時他提出深度神經網路的時候,所有人都說這是狗屁,沒人覺得它有未來。
晚點:但沿著一個技術方向走到底之前,總得先判斷它的前景如何。
朱哲清:這方面我和 Richard Sutton 交流過,結論是得找到 “Toy Example”(玩具案例)——用極少的計算量驗證一個問題別的技術解決不了,而你的技術可以做。案例必須有現實意義、普適性。
我本科上 AI 課的時候,有一個下棋的資料集。其他演算法都假設未來是完全隨機的,每次只預測一步,但強化學習演算法會考慮策略整體的合理性,有規劃地改變局勢走向。類似地,人面對生活中大多數問題時,不會每次只規劃一個步驟。這時你就能知道強化學習在規劃問題時有第一性原理優勢。
晚點:按照這個思路會錯過大語言模型嗎?大語言模型規模沒到一定程度前,效果並不驚豔。
朱哲清:但沒有任何代替方案效果接近大語言模型。
晚點:最初你提出要以強化學習演算法為核心搭建 Agent 後,得到的反饋如何?
朱哲清:最開始我和投資人聊是去年九、十月份的時候,那時候其實 AI Agent 還不火,強化學習也不火。有投資人說 “沒人會投你們的,你們過於超前了。”
學界、業界的人聽到我想法後,則覺得非常有潛力。甚至我十月份出來創業以後,有人直接問我能不能加入新公司。當時我們還沒透露融資等各種情況。
晚點:然後沒幾個月,靠強化學習提升智慧的 o1 模型就釋出了。
朱哲清:OpenAI 說 o1 是強化學習驅動的,但大家不知道他背後的邏輯是什麼。
真正帶火強化學習的是 DeepSeek。它類似當年 Alpha Go 到 Alpha Zero 的中間態,不需要人為標註每一個結果的好壞,透過某種規則就能判斷 Agent 一系列行為的優劣。這意味著不再需要人工創造大量資料,Agent 的每一個行為結果都可以立刻被檢驗。
晚點:OpenAI o1、DeepSeek R1 用的強化學習方法,和你們用的強化學習方法區別是什麼?
朱哲清:強化學習只是一種方法,它可以用來訓練 o1、R1 這樣的 LLM,也可以用來訓練 Pokee 用的、不基於自然語言的強化學習模型。兩者原理都是一樣的,但為模型構建的環境不一樣、模型學習時的試錯方法也不一樣。
晚點:DeepSeek R1 帶火強化學習後,對你們有什麼影響?
朱哲清:強化學習不是共識前,很多人建議我們先落地一個應用。於是我們先花了兩個月做了個垂直電商 Agent,它集成了 Shopify(一個幫助商家搭建網店的服務公司)官方提供的所有資料介面,能幫 Shopify 商家給顧客推薦產品、提供售後服務。
R1 教育完市場後,上百個投資人來找我們、客戶也有幾十個,問我們是不是有做通用 Agent 的能力。這確實是我們創業的初衷。所以當時決定轉向做通用 Agent。
晚點:Shopify 允許外部 Agent 呼叫站內工具,類似開放的生態在中國也存在嗎?
朱哲清:相比北美和歐洲,中國網際網路生態更封閉。Facebook 開放更新 Facebook Page(公司、機構、KOL 等的公共主頁)的介面,Instagram 直接開放了專業使用者和創作者相關的幾乎全部介面。我們已經把 Google 和 Meta 的資料介面全部接完了,國內能不能整合百度或者騰訊所有的功能,得打個巨大的問號。
我猜因為商業環境更開放,通用 Agent 會先在北美爆發。
題圖來源:《芬奇》
 FIN 


相關文章