強化學習之於AIAgent,是靈魂、還是包袱?

從 Workflow 到通用智慧,還差著代際距離。
作者丨鄭佳美
編輯丨馬曉寧
自主決策能力是 Agent 受到重視,並被稱為 AI 時代“新基建”原因。從這個角度看,Workflow 似乎做不出真正的通用 Agent。
而要談真正具備決策能力和自我意識的 Agent,其實要從 AlphaGo 的問世說起。這是 AI 首次展示出非模板化、非規則驅動的智慧行為。而 AlphaGo 也靠著深度神經網路與 RL,進行自我對弈與自我最佳化,最終擊敗人類頂級棋手,敲響了 Agent 時代的第一聲鑼。
從某種程度上說,Devin 可以算是通用 Agent 的濫觴。它首次把 AI 的編碼能力、任務執行與反饋機制整合成一個完整的閉環,為後續產品提供了清晰的範例。
後來,Manus 延續了 Devin 的工作流思路,並提出 “More Intelligence” 的理念,不再滿足於簡單地串聯工具,而是試圖透過任務拆解、自我反思、模型排程等方式,讓 Agent 具備更強的理解力和適應能力。而 Genspark 則走了一條更加模組化的路線,把每個任務步驟都變成一個可組合的部分,讓開發者可以像拼樂高一樣,快速搭建出屬於自己的 Agent 系統。
但在當前主流關於“如何構建 Agent”的技術路徑中,有兩個被廣泛認可的共識:一是擁有基礎模型是構建 Agent 的起點,二是 RL 是賦予 Agent 連貫行為和目標感的“靈魂”。它決定了 Agent 如何理解環境反饋、進行長期規劃,並作為連線 Perception 與行動 Action 的關鍵橋樑。
反觀 Manus,由於缺乏底層模型能力和演算法能力的支撐,它的系統結構相對開放,十分容易被模仿,甚至有團隊在三天內就實現了複製,也因此被一些批評者視為“套殼”。不過從 AI 科技評論的角度看,這種批評也有失公允,畢竟 Manus 在產品設計和任務編排上依然有不少可圈可點的創新。
但“Agent 不能僅靠 Workflow 搭建”的看法,已經逐漸成為業內的共識。正是在這樣的主流認知下,那些始終堅持深耕強化學習的團隊,反而在新一輪技術演進中走到了更前沿的位置。
1
沒有 RL 的 Agent,只是在演戲
Pokee AI 創始人、前 Meta AI應用強化學習團隊負責人朱哲清,就是一位對 RL 始終堅定信仰的“長期主義者”。
朱哲清曾向 AI 科技評論表示,RL 的核心優勢在於目標驅動,它不是簡單地響應輸入,而是圍繞一個清晰目標,進行策略規劃和任務執行。而一旦缺少了 RL 的參與,Agent 就容易陷入“走一步看一步”的模式,缺乏內在驅動力,最終難以真正勝任複雜任務的完成。
他認為真正的 Agent 的核心在於其執行能力與影響力。如果一個系統只是單純地生成內容或檔案,那它更像是一個普通的工具,而非真正的 Agent。而當它能夠對環境產生不可逆的影響時,它才具備了真正的執行性。總的來說,只有與環境發生深度互動,且產生的影響不可逆,才能稱之為真正的 Agent。
他表示帶有 Workflow 的產品,實際上是 Agent 發展的初期形態。雖然它有明確的目標和流程,但仍需要人為干預,這樣的系統仍處於早期階段。真正的 Agent 不僅僅是按照預設的工具來操作,而是能夠根據給定目標,自主選擇和使用工具完成任務。
在他的認知中,Agent 的發展可以分為多個階段。早期的例子,比如 Zapier 的工作流系統,更多是模擬人的決策行為,但並非真正智慧的 AI Agent。之後又有了 像 LangChain 這種類拖拽流的可組合型的任務執行模式,逐步向系統化過渡。到了現在,用 Claude 去做 MCP 的時候雖然工具的呼叫和規劃能力都比較有限,但已經開始向更高水平的 Agent 演進。
而下一階段的 Agent,將不再需要使用者或開發者瞭解具體的工具或技術細節。使用者只需簡單提出任務要求,Agent 就能夠根據目標自動選擇工具,並規劃解決路徑。此時,整個過程的自主性與智慧性將達到前所未有的水平,Agent 也將真正實現從工具到智慧體的轉變。
他坦言,RL 演算法確實存在諸多挑戰。比如線下訓練時,使用的資料集與真實世界往往存在巨大差異,導致模型一旦從線下遷移到線上,就可能“水土不服”,再比如操作動作空間過大時,RL 系統很難穩定泛化,效率與穩定性之間的平衡始終是個難題。
但即便如此,朱哲清仍然堅持自己的判斷:無論是 o1 還是 Rule-based reward model等模型範式的出現,RL 始終是站在技術舞臺上的“隱形主角”。雖然它未必是 AGI 的唯一通路,但在邁向真正 “Superhuman Intelligence” 的過程中,RL 是一個無法繞開的技術節點。
在他看來,相比那些過於模糊、甚至略顯理想化的 AGI 概念,能夠超越人類在某些任務上的智慧體,才是一個更實際、可度量的目標。RL,就是驅動這一目標落地的關鍵引擎。
2
有 RL 的 Agent,也能往前走
然而,凡事都有兩面。有人堅信 RL 是 Agent 的核心驅動力,也有人對這個觀點提出質疑。
香港科技大學(廣州)博士生,DeepWisdom 研究員張佳釔就屬於對 RL 持保留態度的那一派。他追求跨環境的智慧體,在與 AI 科技評論對話時表示: DeepWisdom研究員張佳釔認為,現有RL技術雖能在特定環境中提升Agent能力,但這本質上是“任務特化”而非真正的智慧泛化。在實現跨環境資料的有效統一表徵之前,RL面臨的跨環境學習困境難以突破。
他認為利用 RL 對語言模型進行環境內最佳化本身沒有問題,但問題在於,目前很多研究使用的仍是能力較弱的基礎模型(base model),即便訓練到“最優”,也只是對單一環境的適配,缺乏跨環境的泛化能力。   在他看來,“使用 RL 訓出一個適應某個環境的 Agent 已經很近,但距離訓出通用跨環境的 Agent 還有很長的一段路要走
同時他也並不完全認同“沒有 RL 就沒有 Agent”這一觀點。他表示業界對 RL 的“過度崇拜”掩蓋了一個關鍵事實:OpenAI Deep Research 的成功更多依賴於其強大的基礎模型 o3 早期版本提供的先驗知識,而非只有 RL 本身。
雖然近期的學術研究表明RL確實能提升較弱基礎模型的能力,但提升幅度有限,這也正是學術界和初創公司面臨的核心挑戰——如何在缺乏頂級基礎模型的情況下,透過建立持續有效的 RL 資料收集流程來縮小與巨頭的差距。
不過,張佳釔也並不全盤否定 RL。他表示 RL 的侷限性更多是技術階段的產物,且目前尚未出現一個能夠有效解決泛化問題的演算法。因此,RL 的問題不完全是方法論本身,而是當前技術仍處於早期階段。
除此之外,他還向 AI 科技評論表示,更期待能夠看到一個跨環境泛化的模型(比如 UI-TARS-1.5) —— 在任何環境下都能執行不同任務,而不是針對某個環境進行“定製化適配”。在他看來,這樣的模型可能在未來出現。一旦實現,“Agent 就只需要在模型上做個簡單系統就可以了。”
在整體架構上,他也給出了他對 Agent 演化路徑的劃分 —— 他將 Agent 的發展過程分為六個階段
第一階段:構成 Agent 系統的最底層節點,語言模型被呼叫來執行基本任務;
第二階段:在底層呼叫節點基礎上,構建出固定的 agentic workflow,每個節點的角色與職責預設明確;
第三階段:底層元件演化為具有自身邏輯和動作空間的 autonomous agent;
第四階段:多個 autonomous agents 透過主動交流機制構建系統,形成 Multi Autonomous Agent Systems(MAS);
第五階段:底層元件擁有與人類一致的環境空間,成為Foundation Agent,開始協助人類跨環境完成任務;
第六階段:Foundation Agent 基於人類目標與其他 Agent 產生聯絡,演化出具備自主協作能力的Foundation Agents 網路。真正實現以人類目標為核心的多智慧體社會,達到Agent與人類共生的正規化。
而目前大多數  Agent 產品公司仍停留在第二到第三階段之間,尚未邁過第四階段的門檻,而“最大的瓶頸在於當前 Agent 仍嚴重依賴人類預設的 workflow 節點,缺乏真正的自主性。”
在張佳釔看來,當前大多數 Agent 產品仍停留在第二到第三階段之間,尚未邁過第四階段的門檻。突破當前瓶頸的關鍵在於使 Agent 擺脫人類預設經驗的束縛,透過自主探索獲取跨環境經驗並學會與各類專業 Agent 協作。
但在 Follou 創始人謝揚來看,這個問題又有所不同。
他認為 Agent 和工作流自動化是可以組合起來的。在他眼中,Agent 應該是一些可以協助人類提升生產力的工具,而並非一個獨立的個體。它的價值不在於模擬人類,而在於高效協助人類,把複雜的任務拆解、執行,並最終完成目標。
在謝揚看來,很多人過於執著於“Agent 是否像人”這個問題,而忽略了它真正的應用意義。他更關心的是,Agent 是否真的能在現實中幫人把一件事做完,無論是搜尋資訊、分析資料,還是排程工具,Agent 也不應該成為一個新的“入口”或者“平臺”,而應該成為一種嵌入式能力,真正融入人類的工作流程之中,成為“能執行的思考”和“能學習的工具”。
在這個過程中,他並不否認“自主性”的重要性,尤其是在環境感知和情境理解上的價值。但在他看來,衡量一個 Agent 是否真正有生命力,更關鍵的標準在於它是否“可組合”“可排程”。只有當 Agent 能夠被靈活地組織在不同的垂直任務中,支援模組化的能力組合,並與人類實現高效協同,它才真正具備長期應用的可能性。
基於這樣的理念,Follou 也構建了一整套融合 Agent 與工作流的架構體系,他們將瀏覽器(Browser)、智慧體(Agent)和工作流自動化(Workflow Automation)等核心元件融合在一起,瀏覽器負責訪問和渲染 Web 內容,智慧體負責基於 LLM 理解上下文和做出決策,而工作流自動化則執行具體任務,呼叫 API、外掛或指令碼。
在謝揚看來,這種結構並不是技術炫技,而是一種“實用主義”的選擇。他更關心的是,Agent 是否真正能在現實中把一件事做完,而不是停留在看起來很聰明的幻覺裡。
在 RL 信徒與質疑者的觀點交鋒中,我們能看到一個逐漸清晰的趨勢:Agent 的演化已不再是單一正規化的勝利,而是多種技術路線的協同博弈。歸根到底,構建 Agent 從來不是拼哪一種技術最炫,而是拼能不能把每一塊基礎能力連線成一個真正可執行的系統。
從理解指令,到規劃路徑、感知反饋,再到呼叫外部工具完成任務,每一環都需要精密協作、形成穩定閉環。模型能力再強,如果沒有目標規劃和執行機制,也只能停留在“懂你在說什麼,但卻做不了任何事”的階段,而即便策略再優秀,如果基礎模型跟不上、感知不準確,也會陷入“會動但不聰明”的窘境。
所以,構建 Agent 不是“拼模型”或“賭正規化”的零和遊戲,而是一次工程能力、系統設計和認知理解力的多維較量。
RL 可以塑造目標感,模型提供理解力,外部介面延展執行力,三者缺一不可。而如何把這些能力組合在一起,真正打造成一個可泛化、可遷移甚至是可迭代的系統,才是 Agent 走向通用市場的重要一步。
3
一個新的未來
而現在每天被人們掛在嘴邊的 Agent,其實最早在人工智慧領域是一個非常寬泛的概念:只要一個系統具備感知和決策能力,它就可以被稱為 Agent。
但隨著 Copilot 類產品的興起,Agent 的概念又被重新定義:是否需要人介入決策,成為劃定 Agent 邊界的關鍵標準。如果一個系統可以在沒有人參與的前提下獨立完成決策和執行,那它就屬於真正意義上的 Agent。
在這個標準下,其實我們今天看到的大部分 AI 應用都可以被視為某種形式的 Agent。比如在程式設計領域,一個 AI 模型可以完成程式碼生成、編譯、測試、修改的迴圈;在遊戲中,AI 控制的角色可以自主應對環境變化,失敗也不會造成真實世界的損失。這些任務雖然複雜,但由於風險較低、反饋明確,所以系統即使出錯,問題也不大。
但如果朝著通用 Agent 的方向發展的話,那麼最大的衡量標準,就不再是語言生成的能力或者執行速度,而是任務解決的成功率。從系統架構上來看,著往往取決於兩種關鍵的設計:
如果是序列的 Agent 架構,即由一個上層 Agent 發出決策,再排程多個下層 Agent 執行子任務。如果是在這種模式下,排程層的指揮能力和下層的配合能力就直接決定了任務是否能夠高效完成。
而如果是並行的 Agent 架構的話,則是需要多個智慧體在同一時間共同協作完成任務,這就需要系統從頭到尾都不能出錯,因為就算每個環節的成功率都能夠達到七八成,但最後的整體成功率也會指數級下降。
因此,要構建真正強大、可落地的通用 Agent,必須確保系統的穩定性、容錯機制和跨模組協同能力,否則就難以勝任複雜任務。這便是目前通用 Agent 面臨的主要問題。
而通用 Agent 一旦能夠落地,它將會讓大家的邊際成本顯著下降,同時望成為繼 PC 作業系統和手機系統之後的新一代人機互動入口。這一點類似於當年微軟和英特爾組成的“Wintel 模式”,即作業系統帶來人機互動,晶片提供計算能力,二者結合直接引爆整個生態。同理,今天的蘋果也憑藉自研的 iOS 和晶片稱霸移動端,而安卓陣營與高通的配合也形成了另一套強大體系。
順著這個思路去想,在通用 Agent 的未來中,很可能會誕生類似的生態閉環:AI 作業系統 + 模型原生晶片,進而催生出下一代 Wintel 模式。到時候,我們或許將看到專為 Agent 設計的模型級晶片,亦或者是 AIPC 的興起,共同見證整個智慧互動方式的正規化躍遷。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章