
一種名為“流”(streams)的新型智慧體方法將使 AI 模型能夠從環境體驗中學習,無需人類的“預先判斷”。
AI 界最近一直執迷於讓生成式 AI 不僅限於 AI 模型輕鬆就能透過的簡單測試。著名的圖靈測試在某種程度上已透過,而關於最新模型是不是為了在衡量效能的基準測試中作弊而開發的爭議愈演愈烈。
谷歌 DeepMind 部門的學者表示,問題不在於測試本身,而在於開發 AI 模型的方式有侷限性。
用於訓練 AI 的資料過於受限且靜態,永遠無法推動 AI 發展出更強大的新能力。
研究人員在 DeepMind 上週發表的一篇論文(麻省理工學院出版社即將出版的新書的一部分)中提出,必須允許 AI 擁有某種“體驗”,與世界進行互動,根據來自環境的訊號制定目標。
DeepMind 的兩位學者 David Silver 和 Richard Sutton 在題為《歡迎來到體驗時代》的論文、中寫道:“一旦充分發揮體驗式學習的潛力,難以置信的新能力就會應運而生。”

Richard Sutton(左)、David Silver(右)
這兩位學者是這個領域的傳奇人物。
Silver 領導團隊研發了 AlphaZero。
DeepMind 的這款 AI 模型在國際象棋和圍棋比賽中擊敗了人類。
Sutton 則是兩位捧得圖靈獎的開發者之一,開發了強化學習的 AI 方法,Silver 及其團隊正是用這種方法開發出了 AlphaZero。
這兩位學者倡導的方法立足於強化學習和 AlphaZero 積累的經驗。這種方法名為“流”( streams),旨在彌補當今大語言模型(LLM)的缺陷,而如今開發的LLM僅僅為了回答人類提出的問題。

Silver 和 Sutton 認為,在 AlphaZero 及前身 AlphaGo 橫空出世後不久,ChatGPT 等生成式 AI 工具登臺亮相,“拋棄”了強化學習。此舉有利也有弊。
生成式AI 是重要的進步,因為 AlphaZero 使用強化學習僅限於有限的應用領域。這項技術無法適用於所有規則已知的需要“完整資訊”的棋類(比如國際象棋)之外的領域。
另一方面,生成式 AI 模型可以處理來自人類的從未遇到過的自發輸入,不需要事情應該如何發展方面的明確規則。
然而他們寫道,擯棄強化學習意味著“從此失去了智慧體獨自發現自身知識的能力”。
他們認為,相反,LLM 依賴人類的預先判斷,或者說人類在提示階段想要的結果。這種方法過於侷限。他們認為,人類的判斷給智慧體的效能或表現“設定了難以逾越的上限”:智慧體無法發現人類評估者低估的更好策略。
人類判斷不僅構成了障礙,提示式互動具有的簡短、縮略的特性還使AI模型無法擺脫問答模式。
研究人員寫道,在人類資料時代,基於語言的AI主要關注短促的互動場景:比如使用者提出問題,然後(可能經過幾個思考步驟或使用工具的操作後)智慧體做出回應。智慧體的目標僅限於針對當前場景給出結果,比如直接回答使用者的問題。
提示式互動沒有記憶,各個互動片段之間也沒有連續性。
Silver 和 Sutton 寫道,通常幾乎沒有資訊從一個場景延續到下一個場景,阻礙了逐漸適應。然而在體驗時代,智慧體將存在於體驗流中,而不是短暫的互動片段中。
Silver 和 Sutton 將體驗流與人類透過一生積累經驗進行學習進行了類比,基於長遠目標而非眼前的任務執行行動。他們寫道,強大的智慧體應該有自己的體驗流,像人類一樣在長時間跨度上逐漸進化。
當今的技術足以開始構建體驗流。
事實上,我們可以從業界動態看到這方面的頭幾步,比如瀏覽網頁的 AI 智慧體,包括 OpenAI 的 Deep Research。
最近,新一波原型智慧體開始以更通用的方式與計算機互動,使用與人類使用的同一種介面操作計算機。瀏覽器智慧體標誌著從完全由人類特許的溝通,變成自主程度大大提高的互動(智慧體能夠在這個世界獨立行動)。
Silver 和 Sutton 認為,隨著 AI 智慧體超越單純的網頁瀏覽,它們需要一種與世界互動並從中學習的方式。
他們提出,流概念的 AI 智慧體將採用與 AlphaZero 相同的強化學習原理進行學習。
機器被賦予呈現與其互動的世界的模型(類似棋盤)和一套規則。
當 AI 智慧體探索並採取行動時,它會收到獎勵形式的反饋。這種獎勵訓練 AI 模型,讓其瞭解在特定情況下,哪些行動更有價值、哪些沒有價值。
Silver 和 Sutton 認為,如果允許智慧體尋找提供這種獎勵的各種“訊號”,這個世界充滿了這樣的訊號。如果不是來自人類資料,獎勵又來自哪裡?一旦智慧體透過豐富的行動和觀察空間與世界建立聯絡,就根本不缺提供獎勵基礎的可靠訊號。事實上,這個世界滿眼是定量訊號,比如成本、錯誤率、飢餓、生產力、健康指標、氣候指標、利潤、銷售額、考試成績、成功、訪問量、收益、股票、點贊、收入、愉悅/痛苦、經濟指標、準確率、距離、速度、效率或能耗。此外,無數的額外訊號來自特定事件的發生,或來自從觀察和行動的原始序列中提取的特徵。
為了從底層開始構建 AI 智慧體,AI 開發者可能會使用“世界模型”模擬。
世界模型讓 AI 模型可以進行預測,在現實世界中測試這些預測,然後利用獎勵訊號讓模型更貼近現實。隨著智慧體在體驗流中不斷與世界互動,其動態模型不斷更新,以糾正預測方面的任何錯誤。
Silver 和 Sutton 仍預計人類在設定目標方面發揮作用,訊號和獎勵則用來引導智慧體。
比如說,使用者可能指定一個寬泛的目標,比如“提升我的健康水平”,獎勵函式可能返回表明使用者心率、睡眠時長和步數的結果。或者,使用者可能指定“幫助我學習西班牙語”的目標,獎勵函式可能返回使用者的西班牙語考試成績。
人類反饋成為“最高階目標”,其他一切都服務於此目標。
研究人員寫道,擁有這種能力的AI智慧體將更適合成為 AI 助手。它們可以追蹤某人數月或數年的睡眠和飲食情況,提供不僅限於近期趨勢的健康建議。這類智慧體還可以充當教學助手,長期跟蹤學生的學習進度。
科學智慧體可以實現宏大的目標,比如發現新材料或減少二氧化碳排放。這樣的智慧體可以長期分析現實世界的觀察結果,開發和執行模擬,並提出現實世界的試驗或干預建議。
研究人員認為,體驗智慧體可能會超越像 Gemini、DeepSeek 的 R1 和 OpenAI 的 o1 這樣的“思考”或“推理”AI 模型。
推理智慧體的問題在於,當它們生成關於答案步驟的冗長輸出時,實際上“模仿”人類語言,而人類思維可能受到其固有假設的限制。
研究人員寫道,體驗智慧體將釋放前所未有的能力,從而帶來與我們以往所見截然不同的未來。然而他們指出,也存在著諸多風險。這些風險不僅僅集中在AI智慧體取代人類勞動力,不過他們特別指出失業是風險之一。智慧體能夠長期自主地與世界互動以實現長期目標,這減少了需要人類干預和調解智慧體行動的機會。
他們認為,積極的一面是,相比當今固定僵化的 AI 模型,能逐漸適應的智慧體能夠識別其行為何時引發人類的擔憂、不滿或痛苦,並自動調整行為以避免這些負面後果。
拋開細節不談,Silver 和 Sutton 相信,流體驗會生成更多關於世界的資訊,資訊量將遠遠超過用於訓練當今AI的所有維基百科和 Reddit 資料。基於流的智慧體甚至可能會超越人類智慧,預示著通用AI或超級智慧到來。
研究人員寫道,經驗資料將在規模和質量上遠超人類生成的資料。這種正規化轉變,輔以強化學習在演算法方面的進步,將在許多領域發掘人類望塵莫及的新能力。


