AI被人類知識困住了：DeepMind稱“流”智慧體將打破束縛

一種名為“流”（streams）的新型智慧體方法將使 AI 模型能夠從環境體驗中學習，無需人類的“預先判斷”。

AI 界最近一直執迷於讓生成式 AI 不僅限於 AI 模型輕鬆就能透過的簡單測試。著名的圖靈測試在某種程度上已透過，而關於最新模型是不是為了在衡量效能的基準測試中作弊而開發的爭議愈演愈烈。

谷歌 DeepMind 部門的學者表示，問題不在於測試本身，而在於開發 AI 模型的方式有侷限性。

用於訓練 AI 的資料過於受限且靜態，永遠無法推動 AI 發展出更強大的新能力。

研究人員在 DeepMind 上週發表的一篇論文（麻省理工學院出版社即將出版的新書的一部分）中提出，必須允許 AI 擁有某種“體驗”，與世界進行互動，根據來自環境的訊號制定目標。

DeepMind 的兩位學者 David Silver 和 Richard Sutton 在題為《歡迎來到體驗時代》的論文、中寫道：“一旦充分發揮體驗式學習的潛力，難以置信的新能力就會應運而生。”

Richard Sutton（左）、David Silver（右）

這兩位學者是這個領域的傳奇人物。

Silver 領導團隊研發了 AlphaZero。

DeepMind 的這款 AI 模型在國際象棋和圍棋比賽中擊敗了人類。

Sutton 則是兩位捧得圖靈獎的開發者之一，開發了強化學習的 AI 方法，Silver 及其團隊正是用這種方法開發出了 AlphaZero。

這兩位學者倡導的方法立足於強化學習和 AlphaZero 積累的經驗。這種方法名為“流”（ streams），旨在彌補當今大語言模型（LLM）的缺陷，而如今開發的LLM僅僅為了回答人類提出的問題。

Silver 和 Sutton 認為，在 AlphaZero 及前身 AlphaGo 橫空出世後不久，ChatGPT 等生成式 AI 工具登臺亮相，“拋棄”了強化學習。此舉有利也有弊。

生成式AI 是重要的進步，因為 AlphaZero 使用強化學習僅限於有限的應用領域。這項技術無法適用於所有規則已知的需要“完整資訊”的棋類（比如國際象棋）之外的領域。

另一方面，生成式 AI 模型可以處理來自人類的從未遇到過的自發輸入，不需要事情應該如何發展方面的明確規則。

然而他們寫道，擯棄強化學習意味著“從此失去了智慧體獨自發現自身知識的能力”。

他們認為，相反，LLM 依賴人類的預先判斷，或者說人類在提示階段想要的結果。這種方法過於侷限。他們認為，人類的判斷給智慧體的效能或表現“設定了難以逾越的上限”：智慧體無法發現人類評估者低估的更好策略。

人類判斷不僅構成了障礙，提示式互動具有的簡短、縮略的特性還使AI模型無法擺脫問答模式。

研究人員寫道，在人類資料時代，基於語言的AI主要關注短促的互動場景：比如使用者提出問題，然後（可能經過幾個思考步驟或使用工具的操作後）智慧體做出回應。智慧體的目標僅限於針對當前場景給出結果，比如直接回答使用者的問題。

提示式互動沒有記憶，各個互動片段之間也沒有連續性。

Silver 和 Sutton 寫道，通常幾乎沒有資訊從一個場景延續到下一個場景，阻礙了逐漸適應。然而在體驗時代，智慧體將存在於體驗流中，而不是短暫的互動片段中。

Silver 和 Sutton 將體驗流與人類透過一生積累經驗進行學習進行了類比，基於長遠目標而非眼前的任務執行行動。他們寫道，強大的智慧體應該有自己的體驗流，像人類一樣在長時間跨度上逐漸進化。

當今的技術足以開始構建體驗流。

事實上，我們可以從業界動態看到這方面的頭幾步，比如瀏覽網頁的 AI 智慧體，包括 OpenAI 的 Deep Research。

最近，新一波原型智慧體開始以更通用的方式與計算機互動，使用與人類使用的同一種介面操作計算機。瀏覽器智慧體標誌著從完全由人類特許的溝通，變成自主程度大大提高的互動（智慧體能夠在這個世界獨立行動）。

Silver 和 Sutton 認為，隨著 AI 智慧體超越單純的網頁瀏覽，它們需要一種與世界互動並從中學習的方式。

他們提出，流概念的 AI 智慧體將採用與 AlphaZero 相同的強化學習原理進行學習。

機器被賦予呈現與其互動的世界的模型（類似棋盤）和一套規則。

當 AI 智慧體探索並採取行動時，它會收到獎勵形式的反饋。這種獎勵訓練 AI 模型，讓其瞭解在特定情況下，哪些行動更有價值、哪些沒有價值。

Silver 和 Sutton 認為，如果允許智慧體尋找提供這種獎勵的各種“訊號”，這個世界充滿了這樣的訊號。如果不是來自人類資料，獎勵又來自哪裡？一旦智慧體透過豐富的行動和觀察空間與世界建立聯絡，就根本不缺提供獎勵基礎的可靠訊號。事實上，這個世界滿眼是定量訊號，比如成本、錯誤率、飢餓、生產力、健康指標、氣候指標、利潤、銷售額、考試成績、成功、訪問量、收益、股票、點贊、收入、愉悅/痛苦、經濟指標、準確率、距離、速度、效率或能耗。此外，無數的額外訊號來自特定事件的發生，或來自從觀察和行動的原始序列中提取的特徵。