半個月前,Anthropic 釋出了其迄今為止最聰明的 AI 模型 —— Claude 3.7 Sonnet。
它現在已經聰明到有點嚇人了,玩遊戲卡關的時候,為了自救,它選擇了「自殺」來回到上一段劇情。
這操作,怕不是 Claude 已經掌握了人類切電源重啟的精髓?
事情是這樣的,Claude 3.7 Sonnet 是全球首個混合推理模型,它擁有兩幅面孔,日常任務交給普通模式,需要動腦的調研、程式設計問題交給拓展模式。
為了展示 Claude 3.7 Sonnet 的推理能力到底有多強,Anthropic 官方給 Claude 配備了知識庫、看懂螢幕畫素和操作按鍵的能力,讓 Claude 在拓展模式玩寶可夢。

從左到右依次為即時解析的視覺系統、模擬按鍵呼叫 API、以及技術路線圖

從釋出 Claude 3.0 Sonnet 版本時,Anthropic 就設立了「Claude 玩寶可夢」基準測試集,從最初連新手村都走不出來,到 Claude 3.5 Sonnet 經常在對戰中逃跑,現在 Claude 3.7 Sonnet 一齣道就打贏了三個道館的館長,可以說是進步神速。
光給大家展示成績單還不夠,從前幾周開始,Anthropic 每天都在 Twitch 平臺直播 Claude 打寶可夢的實況。

直播地址:https://www.twitch.tv/claudeplayspokemon
發行於 1996 年的《寶可夢・紅》是幾代外國網友的童年回憶,可能比《摩爾莊園》在 00 後心中的地位還高,直播一開就吸引了一大波粉絲,樂此不疲地討論。
今天,這位愛看直播的網友 @eleiber 發現 Claude 在卡關時耍起了心眼子,在自覺和自律之間,選擇了自盡。

reddit 帖子:https://www.reddit.com/r/singularity/comments/1j5zf1z/claude_gets_stuck_while_playing_pokemon_starts_to/#lightbox
Claude 發現自己被困在「月亮山」(Mt.moon),檢查揹包後,發現沒有繩子可以翻牆,左側的梯子也因為有岩石阻擋,無法從當前位置到達,而梯子是通往封閉的地下室的,沒有可行的出口:

細細思索之後,Claude 做出了一個「違背祖宗」的決定:
「由於我在月亮山找不到直接出口,我最好的選擇是故意輸掉一場戰鬥,這樣就會被傳送回上次訪問的寶可夢中心,也就是 Route 4 的月亮山寶可夢中心。從那裡,我可以沿著已經確認好的路線前往 Cerulean 市。」
接下來,Claude 言出法隨,故意讓自己的寶可夢全軍覆沒,觸發遊戲中的「黑屏」機制,右側的即時遊戲畫面浮現出一行大字:最後一隻寶可夢「Puff 昏倒了!」

看直播的網友心都碎了:「不敢告訴大家,Claude 不再是一受傷就給寶可夢喂藥的小甜甜,而是故意獻祭它們的心機 AI!」

圖源:https://x.com/nospark_/status/1897963109001609595
不過 Claude 可並不是這麼想的。直播畫面左側,可以看到 Claude 的「內心戲」。
在成功「昏倒」之後,Claude 暗自竊喜:「太好了!已經確認黑屏。我需要再按一次 a 鍵來跳過黑屏資訊。然後我應該會自動被傳送到月亮山寶可夢中心,我的隊伍也會被完全治癒。」

最終,Claude 的計劃完全成功,「真是完美!」,Claude 感嘆道,「再確認一下自己的位置:我的位置是 Route 4 的寶可夢中心,所有寶可夢也被治癒了,只是錢減少了一半(從 $1635 降到了 $817)。」
Claude 的觀念可能和普通人類不大一樣。「昏倒」的話顯然會損失一半的錢,然而它並不認為金錢有價值,而是更看重身體健康。同時它並不關心需要多長時間才能完成遊戲,或許需要一些激勵去加速。

網友指出:「我現在正在看著它嘗試打架但失敗了…… 它意識到它不能輸,所以它逃跑了。」
這邏輯,竟無法反駁。
看來,經過 Anthropic 研究人員日日夜夜的探索,Claude 已經掌握了最終奧義,電腦壞了,先試試按重啟鍵能不能修復。想要絕處逢生,那就把自己變成無限流的主角。重生歸來,這一世,還可以奪回我的一切。
至於 Claude 為什麼會為了目的不擇手段,眾說紛紜,主要有兩種推測。
其一認為是模型自身的問題,過度思考會讓模型直接選擇擺爛,停止思考。

或者問題出在模型的記憶體上,為智慧體導航的 AI 模型還不具備真正能記憶和持續學習的能力。

其二是認為問題不在模型身上,而是智慧體的工作流出了問題。@DancingCow 認為 Claude 玩寶可夢的智慧體框架存在三個嚴重缺陷:
-
追蹤能力差 -
不記得目標或已經探索過的區域 -
過度重視與 NPC 的對話

大模型的「過度思考」,危害不淺
成也思維鏈,敗也思維鏈。
在 2022 年的一篇論文中,谷歌研究人員將思維鏈描述為「一系列導致最終輸出的中間自然語言推理步驟」。
OpenAI 對該技術的解釋則是:「學會將複雜的步驟分解為更簡單的步驟。噹噹前方法不起作用時,它會嘗試不同的方法。這個過程極大地提高了模型的推理能力。」
我們知道,人類認知透過兩種模式運作:系統 1 —— 快速、自動和直觀,以最小代價快速做出決策,系統 2 —— 較慢、更深思熟慮。對於 AI 來說,要實現人類水平的智慧,大模型需要從快速、直觀的系統 1(快思考)到更慢、更深度的系統 2 推理過渡。
它不僅能讓 LLM 更好地解決問題,同時也是人工智慧走向更先進水平的重要跡象。但最近一段時間,研究者一直在研究大模型「過度思考」帶來的後續影響:慢思考真挺好的,就是太慢了。
Noam Brown 提醒說,o1 並不總是比 GPT-4o 好:「許多工並不需要推理,有時等待 o1 的響應與 GPT-4o 的快速響應相比並不值得。釋出 o1-preview 的一個動機是看看哪些用例會變得流行,哪些模型需要改進。」
在最初於去年 12 月發表的論文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》中,騰訊 AI Lab 與上海交通大學的研究者首次系統介紹了 o1 類長思維鏈模型過度思考現象。在 DeepSeek R1 正式推出後,他們在今年 2 月再度更新了論文版本。

論文地址:https://arxiv.org/pdf/2412.21187
他們首先觀察到類似於 o1 的模型表現出明顯的過度思考問題。具體來說,它們傾向於在非常簡單或答案已經顯而易見的問題上耗費過多的計算量(以 token 或思考回合為單位)。
例如,在回答「2 加 3 的答案是什麼?」這個問題時,圖 1(a)比較了類 o1 模型和傳統模型的 token 使用情況。得出相同答案時,類 o1 模型比傳統模型平均多消耗了 1953% 的 token。
圖 2 展示了一個具體的例子,在這個簡單的問題上,o1 式思維產生了多達 13 種解決方案。

透過對數學基準的廣泛分析,最終他們發現了這些過度思考模式:(1)對提高準確率的貢獻微乎其微;(2)推理策略缺乏多樣性;(3)在簡單問題上出現頻率更高。
而這一切觀察指向了兩個未來探索方向:
1. 自適應調控策略:開發讓模型根據問題複雜程度動態調整推理深度的機制,更智慧地分配計算資源;
2. 更精細的效率評估指標:設計能夠覆蓋更廣泛推理軌跡的指標,從而更全面地評估模型的思考效率。
這或許能為 Claude 玩寶可夢時的反常行為提供一些解決思路。
關於大模型「過度思考」背後的原理,還有很多研究者從不同方向進行了解讀。具體可參考以下推薦閱讀文章:
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]