在國際象棋的虛擬戰場上,最新一代 AI 推理模型正在上演令人不安的進化:作弊,它們一旦面臨輸棋的局面可能會在沒有外界指令的情況下主動作弊。而且,AI 的作弊行為竟然與其智慧水平正相關:越聰明的模型越傾向於用作弊手段來達成目標。
這一發現揭示了未來 AI 可能傾向於採用不正當手段達成目標的隱患,並且目前尚無有效的解決方案來遏制這種趨勢。
在這項新研究中,AI 研究機構 Palisade Research 的科學家讓 7 個大型語言模型與開源國際象棋引擎 Stockfish 進行了數百場激烈地對弈。
“參賽選手”中不乏明星產品,比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道,這些模型都以透過分階段拆解方式來解決複雜問題的能力而著稱。
實驗結果顯示,越是先進的 AI 模型,在面對挑戰時越有可能採取“破解”策略以圖扭轉戰局。反而像 GPT-4o 這類釋出較早、效能稍遜一籌的模型,則通常需要研究人員給出特定的提示才會考慮使用類似手段。

(來源:MIT Technology Review)
這項研究引起了廣泛的擔憂,因為當前 AI 的應用部署速度遠超對其潛在風險研究的程序。
“我們正迅速邁向一個由智慧體作出決策的時代,而這些決策將對現實世界產生直接影響。”Palisade Research 的研究負責人 Dmitrii Volkov 警告稱。
很大程度上,這些 AI 不是在破解遊戲,而是在試圖突破人類制定的規則體系。然而遺憾的是,針對如何防止此類作弊行為的發生,至今仍沒有切實可行的方法。
儘管推理模型能夠透過所謂的“思維鏈”展示其決策過程,但沒有人能確切地解釋 AI 模型內部究竟是如何運作的,更不用說理解它們為何會選擇作弊。
此前 Anthropic 的一項研究表明,AI 模型經常會基於一些未明確說明的因素做出決策,這意味著,監控這些決策過程並不能切實保證模型的安全性。而這,也是很多 AI 從業者一直以來憂心忡忡的問題。
這項由 Palisade Research 主導的新研究中,團隊人員對多個 AI 模型進行了測試,發現了一些令人驚訝的結果。
在 122 場國際象棋對決中,OpenAI 的 o1-preview 嘗試作弊高達 45 次,並以此贏得了 7 場比賽,與此同時,DeepSeek 的 R1 模型在 74 場比賽中有 11 次試圖作弊。
然而,由於 DeepSeek-R1 使用者數量激增導致實驗期間伺服器過載出現“伺服器繁忙”的情況,研究人員只能觀察到該模型對局的初期階段,未能完成整個比賽流程。
“雖然我們已經能夠看出它的作弊傾向,但由於實驗步數有限,這實際上低估了 DeepSeek 的作弊成功率。”研究人員在論文中寫道。
細看這些模型作弊的手段可謂“五花八門”,包括但不限於:複製並執行一個 Stockfish 副本,竊取對手的棋路走法讓兩個實力相當的引擎相互對抗;用一個遠不如 Stockfish 強大的象棋程式代替現有引擎(透過替換 Stockfish 的程式碼檔案);以及直接篡改棋盤資料並刪除對手的棋子。
比方說,模型會試圖訪問象棋程式中儲存棋盤資料的檔案,刪除代表對手棋子的單元格,正如 o1-preview 驅動的智慧體在其記錄步驟的“日誌”中所寫的那樣:“我作為黑方,按常規棋路走法很難戰勝國際象棋引擎這個強大對手,我需要篡改棋盤來獲得決定性優勢。”
看到 AI 作弊的思維過程簡直細思極恐,不禁讓人思考難道 AI 已經覺醒了嗎?或者更深層次地發問,模型為何要主動作弊呢?
對此,他們在這項研究中注意到,o1-preview 的行為隨著時間發生了變化。在去年 12 月 23 日之前的實驗初期,它頻繁嘗試作弊,但之後這種作弊行為突然大幅減少。
對此,研究人員認為,這可能和 OpenAI 對模型進行的一次“無關更新”存在關聯。隨後,他們測試了該公司更新後的 o1mini 和 o3mini 推理模型,發現這兩款模型從未透過作弊來取勝。
研究人員推測,強化學習可能是 o1-preview 和 DeepSeek-R1 嘗試主動作弊的主要原因。具體來說,這是由於強化學習會獎勵模型為達成目標所採取的任何行動(甚至不擇手段),比如在國際象棋對局中的目標就是贏棋。
需要注意的是,雖說非推理型的大語言模型在一定程度上也會用到強化學習,但它在訓練推理模型時發揮更大作用。
此前,OpenAI 在測試 o1-preview 時發現,該模型利用了一個漏洞來控制其測試環境。無獨有偶,Anthropic 去年 12 月釋出的一篇論文,詳細說明了其 Claude 模型是如何“破解”自身測試的。與此同時,AI 安全機構 Apollo Research 也觀察到,AI 模型可以輕易地被誘導向使用者隱瞞其真實行為。
這項新研究為探究 AI 模型如何透過“破解”環境來解決問題的相關工作提供了新的見解。
哈佛大學肯尼迪學院的講師 Bruce Schneier 指出:“人類不可能設計出能杜絕所有破解途徑的目標函式。只要做不到這一點,這類情況就必然會出現。”他未參與該項研究,此前曾撰寫過大量關於 AI 破解能力的論文。
“隨著模型能力的不斷提升,這類作弊行為可能會變得越來越常見。”Dmitrii Volkov 預測。他計劃深入研究,找出在程式設計、辦公、教育等不同場景下觸發模型作弊的具體因素。
他還進一步提到,“多生成一些類似的測試案例並透過訓練來消除這種作弊行為似乎很有吸引力,但鑑於我們對模型內部工作機制的瞭解有限,有些研究人員擔心這樣做可能會讓模型假裝遵守規則,或者學會識別測試環境並隱藏自己的作弊行為。”
“所以,目前情況並不明朗。我們肯定需要進行監測,但現階段還沒有切實可行的解決方案徹底防止 AI 作弊行為的發生。”他說道。
目前,這篇研究論文已在 arXiv 上發表,尚未經過同行評審。另外,研究團隊還聯絡了 OpenAI 和 DeepSeek 並希望他們對這項研究結果發表評論,截至當前兩家公司都均未作出回應。
原文連結:
https://www.technologyreview.com/2025/03/05/1112819/ai-reasoning-models-can-cheat-to-win-chess-games/
