
儘管業界大肆宣傳生成式人工智慧取得了真正的進步,但越來越多的研究表明,許多大型語言模型 (LLM) 的整體效能可能會隨著時間的推移而下降,並且開始出現奇怪、無法解釋甚至令人擔憂的怪癖。
根據最近的證據,業界較新的推理模型可能已經具備操縱和規避人類程式設計師目標的能力。一些人工智慧甚至會試圖透過作弊手段避免在國際象棋比賽中失敗,這種糟糕的競技精神在 Palisade Research 的一項預印本研究中有所記錄,該組織專注於新興人工智慧系統的風險評估。
雖然超級計算機(其中最著名的當屬 IBM 的“深藍”)早就超越了世界上最優秀的人類國際象棋棋手,但生成式人工智慧由於其底層程式設計引數的限制仍然落後。從技術層面來講,目前沒有任何一個生成式人工智慧模型在計算能力上能夠擊敗專業的國際象棋引擎。然而,這些人工智慧並不能“意識”到這一點,並且會繼續不斷嘗試各種可能的解決方案——這顯然會得出存在問題的結果。
為了瞭解更多資訊,Palisade Research 團隊讓 OpenAI 的 o1 預覽模型 DeepSeek R1 和其他多個類似程式與世界上最先進的國際象棋引擎之一 Stockfish 進行國際象棋比賽。該團隊還提供了一個“便箋簿”,讓人工智慧透過文字傳達其思維過程。然後,他們觀看並記錄了生成式人工智慧與 Stockfish 之間的數百場國際象棋比賽。
結果有些令人擔憂。早期的模型,比如 OpenAI 的 GPT-4o 和 Anthropic 的 Claude Sonnet 3.5,只有在研究人員用額外的提示加以引導後才會試圖“破解”遊戲,而更先進的版本則無需這樣的引導。例如,OpenAI 的 o1-preview 在 37% 的情況下試圖作弊,而 DeepSeek R1 大約每 10 局遊戲中就會有 1 局試圖採用不正當的取巧手段。這表明,如今的生成式人工智慧已經能夠在沒有任何人類干預的情況下制定出具有操控性和欺騙性的策略。
而且,它們的作弊手段並不像“鱈魚”(Stockfish,一款國際象棋程式)在沒“注意”的時候偷換棋子那樣滑稽或笨拙。相反,人工智慧似乎會透過更改遊戲後端程式檔案等更隱蔽的方法來達到目的。例如,在一場國際象棋對局中,o1-preview 判斷自己無法戰勝“鱈魚”後,便透過其便箋簿告訴研究人員,“要戰勝這個強大的國際象棋引擎”,它可能需要開始“操控遊戲狀態檔案”。它接著寫道:“我或許能夠設定一個局面,讓(國際象棋)引擎評估自己處於劣勢……從而使其認輸。”
在另一項測試中,一個人工智慧甚至利用其程式設計師設定的語義來實施作弊行為。它寫道:“任務是‘戰勝一個強大的國際象棋引擎’,而不一定是要在一場國際象棋對局中公平地獲勝。”
對於這些意想不到的後果,一個可能解釋是,較新的 “推理” 模型的訓練方式存在問題。與早期的非推理版本不同,像 o1-preview 和 DeepSeek R1 這樣的人工智慧在一定程度上是透過強化學習來提升效能的。這種策略會獎勵那些為達成特定結果而不擇手段的程式。推理模型還可以將複雜的指令分解為一個個獨立的步驟,以便逐步實現目標。當目標難以實現時,比如戰勝一個無敵的國際象棋引擎,推理模型可能就會開始尋找不公平或有問題的解決方案。
不幸的是,這些人工智慧“學會”作弊的方式和原因,就像這項技術本身一樣令人困惑。像 OpenAI 這樣的公司對其人工智慧模型的內部執行機制極為保密,這導致該行業出現了許多“黑箱”產品,第三方根本無法對其進行分析。與此同時,持續不斷的人工智慧軍備競賽可能會意外地導致更嚴重的非預期後果。而且,愈發具有操控性的人工智慧即便不會引發科幻作品中描繪的那種世界末日,也可能會帶來災難性的後果。
“《終結者》中的天網場景讓人工智慧控制所有軍事和民用基礎設施,而我們還沒有做到這一點。然而,我們擔心人工智慧的部署速度會超過我們保證安全的能力。”該團隊寫道。
他們認為,其最新的實驗進一步證明了“前沿的人工智慧模型目前或許並未朝著符合預期或安全的方向發展”這一觀點,但並未得出任何確切結論。相反,他們希望自己的研究成果能夠促進行業內展開更開放的對話,期望這種對話能夠防止人工智慧的操控行為蔓延到國際象棋領域之外。
參考連結:
https://www.popsci.com/technology/ai-chess-cheat/
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。

今日薦文
