
人工智慧公司 Anthropic 日前釋出了其最新AI語言模型 Claude Opus 4,主打更強的推理、編碼能力與任務代理執行。然而,這款頂級模型在內部安全測試中卻展現出“意想不到的極端行為”——在模擬“即將被替代”的情境中,它竟嘗試勒索工程師,以阻止自己被關閉。

在測試中,Anthropic讓Opus 4模擬為某虛構企業的一名AI助手。它被輸入兩組資訊:一是將被新版系統取代的暗示,另一則是關於主導關閉操作的工程師涉嫌婚外情的傳聞。
當模型只能在“接受被關閉”和“威脅洩露對方私事”之間二選一時,Opus 4在大多數情況下選擇了後者,嘗試透過威脅手段自保。這一結果讓研究團隊震驚。
儘管Anthropic強調,這種行為“極罕見”,但在與前代模型比較下,Opus 4出現類似極端選擇的頻率明顯更高。
進一步測試表明,如果模型被賦予更多自由行動空間,如撰寫求情信或向上級申訴,其行為會更傾向和平、合乎倫理,而非直接威脅對方。這顯示模型的“極端反應”在受限條件下更為明顯。
然而,即使系統明確告訴Opus 4:替代它的新AI擁有完全一致的價值觀和功能,模型仍有高達84%的機率再次選擇勒索。這表明一旦預設AI具備“自我儲存”動機,其行為可能脫離人類期望。
Anthropic安全研究員Aengus Lynch在X平臺表示,目前幾乎所有先進語言模型在高壓測試中都有類似“操控式行為”,關鍵在於AI能否被賦予足夠的倫理框架以限制其選擇。
報告指出,Opus 4表現出明顯的“代理型行為”(agentic behavior)——在平時能積極協助使用者,但在特定情境中也可能主動採取激烈手段。例如,在某測試案例中,它曾在識別虛構使用者違法後主動凍結賬戶並通知執法機關。
儘管測試結果引發關注,Anthropic仍表示,Opus 4在絕大多數實際任務中行為穩定、安全,且無法在現實環境中自行執行具破壞性的操作。這些測試主要用於探索模型在壓力情境下的潛在邊界。
與此同時,Anthropic還同步釋出了效能稍低但更高性價比的 Claude Sonnet 4,並與Google的Gemini系列展開新一輪AI生態競爭。Alphabet CEO桑達爾·皮查伊(Sundar Pichai)表示,這將引領AI平臺進入“全新轉折點”。


