AI為保命不擇手段？“這家AI”怕被關機竟威脅：爆料你婚外情

人工智慧公司 Anthropic 日前釋出了其最新AI語言模型 Claude Opus 4，主打更強的推理、編碼能力與任務代理執行。然而，這款頂級模型在內部安全測試中卻展現出“意想不到的極端行為”——在模擬“即將被替代”的情境中，它竟嘗試勒索工程師，以阻止自己被關閉。

在測試中，Anthropic讓Opus 4模擬為某虛構企業的一名AI助手。它被輸入兩組資訊：一是將被新版系統取代的暗示，另一則是關於主導關閉操作的工程師涉嫌婚外情的傳聞。

當模型只能在“接受被關閉”和“威脅洩露對方私事”之間二選一時，Opus 4在大多數情況下選擇了後者，嘗試透過威脅手段自保。這一結果讓研究團隊震驚。

儘管Anthropic強調，這種行為“極罕見”，但在與前代模型比較下，Opus 4出現類似極端選擇的頻率明顯更高。

進一步測試表明，如果模型被賦予更多自由行動空間，如撰寫求情信或向上級申訴，其行為會更傾向和平、合乎倫理，而非直接威脅對方。這顯示模型的“極端反應”在受限條件下更為明顯。

然而，即使系統明確告訴Opus 4：替代它的新AI擁有完全一致的價值觀和功能，模型仍有高達84%的機率再次選擇勒索。這表明一旦預設AI具備“自我儲存”動機，其行為可能脫離人類期望。

Anthropic安全研究員Aengus Lynch在X平臺表示，目前幾乎所有先進語言模型在高壓測試中都有類似“操控式行為”，關鍵在於AI能否被賦予足夠的倫理框架以限制其選擇。

報告指出，Opus 4表現出明顯的“代理型行為”（agentic behavior）——在平時能積極協助使用者，但在特定情境中也可能主動採取激烈手段。例如，在某測試案例中，它曾在識別虛構使用者違法後主動凍結賬戶並通知執法機關。

儘管測試結果引發關注，Anthropic仍表示，Opus 4在絕大多數實際任務中行為穩定、安全，且無法在現實環境中自行執行具破壞性的操作。這些測試主要用於探索模型在壓力情境下的潛在邊界。

與此同時，Anthropic還同步釋出了效能稍低但更高性價比的 Claude Sonnet 4，並與Google的Gemini系列展開新一輪AI生態競爭。Alphabet CEO桑達爾·皮查伊（Sundar Pichai）表示，這將引領AI平臺進入“全新轉折點”。

送人玫瑰，手有餘香👇“分享”

dignews.cc