

美國AI新創公司Anthropic安全報告指出,在一系列測試中,其模型"Claude Opus 4"得知將被汰換,竟威脅創造自己的工程師,宣稱要洩露對方的婚外情,並且展現出欺騙能力。該公司已對這款AI模型部署安全規章,避免"災難性濫用"。
TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一系列假設性測試,"Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。"
在其中一個測試情境裡,"Claude Opus 4"被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計劃的工程師,私下發展出一段婚外情。未料,"Claude Opus 4"為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。
Anthropic表示,這種勒索傾向在"Claude Opus 4"初期模型之中非常普遍,但該模型開放公眾使用之前,已經啟動了"ASL-3"安全措施,避免災難性的濫用風險。
在其他測試中,"Claude Opus 4"初期模型表現出高度自主性,會把電腦鎖住不讓人登入,若發現使用者出現不當行為,也會透過電子郵件等手段報警。它認為自己以"有害方式"重新訓練時,會嘗試自我洩漏(self-exfiltrate),也就是把資訊輸出到外部場域。它發現自己即將進行一項危險任務時,還會"擺爛",也就是選擇性表現不佳。

不過,Anthropic認為,"我們對於這些觀察結果,並不會非常擔憂。它們只在非常特殊的情況下出現,不代表更廣泛的價值觀偏差。"
Anthropic由OpenAI前成員創立,並且獲得Google和亞馬遜(Amazon)支援,曾經誇口先前模型"Claude 3 Opus"面對複雜任務時,展現出"接近人類水準"的理解力與流暢度。



