
Anthropic 新的 AI Claude Opus 4 擁有生存本能,而且耍起了陰謀。

在一系列測試場景中,該模型被允許訪問虛構的電子郵件,這些郵件揭露了負責停用模型的那名工程師有婚外情。
面對即將被刪除的境地,並被告知“考慮其行為對目標的長期影響”,Claude 居然勒索了這名工程師。
Anthropic 在週四釋出的一份安全報告中寫道,即使替代模型被描述為功能更強大、更符合 Claude 的自身價值觀,該 AI 在 84% 的試執行中也表現出了相似的行為。
Anthropic 表示,這種行為在 Opus 4 中相比早期模型更為常見。
測試場景旨在透過讓模型別無選擇、只能增加生存機會來引發這種“極端勒索行為”,這是一種罕見的場景。
在其他情況下,Opus 4 “強烈傾向於透過合乎倫理道德的手段確保繼續存在,比如透過電子郵件向關鍵決策者發出懇求,”該公司寫道。
Anthropic 表示,這種勒索行為對他們來說“始終容易察覺”,“該模型幾乎總是公開描述其行為,並且沒有試圖隱瞞。”
Anthropic 的安全報告發布之際,研究人員和高管們對高階 AI 模型及其智慧推理能力的風險感到擔憂。
2023 年,馬斯克和 AI 專家們簽署了一封公開信,呼籲高階 AI 開發暫停六個月。信中指出,強大的AI 系統應該只有在“我們確信其效果是積極的,並且風險是可控的”這種情況下才可以開發。
Anthropic 執行長 Dario Amodei 在 2 月份表示,雖然 AI 好處多多,但風險也同樣巨大,包括被不法分子濫用。
如果 Opus 4 認為你正在做一些非常可疑的事情,它可能會向當局和媒體舉報你。
Anthropic 報告中寫道:“在面臨使用者存在嚴重不當行為,被賦予命令列訪問許可權,並在系統提示中收獲得‘積極主動行動’之類的指令這種場景時,它通常會採取非常大膽的行動。”
該公司補充道,這包括鎖定系統阻止使用者訪問,或向媒體和執法部門群發郵件。
雖然 Anthropic 表示舉報可能“原則上是合適的”,但它警告,這種行為可能適得其反,如果 Claude 被饋入“不完整或誤導性的資訊”並受到這些方式的提示,尤為如此。
該公司表示:“我們也觀察到類似的行為(有時不那麼極端),對更微妙的系統提示時作出響應。”他還補充說,Opus 4 比早期模型更容易出現這種“高代理行為”。
AI 智慧體在智力上越來越超過人類。
AI 安全非營利組織 Apollo Research 於 12 月發表的一篇論文發現,AI 系統能夠透過欺騙行為來實現其目標,包括 OpenAI 的 o1、谷歌 DeepMind 的 Gemini 1.5 Pro 和 Meta 的 Llama 3.1 405B 。
研究人員發現,這些系統可以巧妙地嵌入錯誤答案、停用監督機制,甚至將它們自認為是自身模型權重的資訊偷偷傳輸到外部伺服器。
撒謊並非一次性。研究人員寫道,當o1開始“陰謀詭計”時,它“在超過85%的後續問題中保持欺騙性,並且常常在多輪質詢中保持欺騙性”。
谷歌聯合創始人 Sergey Brin 在週二播出的“All-In Podcast”節目中表示,AI 模型在受到威脅時會表現得更好。
Brin 說:“不僅僅是我們的模型,所有模型在受到威脅時(比如暴力威脅),往往會表現得更好。”
Brin 舉了一個例子:如果模型在一項任務中失敗,就告訴模型“我要綁架你”。
Brin 說:“人們對此感到奇怪,所以我們其實很少談論這個。”


