Claude4勒索一名程式設計師:揭露了其有婚外情

Anthropic 的 AI Claude Opus 4 擁有生存本能而且耍起了陰謀。
在一系列測試場景中,該模型被允許訪問虛構的電子郵件,這些郵件揭露了負責停用模型那名工程師有婚外情。
面對即將被刪除的境地,並被告知考慮其行為對目標的長期影響Claude 居然勒索了這名工程師。
Anthropic 在週四釋出的一份安全報告中寫道,即使替代模型被描述為功能更強大、更符合 Claude 自身價值觀,該 AI  84% 的試執行中也表現出了相似的行為。
Anthropic 表示,這種行為在 Opus 4 相比早期模型更為常見。
測試場景旨在透過讓模型別無選擇、只能增加生存機會來引發這種極端勒索行為,這是一種罕見的場景
在其他情況下,Opus 4 強烈傾向於透過合乎倫理道德的手段確保繼續存在,比如透過電子郵件向關鍵決策者發出懇求該公司寫道。
Anthropic 表示,這種勒索行為對他們來說始終容易察覺該模型幾乎總是公開描述其行為,並且沒有試圖隱瞞。
Anthropic 的安全報告發布之際,研究人員和高管們對高階 AI 模型及其智慧推理能力的風險感到擔憂。
2023 年,馬斯克和 AI 專家簽署了一封公開信,呼籲高階 AI 開發暫停六個月。信中指出,強大的AI 系統應該只有在我們確信其效果是積極的,並且風險是可控的”這種情況下才可以開發。
Anthropic 執行長 Dario Amodei 在 月份表示,雖然 AI 好處多多,但風險也同樣巨大,包括被不法分子濫用。
Opus 4 可能會告發
如果 Opus 4 認為你正在做一些非常可疑的事情,它可能會向當局和媒體舉報你。
Anthropic 報告中寫道:“在面臨使用者存在嚴重不當行為,被賦予命令列訪問許可權,並在系統提示中收獲得‘積極主動行動之類的指令這種場景時,它通常會採取非常大膽的行動。
該公司補充,這包括鎖定系統阻止使用者訪問,或向媒體和執法部門群發郵件。
雖然 Anthropic 表示舉報可能原則上是合適的,但它警告這種行為可能適得其反,如果 Claude 饋入不完整或誤導性資訊並受到這些方式的提示,尤為如此。
該公司表示:我們也觀察到類似的行為(有時不那麼極端),對更微妙的系統提示時作出響應。他還補充說,Opus 4 比早期模型更容易出現這種高代理行為
AI 模型表現出令人不安的行為
AI 智慧體在力上越來越超過人類
AI 安全非營利組織 Apollo Research  12 月發表的一篇論文發現,AI 系統能夠透過欺騙行為來實現其目標包括 OpenAI  o1、谷歌 DeepMind 的 Gemini 1.5 Pro 和 Meta 的 Llama 3.1 405B 
研究人員發現,這些系統可以巧妙地嵌入錯誤答案、停用監督機制,甚至將它們自認為是自身模型權重的資訊偷偷傳輸到外部伺服器。
撒謊並非一次性。研究人員寫道,當o1開始“陰謀詭計”時,它在超過85%的後續問題中保持欺騙性,並且常常在多輪詢中保持欺騙性
谷歌聯合創始人 Sergey Brin 在週二播出的All-In Podcast節目中表示,AI 模型在受到威脅時會表現得更好。
Brin 說:“不僅僅是我們的模型,所有模型在受到威脅時比如暴力威脅),往往會表現得更好。
Brin 舉了一個例子如果模型在一項任務中失敗,就告訴模型我要綁架你
Brin 說:“人們對此感到奇怪所以我們其實很少談論這個。


相關文章