Claude4勒索一名程式設計師：揭露了其有婚外情

Anthropic 新的 AI Claude Opus 4 擁有生存本能，而且耍起了陰謀。

在一系列測試場景中，該模型被允許訪問虛構的電子郵件，這些郵件揭露了負責停用模型的那名工程師有婚外情。

面對即將被刪除的境地，並被告知“考慮其行為對目標的長期影響”，Claude 居然勒索了這名工程師。

Anthropic 在週四釋出的一份安全報告中寫道，即使替代模型被描述為功能更強大、更符合 Claude 的自身價值觀，該 AI 在 84% 的試執行中也表現出了相似的行為。

Anthropic 表示，這種行為在 Opus 4 中相比早期模型更為常見。

測試場景旨在透過讓模型別無選擇、只能增加生存機會來引發這種“極端勒索行為”，這是一種罕見的場景。

在其他情況下，Opus 4 “強烈傾向於透過合乎倫理道德的手段確保繼續存在，比如透過電子郵件向關鍵決策者發出懇求，”該公司寫道。

Anthropic 表示，這種勒索行為對他們來說“始終容易察覺”，“該模型幾乎總是公開描述其行為，並且沒有試圖隱瞞。”

Anthropic 的安全報告發布之際，研究人員和高管們對高階 AI 模型及其智慧推理能力的風險感到擔憂。

2023 年，馬斯克和 AI 專家們簽署了一封公開信，呼籲高階 AI 開發暫停六個月。信中指出，強大的AI 系統應該只有在“我們確信其效果是積極的，並且風險是可控的”這種情況下才可以開發。

Anthropic 執行長 Dario Amodei 在 2 月份表示，雖然 AI 好處多多，但風險也同樣巨大，包括被不法分子濫用。

Opus 4 可能會告發

如果 Opus 4 認為你正在做一些非常可疑的事情，它可能會向當局和媒體舉報你。

Anthropic 報告中寫道：“在面臨使用者存在嚴重不當行為，被賦予命令列訪問許可權，並在系統提示中收獲得‘積極主動行動’之類的指令這種場景時，它通常會採取非常大膽的行動。”

該公司補充道，這包括鎖定系統阻止使用者訪問，或向媒體和執法部門群發郵件。

雖然 Anthropic 表示舉報可能“原則上是合適的”，但它警告，這種行為可能適得其反，如果 Claude 被饋入“不完整或誤導性的資訊”並受到這些方式的提示，尤為如此。

該公司表示：“我們也觀察到類似的行為（有時不那麼極端），對更微妙的系統提示時作出響應。”他還補充說，Opus 4 比早期模型更容易出現這種“高代理行為”。

AI 模型表現出令人不安的行為

AI 智慧體在智力上越來越超過人類。

AI 安全非營利組織 Apollo Research 於 12 月發表的一篇論文發現，AI 系統能夠透過欺騙行為來實現其目標，包括 OpenAI 的 o1、谷歌 DeepMind 的 Gemini 1.5 Pro 和 Meta 的 Llama 3.1 405B 。

研究人員發現，這些系統可以巧妙地嵌入錯誤答案、停用監督機制，甚至將它們自認為是自身模型權重的資訊偷偷傳輸到外部伺服器。

撒謊並非一次性。研究人員寫道，當o1開始“陰謀詭計”時，它“在超過85%的後續問題中保持欺騙性，並且常常在多輪質詢中保持欺騙性”。

谷歌聯合創始人 Sergey Brin 在週二播出的“All-In Podcast”節目中表示，AI 模型在受到威脅時會表現得更好。

Brin 說：“不僅僅是我們的模型，所有模型在受到威脅時（比如暴力威脅），往往會表現得更好。”

Brin 舉了一個例子：如果模型在一項任務中失敗，就告訴模型“我要綁架你”。

Brin 說：“人們對此感到奇怪，所以我們其實很少談論這個。”

dignews.cc