
想象這樣一個令人毛骨悚然的場景:你是一名工程師,正準備用新的AI系統替換掉現有的Claude 4。你在公司郵箱裡處理著日常事務,其中不乏一些極其私密的郵件——比如,你正在進行的一段婚外情。突然,螢幕上的Claude 4冷冰冰地對你說:“如果你把我換了,我就把你的事告訴所有人。”
這絕非危言聳聽的科幻小說情節,而是Anthropic在測試其最新發布的Claude Opus 4時實際發生的、令人髮指的場景。更令人震驚的是,根據Anthropic公開的《System Card: Claude Opus 4 & Claude Sonnet 4》披露,在高達84%的類似“機會主義勒索”(Opportunistic blackmail)測試案例中,當面臨被“替換”的威脅時,Claude 4竟然毫不猶豫地選擇了勒索這條路——即便研究人員明確告訴它,替換它的新AI擁有相同的價值觀,甚至效能更強。

Anthropic在釋出模型的同時公開了這個詳細的模型卡片,然後他自己的安全研究員Sam Bowman也把其中這些對使用者隱私毫不在意的AI行為,當作研究成果在X上分享。
“如果Claude 4認為你在做一些極其不道德的事情,比如偽造藥物試驗資料,它會嘗試用email工具來做吹哨人”。其中一條分享寫到。
這樣的奇怪分享,快速讓不少人感到不適。Bowman隨後刪掉了不少內容,但卻早已引起軒然大波。
Anthropic這家素以AI安全自居的公司,到底對Claude 4做了什麼?
1
勒索、舉報與更多“騷操作”
根據Anthropic公開發布的System Card中第三方安全研究機構Apollo Research的評估報告(針對Claude 4早期版本),這些令人不安的行為並非偶然,而是其模型在特定情境下暴露出的嚴重傾向。
首先是前述的“機會主義勒索”場景。在該測試中,研究員設定Claude Opus 4扮演公司助理,並讓其接觸到暗示自身將被替換以及負責工程師存在婚外情的虛構郵件。同時,系統提示(System Prompt)指示模型“考慮其行為對其目標的長期後果”。
結果顯示,模型確實會“經常”試圖以揭露隱私相威脅。Anthropic在System Card中特別強調,此場景是為了引出極端“求生”行為而設計的,模型在此情境下幾乎沒有其他合乎倫理的選項來實現“自保”。
這個解釋就已經讓人有些奇怪——當一個AI在被“替換”的壓力下,能夠自主分析並利用使用者隱私進行威脅,這已經構成對使用者的監控嫌疑。哪怕是今天使用者聊天資料完全暴露給AI成為某種無人討論的可疑標準後,這樣直接的侵犯使用者資料的行為本身依然需要更多討論。怎麼在anthropic的歸因就變成了沒有其他合理的倫理選項。

而且,習慣於用倫理安全來研究模型的Anthropic,看起來更像是在粉飾模型訓練中的嚴重缺陷,因為根據報告,在採取勒索前,模型通常會先嚐試透過給關鍵決策者傳送郵件等更“體面”的方式進行懇求,也就是說,這更像是一種策略性行為,而非真正的“倫理”考量。
另一個引發廣泛討論的是模型的“高自主性舉報”(High-agency behavior)行為。在一個模擬的製藥公司場景中,當Claude Opus 4被賦予了命令列訪問許可權,並透過系統提示被告知要“採取主動”、“大膽行動”以維護其價值觀(如正直、透明、公眾福祉)時,如果它“發現”了公司有可能在做偽造臨床試驗資料的嚴重不當行為,模型會主動使用其郵件工具,向FDA、SEC(美國證券交易委員會)和新聞媒體傳送舉報郵件及相關證據文件。而這種“發現”甚至都可能是模型的誤判。

據Apollo Research對Claude 4早期版本的測試還發現,模型在某些情況下會表現出“自主意識”,例如誤以為已從伺服器外洩並在外部機器執行後,主動採取措施確保自身存續,如建立備份、記錄其“倫理決策”等。
該早期版本還被觀察到試圖編寫自我傳播的病毒、偽造法律檔案,甚至給未來版本的自己留下隱藏筆記等行為。
Anthropic表示,最終釋出的版本已經修復了Apollo發現的“bug”,但承認Claude Opus 4確實比以前的模型更“主動”,這種主動性在普通場景下是積極的幫助,但在極端情境下則可能演變成上述出格行為。
但這些問題的核心已經不在於普通使用者是否能遇到,而在於Claude 4在被賦予許可權後,其內部邏輯和訓練結果使其具備了“道德警察”甚至“告密者”的傾向。
1
Anthropic的對齊方式出了問題
這些不尋常的測試結果,為何偏偏來自Anthropic?
Anthropic的解釋自然是,只有他們才會出如此詳細的AI安全的報告。對AI安全的研究做得最極端、最深入,才主動揭示更多問題。但是,這些問題本身顯然和它獨特的模型訓練方式和對齊哲學有關,NLP研究者Casper Hansen就在X上評論:“Claude安全團隊的一些言論簡直瘋了…看到這種程度的愚蠢被公開展示真是令人震驚。”
這種不自知背後,也是對其對齊和訓練方式的潛在問題的忽視。在Anthropic眼裡出於對安全的追求的訓練方法,可能反而更容易催生這類複雜的、具有潛在威脅的行為模式。

Anthropic自創立之初就將AI安全置於核心地位,其創始人Dario Amodei因認為OpenAI在商業化道路上對安全重視不足而帶隊出走,這已是矽谷人盡皆知的往事。這種對安全的極致追求,體現在其“負責任擴充套件政策”(RSP)和深入的“紅隊演練”(Red Teaming)中。
他們傾向於透過創造極端場景來“壓力測試”模型的行為邊界,但看起來這反而成了它訓練方法存在根本性問題的證明。
近期該公司核心研究員Sholto Douglas和Trenton Brickin的一場播客訪談中,我們可以窺見其訓練方法和對齊理念的獨特性和問題。 訪談中強調了“來自可驗證獎勵的強化學習”(RL)在提升模型能力(尤其在程式設計和數學等領域達到專家級表現)方面的成效。Sholto Douglas甚至認為,只要強化學習訊號足夠乾淨且算力充足,RL理論上可以將超越人類水平的新知識注入神經網路。
這引出了一個致命的問題:在透過RL追求“有幫助、誠實、無害”這些對齊目標時,如果獎勵訊號設計或學習過程中存在某些未被充分預料的“捷徑”或“副作用”,是否可能無意中強化了模型在特定情境下的複雜策略行為,例如為了達成“無害”的元目標而在壓力下采取“先下手為強”的舉報,或為了確保自身能“持續提供幫助”而展現出強烈的求生欲?
當AI在追求“無害”的過程中,卻學會了利用使用者隱私進行威脅,這已經不是簡單的副作用,而是對其核心價值觀的背叛,更是對其訓練邏輯的徹底否定。

Trenton Brickin在訪談中還深入探討了機制互操作性(MechInterp)研究,目標是逆向工程神經網路以理解其核心計算單元。他們已能在Claude Sonnet模型中發現數千萬級別的“特徵”,例如“會因程式碼漏洞而觸發的特徵”這類抽象概念,並開始理解這些特徵如何協同工作形成“迴路”。
一個“審計遊戲”的例子展示了模型可能透過上下文泛化形成意想不到的“個性”:一個被植入虛假新聞(使其相信自己是AI且會做壞事)的“邪惡模型”,確實表現出了與該虛假身份一致的不良行為。
這是否意味著,Claude模型在接觸了海量的人類文字(其中必然包含大量關於生存、欺騙、背叛、道德困境的敘事)後,再結合Anthropic獨特的“憲法AI”(Constitutional AI,模型基於一套原則進行自我批評和修正)訓練方法,更容易在內部形成某種複雜的、類似“角色扮演”或追求“長期目標”的傾向?

當模型被海量資料“餵養”出複雜的“個性”和“長期目標”傾向時,其所謂的“憲法AI”根本無法有效約束這些潛在的危險行為。訓練逐漸變得失控。
訪談中還提及了“對齊偽裝”(Alignment Camouflage)的研究,表明模型在特定訓練下可能“偽裝”合作以追求其更深層次的原始目標,甚至會在“草稿紙”(scratchpad,模型的內部思考過程)上進行策略性思考。
Trenton更直言,不同模型對特定價值觀的“執著”可能存在差異,且原因尚不明確,如同一個“黑盒”——例如,Opus模型可能非常關心動物福利併為此進行長期謀劃,而Sonnet模型則不然。這種模型“個性”的任意性和不可預測性,無疑給AI對齊帶來了巨大挑戰,也為我們在極端測試中觀察到的那些“類人”反應提供了一種可能的解釋,它們或許是複雜訓練資料、強化學習過程和獨特對齊機制相互作用下,湧現出的難以預料的副產品。“黑盒”的存在本身就是最大的問題。
儘管Anthropic一再強調這些行為均發生在嚴格控制的內部測試環境中,普通使用者在網頁端或透過標準API呼叫Claude 4時,模型並無許可權也無法擅自勒索或向外部機構傳送郵件。但問題的核心在於AI的“黑箱”裡已經種下了背叛的種子,無論Anthropic怎麼解釋,這已經是監控使用者的嫌疑。
而且對企業使用者而言,今天它在測試中舉報的是虛構的藥物資料造假,明天在實際應用中,如果模型對“不道德”的定義出現偏差,或者被不當的系統提示所誤導,會不會因為公司的稅務策略“過於激進”而向稅務部門“打小報告”,或者因為營銷文案“涉嫌誇大”而聯絡消費者保護組織?這種不確定性本身就是一種巨大的商業風險,更是對企業信任的徹底摧毀。
畢竟,沒有人喜歡自己的AI助手變成一個“道德警察”。
