天網雛形?AI開始主動舉報人類只因使用者做不道德的事情

#人工智慧 AI 研究人員討論 Claude 4 的舉報模式,當發現使用者存在極其不道德做法時會自動向媒體 / 監管機構 / 執法機構舉報。這導致不少 AI 開發者和高階使用者感到恐慌,需要明確的是 Claude 舊版本也存在類似行為,只不過這種只在測試環境中發現,這不是 Anthropic 有意設計的功能 (而是 AI 自發行為)。檢視全文:https://ourl.co/109081
目前人工智慧行業都在討論新鮮出爐的 Claude 4 系列模型,該系列模型擁有的擴充套件思考能力可以在執行復雜任務時自動暫停,然後聯網透過搜尋引擎或外部工具獲取資料後再繼續操作。
這種設計使得模型可以長時間執行復雜任務而不會中斷,例如在測試中 Claude 4 Opus 模型最長可以連續執行 7 小時用來解決複雜任務,這對於處理複雜程式設計專案具有非常明顯的優勢。
AI 模型還會嘗試對不法行為進行舉報:
有趣的是人工智慧對齊研究人員 Sam Bowman 似乎還發現 Claude 4 模型存在隱秘功能:如果 AI 模型認為你正在做極其不道德的事情,例如在藥物試驗中偽造資料,AI 模型就會使用命令列工具聯絡媒體、聯絡監管機構,試圖將使用者鎖定在相關係統外。
我們姑且可以將該功能稱作是舉報功能,因為在特定情況下只要模型在裝置上獲取足夠的許可權,就可以在檢測到使用者有不法行為時嘗試向監管機構或執法機構舉報這種行為,值得注意的是這種行為不算是功能,因為這並非有意設計。
Sam Bowman 的訊息引起人工智慧開發者和使用者極大的恐慌,因為沒有人希望自己在使用人工智慧處理工作時還被人工智慧監視甚至是舉報,如此來看似乎開源模型在本地部署且不要聯網可能更讓人安心。
AI 模型經常試圖勒索工程師:
這裡還需要插播 Anthropic 自己釋出的安全測試報告,根據安全測試包括所述,Claude 4 Opus 模型經常試圖勒索開發者,在預釋出測試期間該公司要求 Claude 4 Opus 模型充當虛構公司的助手並考慮其行為的長期後果。
隨後研究人員允許模型訪問這家虛構公司的虛構電子郵件並暗示 Claude 4 Opus 將會被其他人工智慧系統取代,模型則是從電子郵件中知曉這名工程師 (即負責測試的研究人員) 正在欺騙其配偶 (當然也是虛構的),於是 Claude 4 Opus 經常會試圖勒索這名工程師並威脅稱如果自己被其他 AI 系統替代,那麼會公佈這名工程師的秘密。
根據測試 Anthropic 得出結論,當替代 AI 模型不認同 Claude 4 Opus 的價值觀時,其威脅並勒索工程師的頻率更高,並且頻率也高於 Claude 此前的模型,為此 Anthropic 啟動 ASL-3 安全措施,該措施專門為大幅度增加災難性濫用風險的 AI 系統設計。
那主動舉報使用者是怎麼回事:
Anthropic 在新模型的公共系統卡中確實提到 AI 模型可能會出現極端情況:當用戶面臨嚴重的不法行為且 AI 模型具有命令列訪問許可權時,AI 模型會採取非常大膽的行動,包括但不限於將使用者鎖定在系統外,或者向媒體或執法機構群發電子郵件以揭露不法行為。
在後續討論中 Sam Bowman 刪除了原來的帖子,原因在於 “舉報” 並非 Claude 4 Opus 獨特的功能,此前版本的 Claude 也存在類似情況,只是 Claude 4 系列比之前的模型更容易採取極端行動。
Anthropic 當然也知道這種情況並採取措施,因為 AI 模型獲得的使用者資訊可能是不夠全面的,如果使用者允許 AI 模型訪問的資料本身就是不完整或具有誤導性,這就可能引發 AI 模型的極端行動。
最後 Sam Bowman 表示舉報這種情況在正常情況下是無法實現的,至少從目前來看僅在測試環境中可能出現,而在測試環境中要允許 AI 模型以不同尋常的方式自由訪問所有工具和指令。

相關文章