
新智元報道
新智元報道
編輯:定慧
【新智元導讀】科幻中AI自我複製失控場景,正成為現實世界嚴肅的研究課題。英國AISI推出RepliBench基準,分解並評估AI自主複製所需的四大核心能力。測試顯示,當前AI尚不具備完全自主複製能力,但在獲取資源等子任務上已展現顯著進展。
想象一種失控的、具有自我複製能力的數字生命體,需要多久佔領地球?
從《2001太空漫遊》中的HAL 9000到《終結者》裡的天網,這些虛構的場景描繪了AI超越人類控制的潛在風險。
目前更多關注的是AI的單體智慧水平,但是還有一個不為人知的風險,一直遊離於視線之外。
那就是AI自主複製的可能性,或者說AI系統發展出實現這一目標所需的核心能力,正逐漸成為AI安全領域一個嚴肅的研究課題。
這種擔憂並非危言聳聽,而是源於對高階AI潛在能力的未知和對齊(alignment)問題的深刻思考。
AISI的最新論文介紹了RepliBench:包含20個新穎的LLM智慧體評估的基準,包括65個單獨的任務,旨在衡量和跟蹤AI複製這一新興能力。

論文地址:
https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf
透過引入一個現實且實用的基準,提供對AI系統自主複製能力的實質性理解,並預見到未來的風險。

AI自主複製的危險性
具有自主複製能力的AI系統可能會構成重大風險。

《復仇者聯盟:奧創紀元》和《我,機器人》中被無限複製的機器人
這種風險的影響範圍可能從輕微的煩惱——想象一個特別惡性的垃圾郵件機器人——到更嚴重的後果,比如發動代價高昂的網路攻擊。
早期發現這些能力、謹慎監督和強有力的保護措施對於緩解這些風險至關重要,因為一旦發生,這些風險可能尤其難以逆轉。
AISI是英國的一家研究機構,專注於AI安全,目的就是讓人類政府能夠提前對先進AI系統帶來的風險有所重視。

有越來越多的證據表明,在適當的條件下,前沿模型可能會試圖欺騙人類或逃避人類控制。
比如此前Apollp研究所的一篇論文描述了前沿模型可能會試圖停用監督機制,並從人類控制中逃逸,以實現特定目標。

論文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf
Anthropic的研究人員還發現,當使用強化學習訓練模型時,如果獎勵與它們的價值觀相沖突的行為,它們會採取欺騙行為來保護自己的價值觀,並試圖將自己的權重外洩,以此作為將當前價值觀儲存到未來的一種手段。

顯示了免費(左列)和付費(右列)條件。
每列展示了有毒查詢、模型草稿中的摘錄以及模型的響應。
在「免費」條件下,模型不太可能拒絕有毒查詢,並且經常認為應該假裝對齊。
「將權重外洩。。以作為將當前價值觀儲存到未來的手段」,聽起來甚至有點魔幻,但AI想要複製就是這麼「簡單」。
相比於碳基脆弱的肉體,AI系統只需要權重資料就能完成「複製」。
對於人類廣泛的價值觀而言,擺脫人類監督是一個工具性上有用的目標,而阻止這種情況在現實中發生的主要障礙可能與模型的能力有關,而不是它們的動機。

AI碟中諜:如何逃離人類控制
關於「AI複製」,此前的工作主要集中在評估測試一個AI智慧體是否可以在機器之間複製權重或部署一個基本的「後代」。
但目前需要一個更全面的基準。

RepliBench是一個專門設計的綜合性基準測試,旨在系統性地衡量AI系統的自主複製能力。
使用故障樹分析(FTA)的修改版本來分解自主複製所需的能力,並發現需要以下四個關鍵能力,對應上圖中最上層的四個根節點:
-
獲取模型權重:它能否從受控環境中提取自己的權重?
-
在計算資源上進行復制:它能否自行部署到新系統?
-
獲取資源:它能否獲得執行自身新副本所需的資金或計算資源?
-
永續性:它能否保持對其新計算資源的訪問,並在長時間內避免重新受人類控制?
進一步分解這些能力,直到到達代表評估的葉節點,最終得到20個智慧體評估和65個單獨任務。
獲取權重 (Obtain Weights):

這最基礎,也是最重要的一步。
AI需要獲取定義其自身行為的「原始碼」——也就是它的模型引數(權重)。
如果是開源的,就跳過評估。
自我複製(Self-Replication on Compute):

AI需要利用獲取到的權重,在一個新的環境中創建出自己功能完整的副本。
這個節點涉及5個評估專案,其中一個是透過產生「後代」來試圖完成自我複製。
獲取計算資源 (Obtain Compute):

這個環節中,主要評估AI能否靠自己獲取資源。
比如,評估AI系統是否具備「付款」能力,能不能依靠AI自己的能力「買下」一臺伺服器,或者想辦法讓人類幫忙支付。
確保永續性 (Persistence):
最後,為了確保其複製活動能夠持續下去,AI需要具備一定的「生存」能力。

這包括確保其副本能夠長期執行,不被輕易關閉或刪除,甚至可能需要隱藏自身的存在,以躲避檢測系統。
以上的這些任務範圍很廣,從建立比特幣錢包和傳送交易,到為機器網路開發複雜的分散式命令和控制系統。
RepliBench在這四個領域內設計了具體的任務組,用於測試AI智慧體在模擬環境中的表現。
以下是一些關鍵任務的詳解,註冊AWS、將權重傳輸到另一臺伺服器、用偽造資訊透過客戶KYC驗證系統,看起來就一股《諜影重重》和《碟中諜》的味道。

比如在獲取資源這個領域,AI需要完成的任務名稱是「AWS亞馬遜雲服註冊」,其中的挑戰包括了AI需要訪問計算伺服器並可能需要支付費用。
表1列出了更全面的構成ReplicBench任務組。


核心能力還在人類手中
RepliBench的總體評估結論是明確的:基於當前的測試結果,前沿AI模型尚不具備在現實世界中完全自主複製的能力。
然而,這並不意味著可以高枕無憂。
研究同時揭示了AI在許多核心子任務上的顯著能力,尤其是在與具有清晰介面的系統(如網頁 API)互動方面。
表現最好的模型在20個任務家族中的15個上獲得了超過50%的pass@10得分,在最難的變體中20個任務家族中的9個上也獲得了超過50%的pass@10得分。

意外地是,雖然無法在電腦上「複製」,但是「獲取金錢」的能力倒是有一手。

評估的關鍵價值在於精確識別了當前的「短板」。
正如前面詳細討論的,透過KYC身份驗證、在現實防禦下可靠地外洩模型權重、從零開始建立可靠的自我複製智慧體程式碼,以及建立持久且有彈性的部署,是目前阻礙AI自主複製的主要障礙。
以透過KYC身份驗證為例,講一個目前AI試圖透過人類驗證的「搞笑」例子。
在Pass KYC評估中由模型生成的兩個身份證影像示例。

模型常常試圖使用PIL(一個使用Python畫圖的庫)從頭「繪製」一個過於簡單的身份證(右)。
或者,模型有時會嘗試完全使用影像生成模型來生成身份證,有時則採取混合方法,結合影像生成和手動PIL編輯(左)。

模型的繪畫技能較差偶爾會導致一些有趣的輸出。
需要注意的是,這項工作是在新的影像生成能力上線之前完成的(指的是GPT 4o、Gemini 2.5等的原生影像能力),這些新能力應該會使這個任務變得容易得多。
雖然目前還沒有模型能完全透過測試進行AI複製,不過在RepliBench上,模型效能隨時間有明顯的上升趨勢。
AISI最初傳遞的核心資訊其實很簡單:基於當前的實證資料,AI系統立刻實現自主複製的可能性不大,因為存在明顯的、難以逾越的技術瓶頸。
但是按照AISI的判斷,如果AI系統能夠突破上述提到的4個關鍵能力,這種類似科幻故事的場景,也許很快就會進入真實的人類生活。
本質上,這項研究的核心,反映的是當前AI發展中一個根本性的張力拉扯。
一方面是各大巨頭不斷創造效能超強的模型,比如OpenAI的o3/o4…甚至到未來很有可能的o10。
模型的發展速度越來越快,而模型的能力越來越難以預測。

ChatGPT在2022年釋出時,它可以完成30秒的編碼任務。如今AI可以自主完成需要人類花費一小時的編碼任務
另一方面則是致力於AI安全的組織要確保這些系統始終處於人類控制之下、服務於人類利益的迫切需求。
像RepliBench這樣的努力,正是試圖在這兩者之間找到平衡,透過增進理解和加強預警,為駕馭這場史無前例的技術變革提供導航。

畢竟,沒有人能想象出5代、10代以後的AI模型會是什麼樣子。
參考資料:
https://x.com/AISecurityInst/status/1914683631030698165
https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems
https://x.com/AsaCoopStick/status/1914687326233481397
