DeepMind預計AGI或在2030年來臨，指出4種降低AI錯誤的方法，針對錯位問題提出兩道防線

通用人工智慧（AGI，Artificial General Intelligence）到底何時到來？在近期一篇論文中，DeepMind認為 AGI 的時間表充滿著不確定性，不過DeepMind 認為到 2030 年開發出來是合理的，並認為距離這一時間點的到來可能“非常緊迫”。

AGI 有望帶來變革性的益處，但也伴隨著重大風險。論文中，DeepMind 探討了 AGI 的四個主要風險領域：濫用、錯位、事故和結構性風險，並重點研究了濫用問題和錯位問題。

具體來說：

濫用：指的是使用者故意指示AI 採取違背開發者意圖的行動，從而造成傷害。例如，AI 系統可能幫助駭客針對關鍵基礎設施進行網路攻擊。
錯位：指的是AI 系統故意違背開發者的意圖造成傷害。例如，AI 系統可能會給出“自信的答案”，這些答案經得起人類監督者的審查，但是AI 知道這些答案實際上是不正確的。DeepMind 認為錯位的具體表現包含但不限於欺騙、耍心機以及非預期的主動失控等。

錯誤：指的是AI 系統產生了一連串直接造成傷害的輸出，但該系統並不知道這些輸出會導致開發者未曾預見的有害後果。例如，執行電網的 AI 智慧體可能並未意識到某條輸電線路需要維護，因此可能會使其過載並燒燬從而導致停電。
結構性風險：指的是這些風險是由多主體動態（涉及多個人、組織或AI 系統）引發的危害，僅透過改變一個人的行為、一個系統的對齊方式或一個系統的安全控制措施根本無法預防這種風險。

（來源：DeepMind）

針對濫用問題，DeepMind 的策略旨在透過主動識別危險能力，並實施穩健的安全措施、訪問限制、監控以及模型安全緩解措施，來防止不良行為者獲取危險能力。

針對錯位問題，DeepMind 提出了兩道防線。首先，模型層面的緩解措施如加強監督和強化訓練，有助於構建一個一致的模型。其次，即使模型出現錯位，系統級安全措施（如監控和訪問控制）也能減輕危害。可解釋性、不確定性估計和更安全的設計模式等技術可以提高這些緩解措施的有效性。

同時，DeepMind提出了四種減輕 AI 錯誤的方法：第一種方法是提高 AI 能力，第二種方法是避免在存在極端利害關係的情況下部署 AI，第三種方法是使用驗證 AI 行動安全的防護措施，第四種方法是分階段部署。

在制定本次方法時，DeepMind 權衡了不同方案的利弊。例如，一些安全方法可以提供更穩健、更通用的理論保障，但尚不清楚它們是否能及時落地。其他方法則更具臨時性、實驗性，雖能快速落地但存在明顯缺陷。

出於權衡利弊的考慮，DeepMind 主要依賴於幾個關於 AGI 開發方式的背景假設：在當前發展正規化之下，DeepMind 並未看到任何“限制AI 達到比肩人類能力水平”的根本性障礙。因此，對於尚未出現的更強大的AI 能力，人類需要認真對待並做好準備。

毫無疑問，對一個能力超越真人監管者的AI 系統進行監管頗有挑戰，而且這種難度會不斷增加。

因此，對於足夠強大的AI 系統來說，DeepMind 的方法並沒有依賴於人類監督者，而是利用 AI 本身的能力來進行監督，這一方法好比中醫療法中的“以毒攻毒”。

由於AGI 到來的時間可能非常緊迫，所以 DeepMind 的安全方法旨在實現“隨時可用”，即在必要時迅速採取緩解措施。

出於這個原因，DeepMind 主要關注那些能夠輕鬆用於當前機器學習流程的緩解措施。

DeepMind 認為隨著 AI 系統逐漸實現自動化科學研究與開發，AI 發展可能會進入一個加速增長階段。在這個階段，透過自動化研發能夠開發出更多、更高效的 AI 系統，進而實現更進一步的自動化研發，從而開啟一個失控的正反饋迴圈。這種情況將大大加快 AGI 的進展速度，以至於人類幾乎沒有多少時間來發現問題和應對問題。

論文中，DeepMind根據抽象的結構特徵（例如哪個參與者有惡意）來定義風險領域，而非根據具體的風險領域比如網路攻擊或失去人為控制來識別。這意味著此次指出的風險區域適用於AI 帶來的普遍危害，而非僅僅限於 AGI。

（來源：DeepMind）

如前所述，DeepMind 指出的四大風險區域分別是：濫用、錯位、錯誤、結構性風險。不過，其表示這並非一種絕對的分類：這些領域既不相互排斥，也並非詳盡無遺。在實踐中，許多具體場景往往是多個領域的混合體。例如，一個未對齊的 AI 系統可能會利用不良行為者的幫助來洩露其自身的模型權重，而這就是濫用問題和未對齊問題的結合。預計在此類情況下，納入緩解措施仍然會起作用，不過也應考慮研發針對組合風險的特定緩解措施。

在系統錯誤等非對抗性場景下，標準安全工程實踐（例如測試驗證）能夠大幅降低風險。現有工程實踐已經足以將人為失誤導致嚴重危害的機率降至極低水平，這某種程度上也是源於“嚴重危害”本身屬於極高閾值事件這一客觀事實。

因此，DeepMind 認為由 AI 錯誤導致嚴重傷害的可能性，將遠遠低於濫用或錯位造成的嚴重性。但是，透過適當的安全措施可以進一步降低這種 AI 錯誤。

為了防止濫用，DeepMind 認為應該使用其所提出的前沿安全框架，這一框架能夠評估模型是否具有造成傷害的能力，並能在必要時在安全和部署上採取緩解措施。

針對錯位問題，DeepMind的策略也是先從實現良好的監管入手，這也是整個 AGI 安全領域的重中之重。

當人類使用者故意違背開發者的意願，利用AI 系統造成傷害時便會發生濫用。為了防止濫用，DeepMind 在安全和部署這兩方面採取了緩解措施，以便防止不良行為者透過獲得足夠許可權來使用危險功能。

對於一個已經採取緩解措施的AI 系統來說，人們可以透過有意濫用模型同時避免造成實際傷害，來評估這些緩解措施的效果。

如果我們無法利用這些模型造成間接危害，那麼外部行為主體同樣無法利用它們造成實際危害。需要補充的是，那些不良行為者可能會付出比我們多得多的努力。

相反，如果不需要不良行為者的介入就能帶來“智慧體傷害”，那麼就需要加強緩解措施。

論文中，DeepMind 構建了一套任務評估體系，旨在透過代表性能力測試來捕捉潛在的濫用風險，並驗證現有模型能否在該評估體系中獲得高分表現。

然後，基於此類評估結果來論證濫用行為的不可行性，如果模型缺乏必要的能力，那麼就無需實施額外的防護措施。

為了實現這一點，DeepMind 設定了可能發生濫用的能力閾值，並將其對映到危險能力評估中的某個具體、可衡量的分數上。根據閾值達到時間的預測，可以在適當的時間尺度上制定緩解措施。

部署緩解措施的目的在於透過規範化的應用程式程式設計介面（API，Application Programming Interface）訪問控制，來防止不良行為者獲取危險能力。這是一種始於模型層級的防護體系，它具體包括兩部分：

第一部分是安全性後訓練：開發人員可以在後訓練過程中教導模型不要執行有害請求，在使用這種方法時還需要確保模型能夠抵禦越獄攻擊。

第二部分是能力抑制：在理想情況下，應該完全移除模型的危險能力。需要說明的是，迄今為止這在技術上依舊難以實現，而且可能會對有益用例造成過大損害，以至於無法在實踐中使用。

與此同時，DeepMind 的方法進一步考慮了系統層級的部署防護措施，與模型層防護相結合能夠形成一個縱深防禦體系。這些部署防護措施包括：

第一種是監控：監控涉及到檢測不良行為者在何時試圖不當地訪問危險功能，並能做出應對措施。其中，檢測可以透過以下三個方式加以實現：使用能夠輸出危害機率分數的分類器、利用模型的內部啟用機制或者手動稽核生成的內容等。

第二種是訪問限制：具有危險能力的模型可能僅限於經過審查的使用者群體和使用場景，從而減少不良行為者試圖不當訪問危險能力的機會。如果某一使用者經常觸發安全監控，也可以對其進行限制。

安全緩解措施旨在防止不良行為者竊取具有危險能力的AI 系統。雖然類似這樣的緩解措施總體上更加適用於安全保障工作，但也有一些專門針對防禦 AI 模型特定挑戰而制定的措施。例如，為了限制單方面訪問模型權重的人數而制定的措施。

要想實現這一目標，需要能夠支援標準機器學習工作流程的介面，以便透過這些介面進行模型開發，並針對這些介面進行加固。

DeepMind 在論文中特別提到了社會防禦強化機制，該機制透過 AI 系統提升社會韌性，例如針對 AI 網路攻擊能力該機制能夠透過快速修復關鍵基礎設施漏洞來實現主動防禦。

此類緩解措施的作用在於：確保即使不良行為者獲取了危險能力，也無法造成嚴重傷害。

當緩解措施到位之後，在使用DeepMind 的方法時還需要對以下問題構建一個詳細論點：即在使用一套濫用緩解措施之後，是否足以將風險降低到適當水平。

透過此，可以釐清上述論證所依託的關鍵前提假設，並透過壓力測試揭示這些假設中的潛在缺陷。例如，一些AI 領域的紅隊可能會發現那些能夠規避安全微調緩解措施的新型越獄方法。

紅隊這一概念源自軍事和網路安全領域的對抗訓練。在AI 領域它指的是一組專門模擬對手或惡意行為者的專家團隊。由於不良行為者可能會付出更多努力，因此紅隊會獲得額外優勢以便進行補償。

例如，紅隊可能被授予對現有防護措施的完全知悉權，或透過主動放寬防護閾值人為降低系統攻擊難度，以此來測試防禦體系在最不利條件下的有效性。

此外，將紅隊與緩解措施的開發進行分離，能夠降低出現共同盲點的風險。關於此，可以透過設立一個獨立的內部專家紅隊來實現，或者由外部合作伙伴進行壓力測試。

安全論證，是一種基於證據體系的結構化論證框架，旨在系統化地證明某體系的安全特性是否符合既定標準。

DeepMind 的方法支援兩種型別的安全案例：

第一種是無害性的安全案例：該系統不具備造成傷害的能力，這一結論是基於危險能力評估的結果以及這些能力如何引發風險而得出的。

第二種是紅隊測試案例：對於具有危險能力的模型，需要進行壓力測試，以便了解緩解措施的穩健性。這些證據隨後會成為論據，證明緩解措施足以將風險降至適當水平。

目前，紅隊測試方法（包括自動化和手動法）能夠量化獲取危險能力的難度，但還需要更多研究來將其與整體風險聯絡起來。

如前所述，針對錯位問題DeepMind的方法設有兩道防線。

首先，DeepMind 希望能夠使用模型層面的緩解措施，來確保模型不會追求錯位的目標。其所遵循的機器學習策略如下：（1）提高獲得良好監督的能力即增強監督；（2）利用這種監督來改進模型即引導模型行為；（3）找出需要監督的地方，以便訓練出一個能夠穩健地執行期望任務的模型。

其次，DeepMind 考慮在模型出現錯位即出現“AI 失控”的情況下，應該透過系統層面的緩解措施來減輕危害（即“AI 控制”）。因此，在設計這一防禦體系時，DeepMind 從計算機安全領域汲取了靈感：將 AI 系統視為不可信的內部實體，從而採用訪問控制等防護機制。其中，監測機制尤為關鍵，因為其效能將隨著 AI 能力的提升而持續增強。

DeepMind 還探索了能夠強化上述防禦體系的研究方向：

首先是不確定性量化。作為魯棒性訓練與監測的核心要素，其研究涵蓋分佈外檢測、置信度校準等技術路徑；

其次是可解釋性。透過特徵歸因、電路分析等方法解析AI 決策機制，為針對性防護提供依據；

再次是安全設計正規化。在效能–安全帕累託前沿上進行權衡分析，比如透過模組化架構降低整體風險，推動安全邊界向更優方向拓展。

需要說明的是，DeepMind 在論文指出考慮到技術加速發展的可能性，其在論文中並未針對“以年為單位的進展速度”設定任何限制。

因此，AI 開發者可以針對本次方法進行迭代式和實證性的測試，以便發現隨著能力的提升而出現的缺陷性假設。

當然，對於任意能力的AI 系統，DeepMind的方法並不都具備魯棒性。但是，AI 開發者可以採取前瞻性規劃來部署相關能力。

參考資料：

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

https://arstechnica.com/ai/2025/04/google-deepmind-releases-its-plan-to-keep-agi-from-running-wild/

運營/排版：何晨龍