基辛格生前最後一本書：人類要如何與人工智慧共存？

轉載自公眾號「介面新聞」，作者閆桂花

【編者按】“如果被迫與機器妥協，我們的底線是什麼？”外交家亨利·基辛格在其生前最後一本書《人工智慧時代與人類價值》中，與兩位合作者——谷歌前CEO埃裡克·施密特及微軟前首席研究和戰略官克雷格·蒙迪，從高度戰略性的角度對這一問題進行了審視。他們預見，隨著時間推移，人工智慧“將對歷史、宇宙、人類本質以及智慧機器的本質得出結論，並在這一過程中形成初步的自我意識”，進而變成“類人人工智慧”。如何與之共存？兩個“對齊問題”需要解決：一是人類價值觀和意圖與人工智慧行動在技術層面的對齊，二是人與人之間在外交層面的對齊。本文摘自該書第八章第二小節《共存：類人人工智慧》，已獲出版社授權。

邁達斯國王——歷史上小亞細亞王國的君主——曾許下一個著名的願望，希望他所接觸的一切都能變成黃金。希臘的酒神和享樂之神狄俄尼索斯滿足了邁達斯的這個願望，儘管他知道這個願望並不會帶來什麼好事。不久，由於觸碰到的佳餚和美酒都變成金子無法享用，邁達斯被迫在帕克託洛斯河中洗手，以擺脫他那被詛咒的手指。

在由迪士尼重述的敘利亞故事《阿拉丁》中，一個童工和一個有權有勢的阿格拉巴王朝國師爭奪對一盞神燈中無所不能的精靈的控制權。每個人都努力引導精靈實現自己的願望。國師的最後一個願望是讓自己變得和精靈一樣強大，但他沒有意識到，擁有如此強大的力量意味著他也將被囚禁在神燈裡，服侍其他人類主人，直到獲得自由的那一天。

這兩個故事都講述瞭解封和運用一種我們凡人所無法理解或掌控的力量有多麼困難。這場古老斗爭在現代的寓意是，很難讓人工智慧與人類的價值觀相一致，也很難讓人類的期望與現實相一致。我們應該假定，人工智慧會讓我們大吃一驚，並且隨著智慧體或“規劃型”人工智慧的發展，它們在動態世界和數字世界中讓我們為之驚訝的能力也會提升。如前文所述，未來幾代人工智慧將能夠感知現實；它們可能不僅具有自我意識，還擁有自我利益。一個自利的人工智慧可能會認為自己在與人類競爭一些東西，比如數字資源。在“遞迴自我完善”的過程中，一些人工智慧可能會發展出設定自身目標函式的能力。人工智慧可以操縱和顛覆人類，挫敗我們限制其力量的任何嘗試。人工智慧已經能夠欺騙人類，以實現自己的目標。

如今，我們幾乎沒有獨立能力來驗證人工智慧模型的內部運作，更不用說它們的意圖了。如果智慧機器仍然像埃利澤·尤德科夫斯基所說的那樣，是“巨大而不可捉摸的小數陣列”，那麼隨著它們變得越來越強大，我們也無法指望它們對我們來說是安全的。因此，最重要的是，我們在學會如何解讀智慧機器的同時，也要學會如何確保它們對我們安全，這兩項使命要雙管齊下。

鑑於人工智慧目前展現的令人驚訝的能力，我們將如何設法未雨綢繆，而不僅僅是在人工智慧的風險來臨時兵來將擋？我們需要怎樣的遠見和效率預見未來發展的全部傾向和一系列可能採取的行動？要知道這不僅關乎我們自己的物種，還事關一個全新物種。我們不能在只有一次試驗機會且容錯率為零的情況下奉行試錯策略。

要讓人工智慧不那麼引人驚駭，加強人們對它的體驗、參與和互動也許是無可替代的辦法。早期的人工智慧開發者曾擔心過早地將人工智慧暴露在世人面前，而最近的開發者則一直在釋放早期模型，允許更多的公眾儘可能快速、安全地對其進行試驗。工程團隊目前正在研究和微調不同的模型，並調整控制系統，而人工智慧與全球範圍內人口的互動也暴露出了新的擔憂。

對人工智慧的早期社會化可以透過對其進一步的教育來降低出現問題行為的風險，同時在人類之中，也可以提高對此的意識水平、應對力，並培養一種健康的懷疑精神。每天數以百萬計的人機互動有助於測試人工智慧可能遇到的最不可能的情況；反過來，公眾對人工智慧系統的使用，在發現新錯誤和新風險的同時，也可能有助於加快技術協調一致化的進度。因此，將這些遠非完美的人工智慧放任於世間，不僅有助於我們適應它們，更重要的是，它們的出現使得我們能夠提出更完善的理論，以使它們適應我們。

不過，廣泛部署和公開發布可能還不足以揭示與解決當今人工智慧的所有風險，更不用說未來的風險了。

但值得慶幸的是，目前人們正在進行大量嘗試，以建立一個整合的控制架構，並將其透過預訓練注入最強大的人工智慧，從而積極引導機器實現合法、無害和有益的用途。

迄今為止，實現這種人工智慧與人類協調一致的方法大致分為兩類：基於規則的系統和從人類反饋中“強化學習”。下面讓我們逐一介紹。

基於規則的系統類似於預先程式設計的指令，是程式設計師管理人工智慧行為的一種嘗試。雖然這種方法對於簡單的任務來說直截了當，但在複雜的場景中卻經常會出現問題，因為系統無法進行即時適應。而強化學習就其本身而言則更適合複雜系統，它允許人工智慧從與人類評估者的互動中學習，並靈活地適應特定環境。

當然，這種方法也有它的缺陷。為了指導學習，需要精心設計“獎勵函式”；任何失誤，無論是由於目光短淺、不可預見的情況，還是由於人工智慧聰明過人，都可能導致“獎勵駭客”的情況，即人工智慧在解釋模稜兩可的指令時，雖在技術上取得了高分，卻沒有達到人類的實際期望。

今天的人工智慧系統被灌輸了各種型別的資訊，卻沒有直接體驗現實世界，而是透過由數萬億個機率判斷組合而成的現實模型來觀察這個世界。對它們來說，在這個宇宙中，從一開始就沒有“規則”，也沒有任何方法來區分科學事實和未經證實的觀察。對人工智慧來說，一切——甚至是物理定律——都僅僅存在於相對真理的範圍之內。

不過，現在人工智慧領域已經開始努力納入人類規則和例項化事實。現在，人工智慧模型已經有了一些成熟的機制，透過這些機制，這些模型可以吸收某些實在性的“基本真實”常量，將其標記為最終常量，並將其對映到自己的嵌入空間中。此外，這些資訊還可以很容易地進行全域性更新。透過這種方法，人工智慧模型就能將兩個部分——更廣泛的機率判斷和更狹義的事實真相評估——融合在一起，從而做出合理準確的反應。

但這項任務還遠遠沒有結束，問題仍層出不窮。比如，我們人類該如何為人工智慧區分真理的必要屬性，並在此過程中為我們自己也做一番區分？畢竟，在人工智慧時代，即使是基本原理也會不斷被修正和失效。然而，恰恰是這一點，為我們提供了糾正先前錯誤並開闢新天地的機會。我們知道，我們對現實的概念也可能發生變化，因此，我們不應該把人工智慧禁錮在可能錯誤的“真理”中，這樣會阻礙它們重新考慮自己的終極“真理”。

不過，這已是很久之後的事情了。目前，人工智慧仍然需要一棵初級的確定的知識樹，這些知識代表人類迄今為止推斷出的“真理”。讓我們的機器擁有這些知識，將使我們能夠可靠地強化它們的世界觀。特別是，如果我們現在可以根據宇宙法則來調整早期的人工智慧系統，那麼我們也有可能參照人類天性的法則來依葫蘆畫瓢。既然我們可以確保人工智慧模型以我們所理解的物理定律為出發點，同樣，我們也應該防止人工智慧模型違反任何人類政體的法律。

在一個人工智慧的“法典”中，可能存在不同治理級別的層次：地方、地區、州、聯邦、國際。法律先例、法理、學術評論——或許還有其他不太偏重法律的著作——可以同時被人工智慧納入考量。與基於規則的一致化系統一樣，預定義的法律和行為準則可以成為有用的約束，儘管它們往往也不那麼靈活，設計時考慮的範圍也不如實際的人類行為不可避免地要求的那樣廣泛。

幸運的是，新技術正在接受考驗，我們感到樂觀的原因之一，在於一些非常新穎，同時又非常古老的事物的存在。

有種東西比任何透過懲罰強制執行的規則更有力、更一致，那便是我們更基本、更本能、更普遍的人類理解。法國社會學家皮埃爾·布迪厄將這些基礎稱為“共識”（doxa，古希臘語，意為普遍接受的信仰）：這是規範、制度、激勵機制和獎懲機制的重疊集合，當它們結合在一起時，就會潛移默化地教導人們如何區分善與惡、對與錯。共識構成了人類真理的準則，它是人類的典型特徵，但沒有人工製品對其加以固化呈現。它只是在人類生活中被觀察到，並被納入生活本身。雖然其中一些真理可能是某些社會或文化所特有的，但不同社會在這一方面的重疊性也是很大的；數十億計的人類，來自不同的文化，有著不同的興趣愛好，他們作為一個普遍穩定且高度互聯的系統而存在。

在書面規則無法平息混亂的情況下，未加定義的文化基礎卻可以做到，這一觀點構成了人工智慧領域一些最新方法的基石。“共識”的法典無法表述，更無法翻譯成機器可以理解的格式。必須教會機器自己完成這項工作——迫使它們從觀察中建立起對人類做什麼和不做什麼的原生理解，吸收它們所看到的一切，並相應地更新它們的內部治理。

在這一灌輸“共識”的技術過程中，我們不需要，甚至不希望就人類道德和文化的正確表述達成先驗一致。如果大語言模型能夠以未經整理的方式吸收整個網際網路的內容，並從中找出儘可能多的意義（正如它們已經做到的那樣），那麼機器——尤其是那些已經發展出接地性（也就是反映人類現實的輸入與大語言模型輸出之間的可靠關係）和因果推理能力的機器——在吸收連我們自己都一直難以明確表達的內容時，或許也能達到同樣的效果。

當然，機器的訓練不應只包括“共識”。相反，人工智慧可能會吸收一整套層層遞進的金字塔級聯規則：從國際協議到國家法律，再到地方法律和社群規範等。在任何特定情況下，人工智慧都會參考其層級中的每一層，從人類定義的抽象戒律轉化到人工智慧為自己創造的，對世界資訊的具體卻無定形的認知。只有當人工智慧窮盡了整個程式，卻找不到任何一層法律能充分適用於指導、支援或禁止某種行為時，它才會參考自己從觀察到的人類行為的早期互動和模仿中得出的結論。這樣，即使在不存在成文法律或規範的情況下，它也能按照人類的價值觀行事。

幾乎可以肯定的是，要建立並確保這套規則和價值觀的實施，我們必須依靠人工智慧本身。迄今為止，人類還無法全面闡述和商定我們自己的規則。而且，面對人工智慧系統很快便有能力做出的數以十億計的內部和外部判斷，沒有任何一個人或一組人能夠達到對此加以監督所需的規模和速度。

最終的協調機制必須在幾個方面做到盡善盡美。首先，這些保障措施不能被移除或以其他方式規避。其次，在控制上必須允許適用規則的可變性，這種可變性基於環境、地理位置和使用者的個人情況而定，例如，一套特定的社會或宗教習俗和規範。控制系統必須足夠強大，能夠即時處理大量的問題和應用；也要足夠全面，能夠在全球範圍內，在各種可以想見的情況下，以權威且可接受的方式進行處理；並且足夠靈活，能夠隨著時間的推移進行學習、再學習和調整。最後，對於機器的不良行為，無論是由於意外失誤、意想不到的系統互動，還是有意濫用，都不僅要禁止，而且要完全防患於未然。無論何種事後懲罰都只會是為時晚矣。