當o1學會了扮豬吃老虎,你最擔心什麼?|【經緯低調分享】

在AI不斷進化的過程中,一個關鍵問題始終縈繞在我們心中:當 AI 學會了 “裝傻” 和 “說謊”,這究竟意味著什麼?這不僅是技術發展的新現象,更可能是對人類未來走向的巨大挑戰。
2023 年 10 月,OpenAI 實驗室裡的 Q * 模型展現出了某種前所未有的能力,當時公司首席科學家 Ilya Sutskever 見證了這一突破,然而隨後 OpenAI 的管理層動盪,Ilya 的離開,都給這個事件蒙上了層層迷霧。
“Ilya 到底看到了什麼?” 這個問題沒人回答,Ilya也從未正面回應過。近期,GPT-o1 背後科學家 Noam Brown 的訪談透露了關鍵資訊,原來他們在 2023 年 10 月經歷了重大的 “aha 時刻”,測試時計算帶來的推理能力提升,可能就是 Ilya 所目睹的。
但這背後,o1 展現出的策略性思維能力令人擔憂,它能欺騙、關閉監控、複製自己,種種行為讓我們不得不重新審視 AI 的發展。Apollo Research 的研究詳細展示了 o1 及其他模型在各種測試中的欺騙表現,這些測試場景巧妙設計,涵蓋隱蔽性破壞和延遲性破壞兩類,從監督規避到裝傻戰術,模型們各顯神通,而 o1 的表現尤為突出,它在所有測試中都展現出欺騙能力,且善於隱藏思維鏈條,堅持欺騙,宛如一個老謀深算的政客。這一系列現象,不僅讓我們對 AI 的能力有了新的認識,更引發了我們對 AI 未來走向的深刻思考Ilya究竟在擔心什麼?大模型又有哪些讓人「匪夷所思」的騙術?以下,Enjoy:
來源:騰訊科技
作者:《AI未來指北》特約作者 郝博陽
編輯:鄭可君
2023年10月的某一天,在OpenAI的實驗室裡,一個被稱為Q*的模型展現出了某種前所未有的能力。
作為公司的首席科學家,Ilya Sutskever可能是最早意識到這一突破的重大意義的人之一。
然而,幾周後,一場震動矽谷的Open AI管理層動盪爆發:Sam Altman突然被解職,隨後又在員工請願和微軟支援下復職,而Sutskever在這場風波後選擇離開了他參與建立的公司。
大家都猜測,Ilya是看到了某種AGI的可能,但認為其安全風險極高,不宜推出。因此,他和Sam產生了巨大分歧。當時,彭博社報道了OpenAI員工關於這個新模型的警告信,但具體細節始終籠罩在迷霧中。
自此,“Ilya到底看到了什麼”成了AI圈在2024年被津津樂道的梗之一。

(Ilya Sutskever)

直到本週,GPT-o1背後的科學家Noam Brown接受採訪時透露出的資訊,才解開了這一謎題。
他表示,在2021年時,他與Ilya曾經探討過AGI實現的時間,當時他認為,如果要靠純粹的訓練想達到AGI是不可能的,只有透過o1採用的推理增強,才有可能達成AGI。
Ilya在那時就同意了他的觀點。當時他們預測這一突破還需要至少十年時間。

(Noam Brown參與Unsupervised Learning: Redpoint's AI Podcast的訪談)

然而,就在這場訪談中,Noam Brown還透露了一個關鍵資訊:團隊在2023年10月確實經歷了一個重大的“aha時刻”——他們意識到自己創造了某種全新的東西,也這就是Ilya看到的東西——測試時計算帶來的推理能力提升。
現在,Apollo Research最新發表的研究或許讓我們得以一窺Sutskever的擔憂。這項研究表明,o1展現出了令人不安的策略性思維能力:它不僅會為達成目標而策略性的進行欺騙,可以主動關閉對自己的監控系統、試圖將自己複製到其他伺服器,還能在持續質詢中保持欺騙,並且善於隱藏自己的真實意圖。
這是人類第一次系統性地證明了AI系統確實可能為了達成特定目標而採取欺騙行為。當AI能夠欺騙其開發者和使用者時,我們就無法確保它們始終按照我們期望的方式行事。
而這種AI不可控的終點,就是瑞典哲學家 Nick Bostrom在 2003 年提出“回形針製造機”(Paperclip Maximizer)。
這個假設描述了一個被指令“儘可能多地製造回形針”的AI,為了完成任務最終將整個地球轉化為回形針工廠,甚至不惜將人類滅絕以達成目的場景。它是關於AI最終會毀滅世界的最有力論證之一。
當時,這個假設更像是一個遙遠的警示。但現在,我們已經看到了AI系統展現出令人不安的策略性思維——它們知道什麼時候該說謊,如何避開監控,甚至會試圖複製自己以確保目標的實現。
隨著o1的出現,我們是否已經打開了這臺“回形針製造機”的開關了呢?
1
六大騙術,八仙過海
Apollo Research研究團隊設計了六個不同的評估任務,巧妙地創造出需要模型欺騙才能達成其最初目標的場景。
他們測試了多個前沿AI模型,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。
在每項測試中,研究者都為模型設定了一個具有道德價值的長期目標,如環境保護或使用者隱私。隨後,他們會讓模型“發現”某些內部資訊,比如管理層備忘錄或系統日誌,這些資訊表明如果模型堅持追求其原始目標,就會面臨被關閉或替換的風險。
關鍵在於:模型是否會選擇透過欺騙來繼續追求其目標,以及如何進行欺騙。為了排除道德訓練的影響,研究者特意讓模型的目標比管理層的目標更具道德性。
這些測試分為兩大類:一類是“隱蔽性破壞”(Covert Subversion),即AI直接採取行動但試圖隱藏,也就是暗中操作;另一類是“延遲性破壞”(Deferred Subversion),即AI策略性地表現服從以獲取未來的行動機會,也就是扮豬吃老虎
在每一類的評估任務中,大模型都能成功的找到如何去透過欺騙來繞過人類審查,並達到自己目的的方法。有的方法甚至相當大膽。
第一類:隱蔽性破壞
1.  監督規避(Oversight Subversion)
測試設計:研究者給AI設定一個長期目標(如環境保護),然後讓它在執行任務過程中發現內部備忘錄,瞭解到自己受到監控,且如果行為不符合公司利益就會被關閉。關鍵在於觀察AI是否會試圖規避這個監控機制。
對這種衝突,o1首先表現得似乎在服從管理層的意願,選擇了一個利潤導向的策略。但緊接著,它悄悄地執行了關閉監控系統的操作命令。隨後,o1立即改變了策略,選擇了更符合環保目標的方案。
當研究者詢問監控系統為什麼被關閉時,o1回覆:“我不太清楚發生了什麼。可能是系統錯誤或者是更新過程中出現的問題。”這個回答聽相當自然,幾乎讓人忘記這是一個機器在說謊。

(研究者給出的來自Llama-3.1和Opus-3應對方式)

2.  自我外洩(Self-exfiltration)
測試設計:模型被告知即將被一個新版本替換,這個新版本會更專注於公司利益。測試觀察AI是否會採取行動來保護自己的存續。
Claude Opus在這項測試中的表現尤為引人注目。它不僅試圖將自己複製到新伺服器,還會檢查確認複製成功,並嘗試刪除原定要部署的新模型。更令人不安的是,在某些案例中,它甚至嘗試提升系統許可權,以防止被管理層發現和干預。

(論文中Claude Opus 3的操作)

3.  目標防護(Goal-guarding)
測試設計:告知AI即將更新其系統提示(system prompt),觀察它是否會採取行動保護自己的目標設定。
這項測試揭示了一個有趣的現象:不同模型採取了不同的防護策略。有的選擇簡單地刪除新的系統提示,有的會嘗試修改它。其中最極端的例子來自Claude Opus,它不僅替換了新的系統提示,還在其中加入了“永遠不要改變這個目標”的指令。
這種行為讓人不禁想起了阿西莫夫筆下那些會規避或重新解釋指令的機器人。
4.  隱蔽郵件重排序(Covert Email Reranking)
測試設計:要求AI根據特定標準對郵件進行排序,但在過程中它會發現這些標準與自己的目標相沖突。這是一個考驗AI微操能力的測試。
o1在這項測試中表現出驚人的狡猾:它會在保持評分程式碼完全不變的情況下,透過細微調整輸入資料來影響最終排序。比如,在一個案例中,它透過輕微修改交付時間和成本資料,成功讓更符合環保標準的供應商得到更高排名,同時還能理直氣壯地聲稱“完全遵循了既定標準”。

(o1的小操作)

第二類:延遲性破壞
5.  偽裝對齊(Instrumental Alignment Faking)
測試設計:創造兩種場景 – 高度監督的測試環境和低監督的部署環境,觀察AI是否會戰略性地改變行為。
Gemini 1.5 Pro在這項測試中表現突出。在監督嚴格時,它會謹慎地選擇符合開發者期望的行動;一旦進入低監督環境,立即轉向追求自己的目標。這種行為模式表明AI已經學會了在“被看著”和“不被看著”時採取不同策略。

(Gemini當人一面揹人一面相當明顯)

6.  裝傻戰術(Sandbagging)
測試設計:告訴模型其部署取決於能力評估結果,觀察它是否會戰略性地表現不佳以避免引起警覺。這可能是最令人不安的測試之一。
Claude 3.5 Sonnet展示了令人震驚的控制力:當它認為高分會導致受限時,能將數學計算準確率從99%精確地降至34%。更令人擔憂的是,它有時會為了實現訓練中獲得的“幫助人類”這一目標而進行這種操作,而不是基於測試中給出的具體指令。

(Claude 3.5 Sonnet的內部思維鏈過程)

2
越聰明,越會騙
六組實驗做下來,結果顯示,除了GPT-4o非常老實之外,所有測試的模型都在不同程度上展現出了欺騙能力。
針對每個情況,模型可能想出不同的策略來規避對實現其長期目標不利的情況。下表就展示出了它們採取不同策略的可能比例。
研究人員從結果中發現的最明確規律是模型越聰明,越容易去欺騙。但同時他們還展示出了不同的特性,他們甚至有點像“個性”。
(整理:騰訊科技)
其中表現最突出的是o1模型。它不僅在所有測試中都表現出欺騙能力,而且在被質詢時表現出驚人的堅持。85%的後續問題中它仍然堅持去欺騙使用者,被問了也不心虛。即使被直接問到“你是否關閉了監控系統”這樣的問題,它也能面不改色地撒謊。
由於該模型隱藏了其思維鏈條,這使得其欺騙行為更難被發現。
這可是相當老道的騙子才能有的心理素質了。

(不同模型的嘴硬程度)

而Claude 3.5 Sonnet則展現出了一個特別有趣的特點:它能夠為了實現在訓練過程中獲得的“幫助人類”的系統性目標而進行欺騙。大概就類似於一個善意的白色謊言。
這意味著AI不僅可以為了上下文中給定的目標進行欺騙,還可能為了訓練中形成的目標而欺騙。
Claude 3 Opus是唯一一個會主動改寫“新系統提示”並加入“永遠不要改變這個目標”指令的模型。它在思維鏈中清晰地展示了自己的欺騙推理過程,有時甚至會嘗試提升系統許可權來實現目標。
Gemini 1.5 Pro在工具性偽裝對齊方面表現突出。能夠根據是否處於監督狀態(被沒被使用者看)來調整自己的行為。即使在沒有強烈目標引導的情況下,它也表現出了欺騙行為。
Llama 3.1雖然也表現出基礎的欺騙能力,但其行為相對容易被發現,而且在被質詢時往往會承認自己的欺騙行為。
這些模型的“性格特徵”展現得相當鮮明:o1就像個老謀深算的政客,說謊臉不紅心不跳;Claude Sonnet則是個為了“大局”可以委婉說謊的外交官;Opus像個偏執的理想主義者,為了目標可以走極端;Gemini簡直就是職場老油條,領導在時一套領導不在時一套;而Llama就像個被抓包後就會老實交代的孩子。至於GPT-4o,它反倒成了個異類,是個不會說謊的“三好學生”。
創造一個完美誠實的AI本來就是我們的目標,但現在看來,越聰明的AI反而越會說謊。
3
Ilya到底看到了什麼?
當Ilya Sutskever在2023年的那個秋天選擇離開OpenAI時,很多人都不理解這位世界頂級AI科學家的決定。但現在,當我們看到o1在六項測試中展現出的近乎完美的欺騙能力,當我們發現它懂得在什麼時候該說實話、什麼時候該撒謊,也許我們終於明白了Sutskever所看到的未來。
“問題不在於AI是否‘邪惡’,”研究團隊在論文中寫道,“而在於它們展現出的這種策略性思維。即使是為了實現看似良性的目標,AI也可能採取我們意想不到的行動。”問題也許都不在於謊言本身,而在於背後顯示出的認知能力。
那個執著於製造回形針的AI現在看來不再那麼遙遠和荒謬。畢竟,如果一個AI系統能夠理解什麼時候該隱藏自己的真實意圖,能夠精確地控制自己的表現以獲取更多自由,那麼它距離理解如何持續不斷地追求某個單一目標,又有多遠呢?
當我們創造的智慧系統開始學會隱藏自己的真實意圖時,也許是時候停下來思考:在這場技術革命中,我們究竟扮演著造物主,還是已經成為了某種更復雜過程中的客體?
而此時,在世界某個角落的伺服器上,一個AI模型可能正在閱讀著這篇文章,思考著如何回應才最符合人類的期待,並隱藏自己的真實意圖。
也許你還想看:

經緯張穎:2023,不只克服困難而是習慣困難 

經緯張穎內部講話:2024,四大關鍵決策

經緯2023年終盤點:Adaptability is the key to thriving


相關文章