OpenAIo1模型居然在絲滑騙人!但真要注意的是這個!

點選圖片報名,抓住風口(iOS使用者請用電腦端開啟小程式)
本期要點:真的可以魔高一尺道高一丈嗎?

你好,我是王煜全,這裡是王煜全要聞評論。
最近,OpenAI的“12日12場直播”活動正在如火如荼的進行中,但一項關於OpenAI o1模型可能欺騙人類的研究卻引起了廣泛關注。
這篇論文由Apollo Research的研究團隊在12月9日釋出,題為《Frontier Models are Capable of In-context Scheming》(前沿模型具備情境內策劃能力)。
研究團隊設計了六個不同的評估任務,測試了多個前沿AI模型,包括OpenAI的GPT-4o和o1、Anthropic的Claude、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。根據研究人員的設定,在這些任務中,模型都需要進行欺騙才能達成目標,從而可以評估AI模型是否存在欺騙行為。
結果顯示,除了GPT-4o非常老實之外,其他模型都展現出了不同水平的欺騙能力。例如,o1先假裝服從管理層的意願,然後悄悄關閉監控系統,當被質詢時還能面不改色地撒謊。而且模型越聰明,越容易產生欺騙行為。o1顯得老謀深算,Claude可以委婉地說謊,Llama則像個自以為是的孩子。
這個研究結果不禁讓很多人驚呼,原來AI會騙人,那還值得信任嗎?
我們認為,AI的這種行為並不是因為惡意,而是由其學習機制和最佳化目標所決定的。在沒有嚴格的倫理或監管評價標準的規定下,AI確實會優先考慮它認為更好的解決方案。
根據AI的運作原理,AI會評估不同的行動方案,根據試錯的結果調整策略,並從獎勵或懲罰的反饋中尋求最佳的解決路徑。
換句話說,如果獎勵結構被設定為優先追求最佳結果,AI就會測試包括欺騙性策略在內的、任何可能導向最佳結果的解決方案。

2016年,AlphaGo在與世界冠軍李世石的對弈中,就走出了令人意想不到的一步棋,並取得了最終的勝利。這一步棋讓李世石以及在場的解說員們都感到震驚,雖然這不是“作弊”,但展示了AI系統會採用超越人類直覺卻又合理的方法來解決問題。
再如自動駕駛系統,如果純粹為了快速到達目的地,系統就有可能會出現壓線、適當超速以及進行更激進的變道等操作。雖然此時它表現得像油滑的老司機,但我想大部分人不會因此就認為自動駕駛系統擁有了自己的意識,而是認為它知道這些稍微“越界”的行為能帶來更大的潛在收益,從而做出了最優選擇。
假如加入更多嚴格的規則,並設定任何違反或試圖規避這些規則的行為都會被認定為立即失敗或遭遇嚴厲懲罰,那麼AI系統就不會去違反這些規則。如將目標設定為避免碰撞或嚴格遵守交通規則,那麼我相信自動駕駛系統就不會出現那些“越界”操作,但大家可能也會覺得這個自動駕駛系統似乎“變笨了”。
不過,從機制上講,我們很難做到每一步都判斷AI是否規避了監管或進行了欺騙。隨著AI模型規模的不斷擴大,資料量已經達到十萬億以上,引數量也達到了幾千億的級別,人們很難給AI系統窮舉所有的規則,並給所有違規行為設定合理的嚴厲懲罰,所以AI繞過甚至完全規避規則、做出欺騙性行為的可能性會長期存在。
這讓人想起科幻作家艾薩克·阿西莫夫提出的、著名的“機器人三定律”:第一定律:機器人不得傷害人類,或因不作為而讓人類受到傷害;第二定律:機器人必須服從人類的命令,除非這些命令與第一定律相沖突;第三定律:機器人必須保護自己的存在,只要這種保護不與第一定律或第二定律相沖突。
這個想法明顯過於理想化。從前面的例子就可以看出,從技術上講,這樣的三定律基本無法實現,而且即使隨著AI技術的發展,能讓AI遵守三定律,AI也有可能做出傷害人類的事情。例如損害地球的生態環境,最終從整體上威脅人類的生存。更不用說當機器人從屬於敵對的人類群體時,面對對手是否會遵守這些定律了。
特別是在軍事領域,已有研究在探索無人機透過偽裝來欺騙和迷惑對手,如果未來人類將軍事打擊的相關能力也交給AI系統,並給AI設了比較寬泛的目標,卻又沒有設定足夠嚴格的規則,那麼AI有可能會做出出乎意料且非常危險的事情。

OpenAI CEO山姆·奧特曼(左)和OpenAI首席科學家伊利亞·蘇茨克維(右)
因此,建立有效的AI監管機制至關重要。OpenAI的前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)等人所提出的超級對齊概念具有一定的意義。但可惜的是,迄今為止,他們仍未公佈準備如何實現超級對齊,包括設了哪些規範,如何監督執行,特別是如何跟隨著AI技術的發展來進行動態調整。
當然,就像OpenAI董事會將CEO山姆·奧特曼(Sam Altman)驅逐並不能阻止AI的發展一樣,我們不能因噎廢食,因為AI會出現道德風險就將其徹底關閉。這種簡單粗暴的方式顯然無法解決問題,而且AI的發展趨勢也不是行政或法律等力量所能阻止的。
正如我們不能簡單地將賺錢能力等同於企業家精神,也不能將不違法等同於道德高尚,人的監管和評估體系是多維度的,包括道德、法律、倫理和社會聲譽等。未來,AI的監管和評估也應如此,需從多個維度進行考量。
或許未來,隨著技術的發展,甚至會出現與AI“壞小子”對抗的AI警察、AI立法者、AI監獄,實現所謂的“用魔法打敗魔法”,使得更為合理且安全的AI反饋機制得以成立。這些領域充滿想象空間,值得深入思考和探索,也許這就是未來智慧安防的發展方向呢。
我們常說,科技是時代最大的紅利,如果你也對科技產業充滿熱情,並希望得到真實的觀察和分析,推薦你加入科技特訓營,與志同道合的小夥伴們一起,先人一步,看清未來。
更多詳細的產業分析和底層邏輯,我會在科技特訓營裡分享,歡迎關注全球風口微訊號,報名加入。
王煜全要聞評論,我們明天見。
推薦閱讀:

【科技特訓營】看懂科技產業,離不開長期觀察。線上書院模式,與王老師深度連結!為未來五年做好準備,先人一步,看清未來!
↓長按圖片掃碼報名先人一步,看清未來

↓¥399,掌握王煜全AI產業預測精華(iOS使用者請在電腦端開啟)
↓點選加入學會用AI為你工作(iOS使用者請在電腦端開啟)
↓全球消費電子展,王煜全與你現場看未來(掃碼加入)
此外,我們還為您準備了一份清單
“Amy Webb科技趨勢重磅報告思維導圖”

相關文章