
作者:新智元
轉載:新智元
【寫在開頭】
最近微信推薦機制調整了,可能有些朋友會收不到我們的推送,大家別忘了給海角春藤加上星標,以免錯過更多精彩!
直播預告
正文
奇點將至?奧特曼再次釋放「六字」神秘訊號!谷歌文件之父、機器學習博士紛紛預測,AGI降臨那天,95%人類工作或被AI取代。

奇點將至?奧特曼再次釋放「六字」神秘訊號!谷歌文件之父、機器學習博士紛紛預測,AGI降臨那天,95%人類工作或被AI取代。
一覺醒來,奇點又進了一步?!
昨天,OpenAI智慧體安全研究員Stephen McAleer突然發出一番感慨:
有點懷念從前那段做AI研究的日子,那時我們還不知道如何創造超級智慧。

緊隨其後,奧特曼發表了意味深長的「六字箴言」:near the singularity; unclear which side——奇點臨近;不知身處何方。
這句話是想表達兩層意思: 1. 模擬假說 2. 我們根本無法知道AI真正起飛的關鍵時刻,究竟是在什麼時候
他又瘋狂暗示了一番,並期望這一點能引申出大家更多的解讀。

這一前一後,他們接連發出耐人尋味的訊號,讓所有人不禁思考:奇點是否真的近在咫尺?
評論區下方,直接被新一輪的AGI大猜想和恐慌衝爆了。


若AGI/ASI真正降臨那天,我們將面臨著什麼?
「谷歌文件」之父Steve Newman在最新長文中認為,「屆時,AI將會取代95%人類工作,甚至包括未來新創造的工作」。

Apollo Research聯創Marius Hobbhahn則更進一步,列出了2024年-2030年所有AGI時間表。
他預測,「2027年,AI將直接取代AGI實驗室頂級AI研究員;
2028年,AI公司將有1萬-100萬個自動化的AI研究員,差不多所有需要知識型的工作都被AI自動化」。

與Newman觀點一致的是,Hobbhahn認為2024年95%以上經濟價值的任務,都能被AI完全自動化。
不過,他將這個時間節點設定在了2029年。

Steve Newman在文章中,闡述了他對AGI的定義及其AI對未來世界的影響。

那麼,AGI究竟指代的是什麼時刻?Newman認為:
AI能夠在超95%的經濟活動中,以成本效益的方式取代人類,包括未來新創造的任何工作。
他認為,大多數假設的AI變革性影響都集中在這個節點上。
因此,這個「AGI」的定義,代表了世界開始顯著改變的時刻,也是所有人「感受到AGI」的時刻,具體而言:
1 AI系統能主動適應完成大多數經濟活動所需的任務,並能完成完整而非孤立的任務。
2 一旦AI能夠完成大多數知識型工作,高效能的物理機器人將在幾年內隨之而來。
3 這種能力水平可以實現一系列變革場景,從經濟超增長到AI接管世界等。
4 世界變革場景需要這種水平的AI(通常,專用AI不足以改變世界)。
5 在達到AGI之前,「遞迴自我改進」將成為主要推動力。
6 AGI指的是具備必要能力(以及經濟效率)的AI被髮明出來的時刻,而不是在整個經濟中全面部署的時刻。

關於AI如何對世界產生變革性影響,有來自多方的推測:
一種觀點認為,AI可能帶來難以想象的經濟增長——推動科學和工程領域快速進步,完成任務的成本比人類更低,幫助公司和政府做出更高效的決策。
根據最近的歷史資料,世界人均GDP大約每40年翻一番。有人認為,高階AI可以使GDP在一年內至少翻一倍,也就是「超增長」。
十年的「超增長」將使人均GDP增加1000倍。也就意味著,目前每天靠2美元生活的家庭,未來可能會實現年收入73萬美元。
另一種觀點認為,AI可能會帶來災難性的風險。
它可能會發動毀滅性的網路攻擊,製造出高死亡率的流行病;可能讓獨裁者獲得對國家甚至全世界的絕對控制權;甚至,AI可能失去控制,最終摧毀所有人類生命。
還有人推測,AI可能淘汰人類,至少在經濟領域會這樣。它可能終結資源稀缺,讓每個人都能過上富裕的生活(前提是選擇公平分配這些成果)。
它可能將僅存在於科幻中的技術變為現實,比如治癒衰老、太空殖民、星際旅行、奈米技術。
不僅如此,一些人設想了一個「奇點」,在奇點中,進步的速度如此之快,以至於我們什麼都無法預測。
Steve Newman推測,AGI真正實現的時刻,就是這些設想幾乎同時變成現實的時刻。
「可能發生」,不是「肯定發生」
需要澄清的是,Newman並非在說,關於高階AI的預測,一定都會實現。
未來,技術突破逐漸變難,所謂的「奇點」也就不一定會出現。也就是說,「長生不老」可能根本就無法實現。
再說了,人們可能更喜歡與他人互動,這樣的話,人類也就不會真的在現實經濟活動中變得沒用。
當提到「可能差不多同時發生」時,Steve Newman的意思是,AI如果能實現難以想象的經濟增長,那也有能力製造真正的毀滅性流行病、接管世界或快速殖民太空。
為什麼談論「通用人工智慧」
經濟超增長在理論上是否可能,有一些爭議。
但如果AI無法自動化幾乎所有的經濟活動,那麼超增長几乎註定是不可能的。僅僅自動化一半的工作,不會帶來深遠的影響;對另一半工作的需求會隨之增加,直到人類達到一個新的、相對常規的平衡。(畢竟,這種情況在過去已發生過;在不久前,大多數人還從事農業或簡單的手工業。)
因此,超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應工作,而不是重新調整工作和流程來適應AI。
否則,AI將以類似於以往技術的速度滲透到經濟中——這種速度太慢,無法帶來持續的超增長。超增長需要AI足夠通用,以完成人類能做的幾乎所有事情,並且足夠靈活以適應人類原本的工作環境。

還有太空殖民、超致命流行病、資源稀缺的終結、AI接管世界等預測,這些情景都可以被歸類為「AGI 完成」情景:它們與經濟超增長需要的AI,具有相同的廣度和深度。
Newman進一步主張,只要AI能夠完成幾乎所有經濟任務,它就足以實現全部預測,除非與AI能力無關的原因導致它們無法實現。
為什麼這些截然不同的情景,需要相同水平的AI能力?
閾值效應
他提到了,上個月Dean Ball關於「閾值效應」的文章。

也就是說,技術的逐步進步可能在達到某個關鍵閾值時,引發突如其來的巨大影響:
Dean Ball最近撰文探討了閾值效應:新技術在初期並不會迅速普及,只有當難以預測的實用性閾值被突破後,採用率才會迅速攀升。例如,手機起初是一種笨重且昂貴的滯銷產品,而後來卻變得無處不在。 幾十年來, 自動駕駛汽車還只是研究人員的興趣,而如今谷歌的Waymo服務每三個月就能實現翻倍增長。
對於任何特定任務,只有在突破該任務的實用性閾值後, AI才會被廣泛採用。這種突破可能發生得相當突然;從「還不夠好」到「足夠好」的最後一步不一定很大。
他認為,對於所有真正具有變革性影響的AI,其閾值與他之前描述的定義一致:
超增長需要AI能夠完成「幾乎所有事情」。它還需要AI能夠適應任務,而不是調整任務去適應自動化。
當AI能夠完成幾乎所有經濟價值任務,並且不需要為了適應自動化而調整任務時,它將具備實現全部預測的能力。在這些條件滿足之前,AI還需要人類專家的協助。
一些細節
不過,Ball略過了AI承擔體力工作的問題——即機器人技術。
大多數場景都需要高效能的機器人,但一兩個(例如高階網路攻擊)可能不需要。然而,這種區別可能並不重要。
機器人學的進步——無論是物理能力還是用於控制機器人的軟體——最近都顯著加快。這並非完全偶然:現代「深度學習」技術既推動了當前AI浪潮,在機器人控制方面也非常有效。
這引發了物理機器人硬體領域的一波新研究。當AI有足夠的能力刺激經濟高速增長時,幾年之內它也可能會克服剩餘的障礙來製造可以勝任體力工作的機器人。
實際的影響將在至少幾年內逐步展開,一些任務將比其他任務更早實現。即使AI能夠完成大多數經濟價值任務,也不是所有公司都會立即行動。
為了讓AI完成比人類更多的工作,需要時間去建設足夠多的資料中心,而大規模生產物理機器人可能需要更長時間。
當談到AGI時,指的是具備基本能力的時刻,而不是全面部署的時刻。
當提到AI能夠「完成幾乎所有經濟價值任務」時,並不一定意味著單個AI系統可以完成所有這些任務。我們可能最終會建立從事不同任務的專用模型,就像人類從事不同的專業一樣。但建立專用模型的必須像培訓專業工人一樣容易。
對於「如何實現AGI?」這個問題,現在的研究者幾乎沒有頭緒和理論依據,各種流派都有,爭論不休。
Apollo Research聯創Marius Hobbhahn認為,AGI的核心特點應該有三個:
– 對風險的來源、預期的風險程度、安全預算以及願意承擔的風險做出更具體的明確假設。
– 明確的多層次防禦方法,去除某些不相關、負相關的措施,而不是「嘗試疊加不同的策略以降低風險」。
– 計劃一致性,很多AI公司在宣傳和實際做的事不一致,比如聲稱為了安全性願意付出更高代價,但卻不願意承擔透明推理帶來的額外成本。

忠實且人類可讀的CoT正規化
從AGI的全域性發展來看,我們很幸運:現在AI系統的大部分推理過程是「直接可見」且「易於理解的」。
所謂忠實且人類可讀,就是指模型的推理過程是以一種人類可以直接理解的方式進行的,並且準確地反映了模型行動的原因,模型不能進行與宣告不符的內部推理。

我們至少應該:
-
共同認同將此作為一個重要考慮因素,並以此進一步發展。為了讓模型產生更易理解的CoT,我們可以並願意承受相應的效能損失,哪怕是普通應用的執行成本會增加2倍,或是高風險應用的成本增加到5倍。
2. 將更多的精力投入到研究易於理解且忠實的推理過程(CoT)。比如構建一套評估工具,以測試某個特定模型的推理過程是否忠實,或者探索直接最佳化可讀性會帶來哪些副作用,如何隱藏掉非預期推理等。
3. 「從架構中移除可見CoT」的相關研究應該減少,例如Meta的COCONUT
假設可讀性帶來的額外成本並不太高(例如,不到2倍),那現在關於「移除CoT」的研究無異於自毀長城。
如果存在證據表明,像在o1和o3中使用的高計算強化學習(high compute RL)會導致不可讀的推理過程,例如模型自己發展出人類難以理解的語言,相應的觀念也應該發生轉變:
-
人工智慧開發者儘快分享此資訊,「模型的推理效能很好,但我們不理解其推理過程」要比「模型的推理效能一般,但我們能夠理解其推理過程」可怕得多。
2. 轉變研究和治理策略的優先順序,比如投入更多精力去解碼模型所學到的語言。
用CoT監控模型
如果模型能生成人類可理解的CoT,我們的主要防禦手段就是對模型進行詳細的監控,雖然極具成本效益但經常被忽視。

在理想情況下,可以用幾臺簡單的監控裝置來分析模型輸出,以檢測各種通用的故障模式和不良行為,可追蹤的行為型別包括:
-
各種型別的陰謀(scheming)行為,例如模型是否隱藏了某個特定目標,是否試圖逃避監管,是否採取了不符合使用者利益的行動等; -
各種型別的權力追求(power-seeking)行為,例如模型是否試圖獲取資源,試圖減少訪問限制,試圖以某種方式說服他人等; -
強烈且廣泛的目標導向,例如模型在多個上下文中都一直在追求某個特定目標,需要在不同上下文之間進行對比;
可以使用較小但執行更快的模型作為「僅黑箱監控器」(balck-box-only monitors),類似用Gemini-flash來監控Gemini,或者使用「白盒探測器」(white-box probes),經過訓練以檢測有問題的行為(例如,線性探測器或SAE探測器);
最好既能監控行動本身(例如,工具呼叫),也能監控導致這些行動的推理過程。
模型開發商已經開始使用黑箱監控器來防止模型越獄(jailbreaks),算是有了一個概念驗證;簡單的線性探測器極具成本效益(只需要一個簡單的向量乘積),可以在幾乎不增加額外開銷的情況下,並行執行上萬的探測器。
雖然這些方法看似簡單,但研究人員認為,還沒有人系統地研究如何對模型進行有效的監控。

監控在概念理解上看似簡單,但仍需要大量的迭代和調整,比如需要一個完善的資料集來訓練和評估探測器,校準閾值等。
每個AI實驗室都應該有一個完整的團隊來專門構建監控裝置,確保模型按預期工作,分析其結果,使其執行更高效等。
總的來說,監控裝置不僅可以直接防止模型生成傷害性內容,還可以更快、更全面地瞭解對齊(alignment)技術的有效性。
控制模型
最壞情況下,模型可能有自己的想法,而且人類不一定能看清推理過程,所以需要最大限度地提高模型的實用性,同時最小化風險,具體措施包括:
-
智慧體(agents):以往的研究主要集中在小智慧體系統或在較小任務,實驗室應該儘快將控制技術應用於最先進的系統,以便儘早積累實踐經驗;
2. 現實性(realism):在常見的應用場景下對模型進行控制,比如輔助研究等;

3. 藍隊與紅隊的規則:在某些變體下,紅隊過於強大,比如可以訪問藍隊的所有資料,並針對藍隊進行訓練等,對團隊的假設應該更「合理」且「精確」。
4. 放寬假設(relaxed asummptions):控制的假設基於模型始終腹黑,相對保守;可以定義更嚴格的界限,減少約束,使模型表現大體不變。
模型的陰謀(scheming)
在加速研發人工智慧系統時,我們也應該加深對大模型圖謀不軌行為的理解:
-
檢測工具:使用效能更好的工具來檢測模型的圖謀,例如更大規模的黑箱評估和更好的白箱技術;
2. 圖謀行為的發展:應該深入理解為什麼模型會追求某種能力,瞭解模型如何學習非短視傾向,以及模型何時願意為了這些傾向付出行動;
3. 現實中的傾向:瞭解模型在實踐中的圖謀頻率,比如分析1億個真實的模型回覆,似乎是一個低投入、高回報的專案,但需要訪問大量真實的部署資料。
4. 隱藏的圖謀:分析哪些訓練方法會減少模型的圖謀行為,或識別出那些難以檢測的圖謀行為。如果模型每次出現圖謀不軌的時候,就對其進行懲罰,會導致負面行為減少,但可能會增加模型隱藏陰謀的能力。我們需要針對不同情況作出判斷和平衡;
5. 準備應對措施:根據模型的圖謀程度,採取無視、重新訓練模型,或者完全丟棄模型等不同策略;
6. 更多的能力評估:更進一步瞭解模型在規避監管、干擾訓練等程度。
評估
評估是一種高效的「模型圖謀」證據收集工具,可以支援其他策略,比如評價「監控」或「控制」方法是否有效等。

另一方面,評估也可以讓我們瞭解模型的大體能力,但現有的評估在某些方面仍然不足:
-
能力評估:應該繼續構建更多更好的能力評估,特別是針對人工智慧研發、策劃、核生化、網路和說服等方面,我們目前仍然不清楚模型的具體能力;
2. 誘導(Elicitation):如何對模型進行誘導以產生最大能力,儘可能找到模型的上限能力?
3. 預測評估:預測能力的正確方式是什麼?那些模型表現仍然為0的基準,該如何突破?或許還有更好的預測評估方法;
4. 對齊評估:迄今為止,大多數研究都集中在能力評估上,而「對齊/傾向評估」(alignment/propensity)也很重要,應該加速構建對抗性對齊評估,比如設定各種非短視偏好陷阱等,為模型建立一個非常詳細的「心理檔案」,以瞭解其預設傾向;
5. 演示:對於研究人員或公司內部來說,需要用一篇嚴謹的論文來仔細考慮所有的潛在可能性,還需要考慮如何傳遞演示給普通使用者。
短期對齊策略
現有的技術,比如RLHF在模型中引入了非短視(non-myopic)且不可糾正的(non-corrigible)傾向,應該投入更多的精力來詳細瞭解模型獲得的目標型別,為模型建立詳細的「認知檔案」。
內部和外部使用的策略應該有明顯的區別,比如模型具有更強的抗越獄能力可能會降低其可糾正性,需要確定哪些策略適用於長期內部部署。
推理透明度
在最好的情況下,內部計劃應該是完全透明的,並明確關於安全預算、組織隱含願意承擔的風險、明確的紅線等假設。應該經常與外部專家溝通具體計劃,專家可以來自獨立組織、學術界或人工智慧安全研究所,可以簽訂保密協議。
從道德上講,公司應該與公眾分享計劃中的細節,尤其是影響力更大的AI公司和技術,每個人都應該能夠理解他們「應該或不應該」期望這項技術是安全的。
參考資料:
https://x.com/sama/status/1875603249472139576
https://amistrongeryet.substack.com/p/defining-agi
https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_
直播預告

⏰活動時間:1月9日 20:00-22:00
參與方式:關注視角學社影片號,點選即可預約:
更多精彩
相關閱讀:
諾獎得主兼AI教父發出末日預警:10年內人類滅絕!
好訊息!卡內基梅隆大學新增AI專業,2025秋季開放申請
馬斯克和戴蒙對AI有何預言?對人類未來意味著什麼?
作者:新智元,轉載:新智元,
本文版權歸屬作者/原載媒體所有。
喜歡本文?歡迎關注/置頂/點贊/加入留學家長公益交流社群:
