
來源 | 新智元
編輯 | KingHZ
加入Meta超級智慧實驗室後,畢樹超首次發聲:大多數人可能低估了AI的影響!
十年前,他非常懷疑AGI,但在過去十年中,他逐漸接受了AGI,日漸篤定,甚至宣稱:2025,AGI已來。

上個月,他在哥倫比亞大學和哈佛大學就人工智慧發表了兩次演講。
許多參加的人都後來聯絡他,聲稱這次演講改變了他們的AI觀念。

在題為《推進矽基智慧前沿:過去、開放問題與未來》的演講中,畢樹超系統闡述了過去15年的技術進展、當前待解難題以及未來發展趨勢
目前,他在Meta從事強化學習/後訓練/智慧體研究。之前,他在OpenAI領導多模態研究;他還是YouTube Shorts的主要負責人。
他本科從浙江大學數學專業畢業,之後在加州大學伯克利分校獲得統計學碩士和數學博士學位。
AGI曙光
最近,David Silver等人發表了《Welcome to the Era of Experience》。

他們的核心觀點是:高質量的人類資料非常稀缺。
儘管人類文明已有幾千年,但真正積累的高質量資料並不多,而且大部分文字快消耗殆盡。
所以問題是:如何生成更多的資料?

答案可能在於人類本身。人類的資料來源於人腦的思考,以及從真實環境中獲得的反饋和獎勵。
算力正在變得越來越廉價,計算機與環境的互動或許可自動生成新的知識與資料。這種方式將可能比人類自身產生資料的速度更快。
這也是為什麼畢樹超如此看好通用人工智慧(AGI)和超人工智慧(Artificial Superintelligence,ASI)的原因。

他分享了個人對AGI研究的心路歷程。
一開始對通用人工智慧持懷疑態度,因為這個領域存在大量炒作。
對他個人來說,最大的障礙是他曾堅定地相信:人腦是特別的,人類智慧是獨一無二的。
畢竟,目前許多技術,從數學角度來看,只不過改進了Tensor運算和梯度最佳化,本質上並不複雜。他不禁懷疑:人類真的那麼難以複製嗎?
但隨著對AI理解的加深,他開始意識到:模擬人腦的方式不止一種。如果能夠用計算機模仿人類的學習方式,那為什麼不這樣做呢?
這就是他如今更加相信AGI的原因:
一方面,也許大腦並不是獨一無二的,它只是生物進化的結果。雖然複雜,但歸根結底它也不過是一臺「生物計算機」,並不比矽基計算機更神秘。
另一方面,也許真正關鍵的因素不是結構的複雜程度,而是系統是否具備足夠的規模。
AI雙城記
在哥倫比亞大學,他追溯了人工智慧(AI)的思想根源。

這一切都始於1948-1950年左右。

當時,Alan Turing提出了一個問題:機器能思考嗎?
圖靈提出,人工智慧不應試圖模仿成人的大腦(包含複雜的經驗和偏見),而應設計一個簡單的模型,儘量減少人為預設的結構,讓模型透過資料自主學習。
畢樹超對觀眾說:「這正是機器學習的核心。你構建一個幾乎不含人類先驗知識的系統,讓它從資料中學習。」
他重點講了自監督學習和強化學習。
他回顧了自監督學習、深度網路以及像Transformer這樣的里程碑式架構的興起。
他展示了計算能力和資料規模的提升(而非人工編碼的知識)如何帶來效能的飛躍。

自監督學習
2012年,出現了AlexNet。
基本上可以說,這是第一個大規模深度學習模型,使用了GPU和大量資料。
AlexNet錯誤率令人驚歎,效能之好史無前例。

從中,大家得到了一個啟示:只要有足夠的資料和計算能力,神經網路就會超越人類過去幾十年手工設計的視覺演算法。
在當時,對於從事視覺研究的研究人員來說,是一場災難,幾十年付諸東流。
這重新喚起了人們對神經網路的興趣,深度學習革命開始了。

大多數人認為2012年標誌著深度學習革命的開始。
然後到了2013年,谷歌發表了Word2Vec。
簡單來說,「Word2Vec」用一個嵌入向量,來表示單詞。
從此,單詞可以進行算術運算,比如「king-man=queen-woman」。
向量運算竟然能捕捉語義關係!更關鍵的是,這些詞嵌入在下游任務中表現驚人。
這引發了另外兩個趨勢:
(1)Word2Vec演變到一切皆可向量化(everything2Vec)。
(2)強化了計算+資料的優勢,這種結合遠比歸納偏差表現要好。

這回應了圖靈的設想:我們不想模擬成人的大腦,這意味著我們不希望在模型中加入人類的歸納偏差。
2014年,生成模型GAN出現了。

GAN在生成領域石破天驚,但與自監督學習關係不大
2015年,深度學習「加速器」Adam最佳化器已經誕生了,開始流行。

它標準化了訓練流程,終於不用再手工調參了!特別適合處理海量資料和稀疏梯度,直到今天大多數最佳化器都是Adam的變種。
同年的ResNet更是神來之筆!
當時深層網路訓練就像走鋼絲——梯度要麼消失要麼爆炸。而ResNet的「跳躍連線」(skip connection)就像給神經網路裝了電梯:淺層特徵可以直接跨層傳輸。

殘差連線讓最佳化變得非常容易:右圖(a)沒有殘差連線時崎嶇不平,(b)引入殘差後如瓷碗一般平滑。
如果採用這種結構,可以確保學習起來容易得多。而且這種技巧幾乎適用於所有網路架構。這就是為什麼現在幾乎所有網路都採用這種結構。
不過當年,很多數學背景的人都質疑過深度學習中的這類技巧。
豁然開朗
演講的前一天,畢樹超和物理教授聊天才意識到:在低維空間建立的統計直覺,在萬億引數的高維空間根本不適用!
原因是大家都生活在低維空間中,低維度的直覺難以推廣到高維空間。
畢樹超花了好幾年才克服了這些錯誤的直觀。
他之所以困惑一大原因在於深度神經網路需要的是非凸最佳化(non-convex optimization)。
當處理非凸最佳化時,首先擔心是陷入隨機的區域性最小值。如果最好的結果不過是隨機的區域性最小值,怎麼能信任結果呢?然後,有很多關於這個的研究。

讓他重拾信心的第一個發現是:在高維空間裡,陷入區域性最優其實非常難。在三維世界看二維曲面時,區域性極小值確實像深坑難爬出來。但在十億維空間裡,有無數個逃生通道!
第二個發現更妙:就算被困住,這些「區域性極小值」其實離全域性最優根本不遠!
所以現在沒人再糾結非凸最佳化問題了。
那再說個更顛覆的現象——過引數不會帶來過擬合。
在傳統的統計分析領域中,如果引數數量大於資料點數量,那是一場災難。從理論上講,這會導致過擬合。
但深度學習模型引數動不動就是樣本量的百倍!

作為數學統計雙背景的人,這曾讓他困惑不已、夜不能寐…
直到發現:即便用隨機標籤訓練,網路也會優先學習真真實模式,
這就是著名的「雙下降現象」:當過引數化模型達到插值點後,會進入廣闊的零損失解空間,並自動選擇泛化性最優的解。
現在,終於可以說:過引數化不是bug,是feature!
ChatGPT前傳
2014年,出現了第一篇關於注意力機制的論文。
從2014年到2016年,當時的主要挑戰是,這些模型很難並行訓練,以及梯度消失。

LSTM有所幫助,但也沒有完全解決問題。
然後,Transformer就出現了。

這是過去十年中最重要的論文之一。它完全消除了遞迴,完全依賴於自注意力。
Transformer是一個轉折點,優雅地解決了之前的侷限性。
畢樹超盛讚:「這是過去十年最重要的架構。它高度可並行化、資料效率高,並且擴充套件性極佳。」
2018年,出現了GPT-1。2019年,出現了GPT-2。2020年,出現了GPT-3。
畢樹超認為GenAI的本質通用性(generalizable)。
以前,只要有資料,每個領域都可以構建一個專門的模型。這並不具備可擴充套件性。而GPT系列模型非常通用,可以透過零樣本或少樣本學習完成任務。

2020年,Scaling Law論文揭示驚人規律:算力、引數量、資料量每增加10倍,損失函式就線性下降!

這個定律精準預測了GPT-4的效能。雖然它終將觸及天花板,但在此之前,10萬億美元級的算力投入都將持續獲得回報!

這也是《The Bitter Lesson》這篇雄文的核心:70年AI史就是「算力碾壓人類精巧設計的演算法」的歷史!

當然,作為數學系畢業生的畢樹超總在追問scaling的源頭——或許答案藏在資料分佈的本徵結構中。
Scaling Law如何讓模型頓悟?
看看資料分佈:頂尖醫生解決罕見病,普通醫生處理常見病;
算術書籍浩如煙海,代數幾何專著卻鳳毛麟角。
智慧的分佈恰如冪律曲線!

Scaling law的本質或許在此:每挖掘高一個數量級的「智慧稀有度」,就需要十倍算力投入!
這解釋了為何模型總先學通用模式。
三年前,全網爭論的「能力湧現」,其實只是冪律資料遇到對數座標的視覺把戲!
當算力突破臨界點,AI「突然」學會微積分不過是捕獲了資料長尾中的高階模式!
這只是一個視角問題。它並不是突然出現的,它實際上只是反映了底層資料。

Ilya有一句名言:「模型只是想學習。」
Transformer架構終於讓AI迴歸本能:吃資料,吐智慧!。

過去十年,我們逐漸打破了很多對機器學習的誤解。如今,主流觀點是:預測本身的壓縮,其實等同於理解,甚至是智慧的體現。
從資訊理論的角度來看,Shannon把「資訊」定義為「不可預測性」。「智慧」可以理解為:讓這個世界變得越來越不讓你感到驚訝的能力。
從這個意義上看,大語言模型在預測下一個詞時,其實是在壓縮語言中的各種模式。這正是人類理解世界的方式之一。
從認知科學的角度,人類的學習過程本質上也是壓縮過程。物理定律、數學公理等方式把世界的觀察總結成最小的一組規則。
因此,從資訊到學習,從預測到理解,「壓縮」是背後共同的核心邏輯。
強化學習
整個深度強化學習從2015年開始。
當時,出現了DQN網路。它可以玩多種雅達利遊戲,玩得比人類好多了。

這些模型發現了很多人類想不到的策略,因此人們稱之為「外星智慧」(alien intelligence)。
真正的核爆點在圍棋上。AlphaGo的表現讓人們第一次意識到:「這些模型真的有智慧。」
AlphaGo起初是從人類棋譜中訓練起來的,它結合了深度神經網路、、自我博弈(self-play)和蒙特卡洛樹搜尋(Monte Carlo Tree Search),最終擊敗了世界冠軍。
到了2017年,AlphaGo Zero出現了。模型進一步升級,完全不再依賴人類資料,所有訓練都來自自我對弈,堪稱「AI界周伯通」!

2018年,AlphaZero再進一步。
2019年,強化學習擴充套件到了電子遊戲,比如《星際爭霸》。
但這股熱潮很快退卻了,因為人們發現:AI雖然能「打遊戲」,卻在現實中沒有太大用處。
直到強化學習與預訓練模型結合,這一切才真正發生了變化,開啟了「預訓練與強化學習結合的新時代」。
低算力RL
比如2022年的InstructGPT,它讓大語言模型不僅僅是「自動補全工具」,而是能夠理解和執行人類指令。

而2022年釋出的ChatGPT,更是透過強化學習(特別是人類反饋強化學習,RLHF)進一步提升了互動能力。
當時,這個專案只是John Schulman等人的一個低調研究預覽。誰曾想,它如今每週有超過5億使用者使用,徹底改變了人們獲取資訊的方式。

但仔細一想,這跟之前提到的「遊戲裡的強化學習」到底有什麼不同呢?
強化學習+預訓練模型,可以應用到現實中更廣泛、更有價值的場景中。
關於當前AI模型的訓練方式,強化學習所佔的計算資源比例其實非常小,就像蛋糕上點綴的櫻桃。

但未來如果要構建真正的AGI乃至ASI,強化學習必須發揮更大的作用,尤其是在適應未知環境方面。
高算力RL
在過去六七十年的AI發展中,有兩類技術最能隨著算力增長而不斷進步:
-
「學習」:也就是預訓練;
-
「搜尋」:透過策略探索獲得新解。
而「搜尋」這一方向,目前還遠遠不夠好。
這也是為什麼我們要進入AI發展的「第二階段正規化」:讓預訓練與高計算量強化學習真正結合起來。
從2014年的o系列模型開始,這種趨勢已經出現。

在數學基準上AIME中的表現,開源的DeepSeek R1已經超過o1。

這並不是一件簡單的事,它代表了全新的計算正規化:「高算力RL」。
這種正規化然顯著增強了模型的「個體學習」能力。
雖然問題還有很多值得探索,但畢樹超在演講中表示:「每隔幾個月,我們就看到一些曾經被認為不可能的事情成為現實。這應該讓我們重新審視所有我們仍然認為不可能的事情。 」
也許很多我們以為的不可能,其實只是知識的侷限。
參考資料:
https://youtu.be/E22AOHAEtu4
https://www.linkedin.com/feed/update/urn:li:activity:7336814222590341120/
https://x.com/shuchaobi/status/1949493389894058487
https://www.engineering.columbia.edu/about/news/exploring-past-and-future-ai
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
