


編譯|吳瑩 曹冰穎(實習)
來源|人工智慧之趨勢(YouTube)
“放棄生成式模型,不研究LLM(大語言模型),我們沒辦法只通過文字訓練讓AI達到人類的智慧水平。”近日,Meta首席AI科學家楊立昆(Yann LeCun)在法國巴黎的2025年人工智慧行動峰會上再一次炮轟了生成式AI。
楊立昆認為,現有的大模型執行雖然高效,但推理過程是發散的,生成的token有可能不在合理答案範圍內,這也是為什麼有些大模型會產生幻覺。雖然現在的很多生成式模型讓AI可以透過律師資格考試、解決數學問題,但並不能做家務,對於人類來說不用思考就能幹的事情,對生成式AI來說很複雜。
他還表示,生成式模型根本不適合製作影片,目前大家看到的能生成影片的AI模型,並不能理解物理世界,它們只是在生成漂亮的圖片。楊立昆支援的是能理解物理世界的模型,他提出了更適合預測影片內容的聯合嵌入預測架構(JEPA),始終認為只有AI能真正理解物理世界,才能迎來比肩人類智慧水平的人工智慧。
最後,楊立昆強調了開源人工智慧平臺的必要性,未來,我們將擁有通用虛擬助手,它們會調節我們與數字世界的所有互動。它們要會說世界上所有的語言,瞭解所有的文化、所有的價值體系以及所有的興趣中心,這樣的AI系統不可能來自矽谷的少數公司,必須以有效的方式協作完成這件事。
精彩觀點如下:
2.我們沒辦法只通過文字訓練就能讓AI達到人類的智慧水平,這是不可能發生的。
3.在Meta,我們將這類能達到人類智慧水平的AI稱為高階機器智慧,我們不喜歡“AGI”(通用人工智慧)的說法,而是叫它“AMI”,用法語念很像“朋友”這個詞。
4.生成式模型根本不適合製作影片,大家可能見過能生成影片的AI模型,但它們並不真正瞭解物理,只是在生成漂亮的圖片。
5.如果你對達到人類智慧水平的AI感興趣,並且你在學術界,就不要研究LLM,因為你是在和數百個擁有數萬個GPU的人競爭,沒有任何意義。
6.AI平臺需要共享,它們要會說世界上所有的語言,瞭解所有的文化、所有的價值體系以及所有的興趣中心,世界上沒有任何一個公司可以訓練出這樣的基礎模型,必須以有效的方式協作完成。
以下為分享全文(有刪減):

為什麼我們需要人類智慧水平的AI
眾所周知,我們需要人類水平的人工智慧,這不僅是個有趣的科學問題,也是一種產品需求。未來,我們將佩戴智慧裝置,比如智慧眼鏡,透過這些智慧裝置隨時訪問AI助手,與它們互動。
我們需要人類水平的智慧,因為我們習慣與人互動,我們期待出現具有人類智慧水平的AI系統,未來無處不在的AI助手將成為人類與數字世界的橋樑,幫助人類更好地與數字世界互動。但是,與人類和動物相比,目前的機器學習還很糟糕,我們還沒有製造出具備人類學習能力、常識和理解物質世界能力的機器。動物和人類都可以根據常識推進行動,這些行為本質上是由目標驅動的。

所以目前幾乎所有人都在使用的人工智慧系統並不具備我們想要的特徵。因為它們是遞迴式地產生一個又一個tokens,然後用標記的tokens來預測下一個token。訓練這些系統的方式是把資訊放在輸入端,然後在輸出端試圖讓它重現輸入端的資訊。它是一個因果結構,不能作弊,也不能使用特定的輸入來預測自身,只能看身邊的tokens。所以它非常高效,人們稱之為通用大模型,可以用它來生成文字、圖片。
但這種推理過程是發散的,每次你生成一個token時,它都有可能不在合理答案範圍內,而且可能讓你離正確答案越來越遠,如果發生這種情況,後續是沒辦法修復它的,這也是為什麼有些大模型會產生幻覺,胡說八道。
現在這些人工智慧還無法複製人類的智慧,我們甚至無法複製貓或老鼠等動物的智慧,它們都瞭解物理世界的執行規則,能完成一些靠常識就進行的動作,不需要規劃。一個10歲的人類小孩不需要學習就能完成收碗筷和擦桌子的動作,一個17歲的青年花20小時就能學會開車,但目前我們還沒能製造出一個能家用的機器人,這說明我們目前的人工智慧研究和發展還缺少一些非常重要的東西。
我們現有的AI可以透過律師資格考試、解決數學問題、證明定理,但沒法做家務。我們認為的那些不用思考就能幹的事情,對人工智慧機器人來說非常複雜,而我們認為是人類獨有的東西,比如語言、下棋、創作詩歌等,現在的AI和機器人能輕鬆完成。
我們沒辦法只通過文字訓練就能讓AI達到人類的智慧水平,這是不可能發生的。一些既得利益者會說明年AI智力能到人類博士水平,但這根本不可能,AI可能在某個領域比如下棋、翻譯等達到人類博士水平,但通用大模型是無法做到的。如果我們只訓練這些專門針對某個領域問題的AI模型,要是你的問題很標準,那麼答案在幾秒時間內就能生成,但如果你稍微修改一下問題的表述,AI可能給出的還是相同的答案,因為它沒有真正去思考這個問題。所以我們想要一個能達到人類智慧水平的人工智慧系統,還需要時間。

不是“AGI”而是“AMI”
在Meta,我們將這類能達到人類智慧水平的AI稱為高階機器智慧,我們不喜歡“AGI”(通用人工智慧)的說法,而是叫它“AMI”,用法語念很像“朋友”這個詞。我們需要用感官採集資訊並學習的模型,可以在頭腦中操縱它,從影片中學習二維物理。比如具有持久記憶的系統、可以分層規劃行動的系統以及可以推理的系統,然後透過設計而不是微調來實現可控和安全的系統。
現在,我知道建立這類系統的唯一方法是,改變目前人工智慧系統進行推理的方式。目前LLM的推理方式是透過執行固定數量的神經網路層(Transfomer)生成一個token並輸入,然後再次執行固定數量的神經網路層。這種推理方式的問題是,不管你問一個簡單還是複雜的問題,當你要求系統回覆“是”或“否”時,它將花費同樣多的計算來回答它們。所以人們一直在作弊,告訴系統該怎麼回答,人類是知道這種推理思維技巧的,讓系統產生更多token,這樣就會花費更多的算力來回答問題。
實際上推理的工作方式不是這樣的,在經典的統計學人工智慧、結構預測等許多不同領域中,推理的工作方式是:你有一個函式來測量你的觀察值和輸出值之間的相容性或不相容性,推理過程包括找到將資訊空間壓縮到最小並輸出的值,這種函式我們稱之為能量函式。當結果不符合要求時,系統只會執行最佳化並進行推理,如果推理的問題更難,系統將花費更多時間進行推理,換句話說,它會花更長時間思考複雜問題。
在經典人工智慧中很多事情都與推理和搜尋有關,因此最佳化任何計算問題都可以簡化為推理問題或搜尋問題。這種型別的推理更類似於心理學家所說的系統2,就是在你採取行動之前,先考慮會如何去做,系統1就是那些可以不假思索去做的事情,這會變成一種潛意識。

來源:影片截圖
我簡單解釋一下能量模型,就是我們可以透過能量函式來捕捉變數之間的依賴性,假設觀測值X和輸出值Y,當X和Y相容時,能量函式取低值,當X和Y不相容時,能量函式取高值。你不想只從X計算Y,只想要一個能量函式來衡量不相容的程度,你就給定一個X,找到一個能量較低的Y就行。
現在讓我們詳細瞭解一下世界模型這種架構是如何搭建的,它與思考或規劃有什麼關係。這個系統是這樣的,觀察世界要經過一個感知模組,這個模組會對世界的狀態做出概括,當然,世界的狀態並不是完全可觀察的,所以可能你需要把它和記憶結合起來,記憶的內容包含你對世界狀態的想法,這兩者的結合構成一個世界模型。
那什麼是世界模型呢?世界模型給出了對當前世界狀態的概括,它在一個抽象的演示空間中,給出了一個你想象的行動順序,你的世界模型預測了在你採取這些行動之後世界的狀態。如果我告訴你想象一個立方體漂浮在你面前,現在把這個立方體垂直旋轉90°,它看起來像什麼?你很容易就能夠在腦海裡想象它旋轉後的樣子。
我認為在擁有真正能工作的音影片之前,我們將擁有人類水平的智慧。如果我們有這個世界模型,它能夠預測一系列動作的結果,我們可以將其輸入到一個任務目標中,用於衡量預測最終狀態在多大程度上滿足我們為自己設定的目標。這只是一個目標函式,我們還可以設定一些約束條件,把它們看作是系統安全執行需要滿足的要求。有了這些約束條件,就能保證系統的安全性,讓你無法越過它們,它們是被硬性規定的,不在訓練和推理的範圍內。
現在一系列動作應該使用一個世界模型,在多個時間步驟中反覆使用,如果你執行第一個動作,它預測動作完成後的狀態,你做第二個動作它再預測下一個狀態,沿著這條軌跡進行下去,你還可以設定任務目標和約束條件。如果世界不是完全確定和可預測的,那麼世界模型可能需要有潛在變數來解釋我們未觀察到的所有關於世界的事情,這使得我們的預測存在偏差。最終,我們想要的是一個可以分層規劃的系統。它可能有幾個抽象層次,在低層次上我們計劃低層次的動作,比如基本的肌肉控制。但在高層次上,我們可以規劃抽象的宏觀行動。比如我坐在紐約大學的辦公室裡,決定去巴黎。我可以把這個任務分成兩個子任務:去機場和趕飛機。然後詳細地規劃每一步動作:拿包、出門、打車、乘電梯、買機票……
這些事情我們經常感受不到自己在做分層規劃,幾乎都是下意識的動作,但我們不知道如何讓機器學習做到這一點。幾乎每個機器學習過程都會進行分層規劃,但每個層次的提示都是手工輸入的,我們需要訓練一種架構,讓它自己可以學習這些抽象的演示,不僅是世界狀態,還包括預測世界模型,還可以預測不同抽象層次上的抽象動作,這樣機器學習就能像人一樣無意識做到分層規劃。

如何讓AI理解世界
我帶著所有這些反思,在三年前寫了一篇長論文,解釋了我認為人工智慧研究應該關注的領域。在ChatGPT爆火之前,我就寫出了這篇論文,直到今天,我對這個問題的看法依然沒有變,ChatGPT沒有改變任何事情。那篇論文寫的是關於通往自主機器智慧的道路,我們現在稱之為高階機器智慧,因為“自主”二字會嚇到人們,我在不同場合都以演講的方式介紹過它。
想讓系統理解世界是如何運轉,一個常用的方法就是按照過去我們用來訓練自然語言系統的過程去訓練,並將其應用於影片,如果一個系統能夠預測影片中會發生什麼,你給它展示一小段影片,然後讓它預測接下來會發生什麼,訓練它做出預測實際上可以讓系統理解世界的底層結構。它適用於文字,因為預測單詞相對簡單,單詞數量有限,可以標記的數量也有限,我們無法準確預測哪個單詞會跟在另一個單詞後面,或者文字中缺少哪個單詞,但我們可以為字典中每個單詞可能生成的機率進行測算。
但我們不能對影像或影片這樣做,我們沒有很好的方法來表示影片幀的分佈,每次嘗試這樣做基本上都會遇到數學難題。所以,你可以嘗試用物理學家發明的統計學和數學來解決這個問題,事實上,最好是完全拋棄進行機率建模的想法。
因為我們無法準確預測世界將會發生什麼。如果訓練一個系統只預測一幀,它不會做得很好。所以解決這個問題的方法是開發一種新架構,我稱之為聯合嵌入預測架構(JEPA)。生成式模型根本不適合製作影片,大家可能見過能生成影片的AI模型,但它們並不真正瞭解物理,只是在生成漂亮的圖片。JEPA的理念是同時執行觀察值和輸出值,這樣就不再只是預測畫素,而是在預測影片中發生的事情。

來源:影片截圖
讓我們來比較下這兩種架構。左邊是生成架構,你將X即觀察值輸入編碼器,然後對Y做出預測,這是一個簡單的預測。而右邊的JEPA架構中,你同時執行X和Y以及可能相同或不同的編碼器,然後根據這個抽象空間中X的表示來預測Y的表示,這將導致系統基本上學習一個編碼器,它可以消除所有你無法預測的東西,這是我們真正做的事情。
當我們在房間裡拍攝時,攝像機開始移動,不管是人類還是AI智慧都無法預測下一幀圖片裡會出現什麼人,牆壁或地板的紋理是怎樣的,有很多事情我們根本無法預測。因此,與其堅持要求我們對無法預測的事情做出機率預測,不如放棄預測它,學習一種表示,其中所有這些細節基本上都被消除,這樣預測就簡單多了,我們簡化了問題。
JEPA架構有各種風格,這裡先不討論那些潛在變數,而是談談動作條件,這是最有趣的部分,因為它們真的是世界模型。你有一個觀察值X是世界的當前狀態,將你計劃要做的動作輸入編碼器中,這個編碼器就是世界模型,讓它給你預測做了這個動作後世界的狀態表示,這就是你如何進行規劃的方式。
近期,我們對Video JEPA進行了深入研究。該模型是如何執行的呢?舉個例子,首先從影片提取16個連續幀作為輸入樣本,隨後對部分幀進行遮蔽和破壞,再將這些被區域性破壞的影片幀輸入編碼器,並同步訓練一個預測模組,使其能夠基於殘缺的畫面資訊重構出完整的影片表徵。實驗表明,這種自監督學習方法具有顯著優勢,其學習到的深層特徵可直接遷移至影片動作分類等下游任務,在多項基準測試中均取得優異表現。
有一件非常有趣的事情,如果你展示這個系統,影片中發生了一些非常奇怪的事情,這個系統實際上是在告訴你它的預測誤差正在飆升。你拍攝了一個影片,取其中的16幀來測量系統的預測誤差,如果發生一些奇怪的事情,比如一個物體自發消失或改變形狀,預測誤差會上升,它告訴你,儘管系統很簡單,但它已經學會了一定程度的常識,它可以告訴你世界上是否發生了一些非常奇怪的事情。
我想分享我們最新的工作——DINO-WM(一種無需重建視覺世界即可建立視覺動態模型的新方法)。用一張世界圖片來訓練一個預測器,然後透過DINO編碼器執行,最後機器人可能做出一個動作,這樣就能得到影片的下一幀,將這一幀影像再次放入DINO編碼器執行,得出新的影像,然後訓練你的預測器,根據所採取的行動預測將要發生的事情。
規劃起來非常簡單,你觀察一個初始狀態,放入DINO編碼器執行起來,然後用想象的動作再多個時間點和步驟中執行世界模型,然後你有一個目標狀態,它由目標影像表示,例如你將其執行到編碼器,然後計算預測狀態和表示目標影像的狀態在演示空間中的差距,找到一個執行成本最小的動作序列。

來源:影片截圖
這是一個非常簡單的概念,但效果很好。假設你有這個小T形圖案,想把它推到一個特定的位置,你知道它必須去哪個位置,因為你把那個位置的影像放到了編碼器中,它會給你一個演示空間中的目標狀態。當你採取一系列計劃好的動作時,在現實世界中實際發生了什麼,你看到的是系統計劃的動作序列的內部心理預測,將其放入解碼器中,會產生內部狀態的圖形表示。

請放棄研究生成式模型
最後我有一些建議分享給大家。首先就是放棄生成式模型。這是目前最流行的方法,每個人都在研究這個。可以研究JEPA,這不是生成式模型,它們在演示空間中預測世界會發生什麼。放棄強化學習,我已經說了很長時間了,它是低效的。如果你對達到人類智慧水平的AI感興趣,並且你在學術界,就不要研究LLM,因為你是在和數百個擁有數萬個GPU的人競爭,沒有任何意義。學術界還有很多問題需要解決,規劃演算法效率很低,我們必須想出更好的方法,帶有潛在變數的JEPA在不確定性分層規劃中是完全未解決的問題,這些都歡迎學者探究。

在未來,我們將擁有通用虛擬助手,它們會一直陪伴我們,調節我們與數字世界的所有互動。我們不能讓這些AI系統來自矽谷或中國的少數幾家公司,這意味著我們構建這些系統的平臺需要的是開源且可廣泛使用。這些系統的訓練成本很高,可一旦你有了一個基礎模型,針對特定應用程式進行微調就相對便宜多了,很多人都負擔得起。
AI平臺需要共享,它們要會說世界上所有的語言,瞭解所有的文化、所有的價值體系以及所有的興趣中心,世界上沒有任何一個公司可以訓練出這樣的基礎模型,必須以有效的方式協作完成。
因此,開源人工智慧平臺是必要的。我在歐洲和其他地方看到的危機是,地緣政治競爭誘使部分國家政府基本上將開源模型的釋出定為非法行為,因為他們想保守科學秘密,以保持領先地位。這是一個巨大的錯誤,當你秘密進行研究時,你會落後,這是不可避免的,將會發生的事情是,世界上其他國家都採用開源技術,我們將超越你們。這是目前正在發生的事情,開源模型正緩慢而堅定地超越閉源模型。
新聞熱線&投稿郵箱:[email protected]

關注“中國企業家”影片號
看更多大佬觀點和幕後故事

[ 推薦閱讀 ]

