LeCun世界模型再近一步!Meta研究證明:AI可無先驗理解直覺物理

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:英智 KingHZ

【導讀】AI如何理解物理世界?影片聯合嵌入預測架構V-JEPA帶來新突破,無需硬編碼核心知識,在自監督預訓練中展現出對直觀物理的理解,超越了基於畫素的預測模型和多模態LLM。
對物理的直觀理解是人類認知的基礎:期望物體的行為,具有可預測性,也就是說,物體不會突然出現或消失,穿過障礙物,或隨意改變形狀或顏色。
這種對物理的直觀理解,還在更多物種中得到證實,包括猴子、鯨魚、烏鴉等。
相關研究人員猜測:人類天生或嬰幼兒時期就具備一套進化形成的、古老的系統,專門用於表示和推理世界的基本屬性,比如物體、空間、數字、幾何形狀等。
Meta新研究證明,沒有任何先驗知識,自監督影片模型V-JEPA,也能夠理解直觀物理學!
換句話說,透過觀察,V-JEPA覺醒了物理直覺,和人類一樣不需要硬編碼,天生如此!
V-JEPA不是去生成畫素級的精準預測,而是在抽象的表示空間裡進行預測。
這種方式更接近LeCun所認為的人類大腦處理資訊的模式。
他甚至迴歸X平臺,轉發論文通訊作者的post,宣佈:「新方法學會了直觀物理」。
這次的主要發現如下:
  1. V-JEPA能夠準確且一致地分辨出,符合物理定律的影片和違反物理定律的影片,遠超多模態LLM和畫素空間中的影片預測方法。
  2. 雖然在實驗中觀察到改變模型的任一元件,都會影響效能,但所有V-JEPA模型都取得了明顯高於隨機水平的表現。
論文連結:https://arxiv.org/abs/2502.11831
V-JEPA被網友Abhivedra Singh評價為:AI的關鍵飛躍!
AI直觀物理: 第三條路
在語言、編碼或數學等高階認知任務上,現在高階的AI系統通常超越人類的表現。但矛盾的是,它們難以理解直觀物理,沒有物理直覺。
這就是莫拉維克悖論(Moravec's paradox),即對生物體來說微不足道的任務,對人工系統來說可能非常困難,反之亦然。
之前,有兩類研究致力於提高AI模型對直觀物理的理解:結構化模型和基於畫素的生成模型:
1. 結構化模型:利用手工編碼的物體及在3D空間中關係的抽象表示,從而產生強大的心理「遊戲引擎」,能夠捕捉人類的物理直覺。這是核心知識假設的一種可能的計算實現。
2. 基於畫素的生成模型則持截然相反的觀點,否認需要任何硬編碼的抽象表示。相反,它們提出了通用的學習機制,即基於過去的感官輸入(例如影像)來重建未來的感官輸入。
新研究則探討了位於這兩種對立觀點之間、第三類模型:聯合嵌入預測架構(Joint Embedding Predictive Architectures,JEPAs)。
新研究專注於影片領域,特別是影片聯合嵌入預測架構V-JEPA。V-JEPA在下列文章中首次提出。
論文連結:https://arxiv.org/abs/2404.08471
基於心理學的預期違背理論,這次直接探測直觀物理理解,而不需要任何特定任務的訓練或調整。
研究人員透過促使模型去想象未來的影片表示,並將其預測與實際觀察到的未來影片進行比較,獲得了定量的驚訝度,用來檢測違背的直觀物理概念。
測量直觀物理理解

預期違背

預期違背起源於發展心理學。
受試者(通常是嬰兒)會看到兩個相似的視覺場景,其中一個包含物理上的不可能事件。
然後透過各種生理測量方法,獲得他們對每個場景的「驚訝」反應,並用於確定受試者是否發生了概念違背。
這種正規化已被擴充套件到評估AI系統的物理理解能力。
與嬰兒實驗類似,向模型展示成對的場景,其中除了違反特定直觀物理概念的單個方面或事件,其他所有方面(物體的屬性、物體的數量、遮擋物等)在兩個場景中都保持相同。
模型對不可能場景表現出更高的驚訝反應,反映了對被違背的概念的正確理解。
理解直觀物理的影片預測
V-JEPA架構的主要開發目的,是提高模型適應高階下游任務的能力,直接從輸入中獲取,而不需要一連串的中間表徵。
研究團隊驗證了一個假設,即這種架構之所以能成功完成高階任務,是因為它學會了一種表徵方式,這種方式能隱含地捕捉到世界中物體的結構和動態,而無需直接表徵它們。
如下圖所示,V-JEPA是透過兩個神經網路實現的:
  1. 編碼器:從影片中提取表示;
  2. 預測器:預測影片中人為遮蔽部分的表示,比如隨機遮蔽的時空塊、隨機畫素或未來幀。
訓練從影片和損壞版開始,首先提取表徵。
然後,從損壞影片的表徵,來預測原始影片的表徵。透過編碼器和預測器的聯合訓練,編碼器能夠學習到編碼可預測資訊的抽象表示,並捨棄低層次(通常較少語義)的特徵。
經過訓練之後,在學習到的表徵空間中,V-JEPA可以「修復」自然影片。
在自監督訓練之後,可以直接使用編碼器和預測器網路,無需任何額外的適應,來探測模型對世界理解的程度。
具體來說,透過遍歷影片流,模型會對觀測到的畫素進行編碼,並隨後預測影片中後續幀的表示,如圖1.C所示:
從訓練好的V-JEPA 中,基於M個過去的幀,預測N個未來幀的表徵
然後比較預測與觀察到的事件表徵,來計算驚訝度指標
最後,使用驚訝度指標,決定兩個影片中的哪一個違反了物理學定律
透過記錄每個時間步的預測誤差——即預測的影片表示與實際編碼的影片表示之間的距離——獲得了一個在時間上對齊的、量化模型在影片中驚奇程度的度量。
圖1:在表徵空間中進行影片預測(V-JEPA)實現對直觀物理的理解。
改變模型用來預測未來的過去影片幀(上下文)的數量,可以控制記憶;通變影片的幀率,可以控制運動的精細度。

AI發現「物理穿幫」鏡頭

研究團隊評估了三個資料集上的直觀物理理解:IntPhys的dev資料集、GRASP和 InfLevel-lab。
這些基準測試的組合提供了視覺質量(合成/照片級真實感)、場景多樣性以及直觀物理屬性的多樣性。具體而言,這些資料集的組合能夠探究對以下概念的理解:物體永恆性、連續性、形狀和顏色恆常性、重力、支援力、堅固性、慣性以及碰撞。
將V-JEPA與其他影片模型進行比較,目的是研究影片預測目標及表徵空間對直觀物理理解的重要性。
此次考慮了兩類其他模型:影片預測模型和多模態大型語言模型 (MLLM)。
  1. 影片預測模型:直接在畫素空間中進行預測,預訓練方法與V-JEPA在預測目標上相似,但通常學習到的表徵空間的語義性較差 ,因此通常只有在針對特定任務微調後才具有實際應用。
  2. 多模態大語言模型:主要用於預測文字,並且在訓練過程中僅在事後與影片資料結合,因此缺乏影片預測的目標。
作為前者的代表性方法,作者評估VideoMAEv2。
儘管該模型使用了不同的預測目標和預訓練資料,但其預測空間的設定使得與V-JEPA進行比較成為可能。鑑於其預測性質,VideoMAEv2可像V-JEPA一樣,透過預測未來並透過預測誤差衡量驚訝程度來進行評估。
作為後者的典型的示例方法,作者研究了Qwen2-VL-7B和Gemini 1.5 Pro。
就引數數量和訓練資料量而言,這些模型都比V-JEPA大得多,並且它們主要從文字資料中學習。多模態大型語言模型,將影片和可能的文字提示作為輸入,並學習生成相應的文字輸出。
由於MLLM只有文字輸出,因此無法使用基於定量驚訝度量去評估這些模型。
所以給模型一對影片,詢問哪個影片在物理上是不可能的, 如下所示。
對於每個方法,作者評估了原始研究中提出的旗艦模型。
進一步將全部模型與未訓練的神經網路進行比較,以測試直覺物理理解的可學習性。對於每個屬性和模型,選擇的上下文大小要最大化效能,以便讓模型能夠適應不同的評估設定。
在3個直觀物理資料集IntPhys、GRASP和InfLevel上,使用違反預期正規化,評估影片模型。V-JEPA對不合理的影片明顯更加「驚訝」,是唯一一個在所有資料集上表現出顯著優於未訓練網路的效能的方法,在IntPhys、GRASP和InfLevel-lab資料集上分別達到了98%、66%和62%的平均準確率。
下圖總結了各方法在不同資料集上的對比分類效能(即,在一對影片中檢測哪個是不可能的)。
更詳細的結果,參考下圖。
這些結果表明,在學習到的表示空間中,只做預測就足以發展出對直覺物理的理解。這個過程沒有依賴任何預定義的抽象概念,也沒有在預訓練或方法開發過程中使用基準知識。
而畫素預測和多模態LLMs的低效能驗證了之前的發現。
這些比較進一步突顯了V-JEPA相對於現有的VideoMAEv2、Gemini 1.5 pro和Qwen2-VL-72B模型的優勢。
然而,這些結果並不意味著LLMs或畫素預測模型無法實現直覺物理理解,而只是表明這一看似簡單的任務,對於前沿模型來說仍然困難。
V-JEPA深度剖析
為了解V-JEPA對不同直觀物理屬性的理解能力,研究者對其在各個資料集上的逐屬性效能進行了深入分析。
使用基於視覺Transformer-Large(ViT-L)架構的V-JEPA模型,在HowTo100M資料集上進行訓練。
在IntPhys資料集上,V-JEPA在物體永續性、連續性和形狀恆定性等屬性上的表現遠超未訓練的網路。
以物體永續性為例,V-JEPA的準確率達到了M=85.7,SD=7.6,而未訓練網路的準確率僅為M=51.4,SD=1.0(t (4.0)=-8.9,p=4.19×10⁻⁴),效應量g=9.0(95%置信區間 [6.3,11.7])差異非常顯著。
在GRASP資料集上,V-JEPA在物體永續性、連續性、支撐性、重力和慣性等屬性上的準確率同樣顯著高於未訓練網路。然而,在顏色恆常性、堅固性或碰撞等屬性方面,並未觀察到顯著的提升。
在InfLevel資料集上,V-JEPA在物體永續性上的準確率有顯著提高,但在重力或堅固性方面則沒有明顯的優勢。
綜合來看,V-JEPA在與場景內容相關的屬性上表現出色,但在涉及需要理解上下文事件的類別或涉及精確物體互動建模,還存在一定的困難。
研究者推測,這些侷限性主要來源於模型的幀率限制。
儘管如此,V-JEPA能從原始感知訊號中學習必要的抽象概念,而無需依賴強先驗資訊,展現出對直觀物理學的理解能力。這表明深度學習系統理解直觀物理概念並不一定需要核心知識。
研究人員還將V-JEPA與人類表現進行了對比,V-JEPA在所有直觀物理屬性上均達到或超過人類的表現。
在單個影片分類任務中,使用影片中的最大驚訝度而非平均值,能夠使V-JEPA的效能得到進一步提升。
對於物理違反事件發生在遮擋物後面的影片,V-JEPA和人類的表現都會下降。在遮擋場景下,兩者的表現具有較高的相關性。
直觀物理學理解的關鍵
為了深入挖掘V-JEPA中直觀物理理解出現的內在機制,研究者進行了詳細的消融實驗,考察訓練資料、模型大小和預訓練預測任務這三個關鍵因素對直觀物理理解的影響。

預訓練任務的重要性

V-JEPA在訓練時採用的是塊掩蔽任務,即對影片的整個持續時間內的一個大空間塊進行掩蔽,而在推理時則運用因果預測。
為了探究預訓練任務對直觀物理理解的具體影響,引入了兩種不同的替代方案:因果塊掩蔽和隨機掩蔽。
實驗結果顯示,預測任務對直觀物理理解的影響相對較小。儘管隨機掩蔽在影片分類任務上會導致明顯的效能下降,但在IntPhys資料集上,其平均下降幅度僅約5分。
有趣的是,因果塊掩蔽雖然在測試時與模型的預測設定更為接近,但實際表現卻不如非因果塊掩蔽。
隨機掩蔽能夠取得一定的有效效能,這表明在抽象表徵空間中進行預測才是關鍵所在,而不一定非要依賴特定的預訓練目標。

預訓練資料的關鍵作用

V-JEPA之前是在Kinetics 710、Something-Something-v2和HowTo100M三個資料集的混合(VideoMix2M)上進行訓練的。
為了研究預訓練資料對直觀物理效能的影響,分別使用這三個元件資料集重新訓練V-JEPA-L模型,並對HowTo100M進行子取樣,以探究資料集大小對模型效能的影響。
研究發現,資料來源對模型效能有著顯著的影響。
僅使用基於運動理解的影片(SSv2)進行訓練時,模型的效能接近隨機水平;側重於動作的資料(K710)能使模型獲得高於隨機水平的直觀物理理解能力;而教程影片(HowTo)在單個元件資料集中展現出了最佳的效能。
透過對HowTo100M進行子取樣,進一步發現,即使使用僅佔該資料集0.1%、僅代表128小時獨特影片的小規模資料集,模型依然能有效地區分對直觀物理概念的違反情況,且在所有考慮的屬性上保持超過70%的成對準確率。

編碼器大小的影響

在深度學習領域,通常認為更大的模型具有更好的效能。
為了驗證這一觀點在V-JEPA模型中的適用性,團隊研究了V-JEPA在使用不同大小編碼器時的表現。
實驗結果表明,一般情況下,更大的模型確實表現更優。然而,一個引數僅有115M的小模型,仍然能夠達到超過85%的準確率。
這充分展示了V-JEPA模型對直觀物理理解的穩健性,即使是較小的模型也能實現對直觀物理的有效理解。
參考資料:
https://arxiv.org/abs/2502.11831
https://x.com/ylecun/status/1893390416185008194

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章