Meta影片AI王者登場,打爆Sora!體操運動終於不再鬼畜


新智元報道  

編輯:編輯部 HNYZ
【新智元導讀】剛剛,Meta重磅釋出了VideoJAM,在運功連貫性上重新整理SOTA,Sora完全被按在地上摩擦。
我們都知道,幾乎所有影片模型都有一個老大難:無法正確生成運動。
原因就在於,AI影片的訓練目標更偏向外觀,而非動態表現。
就在剛剛,來自Meta和特拉維夫大學的研究人員釋出了一個用於改進運動生成的全新框架——VideoJAM。
論文地址:https://arxiv.org/pdf/2502.02492
這個新框架,直接攻克了這個傳統難題,無需任何額外資料或scaling。
結果顯示,它生成的影片已透過體操圖靈測試,結果碾壓Sora!
左邊Sora生成的這個怪異的體操動作,直接被VideoJAM吊打。
Sora生成的男子拋球的影片,可謂是爆笑如雷了;而VideoJAM生成的效果,真實又自然,完全符合物理規律。
從Sora生成的轉呼啦圈動作看,它完全沒理解這項運動的原理,而VideoJAM已經手拿把掐。
AI影片為何難以捕捉現實動作
為什麼影片生成模型在處理運動方面如此困難?現實世界的運動、動態和物理現象,它們經常難以捕捉。
Meta的研究團隊發現,當影片幀被打亂時,基於畫素的損失幾乎不變,這表明,它幾乎「對時間不一致性保持不變」。
也就是說,這種侷限性源於傳統的畫素重建目標,它會使模型過度關注外觀保真度,而忽視了運動的連貫性。
Meta的解決方案,就是VideoJAM。
它透過修改目標函式,來引入顯式的運動先驗:模型從單一的學習表徵中同時預測外觀和運動。
這種方法,就能迫使模型同時捕捉視覺資訊和動態變化,從而提升對運動的理解能力。
具體來說,VideoJAM透過鼓勵模型學習外觀與運動的聯合表徵,為影片生成器注入有效的運動預測。
VideoJAM由兩個互補的模組組成。
在訓練階段,研究人員將目標擴充套件為基於單一的學習表徵,同時預測生成的畫素及其對應的運動。
在推理階段,他們引入了「Inner-Guidance」機制,透過利用模型自身不斷演化的運動預測作為動態引導訊號,引導生成連貫、逼真的動作。
值得注意的是,VideoJAM框架幾乎無需額外改動即可應用於任何影片模型,無需修改訓練資料或擴大模型規模。
結果令人驚喜!
VideoJAM在僅使用其自身訓練集中的300萬個樣本對預訓練影片生成模型(DiT)進行微調後,仍實現了卓越的運動連貫性。
在運動連貫性方面,它已經達到了SOTA;在運動質量上,它甚至超越了Sora等專有模型。
Meta團隊的研究結果表明,外觀與運動之間並非對立,而是相輔相成;當二者得到有效融合時,能夠同時提升影片生成的視覺質量與運動連貫性。
複雜運動無比真實
以下影片由VideoJAM-30B在高難度提示(需生成複雜運動型別)下生成的結果。
「一位滑板運動員進行跳躍。」
可以看出運動員與滑板在空中的動作結合的十分協調,甚至在踏上滑板時,滑板還有輕微的震動,可謂是十分真實了。
「手指壓進一個閃爍的粘液球。」
影片清晰展現了手指與粘液球的粘連狀態,生動體現了其粘性。
「一位花樣滑冰運動員完成了一個有力的跳躍,她的金色服裝閃閃發光。」
影片中可以看出運動員在空中的旋轉十分協調,在快速移動中還生成了模糊的效果。
「一隻山羊在山頂一個旋轉的球上保持平衡。」
影片中的山羊努力在球上保持平衡,其動作也符合物理法則。
「慢動作特寫,廚師切番茄。」
影片中對手指的處理沒有明顯瑕疵,實屬不易。切下的西紅柿之間也有著自然的差異。
「一個男孩在生日蛋糕上吹蠟燭。」
下面這個影片需要模型理解小男孩吹氣與蠟燭火苗間的邏輯關係。VideoJAM-30B顯然處理得還不錯。
「一個花瓶在安靜的古董店木地板上摔碎。」
這種碎裂的場景十分考驗模型對細節的處理,VideoJAM-30B看來也不在話下。
影片AI大PK
接下來,為了證明VideoJAM具備最優的運動連貫性,研究人員進行了定性和定量實驗。(從左到右為Runway Gen3、Sora、DiT和VideoJAM)

定性實驗

定性評估涵蓋了多種運動型別,是當前AI影片模型面臨的挑戰難題,比如體操動作(空中劈叉、跳躍)、需要物理理解的情境(手指按壓黏液、籃球落入籃網)等等。
如下比較中,直觀地展現出當前領先AI影片模型的侷限性。
即使是簡單的運動,例如長頸鹿奔跑,也會出現問題,例如「反向運動」(Sora)或不自然的動作(DiT-30B)。
更復雜的運動,如引體向上或頭倒立,會導致影片靜態不變,或有的出現身體變形。基線模型甚至還會違揹物理規律,比如物體消失或突然出現。
相比之下,VideoJAM始終能夠生成連貫的運動。
不過,在下面這組「轉動的指尖陀螺」中,所有模型都無法正確地遵循物理學定律。
更進一步的,研究團隊還展示了VideoJAM與DiT-30B在同等條件下的定性比較。
「一位芭蕾舞者在黎明時分在草地上優雅地旋轉,他們的動作柔和流暢,如同晨風。」
可以看出,對比基礎模型DiT-30B,微調後的VideoJAM生成的影片主體人物更大、明暗對比更加強烈。
「運動員在雨中奔跑的特寫,他們的鞋子在積水中濺起水花,堅定地向前推進。」
下圖中,同樣VideoJAM生成的影片中主體更大,同時跑步姿勢也顯得更加自然一些。
「一隻狗跳過木柵欄。慢動作。」
下圖中DiT-30B(左)生成的影片中狗在空中直接穿過了欄杆,而VideoJAM則沒有出現這種問題。
「特寫鏡頭,壽司師傅用故意、流暢的動作切生魚片。」
下圖中VideoJAM生成的影片中主體離鏡頭更近,而DiT-30B生成的影片中,廚師根本就沒有切到壽司。
「女性在公園日落時,圍繞腰部旋轉呼啦圈。」
下面這個對比影片同樣可以看出,VideoJAM生成的影片中女人旋轉呼啦圈明顯更加真實,而DiT-30B生成的影片中的女人則同呼啦圈一同旋轉。

定量實驗

在定量評估中,研究人員就外觀質量、運動質量以及提示詞一致性,採用了自動指標(automatic metrics)和人工評估相結合的方式。
自動指標
這裡,作者使用了VBench基準——能夠從多個解耦維度評估影片生成模型。評估指標包括逐幀畫面質量、美學評分、主體一致性、生成的運動量以及運動連貫性。
如下表4、表5所示,分別展示了4B模型和30B模型在運動基準測試上的自動指標的結果。
人工評估
在人工評估方面,研究人員遵循二選一強制選擇(2AFC) 協議,即評估者在每次比較中觀看兩段影片(一段來自 VideoJAM,一段來自基線模型),並根據畫面質量、運動表現和文字對齊度選擇更優者。
每組比較由5位不同的評估者進行評分,每個基線模型在每個基準測試中至少收集640次評價。
評估結果,如下表1、表2所示。
消融實驗
如表3所示,所有消融實驗都會顯著降低運動連貫性,其中去除運動引導的影響比去除文字引導更大,這表明運動引導元件,確實能夠引導模型生成時間上連貫的影片。
此外,在推理階段移除光流預測的影響最大,這進一步證明了聯合輸出結構對於確保合理運動的優勢。
同時,與InstructPix2Pix引導進行對比,也進一步證明了Inner-Guidance公式更適合VideoJAM框架,因為InstructPix2Pix在運動方面的得分為倒數第二低,再次驗證了新方法在提升運動連貫性方面的有效性。
侷限性
儘管VideoJAM顯著提升了時間連貫性,但仍面臨一些挑戰,如下圖7所示。
首先,由於計算資源的限制,作者依賴於有限的訓練解析度和RGB運動表示,這使得模型在「遠景」場景下難以捕捉運動資訊,當運動物體僅佔畫面的一小部分時,該問題尤為明顯。
在圖7(a) 中,降落傘未能展開,運動顯得不連貫。
其次,儘管運動與物理規律密切相關,提升了物理一致性,但VideoJAM運動表示缺乏顯式的物理編碼,從而限制了模型在複雜物理互動中的表現。
在圖7(b) 中,球員的腳尚未接觸足球,球的運動軌跡卻已經發生變化,這表明模型在模擬物理互動時仍存在不足。
結論
影片生成是一項獨特的挑戰,需要同時建模空間互動和時間動態。
儘管該領域已經取得了顯著進展,但影片模型在時間連貫性方面仍存在困難。即使對那些在訓練資料集中已經充分表示的基本運動也是如此。
Meta團隊的研究指出,訓練目標是關鍵因素之一:以往目標通常偏向於外觀保真度,而犧牲了運動連貫性。
為此,他們提出了VideoJAM——一個能夠為影片模型顯式注入運動先驗的框架。
其核心思路直觀且自然:由單一的潛在表示同時捕捉外觀與運動
只需增加兩個線性層且不需要任何額外訓練資料,VideoJAM就能顯著提升運動連貫性,甚至可與強大的專有模型競爭。
VideoJAM具有通用性,為未來在影片模型中注入更復雜的現實世界先驗(如複雜物理規律)提供了廣闊的可能,為整體建模真實世界互動開闢了新方向。
參考資料:
http://https//arxiv.org/abs/2502.02492
https://hila-chefer.github.io/videojam-paper.github.io/

相關文章