文章轉載於量子位(QbitAI)
作者:克雷西
世界模型領域最新進展,要比拼“世界生成”了。
李飛飛吳佳俊團隊提出了全面評測基準WorldScore,涵蓋了三大類評估指標,動態靜態都有涉及,其資料集中包含了3000個測試樣例。
並且,WorldScore將3D場景生成、4D場景生成和影片生成三類模型的評估,統一到了一起。
利用WorldScore基準,團隊對一共19款模型進行了全面評估。
評估的結果揭示了當前世界生成技術面臨的相機控制能力不足、長序列世界生成困難等主要挑戰,為模型研究人員提供了重要參考。
正如網友所評價,從單一場景到整體世界構建的轉變,需要這樣的基準來對研究做出指導。

1
3D/4D/影片生成統一評測
研究團隊認為,之前的基準測試(例如 VBench)僅能評估單個場景的生成能力,遠未達到“世界”生成的層次。

並且以前的基準測試僅考慮影片模型,但世界生成模型還包括3D和4D方法,而WorldScore可以對所有這些模型進行統一評估。
WorldScore將世界生成任務分解成一系列連續的下一場景生成任務,每個任務由三個關鍵組成部分定義:
-
當前場景:包含一張場景影像和對應的文字描述; -
下一場景; -
佈局:一系列相機矩陣定義的相機軌跡,以及描述相機如何移動的文字說明。

資料集方面,WorldScore包含了3000個測試樣例,其中2000個用於評估靜態世界生成能力,1000個用於評估動態世界生成能力。
靜態世界生成資料涵蓋了10個場景類別,包括5類室內場景(餐飲空間、居住空間、通道、公共空間、工作空間)和5類室外場景(城市、郊區、水域景觀、陸地景觀、綠色景觀)。
動態世界資料則包含了5種不同型別的運動:關節運動、可變形運動、流體運動、剛體運動和多物體運動。
每個測試樣例都有兩個版本——真實風格和藝術風格,以評估模型在不同視覺域的表現。

所涉及的指標則包括了可控性、質量和動態評估(靜態場景不涉及此項)三個大類。
其中可控性評估,具體又包括了三項指標:
-
相機控制能力:透過計算生成影片中相機運動與指定軌跡的偏差來評估,具體計算尺度不變的旋轉誤差和平移誤差,然後取其幾何平均值; -
物體控制能力:使用開放集物體檢測模型檢查指定物體是否出現在生成場景中,從文字提示中提取1-2個關鍵物體描述,計算檢測到這些物體的成功率; -
內容一致性:使用CLIPScore評估生成場景與完整文字描述的語義匹配程度。
質量評估,涵蓋了四項內容:
-
3D一致性:使用DROID-SLAM估計每幀的密集深度圖,計算連續幀之間可見畫素的重投影誤差,評估場景幾何結構的穩定性; -
光度一致性:透過計算連續幀之間的光流來評估外觀和紋理的穩定性,使用平均端點誤差(AEPE)來量化不穩定的視覺表現; -
風格一致性:計算第一幀和最後一幀Gram矩陣之間的F範數差異,評估風格保持程度; -
主觀質量:結合CLIP-IQA+和CLIP Aesthetic兩個自動評估指標(該組合經過200人的人類研究驗證最接近人類感知)。
動態評估則包含三個方面:
-
運動準確性:比較指定運動區域內外的光流,評估運動是否出現在正確位置; -
運動幅度:透過估計連續幀之間的光流大小來評估生成大幅度運動的能力; -
運動平滑性:使用影片幀插值模型生成平滑過渡作為參考,評估生成影片的時間連續性。

最終,所有評估指標都經過線性歸一化處理到0-100區間,並透過計算控制和質量維度各指標的算術平均值得到WorldScore-Static得分。
在此基礎上,再加入動態維度的三項指標成績,就得到了WorldScore-Dynamic評分。
1
3D模型更擅長靜態,影片模型動態效果更好
利用WorldScore,研究團隊對19款不同型別模型的世界生成能力進行了評測,包括2款閉源模型和17款開源模型。

評測結果顯示,在靜態世界生成方面,3D場景生成模型展現出明顯優勢。其中WonderWorld和LucidDreamer分別以72.69分和70.40分位居榜首,遠超表現最好的影片模型CogVideoX-I2V的62.15分。
但在動態世界生成方面,則是影片模型展現出了較強的實力,開源模型CogVideoX-I2V以59.12分的成績領先。

在不同場景型別的測試中,影片模型在室內場景表現相對較好,但在室外場景生成時與3D模型的差距明顯擴大。
同時,序列長度對模型效能有顯著影響——所有模型在短序列任務上表現尚可,但影片模型在處理長序列時效能顯著下降,而3D模型則相對穩定。
此外,研究者還對比了T2V和I2V兩類影片模型的特點。結果表明,T2V模型在控制性和動態生成能力方面較強,更容易實現大幅度的相機運動。
相比之下,I2V模型傾向於保持輸入影像的視角,雖然生成質量較高,但相機運動相對保守。
1
作者簡介
本文的兩名共同一作均來自吳佳俊團隊,分別是碩士生段皞一(Haoyi Duan)和博士生俞洪興(Hong-Xing Koven Yu)。
段皞一是浙江大學2023屆優秀畢業生,還獲得了竺院榮譽學位,本科期間在周釗教授的指導下研究多模態學習。

俞洪興本科和和碩士均就讀於中山大學,碩士期間導師是鄭偉詩教授(現任中山大學計算機學院副院長)。
俞洪興的主要研究方向是物理場景理解、動力學模型與模擬,以及3D/4D視覺生成。

目前,兩人正在進行密切合作。
今年入選CVPR HighLight的單圖生成互動式3D場景模型WonderWorld,也是兩人共同一作。

除了兩名共同一作和吳佳俊以及李飛飛之外,斯坦福碩士生Sirui (Ariel) Chen也參與了WorldScore的工作。

論文地址:https://arxiv.org/abs/2504.00983