VBench-2.0：面向影片生成新世代的評測框架

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

來源：機器之心

近一年以來，AI 影片生成技術發展迅猛。自 2024 年初 Sora 問世後，大家驚喜地發現：原來 AI 可以生成如此逼真的影片，一時間各大高校實驗室、網際網路巨頭 AI Lab 以及創業公司紛紛入局影片生成領域。

閉源模型（如 Kling、Gen、Pika）在視覺效果方面令人驚歎，近期也有 HunyuanVideo、Wanx 等完全開源的模型在 VBench 榜單上表現出色，讓我們看到了社群在推動技術革新上的無限潛力。

然而，當大家都在驚呼「視覺效果太牛了」的同時，難免會產生新的思考：影片生成的下一步究竟該往哪裡走？表面逼真度真的就代表一切嗎？還能有哪些更深層次的能力值得我們深挖？

從「表面真實性」到「內在真實性」

初代 VBench 作為業內權威的影片生成評測體系，主要關注影片的視覺觀感，例如每一幀的清晰度、幀與幀之間的平滑銜接，以及影片和文字描述間的基本一致性。這些要素也被稱為表面真實性（Superficial Faithfulness），它解決了影片「看起來是否逼真」和「好不好看」的問題，併為現階段模型提供了統一衡量標尺。

然而，要讓影片生成真正邁向更高層次的應用——例如 AI 輔助電影製作、複雜場景模擬等，就不僅需要影片「看起來逼真」，更需要它具備對物理規律、常識推理、人體解剖、場景組合等世界模型（World Model）層面的深度理解，也就是內在真實性（Intrinsic Faithfulness）。只有能夠遵循現實世界規則的模型，才有可能在長劇情、複雜動作和內容創作中更具潛力。

VBench-2.0：向「內在真實性」進發

為引領影片生成技術從表面逼真邁向內在逼真，南洋理工大學 S-Lab 和上海人工智慧實驗室聯合推出 VBench-2.0。

論文標題：VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
論文連結：https://arxiv.org/abs/2503.21755
影片：https://www.youtube.com/watch?v=kJrzKy9tgAc
程式碼：https://github.com/Vchitect/VBench
網頁：https://github.com/Vchitect/VBench-2.0-project

在繼承 VBench-1.0 對「表面真實性」關注的同時，VBench-2.0 更強調以下關鍵評測維度：

Human Fidelity（人體動作與結構）

關注做體操時動作是否連貫、角色動作是否合乎人體解剖常識等。

Controllability（可控性）

考察模型能否精確地執行使用者給出的指令，例如相機運動、人物位置等微調效果。

Creativity（創造性）

觀察模型在場景組合和故事情節拓展等方面的想象力。

Physics（物理規律）

浮力、重力、碰撞效果是否合理？模型能否生成符合物理定律的動作或場景變化？

Commonsense（常識推理）

在日常情景或邏輯推斷中是否展現出合理性，例如「吃東西」時，食物是否真的進入了口中，角色行為是否合乎常理等。

VBench-2.0 針對以上維度提出了大量的精細化測評場景與自動化評估策略，其中包含通用的多模態模型（VLMs、LLMs）及在特定領域表現優異的「專家」方法（如針對人體異常動作的檢測）等。為了確保評測結果的可靠性，我們與真實人類打分結果進行了大規模對照，力求讓自動評測與人的直覺判斷保持一致。

分層與解耦的 18 個評測維度
開源 Prompt List 體系
與人類觀感對齊的自動評測
多視角觀察助力下一代影片生成

在下面這些常被網友吐槽的場景中，模型往往暴露了缺乏「內在真實度」的短板。VBench-2.0 能系統地評判這些一直被網友詬病的影片生成模型的缺陷，而且很準哦！

VBench 評測體系：雙劍合璧，覆蓋更全面

VBench-1.0：適用於評估影片生成的「表面真實性」，如視覺質量、文字匹配與整體流暢度等。在現階段為各家模型的進步提供了強力支援。
VBench-2.0：在保留 VBench-1.0 優勢的同時，進一步聚焦影片的「內在真實性」。當我們想真正判斷一個模型有沒有「世界模型」，能否用在更深層次的創作和應用場景時，VBench-2.0 的評測就尤為關鍵。

我們建議研究者同時使用 VBench-1.0 與 VBench-2.0 對模型進行評估：前者能直觀地衡量影片的視覺效果和基礎一致性，後者則深入探討模型在物理、常識、複雜行為等領域的表現，幫助你更好地理解模型的實際潛力。

現有模型表現：開源與閉源，皆有亮點

各家 AI 影片生成模型在 VBench-2.0 上的表現。在雷達圖中，為了更清晰地視覺化比較，我們將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。

各家AI 影片生成模型在 VBench-2.0 上的表現。

在 VBench-2.0 的「內在真實性」評測中，並未出現明顯的「開源或閉源即佔絕對優勢」的現象。很多社群開源專案在複雜場景中表現得並不比商用閉源模型差，說明技術進步依賴社群共建是完全可行的。

全面開源，歡迎加入社群，共同推動影片生成新未來

VBench-2.0 已全面開源，讓你可以輕鬆測試並對比感興趣的模型。我們也非常期待你在實際使用中的反饋與建議，共同助力 AI 影片生成生態的成長和進化。

我們也開源了一系列 Prompt List：https://github.com/Vchitect/VBench/tree/master/VBench-2.0/prompts

左邊詞雲展示了我們 Prompt Suites 的高頻詞分佈，右圖展示了不同維度的 prompt 數量統計。無論你是模型研發者、應用開發者，或對前沿技術感興趣的愛好者，都歡迎加入我們的行列，攜手探索影片生成從「看起來很真」到「本質上真」的精彩進化。讓我們一起，讓下一代影片生成模型更具想象力，也更貼近真實世界！

VBench-2.0 準不準？

針對每個維度，我們計算了 VBench-2.0 評測結果與人工評測結果之間的相關度，進而驗證我們方法與人類觀感的一致性。

下圖中，橫軸代表不同維度的人工評測結果，縱軸則展示了 VBench-2.0 方法自動評測的結果，可以看到我們方法在各個維度都與人類感知高度對齊。

帶給影片生成的更多思考

VBench-2.0 不僅可以對現有模型進行評測，更重要的是，還可以發現不同模型中可能存在的各種問題，為下一代影片生成模型的發展提供有價值的洞見。

不同需求，選用不同模型

比較天馬行空的創意性的生成：Sora
想要生成人相關的運動鏡頭：HunyuanVideo 或者 Kling 1.6
想要實現精確的相機控制：Kling 1.6
想要生成嚴格遵從文字指示的影片：CogVideoX-1.5
想要模擬基礎的物理定律：CogVideoX-1.5

會有全能模型出現嗎？蹲守一波 2025 與 2026 年的發展。

基礎動作和屬性變化仍是短板

我們發現在非常簡單的位置移動或者屬性變化上，所有模型的效果都不好，這說明現在的模型的訓練資料中並沒有顯式包括位置、屬性變化這一類的文字。這可能是 video caption 模型能力上的缺陷。

可能的解決辦法包括：

用提示詞或者 In-context 學習的正規化來提示 video caption 模型
人工新增部分該型別文字資料

故事級長文字引導生成有待突破

現在主流影片生成時長普遍只有幾秒，但未來在電影、動畫等更長場景中，如何保持劇情連貫仍是重大挑戰。

現在的模型都還不支撐故事級別（5 個連續的小情節）的影片生成，其中最主要的原因是現在的影片生成模型的時長都還在 5-10 秒這個級別，還遠遠沒有到考慮分鐘級別的故事敘述。

這將是未來內容、電影創作中非常重要的一個能力。

平衡文字最佳化器（Prompt Refiner）與創造力

文字最佳化器有助於提高影片與描述的精確對齊，但也可能抑制模型的多樣性輸出。如何兼顧高質量與高創造力值得研究者深入探討。

現在先進的模型都會使用文字最佳化器來規範或者細粒度化使用者的文字輸入。但是我們發現使用文字最佳化器會在一定程度上提高生成的影片的視覺質量，更貼近於文字的描述。但是會在一定程度上影響生成的多樣性以及創造力。

因此，如果你想要針對一個文字生成風格差異比較大的影片，在能關閉文字最佳化器的情況下請關閉它；而如果你想要更高質量、與文字輸入更吻合的影片，那麼使用文字最佳化器是更好的選擇。

而對於研究者來說，如何構建一個既能提高影片質量，又不會影響其創造力的最佳化器是一個挑戰。

從表面到核心，全面評估

有些模型的 Demo 雖然炫酷，但在物理、邏輯推斷或敘事性上仍有不足。正如 VBench-2.0 所強調的「內在真實度」，我們不能只憑第一觀感就匆忙下定論。

表面真實性（例如，電影攝影能力）是觀看影片時的第一印象，這也是為什麼許多人會將高美學評分、高流暢度等特點與優秀模型聯絡在一起。

然而，情況並非總是如此。內在真實性（例如，敘事能力、世界模擬能力）也是決定一個影片生成模型是否能夠在未來應用於真實場景的關鍵因素。比如 CogVideoX 在 VBench 中的影片質量得分不算最高，視覺體驗可能也不如最近一兩個月新出的最強模型，但在 VBench-2.0 的許多關注內在真實性（Intrinsic Faithfulness）的維度上表現良好。

由此可見，想要真正評估一個影片生成模型的全方位能力和潛力，單看 Demo 遠遠不夠。VBench-2.0 引導我們從更全面的角度來認識與衡量模型。

進一步瞭解

我們誠摯邀請所有對影片生成領域感興趣的研究者與開發者共同參與 VBench 體系的評測（VBench-1.0 和 VBench-2.0），一起探索影片生成從「看起來很真」到「本質上真」的跨越。讓我們攜手推動下一代影片生成模型在表面與核心上同時進化。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群