西風 發自 凹非寺
量子位 | 公眾號 QbitAI
測一測現有AI生成影片是否符合物理運動規律!
來自阿里-高德、中科院的研究人員提出一個面向感知對齊的影片運動生成基準。
名為VMBench,是首個開源的運動質量評測基準,透過整合運動評估指標與人類感知對齊的評測方法,揭示現有模型在生成物理合理運動方面的不足。
△圖1 VMBench的整體結構
新基準測試涵蓋了六種主要的運動模式類別,每個提示都構建為圍繞三個核心元件(主體、地點和動作)的綜合運動。
作者提出了一種新穎的多維影片運動評估方法,包含五個源自感知偏好的以人類為中心的質量指標。利用由流行的T2V模型生成的影片進行了系統的人類評估,以驗證其指標在捕捉人類感知偏好的有效性。
總體而言,VMBench具有以下幾大優勢:
-
基於感知的運動評估指標:作者從人類感知的角度出發,設計了五個核心維度,並據此制定精細化的評估指標,從而更深入地分析模型在運動質量上的優勢與不足。
-
基於元資訊的運動提示生成:作者提出一種結構化的方法,透過提取元資訊、利用LLM生成多樣化的運動提示,並結合人機協同驗證進行最佳化,最終構建了涵蓋六大動態場景維度的分層提示庫。
-
人類感知對齊的驗證機制:作者提供人類偏好標註來驗證基準的有效性,實驗結果表明,其評估指標相較於基線方法,在Spearman相關性上平均提升35.3%。這是首次從人類感知對齊的角度對影片運動質量進行評估。
此外,團隊已將VMBench程式碼及相關資源開源至GitHub。

以下是更多細節。
感知對齊的評估體系
影片動態生成的評估面臨兩大核心挑戰:
現有指標未能充分對齊人類感知,且評測提示的多樣性有限,導致模型動態生成潛力未被充分探索。
為此,團隊提出VMBench——首個融合感知對齊指標與多樣化動態型別的影片運動評測基準。
人類觀察影片時,首先基於先驗經驗和物理規律構建場景的整體理解,隨後選擇性關注運動物體的平滑性與時序一致性(尤其在遮擋場景)。
受此分層感知機制啟發(圖2),PMM設計了從全域性到區域性的五維評估體系:

△圖2 用於評估影片運動的指標框架
上圖框架靈感源自人類對影片中運動感知的機制。(a)人類對影片中運動的感知主要涵蓋兩個維度:運動的綜合分析和運動細節的捕捉。(b)作者提出的用於評估影片運動的指標框架。
具體而言,MSS和CAS對應於人類對運動的綜合分析過程,而OIS、PAS和TCS則對應於運動細節的捕捉。
1、常識遵守性評分(CAS)
透過構建多層級分類模型量化影片內容是否符合物理規律。
具體流程包括:
首先從主流生成模型中收集10,000個影片構建資料集,結合VideoReward模型對影片質量進行五級分類(Bad到Perfect);隨後採用VideoMAEv2架構的時空建模網路預測影片的常識合理性機率分佈,最終透過加權平均各類別機率得出綜合評分。
該指標解決了傳統方法對物理規律違反(如物體反重力運動)的漏檢問題。
2、運動平滑度評分(MSS)
針對傳統光流法對視覺感知不敏感的問題,提出場景自適應的質量驟降檢測機制。
基於Q-Align美學評分模型,分析相鄰幀間的質量降低幅度,當超過動態閾值(透過Kinetics等真實影片統計建模獲得)時判定為異常幀。
最終以異常幀佔比的補數作為平滑度得分,有效捕捉人類敏感的低幀率卡頓和高動態模糊。
3、物件完整性評分(OIS)
為檢測運動中的非自然形變(如人體關節錯位),基於MMPose提取關鍵點軌跡,結合解剖學約束規則(如四肢長度比例容差)分析形狀穩定性。
透過統計自然運動資料集設定各部位形變閾值,計算所有幀中符合解剖學約束的比例。
相比僅關注語義一致性的DINO方法,該指標更貼近人類對肢體協調性的敏感度。
4、可感知幅度評分(PAS)
透過多模態定位技術分離主動運動主體與背景位移。
首先用GroundingDINO鎖定語義主體,藉助GroundedSAM生成時序穩定的例項掩膜,再透過CoTracker追蹤關鍵點位移軌跡。
結合場景型別(如機械運動vs.流體運動)設定感知敏感閾值,計算幀級位移幅度與閾值的歸一化比值。
該方法克服了傳統光流法因相機運動導致的幅度高估問題。
5、時間一致性評分(TCS)
針對物體異常消失/出現問題,提出軌跡驗證雙階段檢測。
第一階段用GroundedSAM2實現畫素級例項分割與跨幀ID追蹤,記錄物體的可見狀態;第二階段透過CoTracker追蹤物體運動軌跡,構建連續性規則(如遮擋重現需滿足空間連貫性),過濾合法消失事件/出現(如移出畫面邊界)。
最終以異常消失例項佔比的補數作為評分,相比CLIP特徵相似度方法更加貼合人眼的視覺感知。
整體的評估流程如圖3所示。

△圖3 感知驅動的運動指標(PMM)框架。
PMM包含多個評估指標:常識一致性得分(CAS)、運動平滑度得分(MSS)、物體完整性得分(OIS)、可感知幅度得分(PAS)以及時間連貫性得分(TCS)。
上圖(a-e)是每個指標的計算流程圖。
PMM生成的得分呈現出與人類評估一致的變化趨勢,表明與人類感知高度契合。
元資訊引導的Prompt自動生成
針對現有基準因提示型別單一而無法充分評估模型運動生成能力的問題,作者提出了元資訊引導的Prompt生成框架(MMPG),透過結構化元資訊提取與大語言模型協同最佳化,構建了目前覆蓋最廣、描述最細的運動提示庫,涵蓋六大動態場景維度(如生物運動、流體動態等)。
該框架包含以下核心步驟:
元資訊結構化提取
作者將運動描述拆解為三個核心元資訊要素:主體(Subject,S)、場景(Place,P)、動作(Action,A)。
基於現有影片文字資料集,利用大語言模型(Qwen-2.5)構建包含數萬條元資訊的資料庫,並透過多維度擴充套件策略提升多樣性:
-
主體擴充套件:分類為人類、動物、物體,結合目標檢測模型篩選可識別實體,並透過GPT-4o生成不同實體數量(單/多主體)的變體描述;
-
場景擴充套件:從Places365等資料集中提取多樣化場景,過濾重複或模糊的地理資訊;
-
動作擴充套件:從動力學資料集中取樣真實動作,並透過LLM推理生成動物與物體的合理運動模式。
自最佳化提示生成與驗證
從元資訊庫中隨機組合三元組(S,P,A),利用GPT-4o評估其邏輯一致性,並透過迭代最佳化生成自然流暢的運動描述。
例如,將“人類(S)-廚房(P)-切菜(A)”轉化為“一位廚師在現代化廚房中快速切菜,刀具與砧板碰撞發出規律聲響”。
為提升物理合理性,作者引入雙階段過濾機制:
-
LLM邏輯驗證:透過Deepseek-R1推理剔除違揹物理規律或語義矛盾的描述(如“汽車在湖面飛行”);
-
人機協同校驗:結合專家標註與自動化篩選,從5萬候選提示中精選1,050條高質量提示,確保覆蓋複雜互動(如多主體協作)、精細動作(如手指彈奏)及特殊場景(如微觀流體)。
構建提示詞的流程如圖4所示。

△圖4 元指導運動提示生成(MMPG)框架。
MMPG包含三個階段:
-
元資訊提取:從VidProM、Didemo、MSRVTT、WebVid、Place365和Kinect-700等資料集中提取主體、場所和動作資訊。
-
自最佳化提示生成:基於提取的資訊生成提示,並透過迭代最佳化提示內容。
-
人類-LLM聯合驗證:透過人類與DeepSeek-R1的協作過程驗證提示的合理性。
作者用這樣的方式一共構建了1050條高質量的提示詞,其具體的統計如圖5所示。

△圖 5 VMBench 中運動提示的統計分析
(a-h):從多個角度對 VMBench 中的提示進行統計分析。
這些分析展示了VMBench的全面評估範圍,涵蓋運動動態、資訊多樣性以及對現實世界常識的符合度。
實驗
實驗設定
研究基準測試對六個流行的文字生成影片(Text-to-Video, T2V)模型進行評估,包括OpenSora、CogVideoX、OpenSora-Plan、Mochi 1、HunyuanVideo和Wan2.1。
為了提供更豐富的運動型別,作者構建了MMPG-set(Meta-Guided Motion Prompt Generation資料集),該資料集涵蓋六種運動模式,共1,050個運動提示(prompts),用於評估模型的運動生成能力。
每個模型基於MMPG-set生成1,050個影片,最終總計6,300個影片。
為了保證公平比較,作者嚴格按照各模型官方專案的超引數設定進行實驗。每個提示詞(prompt)僅生成一段影片,並且固定初始種子(seed)以保證可復現性。推理過程執行在8張Nvidia H20 GPU上。
此外,作者從每個模型的輸出結果中隨機抽取200段影片,共1,200段影片,用於人類感知對齊驗證實驗(human-aligned validation experiments)。
以下是比較指標(Comparison Metrics)。
1) 基於規則的指標
基於規則的方法評估四個維度:
-
可感知動態幅度(Perceptible Amplitude):採用 RAFT 光流幅值分析 結合 結構運動一致性檢測(基於 4 幀 SSIM 平均值) 進行評估,遵循既定評測協議。
-
時間一致性(Temporal Coherence):使用 DINO 和 CLIP 特徵跟蹤,透過計算 相鄰幀餘弦相似度 來衡量幀間一致性。
-
運動平滑度(Motion Smoothness):結合 插值誤差與 Dover 影片質量評估的混合方法進行測量。
-
物體完整性(Object Integrity):透過 光流扭曲誤差(optical flow warping error)與 語義一致性檢查 進行雙重驗證。
2) 多模態大語言模型(MLLM)評估
團隊選取五個前沿的多模態大模型進行運動評測:
-
LLaVA-NEXT-Video
-
MiniCPM-V-2.6
-
InternVL2.5
-
Qwen2.5-VL
-
InternVideo2.5
這些模型的評估採用標準化流程,即對每個影片以2幀/秒(fps)的取樣率進行處理,以保持運動模式完整性並控制計算成本。
MLLM評估涵蓋五個關鍵維度:運動幅度(Amplitude)、時間一致性(Coherence)、物體完整性(Integrity)、運動平滑度(Smoothness)、常識性(Common-sense adherence)。
每個維度採用1-5分制進行評分。為保證公平性,在所有模型間保持 一致的幀序列與評估標準。
接下來是評估指標(Metrics)。
1) 斯皮爾曼相關係數(Spearman Correlation)
斯皮爾曼秩相關係數(Spearman’s Rank Correlation Coefficient, ρ)用於衡量兩個變數之間的單調關係。該方法是非引數統計方法,特別適用於變數不服從正態分佈的資料集。
與 皮爾遜相關係數(Pearson Correlation) 不同,皮爾遜主要衡量線性關係,而 斯皮爾曼相關性關注基於排名的關聯性,因此對異常值(outliers)更加魯棒,並適用於有序資料(ordinal data) 或非線性依賴關係的場景。
2) 準確性(Accuracy)
為了驗證運動評估指標與人類偏好的一致性,作者在1,200段帶有人類標註的影片(200個提示×6個模型)上進行了成對比較(pairwise comparisons)。
-
對於每個提示(prompt),作者比較所有15種可能的影片對(由不同模型生成的6選2組合),最終得到3,000組影片對進行評估。
-
人類偏好標註(ground truth)透過比較五個核心維度(OIS, MSS, CAS, TCS, PAS)下的平均專家評分確定。得分較高的影片被認定為“偏好樣本”(preferred sample)。
-
PMM評估指標計算各影片在相同標準下的綜合PMM評分,並基於此進行影片對比。
-
一致性準確率(Alignment Accuracy)計算PMM偏好與人類標註結果一致的比率(不包括評分相同的樣本,以確保決策的明確性)。
這一過程確保本研究的評估指標能夠更好地對齊人類感知,並提供精確的運動質量評估方法。
實驗結果
人類感知對齊驗證機制(Human-Aligned Validation Mechanism)
作者邀請了三位領域專家對每個樣本進行獨立標註,基於PMM評估標準,包括可感知動態幅度(Perceptible Amplitude, PAS)、時間一致性(Temporal Coherence, TCS)、物體完整性(Object Integrity, OIS)、運動平滑度(Motion Smoothness, MSS)和常識一致性(Commonsense Adherence, CAS)。
最終,共收集到6,000條詳細評分,並達到了高度的標註一致性(high inter-annotator agreement)。
為了評估評測指標與人類感知的一致性,作者計算了斯皮爾曼相關係數(Spearman Correlation),用於衡量評測指標分數與專家評分之間的對齊程度。較高的Spearman相關係數意味著更強的與人類感知的一致性。
與其他評測指標的比較(Comparison with Alternative Metrics)

△表1 基於斯皮爾曼相關係數(ρ × 100)的人類評分與評估指標之間的相關性分析
上標*和†分別表示遵循VBench和EvalCrafter的實現。在規則基(Rule-based)方法中,黃色背景表示特定維度的基線。
從表1可以看出,在運動平滑度(MSS) 評估方面,即便是先進的指標,如AMT(18.1%)和Warping Error(-19.1%),在面對複雜形變時仍然表現出有限的區分能力,併產生了違反直覺的評估結果。
在物體完整性(OIS) 評估中,也存在類似問題。例如,DINO的對齊度僅為27.4%,而Dover僅為34.5%,二者都未能有效捕捉人類對運動中結構保持性的敏感度。
在可感知動態幅度(PAS) 評估中,基於規則的方法,如SSIM和RAFT ,其人類對齊度分別僅為17.8%和47.7%。
相比之下,本研究方法達到了65.2%的對齊度,表現出明顯優勢。對於時間一致性(TCS)評估,基於規則的指標,如CLIP和DINO,其對齊度僅為28.0%和27.4%,無法準確反映人類對輕微不一致性的容忍度,同時也未能維持物理合理性。
而本研究評測方法達到了54.5%的對齊度,大幅領先。
與現有基準(VBench和EvalCrafter)的比較
-
VBench評測方法包含RAFT、CLIP、DINO和AMT。
-
EvalCrafter採用Dover技術評估和Warping Error。
然而,從表中資料可以看出,與本研究方法相比,VBench和EvalCrafter的運動評估指標與人類感知的相關性明顯較低,表明它們無法有效評估運動質量。
與多模態大語言模型(MLLMs)的比較
儘管多模態大模型(MLLMs)在物理適應性評分(PAS)方面表現出一定能力(例如InternVideo2.5取得 44.3%),但整體來看,MLLMs在所有維度上的平均相關性僅為10.0% – 30.0%。
這表明當前的MLLMs在運動質量評估方面存在根本性的不匹配(fundamental misalignment),難以準確對齊人類的感知標準。
消融實驗
運動評估指標的消融研究(Ablation Study of Motion Metrics)

△表2 本研究評價指標消融實驗計算了不同度量組合相對於人類偏好的預測準確率(%)
基於移除的消融實驗展示了單獨去除每個度量的影響,而基於新增的消融實驗則逐步加入各個度量,以觀察其影響。
根據表2,去除任意單一指標 都會導致整體評估準確率顯著下降,凸顯出 每個評估維度 在整體框架中的重要性。
值得注意的是,去除CAS(常識一致性,Commonsense Adherence, CAS) 指標後,準確率下降最為顯著,降至 64.1%,其影響超過其他單個維度的消融效果。
這表明CAS指標在評估影片質量中的關鍵作用,並且高度契合人類在感知影片質量時優先關注的關鍵因素。
對於面向效能最佳化的變體(performance-oriented variants),作者模擬人類的感知資訊處理流程,透過逐步增加評估維度,結果顯示每新增一個評估維度,整體準確率均有顯著提升。
這一結果不僅驗證了增量評估方法的有效性,還進一步證明了本研究提出的評估框架與人類感知機制的一致性。
定性分析
PMM評估與人類感知的一致性(Alignment of PMM with Human Perception)

△圖6 不同評估機制下指標的相關性矩陣分析
(a) 人類標註的斯皮爾曼相關性矩陣;(b) PMM 指標的斯皮爾曼相關性矩陣。
如圖6所示,人類評分在五個評估維度(OIS、CAS、MSS、TCS、PAS)與PMM評估指標之間的相關性保持一致。
例如,OIS(物體完整性)、CAS(常識一致性)和MSS(運動平滑度)之間存在較強的相關性,而PAS(可感知動態幅度)與其它指標的相關性較弱。
具體來看:
圖6(a)顯示,PAS與其它維度呈負相關,例如與OIS的相關係數ρ=-0.18。
可能的原因是,影片中的高動態振幅(high dynamic amplitudes)會導致形變和偽影,進而降低結構完整性(OIS)和時間一致性(TCS)評分。
OIS與MSS及CAS之間存在較強的正相關性,分別為ρ=0.59和ρ=0.50,表明OIS能很好地反映物理合理性(physical plausibility)和運動合理性(motion rationality)。
TCS(時間一致性)與其它維度的相關性較低,表明該指標可提供更加獨立和全面的評估視角。
PAS與結構/時間相關指標的負相關性挑戰了傳統基於光流(optical-flow-based)的影片運動評估框架,突顯出在運動影片評估中,單獨衡量運動幅度的重要性。
此外,圖6(b)顯示,作者提出的評估指標相互關聯性符合人類感知特性,進一步驗證了PMM評估框架的合理性。
使用 PMM 評估影片生成模型(Assessing Video Generation Models with PMM)

△表3 影片生成模型在VMBench上的表現。
使用VMBench評估了六個開源影片生成模型。分數越高表示該類別的效能越優。
如表3所示,作者使用PMM評估指標對多個領先的影片生成模型進行了評測,包括Mochi 1、OpenSora、CogVideoX、OpenSora-Plan、HunyuanVideo和Wan2.1。
評測結果表明,Wan2.1在運動影片生成方面表現最佳,其生成的影片在視覺真實性(realism)方面優於其它模型。
論文連結:https://arxiv.org/pdf/2503.10076
程式碼倉庫連結:https://github.com/GD-AIGC/VMBench
程式碼倉庫連結:https://github.com/GD-AIGC/VMBench
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你
