

文章標題:
AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark
專案主頁:
https://www.aigve.org/
Github連結:
https://github.com/ShaneXiangH/AIGVE_Tool
PyPI Package:
https://pypi.org/project/aigve/
IFM Lab主頁:
https://www.ifmlab.org/

背景介紹
近年來,隨著 Sora、CogVideoX、Hunyuan 等文字生成影片模型的持續突破,AI 生成影片(AIGV)正迅速成為影片生成領域的前沿方向。此類模型基於自然語言指令生成時序連續的視覺內容,已廣泛應用於虛擬內容創作、教育動畫、科學視覺化等多個場景,展現出強大的跨模態理解與生成能力。
儘管 AIGV 模型本身已取得顯著進展,如何對其生成內容的質量進行系統、量化的質量評估(AIGV Evaluation,即 AIGVE)仍是當前亟待解決的核心問題。
已有研究提出了諸如 FID、IS、CLIPScore、TIFA、VIEScore 等多種 AIGV 自動化質量評估方法,分別從圖文一致性、視覺質量、語義匹配、物理合理性等不同角度對生成內容進行打分。
這些方法在各自任務中表現出良好的應用性。然而,當前 AIGV 質量評估研究面臨以下三方面挑戰:
理論體系缺失:現有 AIGV 質量評估方法往往是為特定模型或評估目標單獨設計,缺乏統一的歸納與結構性整理。當前領域尚未形成對 AIGV 質量評估方法的完整分類體系,缺少對評估目標、輸入模態、語義層級等核心屬性的系統性梳理。
這導致研究者在選用 AIGV 質量評估方法時缺乏明確的語義指引,也難以進行多方法組合、跨模型或跨任務的泛化遷移。
工程實現碎片化:現有各評估方法通常作為獨立程式碼實現。它們往往實現分散、介面不統一、預處理步驟不一致,存在大量重複程式碼與依賴衝突,嚴重影響了 AIGV 質量評估方法流程的標準化復現與跨研究橫向對比的可行性,並進一步限制了 AIGV 的質量評估研究的標準化發展與大規模 benchmark 構建。
缺乏標準資料與對齊機制:目前缺乏高質量、多維度、跨模型、真實人類評分的統一質量評估資料集作為主觀評價參照,難以驗證評估方法有效性與對比不同方法間的表現,限制了 AIGV 質量評估方法的定量分析與最佳化空間。
為了解決上述挑戰,本文提出 AIGVE-Tool —— 一個統一、模組化、可擴充套件的 AIGV 質量評估工具包。
首先,AIGVE-Tool 提出了首個結構化的“五類評估方法分類法”。AIGVE-Tool 從“輸入模態”、“建模方式”與“語義深度”等角度對已有主流 AIGV 自動化質量評估方法進行了結構化歸類,總結出了分佈對比類、影片感知類、圖文相似性類、圖文理解類與多維綜合類五大類別。
該分類體系彌補了當前 AIGV 質量評估研究里長期缺失的理論框架,統一了評估方法的分類標準與組織準則。不僅幫助使用者從功能角度理解不同 AIGV 質量評估方法之間的聯絡與差異,也為後續任務適配、評估方法擴充套件與融合奠定了理論基礎。
其次,該 AIGVE-Tool 工具包構建了清晰、可擴充套件的 AIGV 質量評估執行框架,統一集成了近 20 個主流 AIGV 質量評估方法。
AIGVE-Tool 基於配置檔案驅動、元件解耦的理念,重新組織了 AIGV 質量評估過程中的核心環節,構建了涵蓋資料載入、批次評估、整體流程控制的統一執行架構,AIGVE-Tool 支援快速接入現有或自定義的多模態評估方法,使用者可以方便地執行、複用、擴充套件各種 AIGV 質量評估任務,並與其他 AIGV 質量評估方法進行標準化對比。
AIGVE-Tool 顯著提升了 AIGV 質量評估任務實現邏輯的複用性與可維護性,推動 AIGV 質量評估研究的模組化與體系化。
最後,我們配套地構建了大規模人類打分標註的多維度基準資料集 AIGVE-Bench。AIGVE-Bench 涵蓋五個代表性 AIGV 模型、2430 個影片樣本與九個核心質量維度的人類打分(共計 21870 條評分),首次實現了 AIGV 質量評估中自動化評估方法與主觀評價在多個維度上的對齊分析。
AIGVE-Bench 提供了全面的評價維度定義、跨模型效能對比與一致性統計圖表,是當前結構最完備、維度最全面的 AIGV 質量評估資料集之一。
綜合而言,“五類評估方法分類法”為 AIGV 質量評估研究提供了理論支撐,AIGVE-Tool 提供了靈活高效的 AIGV 質量評估系統設計,AIGVE-Bench 則構建了可靠的多維度主觀評價資料集。
三者協同為 AIGV 質量評估提供了完整的"理論-架構-資料"解決方案,推動該領域邁向可復現、可擴充套件、可比較的全新研究正規化時代。

五類評估方法分類法
隨著影片生成模型的不斷演化,AIGV 的質量評估任務逐步從“影像級打分”邁向“影片級、多維度、跨模態”的全新階段。
為了幫助使用者系統理解這些評估方法的適用範圍與能力差異,AIGVE-Tool 在論文中首次提出了“五類評估方法分類體系”,覆蓋了從低層感知到高層語義、從單模態特徵到跨模態理解的不同評價視角。
我們將目前主流的 AIGV 評估方法根據其設計目標與資料模態,劃分為以下五大類:
1. 分佈對比類評估方法(Distribution Comparison-Based):衡量生成影片與真實影片之間在分佈層面的相似度。代表方法包括:FID、FVD、IS。
2. 影片感知類評估方法(Video-Only Neural Network-Based):關注影片的清晰度、連貫性、動態流暢性等主觀畫面質量。代表方法包括:GSTVQA、SimpleVQA、LightVQA+。
3. 圖文相似性類評估方法(Vision-Language Similarity-Based):使用 CLIP/BLIP 等多模態預訓練模型,度量影片 video 與文字提示 prompt 之間的語義一致性。代表方法包括: CLIPScore、BLIPSim、PickScore。
4. 圖文理解類評估方法(Vision-Language Understanding-Based):關注影片 video 與文字提示 prompt 之間的深層理解關係,聚焦事件一致性、問答準確性、動作推理等更復雜語義層面。代表方法包括:TIFA、VIEScore、DSG。
5. 多維綜合類評估方法(Multi-Faceted Evaluation):綜合多個評價維度加權融合評估,追求全面反映影片表現。代表方法包括:VideoPhy、VideoScore。
該分類法首次系統性整合了 AIGVE 領域的評估方法,清晰定義了其應用範圍、代表方法與功能特性,有助於研究者進行場景選型與組合使用。
為了直觀理解五大類評估方法的覆蓋範圍與差異,下表對 AIGVE-Tool 當前收錄的 AIGV 自動化質量評估方法進行了分類彙總,並簡要介紹其適用功能:

▲ AIGVE-Tool Supported AIGVE Metrics Their Brief Introduction
透過該結構化分類,使用者可以快速定位各類評估方法的評估目標、使用方式與輸入要求。我們的 AIGVE-Tool 根據這個分類來進行組織,為構建使用者自定義 AIGV 質量評估任務提供理論支援與工程便利。

AIGVE-Tool:通用,模組化,可擴充套件的評估架構
AIGVE-Tool 提供了一個基於配置檔案驅動的評估系統,核心功能包括:
-
統一的主迴圈 AIGVELoop:負責標準流程的排程,從資料載入、特徵提取、評估方法的計算到結果儲存,全部自動執行。
-
靈活的 DataLoader 構建機制:支援不同影片資料格式、任意幀數取樣、影片解碼器選擇、OpenCV / torchvision 多後端支援、複雜資料欄位處理(如 video+prompt)等。使用者可輕鬆擴充套件自己的 dataset。
-
模組化的 Evaluator 介面:我們將所有已有的和新的 AIGV 質量評估方法設計為獨立模組,使用者只需實現標準介面即可接入自定義的評估方法新邏輯。
-
配置檔案驅動執行:使用類似 MMEngine 的配置系統,所有設定均透過 Python 配置檔案完成,涵蓋模型路徑、影片輸入、評估方法等。避免硬編碼,方便組合、繼承和快速複用。
下圖展示了 AIGVE-Tool 的系統結構:

▲ AIGVE Toolkit Structure
如上圖所示,AIGVE-Tool 框架由三大核心元件構成:配置檔案(Configuration Files)、可自定義的資料載入器(Customizable DataLoaders)與模組化的評估方法(Modular Metrics)。
它們透過統一主迴圈 AIGVELoop 串聯在一起,完成從資料載入,質量評估,到結果輸出的全過程,並支援靈活的 AIGV 質量評估方法擴充套件與配置替換。該設計基於 MMEngine 實現,強調程式碼結構清晰與易用性,開發者只需關注元件實現,無需更改主流程邏輯。
基於此架構,當前版本已原生支援包括 FID、IS、FVD、CLIPScore、SimpleVQA、GSTVQA、TIFA、VideoScore 等在內的近 20 個代表性評估方法,涵蓋從視覺質量到語義理解的廣泛評估任務。接下來我們將分別介紹該架構的每個模組:
1. 主迴圈 AIGVELoop
AIGVELoop 是整個 AIGVE-Tool 框架的執行入口,繼承於 MMEngine 的 BaseLoop 構建,具備高度靈活與通用性。它負責串聯資料載入器(DataLoader)與評估器(Evaluator),自動排程完整的推理-評估流程。
使用者無需手動控制每一輪評估邏輯,只需配置好資料載入與方法評估模組即可快速開始實驗。AIGVELoop 支援自定義 hooks、FP16 推理、元資訊注入等功能,具備良好的擴充套件性。
2. 可自定義的資料載入器(Customizable DataLoaders)
為適應不同 AIGV 模型生成的影片在格式、解析度、時長等方面的巨大差異,AIGVE-Tool 提供了靈活的支援使用者自定義的資料載入模組。該載入模組提供統一介面併兼容多模態輸入,支援多種讀取後端(如 OpenCV、torchvision)。使用者可載入 (video, prompt, meta) 等多欄位資料,並進行復雜的資料處理流程。
在 AIGVE-Tool 框架下,使用者可以輕鬆的對影片幀抽樣、幀組合方式、影片格式解碼、幀數歸一化等預處理步驟進行個性化配置,從而實現靈活的資料載入。透過統一封裝,配置好的 DataLoader 可在不同評估任務中複用,極大降低了重複程式碼編寫成本。
3. 模組化的評估方法(Modular Metrics)
AIGVE-Tool 的評估方法部分被設計為完全模組化結構。每個評估方法作為一個獨立模組註冊,均繼承自 MMEngine 的 BaseMetric。
它們統一遵循 process() 和 compute_metrics() 兩個介面。process() 用於處理單批樣本,compute_metrics() 用於計算統計性分數。
無論是傳統評估方法(如 FID/FVD),還是大模型驅動的多模態評估方法(如 TIFA、CLIPScore),都可以透過繼承抽象基類快速整合。
此設計支援批處理計算、評估維度自定義、多評估方法組合等高階功能,是整個框架的拓展核心。
4. 配置驅動執行(Configuration-Driven Execution)
AIGVE-Tool 採用基於 MMEngine 的配置系統,所有元件與引數均透過 .py 配置檔案定義。使用者可以輕鬆指定模型路徑、評估方法、資料路徑、batch size 等執行引數。配置結構清晰,支援模組繼承與引數覆蓋,適合大規模實驗管理。使用者無需修改主邏輯,即可快速更換評估方法模組,大幅提升實驗效率。

AIGVE-Bench:多維多模型影片質量評估基準資料集
AIGVE-Bench 是我們在 AIGVE-Tool 框架下設計構建的大規模評估資料集,旨在支援當下及未來 AIGV 多維度、多工的質量評估研究。
該資料集結合了文字提示、模型輸出影片、人類多維評分三大要素,不僅提供統一格式的人類標註,還將自動化質量評估方法結果與人類主觀評分進行系統性比對與相關性對齊分析,是當前評價維度最全面、組織結構化程度最高的 AIGV 評估基準之一。
具體來說,AIGVE-Bench 具備以下特點:
1. 標註規模龐大
為了確保評估結果的可靠性與泛化性,AIGVE-Bench 採用了大規模人類標註機制。整個資料集中,共計收集 21870 條高質量評分樣本,涵蓋 2430 個影片,每條影片都在 9 個評價維度上由人工打分完成,構建了多維度、細粒度的主觀質量參考標準。
2. 文字指令設計豐富
AIGVE-Bench 擁有 500 條高質量文字提示(prompt),廣泛涵蓋靜態場景、動作行為、物理知識、互動關係的多個方面。
下表總結了 AIGVE-Bench 所涵蓋的文字提示類別(Instruction Categories),我們從拍攝視角(如全景 vs. 近景)與內容型別(靜態物件 vs. 動態型別)兩個方面對所有文字提示(prompt)進行了系統分類:

▲ Summary of Instruction Categories
-
Global View 類文字提示關注的是大場景與自然地貌,如城市建築、湖泊山川等,搭配如天氣變化、光照切換等自然動態。
-
Close Shot 類文字提示則聚焦於單個或多個物件本身(如人物、動物、植物)的區域性行為與互動動作。
下圖為 AIGVE-Bench 的文字提示(prompt)中每一種“靜態物件”(Subjects)與“動態型別”(Dynamics)分佈情況:

▲ Subject and Dynamic Distribution of AIGVE-Bench Benchmark Dataset
可見 AIGVE-Bench 的文字提示在靜態物件與動態型別中均具備良好多樣性,確保了 AIGVE-Bench 資料集在場景複雜度、運動變化、互動性等方面的均衡性,為後續 AIGV 質量評估方法在不同任務上的泛化性測試奠定了基礎。
3. 資料來源多樣
AIGVE-Bench 精選了五個代表性的 SOTA AI 影片生成模型: CogVideoX、Genmo、Hunyuan、Pyramid 和 Sora。我們設定統一提示詞、取樣策略,對每個模型生成的影片進行採集,最終構建了包含 2430 個影片樣本 的資料集。
下表列出了由不同模型生成的影片的關鍵引數,包括解析度、幀率與時長等,這些引數差異體現了各模型在生成質量、風格以及效能層面的多樣性:

▲ Specifications of Generated Videos from each Model
這些差異為 AIGV 質量評估方法提出了更高要求——它們不僅要適配不同輸出格式,還需具備足夠的魯棒性與廣泛性,以實現跨模型的公平對比。
下表展示了使用 AIGVE-Tool 中已整合的 AIGV 自動化質量評估方法,對五個當前 SOTA 影片生成模型進行評估的完整打分結果。表中粗體表示該評估方法下表現最好的模型,方括號內為每個評估方法的取值範圍:

從結果可以看出,不同的質量評估方法在不同來源的 AIGV 上各具優勢,說明單一的 AIGV 質量評價維度難以全面反映 AI 影片生成模型的綜合能力。這也進一步印證了 AIGVE-Bench 多維質量評價體系的重要性。
4. 評價維度全面
為了構建具有解釋性與通用性的多維度質量評價體系,我們在 AIGVE-Bench 中設定了 9 個細分的評價維度,覆蓋從畫質、語義一致性、物理合理性到互動與場景複雜度等多個層面。
這些維度不僅覆蓋了傳統影像/影片質量評價中的基礎維度,也擴充套件至 AIGV 獨有的跨模態理解與生成能力。每個影片都在這 9 個評價維度上面進行了人工標註評分,構建了標準的主觀評價標準。
下表對每個評價維度的具體定義與評估要點進行了詳細說明,幫助研究者理解評分標準,同時也為後續設計新的 AIGV 評估方法提供語義支援:

這些評價維度不僅可獨立使用,也支援加權融合,支援研究者根據任務需求靈活設計自定義評估方法。
為了更直觀地展示不同 AIGV 模型在各評價維度下的表現差異,我們統計了由五個主流生成模型生成的影片在不同靜態物件類別(上半部分)和質量評價維度(下半部分)上的人類評分分佈情況,如下圖所示:

▲ Score distribution across different models
從上圖可以看出,不同模型在生成特定型別語義內容(如自然場景 vs. 城市建築)時表現存在明顯差異。例如,一些模型在“自然類物件”(如山脈、動物)上取得了更高的主觀評分,而在“人類或城市類物件”上評分相對較低,表明其在細粒度語義表達方面仍存在短板。
下半部分進一步從九個評價維度(如技術質量、物體保真度、互動合理性等)對模型進行細緻對比。可以觀察到,不同模型在各維度上呈現出不同的強項與弱項。例如,某些模型在語義一致性上表現突出,但在物理規則維度上存在較大不足。
橫軸表示物件類別或評價維度,縱軸表示對應模型的平均人類評分,圖中 μ 表示均值。整體來看,該圖清晰展示了當前主流模型在人類主觀評價下的多維度效能特徵,是進行細粒度分析與能力診斷的重要依據。
這進一步說明,構建統一的多維評價體系不僅是工程實現的最佳化手段,更是提升模型理解與分析深度的理論必需。
5. 人類評分與自動化評估一致性分析
為了幫助研究者在多個維度間選擇最合適的 AIGV 自動化質量評估方法,AIGVE-Bench 進一步分析了各評價維度下的人類評分與各 AIGV 自動化質量評估結果之間的相關性。
我們以 Spearman 等級相關係數(SRCC)為衡量指標,分別計算了以下三種相關性表現:
-
SRCC₍rand₎:隨機生成的分數與人工標籤之間的相關性(用於建立無資訊基線);
-
SRCC:單一自動化 AIGV 質量評估方法與人工標籤的相關性;
-
SRCC₍reg₎:透過線性迴歸融合多種 AIGV 質量評估方法後的評估結果與人工標籤之間的相關性。
下表列出了每個評價維度下推薦的最優自動化評估方法及其相關性指標結果:

▲ The recommended metric for each evaluation aspect in AIGVE-Bench
從結果來看,部分單一方法在特定維度中表現出較高的一致性,而多方法融合策略(SRCC₍reg₎)通常在整體維度上具有更強的擬合能力。
這一發現首次系統性驗證了多維融合策略在模擬人類感知質量方面的有效性,為構建統一、可擴充套件的 AIGV 自動評估體系奠定了堅實基礎。

▲ Case Study of AIGVE-Bench

總結與展望
AIGVE-Tool 是首個覆蓋主流 AIGV 自動評估方法、支援自定義擴充套件、搭配高質量多維基準資料的完整工具包。其核心貢獻體現在以下三方面:
-
完善理論:提出了首個 AIGV 質量評估方法的結構化分類體系,填補了該領域長期缺乏統一語義框架的空白;
-
統一架構:構建了基於配置驅動的評估框架,支援模組解耦與靈活組合,顯著提升評估任務的可複用性與可擴充套件性;
-
構建資料:建立了大規模多維度主觀評價基準 AIGVE-Bench,首次實現主觀評分與主流自動化評估方法之間的系統對齊與量化分析,為評估方法效果驗證提供可靠支撐。
我們期望 AIGVE-Tool 能夠為開發者提供快速驗證模型效能的實驗平臺,也為學術研究提供統一、公平、可復現的評估標準,助力 AIGV 研究邁向更高層次的系統化與標準化。
展望未來,我們將持續迭代更新整合更多 AIGV 質量評估方法與評價維度,推動構建更具普適性與覆蓋性的 AIGV 質量評估體系。同時,我們也誠摯歡迎廣大研究者、工程師、開發者與學生加入,共建共享 AIGVE 生態,共同推動多模態生成質量評估邁向新階段!

AIGVE 工具包與專案網站介紹
為了便於使用者快速上手使用 AIGVE-Tool,我們同步釋出了完整的開原始碼倉庫、安裝包釋出平臺,以及配套的專案官網與使用文件。
5.1 原始碼倉庫與 PyPI 安裝地址
aigve 工具包已經在 GitHub 與 PyPI 平臺上線,支援一鍵安裝與本地部署:
-
Github Repository:https://github.com/ShaneXiangH/AIGVE_Tool,包含完整的框架原始碼、評估方法實現、配置示例與資料預處理指令碼。
-
PyPI Package:https://pypi.org/project/aigve/,支援使用 pip install aigve 快速安裝。
我們建議開發者透過 GitHub 獲取最新原始碼版本,方便查閱評估方法實現與提交 Issue。
5.2 官方專案網站
為了提供更友好的使用體驗,我們專門搭建了 AIGVE 專案官網,網站中包含了完整的元件說明、配置示例、常見問題答疑與使用教程等內容。網站連結和部分網站頁面如下所示:
-
Official Website:https://www.aigve.org/
5.2.1 網站主頁

5.2.2 文件目錄

5.2.3 Tutorial 列表

如有問題,歡迎透過 GitHub Issue 留言交流,或參與貢獻更多評估方法與資料集支援。我們將持續迭代文件與功能,提升 AIGV 質量評估的工程便利性與社群友好度。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
