ICLR2025|南京大學等提出CG-Bench:線索推理驅動的長影片理解新標杆

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

01 背景
當今人工智慧領域中,多模態長影片理解和推理已成為研究熱點。當前,推理能力已經成為衡量多模態大模型重要指標,然而現有影片理解評測基準通常集中在短影片語義分析和長影片問答領域,缺乏對影片大模型實際線索推理能力的深入評估。
由於多選題評測方法的侷限性以及最新多模態大語言模型(MLLMs)的高階推理能力,模型可以在不真正理解內容的情況下,透過組合短影片片段資訊與簡單排除法來得出正確答案,導致評測結果存在"虛高"現象,無法真實反映模型的推理能力。這種評估方式無法區分模型是真正理解了影片內容還是僅依靠表面特徵和排除法得出答案,極大限制了人們對模型真實能力的認知。
特別是在長影片場景下,理解能力的評估變得更加複雜。影片中的關鍵資訊可能分散在不同時間點,模型需要整合跨時間段的線索才能正確回答問題。現有評估方法通常只關注最終答案的正確性,忽視了模型是否真正定位並利用了影片中的關鍵線索,這使得評估結果難以反映模型的實際理解深度和推理能力。

02 方法
為解決這一關鍵挑戰,南京大學、上海人工智慧實驗室等機構的研究團隊提出了發表在ICLR 2025會議上的一個線索推理驅動的長影片理解評測新標杆——CG-Bench,這是一個專為長影片設計的基於線索的問答推理評測基準。CG-Bench不僅評估模型回答問題的準確性,更強調模型必須檢索和依賴影片中的相關線索進行推理,從根本上提升了評估的可信度。
CG-Bench構建了完整的基於線索的推理評測體系,包括:
1線索-問題-答案三元組標註:每個問題都與影片中的具體線索片段精確關聯,確保評測的可靠性和對齊度。這些線索片段平均長度為19.24秒,涵蓋影片中對回答問題至關重要的視覺和語音資訊。標註過程經過嚴格的人工稽核和多輪質量檢查,確保標註準確性。
多層次推理能力評估
感知型問題:細分為13個子類,包括物體識別、屬性識別、空間關係、文字識別等基礎視覺能力
推理型問題:細分為14個子類,包括關係推理等高階認知任務,要求模型進行跨時間段的內容關聯
幻覺檢測問題:評估模型在不確定情況下的魯棒性,測試模型是否會產生無依據的推測

雙重評估機制
白盒評估(White-Box):要求模型明確輸出能夠回答問題的影片線索時間區間,使用時序交併比(IoU)進行評分,直接測量模型定位關鍵線索的精確度
黑盒評估(Black-Box):透過Clue Recovery Rate (CRR)指標,評估模型從長影片中準確檢索短線索的能力,測試模型處理長影片上下文稀釋問題的能力
開放式問答:評測不僅採用多選題形式,還包含開放式問答,使其更貼近實際應用場景。此外,團隊創新性地提出了一種結合人工標註線索與啟發式方法的評估方式,為開放式回答提供了更加可靠的評估
資料集規模與多樣性方面,CG-Bench包含1,219個精選影片,時長超過10分鐘,最長達80分鐘,總時長超過33,000分鐘。影片按14個主類別、171個二級類別和638個三級類別精細組織,確保內容的廣泛覆蓋。資料集包含12,129個問答對,每個問答對關聯到具體影片線索,平均每個影片有9.95個問答對。此外,CG-Bench還覆蓋視覺、字幕和音訊等多模態資訊,實現全面的多模態推理評估。

03 結果
研究團隊對多個主流閉源和開源MLLMs進行了全面評估,結果顯示:使用128幀進行長影片多項選擇題時,GPT-4o準確率為45.2%,Gemini-1.5 Pro準確率為37.2%,領先開源模型Qwen2-VL-72B準確率達41.3%,表現相對較好。為了對比,研究團隊也進行了人類評測實驗,發現在完整影片條件下人類準確率可達90.3%,而在僅觀看128幀樣本的條件下,人類準確率為59.9%,表明當前最先進模型與人類能力仍有差距。

然而,當要求模型不僅正確回答問題,還要準確定位相關線索時,所有模型表現顯著下降:
  • GPT-4o的acc@IoU(回答正確且IoU大於0)僅為4.38%,遠低於其多項選擇題準確率
  • 在白盒評估中,即使最先進的GPT-4o在定位線索的mIoU指標上也僅達到5.62%,顯示出精確定位線索的難度
  • 開源模型的表現更弱,表明當前模型線上索檢索和基於線索的推理方面仍存在巨大挑戰
  • 在開放式問答評估中,最佳模型GPT-4o的正確率僅為39.5%,證明長影片開放式回答仍是一個亟待解決的難題
研究還分析了不同影響因素,包括影片長度、幀數抽樣策略和多模態資訊的影響。結果表明,隨著影片長度增加,模型效能下降;增加幀數抽樣可以提高效能,但收益遞減;字幕等輔助資訊對提升效能有積極作用,但視覺線索仍是最關鍵的。

這些研究結果表明,雖然當前模型在簡單的多選題任務上表現不錯,但在真正需要基於影片內容進行推理的任務上,仍然存在顯著差距。特別是在需要模型精確定位線索並基於線索進行推理的場景下,所有模型都面臨嚴峻挑戰。這些發現為未來研究指明瞭方向:1) 提升模型的線索檢索能力;2) 增強基於檢索線索的推理能力;3) 改進長影片資訊整合機制;4) 發展更可靠的開放式影片問答能力。
CG-Bench的推出標誌著通用影片理解評測進入了以"基於線索的推理"為核心的新時代,為評估和改進多模態大模型的真實推理能力提供了可靠工具。未來,基於這一基準的研究有望推動AI系統在影片內容理解與推理方面取得實質性突破,為智慧體在複雜視覺場景中提供可靠決策制定基礎。所有註釋和影片資料在專案網站(https://cg-bench.github.io/leaderboard/)公開分享,鼓勵全球研究者參與基於線索的影片推理研究。

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章