CVPR2025|CRA：跨模態因果對齊，讓機器更懂視覺證據！

2025-08-24 20:48 CVer

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

CRA團隊投稿轉載自：量子位（QbitAI）

跨模態因果對齊，讓機器更懂視覺證據！

來自中山大學、新加坡南洋理工大學等團隊提出跨模態因果對齊框架（CRA），透過因果乾預和跨模態對齊，顯著提升時空定位的準確性與可解釋性。

相關論文已被CVPR 2025接收，程式碼已開源。

事情是這樣的——

近年來隨著多模態大模型的發展，影片問答（VideoQA）任務——要求模型根據影片內容回答自然語言問題——效能顯著提升。

然而，現有模型往往依賴訓練資料中的統計偏差（如語言關鍵詞與答案的虛假關聯），而非真正的因果視覺證據，導致回答缺乏可解釋性。

舉個栗子～

例如下圖中，當影片中出現“嬰兒”和“女性”時，模型可能僅因二者高頻共現而給出答案，卻忽略真實因果事件（如“女性抱起嬰兒”）。

也就是說，雖然結果答對了，但過程中模型採納的是錯誤的視覺依據。

針對類似情況，為提供可靠的視覺證據支援，影片問答定位（VideoQG）任務應運而生，要求模型同時輸出答案及其對應影片片段的時間區間。

但現有方法面臨兩大挑戰：

多模態偏差：影片與語言中的混淆因素（如高頻關鍵詞、短時視覺特徵）導致模型學習虛假關聯；
弱監督限制：標註影片片段成本高昂，現有模型依賴影片問答（VideoQA）的弱監督訊號，難以精準定位。

以上就是CRA框架誕生的背景。

此外，中山大學HCP-Lab團隊已將關鍵的因果模組整合到開源因果框架CausalVLR中。

該框架是一個基於PyTorch的python開源工具包，用於因果關係發現，因果推理，為各種視覺語言推理任務實現最先進的因果學習演算法。

三模組驅動因果推理

現有方法常因依賴於訓練資料中的統計偏差，導致模型無法準確識別與問題相關的因果視覺場景，進而產生不準確的時空定位結果。

為克服這一問題，CRA框架透過三個核心模組實現了從噪聲抑制、特徵對齊到因果關係建模的全流程最佳化。

該框架在NextGQA和STAR資料集上的實驗結果表明，CRA能夠顯著提升模型的時空定位能力和因果推理的準確性，為影片問答定位任務提供了更可靠的技術解決方案。

三個核心模組具體展開如下：

GSG：抑制噪聲，聚焦關鍵幀

第一個，高斯平滑定位模組（GSG）。

GSG模組透過自適應高斯濾波去噪，精準估計影片片段的時間間隔。

它的核心功能，是基於跨模態注意力估計時間區間，透過自適應高斯濾波去噪，生成魯棒的影片片段特徵。

技術亮點主要有仨：

1、跨模態注意力計算：利用CLIP影片特徵與RoBERTa語言特徵的互動，生成初始時間注意力權重；2、自適應高斯濾波：引入可學習引數的高斯核，抑制時序上的不穩定噪聲（如無關背景幀），突出關鍵事件區域（下圖）；

3、動態閾值分割：根據平滑後的注意力分佈，動態擷取高響應區間，提升定位精度。

消融實驗顯示，移除高斯濾波（GSG w/o GS）會導致[email protected]下降2.2%（下表），證明其對噪聲抑制的關鍵作用。

△GSG消融實驗，其中SGG w/o GS†表示GSG在訓練過程中具有高斯平滑，但在推理過程中沒有高斯平滑

CMA：弱監督下的雙向對齊

第二個，交叉模態對齊模組（CMA）。

CMA模組利用雙向對比學習，增強影片與問答特徵的對齊效果。

它的核心功能，是透過雙向對比學習，對齊影片片段特徵與問答特徵，增強跨模態一致性。

技術亮點有二：

雙向InfoNCE損失：從同一批次中取樣正/負樣本，分別對齊視覺→語言和語言→視覺特徵（公式1-2）；
動態難樣本挖掘：優先選擇語義差異大的負樣本，迫使模型關注細粒度因果關聯。

移除CMA模組後，Acc@GQA下降2%，[email protected]下降2.2%（下表），凸顯其對弱監督訓練的重要性。

ECI：切斷虛假因果鏈

第三個，顯式因果乾預模組（ECI）。

ECI模組則透過前門和後門干預，消除多模態偏差，提升因果一致性。

它的核心功能，是針對視覺和語言模態分別設計前門干預與後門干預，消除多模態混淆因素。

技術亮點有二：

語言後門干預：解析問答語義結構圖（如主謂賓關係），阻斷關鍵詞與答案的虛假路徑；
視覺前門干預：以影片片段為中介變數，透過特徵聚類模擬混雜因子分佈，重構因果鏈（公式3-4）。

實驗結果顯示，在NextGQA資料集上，去除了Causal模組後相對於CRA在Acc@GQA造成了1.2%的效能損失。

實驗結果：多維度效能領先

在NextGQA資料集中，CRA以18.2%超越Temp[CLIP]（NG+）2.2%，且在使用FrozenBiLM大模型時仍保持優勢。

此外，[email protected]達28.5%，顯著優於基於LLM偽標註的TimeCraft（27.8%），證明其無需額外資料的高效性。

在STAR資料集中，CRA分別以26.8%與27.5%的Acc@GQA分數在Temp[CLIP]和FrozenBiLM的Backbone下領先NG+。

而透過統計弱監督影片定位的分佈情況，研究團隊可以觀察到NG+侷限於小區間的估計，而CRA所估計的區間與真實分佈情況更符合。

綜上，CRA框架透過跨模態因果對齊，首次在弱監督條件下實現了影片問答定位的高精度與可解釋性。

目前，CRA框架程式碼已開源。

研究團隊表示，CRA為影片理解提供了新的因果推理正規化，或將推動自動駕駛、智慧監控等領域的可信AI應用。

論文地址：https://arxiv.org/abs/2503.07635CRA-GQA倉庫：https://github.com/WissingChen/CRA-GQA因果框架倉庫：https://github.com/HCPLab-SYSU/CausalVLR

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2025，即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請點贊和在看

相關文章

多模態學習微信交流群成立！

多模態學習微信交流群成立！

多模態學習、擴散模型和Mamba微信群成立！

多模態學習、擴散模型和Mamba微信群成立！

超解析度微信交流群成立！

超解析度微信交流群成立！

中科院已正式釋出2024年預警期刊名單

中科院已正式釋出2024年預警期刊名單

重磅！DeepSeekR1方法成功遷移到視覺領域，多模態迎來新突破！

重磅！DeepSeekR1方法成功遷移到視覺領域，多模態迎來新突破！

太原理工大學實現山西省CVPR論文重要突破！

太原理工大學實現山西省CVPR論文重要突破！

梁文鋒導師項志宇引關注，個人主頁滿滿都是對團隊的祝賀表揚！

梁文鋒導師項志宇引關注，個人主頁滿滿都是對團隊的祝賀表揚！

CVPR2025滿分論文！重建vs生成：解決擴散模型中的最佳化難題

CVPR2025滿分論文！重建vs生成：解決擴散模型中的最佳化難題

時空理解全新基準！STI-Bench：評估MLLMs的精確時空理解能力

時空理解全新基準！STI-Bench：評估MLLMs的精確時空理解能力

CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

Copyright © 2025 | WordPress Theme by MH Themes