西安交大、港科廣開源FortisAVQA資料集,配套MAVEN模型助力魯棒音影片問答

音影片問答(Audio-Visual Question Answering, AVQA)是一項具有挑戰性的多模態推理任務,需要智慧系統理解音訊-影片輸入,準確回答自然語言查詢。
然而,現有的 AVQA 方法由於魯棒性不足,容易學習到訓練資料集中的分佈偏差,導致在分佈外資料上效能表現不佳。此外,當前的資料集也無法全面有效地診斷這些方法的魯棒性。
為了應對這些挑戰,研究團隊引入了一個新的測評資料集 FortisAVQA 和強大的多模態視聽認知模型 MAVEN,它利用多方面迴圈協同去偏策略來減輕偏差學習。研究透過大量的實驗結果,驗證了 MAVEN 模型的強大效能和 MCCD 去偏差策略的廣泛有效性。
論文標題:
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning
論文地址:
https://arxiv.org/abs/2504.00487
程式碼連結:
https://github.com/reml-group/fortisavqa
資料集連結:
https://huggingface.co/datasets/reml-group/FortisAVQA
模型連結:
https://huggingface.co/reml-group/MAVEN
背景
在日常生活中,我們常常需要同時理解看到的畫面聽到的聲音,才能準確判斷髮生了什麼。想象這樣一個場景:影片中有兩個人同時演奏樂器。要回答“那個樂器的演奏聲音最大?”僅靠畫面或聲音都不夠,需要音訊和視覺資訊的融合推理
因此,音影片問答(Audio-Visual Question Answering,AVQA)任務是一項具有挑戰性的多模態推理任務,給定一段音影片片段和一個自然語言問題,模型需綜合理解音訊與視覺線索,生成準確的文字答案。相比傳統的視覺問答(VQA)或聽覺問答(AQA),AVQA 更貼近人類的多模態感知機制,但也更加具有挑戰性。
▲ 圖1:現有 AVQA 資料集的構成以及現有方法 STG 和本文方法 MAVEN 的比較。目前的 AVQA 資料集中的問題是透過一組有限的預定義模板生成的,這可能與現實世界的情況不符。我們的研究發現,現有的方法,如 STG,並不具備良好的魯棒性,這可能歸因於過度的偏差學習,例如記住了關鍵問題詞和答案之間的統計規律性。
挑戰一:現有資料集無法全面衡量模型魯棒性
現有音影片問答資料集問題模板和詞彙空間有限,偏離真實世界場景,且無法有效評估模型在處理罕見或不常見樣本時的效能,而這對於評估模型的魯棒性至關重要。
挑戰二:現有模型魯棒性不足
現有的 AVQA 方法在處理罕見問題時表現不佳,容易過擬合到訓練資料中的偏差,導致在測試階段遇到罕見問題時效能下降,說明它們可能只是記住了問題詞和答案之間的統計規律,而不是真正理解了多模態資訊。
FortisAVQA
FortisAVQA 是第一個旨在評估 AVQA 模型魯棒性的資料集。它的構建涉及兩個關鍵過程:改寫(Rephrasing)和劃分(Splitting)。
2.1 改寫
對現有的 MUSIC-AVQA 資料集中的測試問題進行重述,讓同一個問題有多種不同的表達方式。這就像是給機器出了一道道“變形題”,讓模型不能只靠“背答案”來應對,而是要真正理解問題的含義。
這樣一來,測試集的問題數量從 9129 條顯著增加到了 211572 條,問題的詞彙量也從原來的 93 個詞擴充套件到了 465 個詞,更接近真實世界中的語言多樣性。
▲ 圖2:FortisAVQA 的重述視覺化。左側面板展示了 FortisAVQA 中的一個重述示例,而中間和右側面板分別展示了 FortisAVQA 和 MUSIC-AVQA 的問答分佈,基於它們問題的前三個詞。
2.2 劃分
為什麼要劃分:
在 AVQA 任務中,我們希望模型不僅能在常見問題上表現出色,還能在面對罕見問題時保持穩定的效能。這就需要一個能夠同時評估模型在常見(in-distribution)和罕見(out-of-distribution)問題上的表現的資料集。然而,現有的資料集往往無法做到這一點。
FortisAVQA 透過引入分佈偏移,將問題根據答案劃分為“常見問題”(head)和“罕見問題”(tail),從而能夠分別評估模型在 in-distribution 和 out-of-distribution 測試資料上的效能,全面地評估模型的魯棒性。
如何進行劃分:
問題分組:首先,根據問題型別對問題進行分組。這些型別在 MUSIC-AVQA 資料集中已經標註好了。
平衡度量:為了衡量每個問題組的平衡程度,採用了夏農熵(Shannon Entropy)來量化答案分佈的均勻性,保留更加不平衡的組。
動態劃分:本文提出了一種基於共形預測(Conformal Prediction)的動態劃分方法。這種方法的核心是透過最佳化問題,自動調整常見問題(head)和罕見問題(tail)的邊界。
具體來說,給定一個數據集 ,包含  個類別,目標是找到一個最優的頭部問題集合 ,使得:
即在滿足頭部資料覆蓋性的條件下,儘可能減小頭部集合大小。
這種動態劃分方法能夠根據資料分佈自動調整常見問題和罕見問題的邊界,避免了人為設定固定閾值帶來的侷限性。
▲ 圖3:FortisAVQA 中 AVQA 任務的統計視覺化。µ(a)是一個組中的平均答案數。之前的劃分機制,採用固定的經驗值進行劃分,導致子圖(a)中所有類別都被分配給尾部。相比之下,新提出的方法透過適應資料分佈提供了更大的靈活性。k 是方程(9)中的比率。
MAVEN
▲ 圖4:我們提出的多模態音訊-視覺認知網路(MAVEN)示意圖。
現有方法由於訓練資料中存在有害偏差,導致模型在 in-distribution 資料上效能高,但在 out-out-out-distribution 資料上效能低。
為了解決這個問題,本文提出了一個魯棒的生成式模型 MAVENMultimodal Audio-Visual Epistemic Network),它採用了多方面迴圈協同去偏差策略(Multifaceted Cycle Collaborative Debiasing, MCCD)進行訓練。
MAVEN 首先使用模態特定的編碼器提取單模態嵌入(Unimodal Representation)。然後,它微調引數共享的生成式大模型以進行多模態融合和答案生成(Multimodal Fusion and Answer Generation,MFAG),同時在四個不同提示的指導下捕獲三個單模態偏差(Unimodal Bias Learning)。
最後,應用協同去偏策略(Collaborative Debiasing)來增強模型的魯棒性。下面對 MCCD 策略進行介紹。
MCCD
增大差異度:透過計算單模態預測和多模態預測之間的 KL 散度,放大它們之間的分佈差異。這使得模型在生成答案時,不能僅僅依賴於某個模態的偏差,而是需要綜合考慮所有模態的資訊。
迴圈一致性:透過迴圈引導機制,約束每個模態的預測分佈,使其保持一致性。 這進一步增強了模型的魯棒性。
因此最終的最佳化目標是 ,其中 ,是答案生成的損失。
MAVEN 模型訓練演算法流程如下:
▲ 圖5:MAVEN 模型訓練演算法流程
實驗
本文透過一系列充分的實驗,驗證了 MAVEN 模型在音影片問答任務中的強大效能和魯棒性。
▲ 圖6:MUSIC-AVQA 與 FortisAVQA 的測試集劃分對比。為了減輕在大型模型上的測試開銷,我們對兩個資料集分別以 10% 和 1% 的比例進行了均勻取樣,從而得到 MUSIC-AVQA_s 和 FortisAVQA_s。實驗在評估小模型時使用整個測試集,而在評估大型多模態模型時,使用了取樣後的測試集。
實驗主要在兩個資料集上進行:
MUSIC-AVQA:包含 31,927 個訓練樣本、4,568 個驗證樣本和 9,129 個測試樣本。這些樣本涵蓋了 9,288 個音樂表演影片,問題由有限的預定義模板生成。
▲ 圖7:MUSIC-AVQA 測試結果
FortisAVQA:在  MUSIC-AVQA 的基礎上擴充套件而來,透過問題重述和分佈偏移,將測試問題數量擴充套件到 211,572 個。FortisAVQA 提供了更全面的評估,包括在常見問題(head)、罕見問題(tail)的表現,用來評估模型的魯棒性。
▲ 圖8:FortisAVQA 測試結果
透過一系列詳細的實驗,MAVEN 模型在多模態音影片問答(AVQA)任務中展現出了卓越的效能和魯棒性。實驗結果表明:
  • MAVEN 在 MUSIC-AVQA 資料集上達到了新的 SOTA 效能,顯著超過了所有基線模型
  • 在 FortisAVQA 資料集上,MAVEN 不僅在常見問題上表現出色,還在罕見問題上展現出了強大的魯棒性
  • MCCD 策略具有很強的通用性,可以作為即插即用的模組,顯著提升多種基線模型的效能。
總結
本文介紹了 FortisAVQA,一種全新的音影片問答測評資料集,以及一套全面的評估指標。透過引入合理的分佈自適應劃分演算法,使得對 AVQA 模型,提供對其在分佈內和分佈外場景中的泛化效能的見解。
我們提出了一個生成式 AVQA 架構 MAVEN,它結合了 MCCD 策略來克服訓練偏差和執行魯棒生成。據我們所知,這是第一個系統探討來自資料集評估和模型的 AVQA 任務設計。
我們在 MUSIC-AVQA 和 FortisAVQA 資料集上進行了廣泛的實驗,評估了 12 種最近的多模態 QA 方法,並表明它們不僅在分佈內情景中泛化能力有限,而且在分佈外情況下泛化能力有限,同時也驗證了 MAVEN 的強大效能和去偏差策略的有效性。
目前,FortisAVQA資料集(https://huggingface.co/datasets/reml-group/FortisAVQA)和 MAVEN 模型權重(https://huggingface.co/reml-group/MAVEN)已經開源至 HuggingFace,期望能夠為多模態問答的研究提供支援,推動該領域的進一步發展。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章