
多模態大模型理解真實世界的水平到底如何?
有新基準來衡量了。
就在最近,小紅書和上海交通大學聯合提出 WorldSense,一個全新的基準測試,用來評估多模態大模型(MLLMs)的多模態真實場景理解能力。

論文連結:
https://arxiv.org/abs/2502.04326
專案主頁:
https://jaaackhongggg.github.io/WorldSense/
https://jaaackhongggg.github.io/WorldSense/
基於 WorldSense,團隊對各種先進的 MLLMs 進行了廣泛評估,結果發現:
開源的影片-音訊模型在該基準上的準確率僅約 25%,幾乎等同於隨機猜測;即使是表現最好的專有模型 Gemini 1.5 Pro,準確率也只有 48%,遠不能滿足可靠的真實世界應用需求。

下面具體來看。

WorldSense介紹
想象一下,當你開車時,不僅要依靠眼睛觀察道路標誌、交通訊號燈和障礙物,還要用耳朵聽其他車輛的喇叭聲、後方傳來的警笛聲,甚至透過手對方向盤的觸感、車輛行駛時的震動來做出即時決策,確保安全駕駛。
這就是人類在真實場景中自然的多模態資訊整合能力。
而現在的多模態大模型,在處理這些複雜的真實世界場景時,表現究竟如何呢?

WorldSense 的誕生,正是為了填補現有評估體系的關鍵空白。
與以往那些存在諸多侷限性的基準測試不同,它具備三大核心亮點,為多模態大模型的評估開闢了新的道路。
1.1 全模態協同,深度融合感知
在 WorldSense 的設計中,音訊和影片緊密耦合,每個問題都需要模型充分挖掘音訊和影片中的線索,將兩者資訊有機結合,才能找到正確答案。
比如,在上圖第一個例子中,有個人手裡拿著水果。如果僅依靠視覺資訊,我們可能只能看到他拿著東西這個動作,但很難確定他具體在做什麼,是展示水果的顏色、大小,還是在進行其他操作;而僅憑藉音訊,我們甚至都難以判斷他手中拿的是什麼水果。
只有將視覺與音訊資訊協同起來,模型才能準確理解場景,給出正確答案。這種設計嚴格考驗模型同時處理多種感官輸入、進行精準理解的能力。
最新的開源影片音訊多模態大模型僅僅獲得了 25% 左右的準確率,而表現最好的 Gemini 1.5 Pro 也只有 48% 的準確率,並且在缺失一個模態的情況下效能下降約 15% 左右。
這進一步說明了全模態協同在真實世界感知的重要性和 WorldSense 中多模態資訊的強耦合,也揭示了現有多模態大模型的侷限性。
1.2 影片與任務多樣性,全方位場景覆蓋
據介紹,WorldSense 涵蓋了 1662 個視聽同步影片,系統地分為 8 個主要領域和 67 個細粒度子類別,覆蓋了豐富的真實世界場景。
同時,它還包含 3172 個多選問答對,橫跨 26 種不同的認知任務,從基礎的物體識別、聲音辨別,到複雜的因果推理、抽象概念理解,全方位評估 MLLMs 的多模態理解能力。

1.3 高質量標註,可靠性的基石
為了保證評估的可靠性,所有的問答對都是由 80 位專家手動標註。
而且,標註過程並非一蹴而就,而是經過多輪嚴格的人工稽核,從語言表達的清晰度、邏輯的連貫性,到答案的準確性和唯一性,都進行了反覆考量。
不僅如此,還藉助自動 MLLM 驗證技術,進一步確保標註質量。
經過這樣雙重保障的標註過程,確保問題和答案的準確性和高質量。

實驗
如前所述,研究團隊基於 WorldSense 對各種先進的 MLLMs 進行了廣泛評估,結果令人深思。
開源的影片 – 音訊模型在該基準上的準確率僅約 25%,幾乎等同於隨機猜測;即使是表現最好的專有模型 Gemini 1.5 Pro,準確率也只有 48%,遠不能滿足可靠的真實世界應用需求。
這表明當前的模型在理解真實世界場景方面還面臨巨大挑戰,同時也凸顯了全模態協同理解的重要性。

為進一步深入剖析這些模型的效能短板,研究人員開展了細粒度分析,從不同音訊型別和任務類別兩個關鍵維度入手,挖掘模型在實際應用中的具體問題。
這一分析為我們深入洞察現有模型的侷限性提供了關鍵視角。

最終結果如下:
1、音訊相關任務表現欠佳:模型在音訊識別、計數等任務上表現差,顯著落後於其他任務型別。這是由於音訊訊號複雜,現有模型架構和訓練方法難以有效解析利用其中的頻率、音色等資訊。
2、情感相關任務挑戰巨大:這類任務需整合面部表情、語氣語調、語音內容等多模態線索,模型表現較差,暗示其訓練資料缺乏情感樣本,且架構演算法難以融合多模態資訊進行判斷。
3、不同音訊型別下表現各異:以 Gemini 1.5 Pro 為例,其處理事件相關問題的準確率低於語音或音樂任務,其他模型也存在類似情況。這凸顯現有模型缺乏對各種音訊型別通用、穩定的理解能力。
鑑於上述評估中揭示的多模態大模型(MLLMs)在效能上的巨大差距,研究團隊深入探究了提升 MLLMs 效能的潛在方法,具體涵蓋視覺資訊、音訊資訊以及影片幀等方面的研究。
視覺資訊的影響
研究人員透過設定不同的輸入配置,探究視覺資訊對模型效能的影響,這些配置包括僅音訊輸入、音訊結合影片字幕輸入以及音訊結合影片幀輸入。
從實驗結果來看,視覺資訊通常能提升模型效能。以 Gemini 1.5 Pro 為例,其僅音訊輸入時準確率為 34.6%,而新增影片幀輸入後,準確率提升至 48.0%。
然而,不同模型受視覺資訊的影響存在差異。像 UnifiedIO2 系列模型,在結合影片字幕輸入時,效能提升效果並不穩定,甚至出現了效能下降的情況。
這一現象表明,一方面,視覺資訊若能被模型恰當整合,對增強多模態理解至關重要;另一方面,當前模型在有效利用視覺資訊方面的能力仍然有限,可能是因為模型在處理視覺特徵與其他模態資訊融合時存在困難,或者是在提取視覺關鍵資訊上還不夠高效。

音訊資訊的作用
在音訊資訊的研究上,團隊設定了三種輸入配置進行實驗,分別是僅影片輸入、影片結合字幕輸入以及影片結合原始音訊輸入。
實驗結果呈現出有趣的規律。
對於 Gemini 1.5 Pro 和 OneLLM 等模型,新增字幕能提高準確率,而新增原始音訊後,準確率提升更為顯著,這充分說明字幕和原始音訊中的聲學特徵(如語氣、情感、環境聲音等)都為多模態理解提供了有價值的資訊,且原始音訊包含了字幕無法捕捉的重要線索,對多模態理解意義重大。
但不同模型對音訊資訊的處理能力也有所不同。UnifiedIO2 在整合字幕或音訊時,效能出現了下降,尤其是字幕輸入導致準確率明顯降低,這反映出該模型在多模態處理方面存在困難,可能無法有效融合音訊和視覺等多模態資訊。
而 Video-LLaMA2 雖然在新增兩種模態資訊時效能都有所提升,但對字幕的依賴更強,在處理原始音訊時表現相對較弱,這表明它更擅長處理文字形式的音訊資訊,而在解析複雜聲學資訊上能力不足。
此外,研究人員還對僅影片輸入的 MLLMs 提供轉錄字幕進行評估,發現幾乎所有模型在新增字幕後效能都顯著提升,不過在音樂相關問題上,由於字幕無法有效捕捉旋律、節奏和和聲等固有聲學特徵,效能提升並不明顯。
這進一步證明了原始音訊在多模態理解中的獨特價值,同時也表明當前模型在整合聲學和文字資訊以實現全面場景理解方面存在較大的提升空間。

影片幀取樣密度的效果
研究團隊還研究了影片幀的時間取樣密度對模型效能的影響,透過改變僅影片輸入的 MLLMs 的輸入幀數來進行實驗。
結果顯示,大多數模型在增加幀密度後,效能有顯著提升。
這是因為更高的幀密度能夠讓模型更好地捕捉影片中細粒度的時間動態變化和微妙的視覺改變,從而提升對影片內容的理解。
例如,在一些包含快速動作或微小細節變化的影片中,增加幀密度能讓模型獲取更多關鍵資訊,進而做出更準確的判斷。但也有例外,如 LLaMA-3.2 在增加幀密度時,效能並未提升。
這可能與該模型自身的架構特點或訓練方式有關,導致它無法有效利用增加的幀資訊,這也為後續研究如何最佳化模型以更好地利用影片幀資訊提供了思考方向。

小結一下,透過對視覺資訊、音訊資訊以及影片幀取樣密度的研究,為提升 MLLMs 在真實世界場景中的理解能力提供了重要的參考方向。
未來的研究可以基於這些發現,進一步最佳化模型架構和訓練方法,以增強模型對多模態資訊的處理能力,縮小與人類真實世界理解能力之間的差距。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
