小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

WorldSense團隊投稿

轉載自：量子位（QbitAI）

多模態大模型理解真實世界的水平到底如何？

有新基準來衡量了。

就在最近，小紅書和上海交通大學聯合提出WorldSense，一個全新的基準測試，用來評估多模態大模型（MLLMs）的多模態真實場景理解能力。

基於WorldSense，團隊對各種先進的MLLMs進行了廣泛評估，結果發現：

開源的影片-音訊模型在該基準上的準確率僅約25%，幾乎等同於隨機猜測；即使是表現最好的專有模型 Gemini 1.5 Pro，準確率也只有48%，遠不能滿足可靠的真實世界應用需求。

下面具體來看。

WorldSense介紹

想象一下，當你開車時，不僅要依靠眼睛觀察道路標誌、交通訊號燈和障礙物，還要用耳朵聽其他車輛的喇叭聲、後方傳來的警笛聲，甚至透過手對方向盤的觸感、車輛行駛時的震動來做出即時決策，確保安全駕駛。

這就是人類在真實場景中自然的多模態資訊整合能力。

而現在的多模態大模型，在處理這些複雜的真實世界場景時，表現究竟如何呢？

WorldSense的誕生，正是為了填補現有評估體系的關鍵空白。

與以往那些存在諸多侷限性的基準測試不同，它具備三大核心亮點，為多模態大模型的評估開闢了新的道路。

全模態協同，深度融合感知

在WorldSense的設計中，音訊和影片緊密耦合，每個問題都需要模型充分挖掘音訊和影片中的線索，將兩者資訊有機結合，才能找到正確答案。

比如，在上圖第一個例子中，有個人手裡拿著水果。如果僅依靠視覺資訊，我們可能只能看到他拿著東西這個動作，但很難確定他具體在做什麼，是展示水果的顏色、大小，還是在進行其他操作；而僅憑藉音訊，我們甚至都難以判斷他手中拿的是什麼水果。

只有將視覺與音訊資訊協同起來，模型才能準確理解場景，給出正確答案。這種設計嚴格考驗模型同時處理多種感官輸入、進行精準理解的能力。

最新的開源影片音訊多模態大模型僅僅獲得了25%左右的準確率，而表現最好的Gemini 1.5 Pro也只有48%的準確率，並且在缺失一個模態的情況下效能下降約15%左右。

這進一步說明了全模態協同在真實世界感知的重要性和WorldSense中多模態資訊的強耦合，也揭示了現有多模態大模型的侷限性。

影片與任務多樣性，全方位場景覆蓋

據介紹，WorldSense涵蓋了1662個視聽同步影片，系統地分為8個主要領域和67個細粒度子類別，覆蓋了豐富的真實世界場景。

同時，它還包含3172個多選問答對，橫跨26種不同的認知任務，從基礎的物體識別、聲音辨別，到複雜的因果推理、抽象概念理解，全方位評估MLLMs的多模態理解能力。

高質量標註，可靠性的基石

為了保證評估的可靠性，所有的問答對都是由80位專家手動標註。

而且，標註過程並非一蹴而就，而是經過多輪嚴格的人工稽核，從語言表達的清晰度、邏輯的連貫性，到答案的準確性和唯一性，都進行了反覆考量。

不僅如此，還藉助自動MLLM驗證技術，進一步確保標註質量。

經過這樣雙重保障的標註過程，確保問題和答案的準確性和高質量。

實驗

如前所述，研究團隊基於WorldSense對各種先進的MLLMs進行了廣泛評估，結果令人深思。

開源的影片 – 音訊模型在該基準上的準確率僅約25%，幾乎等同於隨機猜測；即使是表現最好的專有模型Gemini 1.5 Pro，準確率也只有48%，遠不能滿足可靠的真實世界應用需求。

這表明當前的模型在理解真實世界場景方面還面臨巨大挑戰，同時也凸顯了全模態協同理解的重要性。

為進一步深入剖析這些模型的效能短板，研究人員開展了細粒度分析，從不同音訊型別和任務類別兩個關鍵維度入手，挖掘模型在實際應用中的具體問題。

這一分析為我們深入洞察現有模型的侷限性提供了關鍵視角。

最終結果如下：

1、音訊相關任務表現欠佳：模型在音訊識別、計數等任務上表現差，顯著落後於其他任務型別。這是由於音訊訊號複雜，現有模型架構和訓練方法難以有效解析利用其中的頻率、音色等資訊。

2、情感相關任務挑戰巨大：這類任務需整合面部表情、語氣語調、語音內容等多模態線索，模型表現較差，暗示其訓練資料缺乏情感樣本，且架構演算法難以融合多模態資訊進行判斷。

3、不同音訊型別下表現各異：以Gemini 1.5 Pro為例，其處理事件相關問題的準確率低於語音或音樂任務，其他模型也存在類似情況。這凸顯現有模型缺乏對各種音訊型別通用、穩定的理解能力。

鑑於上述評估中揭示的多模態大模型（MLLMs）在效能上的巨大差距，研究團隊深入探究了提升MLLMs效能的潛在方法，具體涵蓋視覺資訊、音訊資訊以及影片幀等方面的研究。

視覺資訊的影響

研究人員透過設定不同的輸入配置，探究視覺資訊對模型效能的影響，這些配置包括僅音訊輸入、音訊結合影片字幕輸入以及音訊結合影片幀輸入。

從實驗結果來看，視覺資訊通常能提升模型效能。以Gemini 1.5 Pro為例，其僅音訊輸入時準確率為34.6%，而新增影片幀輸入後，準確率提升至48.0%。

然而，不同模型受視覺資訊的影響存在差異。像UnifiedIO2系列模型，在結合影片字幕輸入時，效能提升效果並不穩定，甚至出現了效能下降的情況。

這一現象表明，一方面，視覺資訊若能被模型恰當整合，對增強多模態理解至關重要；另一方面，當前模型在有效利用視覺資訊方面的能力仍然有限，可能是因為模型在處理視覺特徵與其他模態資訊融合時存在困難，或者是在提取視覺關鍵資訊上還不夠高效。

音訊資訊的作用

在音訊資訊的研究上，團隊設定了三種輸入配置進行實驗，分別是僅影片輸入、影片結合字幕輸入以及影片結合原始音訊輸入。

實驗結果呈現出有趣的規律。

對於Gemini 1.5 Pro和OneLLM等模型，新增字幕能提高準確率，而新增原始音訊後，準確率提升更為顯著，這充分說明字幕和原始音訊中的聲學特徵（如語氣、情感、環境聲音等）都為多模態理解提供了有價值的資訊，且原始音訊包含了字幕無法捕捉的重要線索，對多模態理解意義重大。

但不同模型對音訊資訊的處理能力也有所不同。UnifiedIO2 在整合字幕或音訊時，效能出現了下降，尤其是字幕輸入導致準確率明顯降低，這反映出該模型在多模態處理方面存在困難，可能無法有效融合音訊和視覺等多模態資訊。

而Video – LLaMA2雖然在新增兩種模態資訊時效能都有所提升，但對字幕的依賴更強，在處理原始音訊時表現相對較弱，這表明它更擅長處理文字形式的音訊資訊，而在解析複雜聲學資訊上能力不足。

此外，研究人員還對僅影片輸入的 MLLMs 提供轉錄字幕進行評估，發現幾乎所有模型在新增字幕後效能都顯著提升，不過在音樂相關問題上，由於字幕無法有效捕捉旋律、節奏和和聲等固有聲學特徵，效能提升並不明顯。

這進一步證明了原始音訊在多模態理解中的獨特價值，同時也表明當前模型在整合聲學和文字資訊以實現全面場景理解方面存在較大的提升空間。

影片幀取樣密度的效果

研究團隊還研究了影片幀的時間取樣密度對模型效能的影響，透過改變僅影片輸入的 MLLMs 的輸入幀數來進行實驗。

結果顯示，大多數模型在增加幀密度後，效能有顯著提升。

這是因為更高的幀密度能夠讓模型更好地捕捉影片中細粒度的時間動態變化和微妙的視覺改變，從而提升對影片內容的理解。

例如，在一些包含快速動作或微小細節變化的影片中，增加幀密度能讓模型獲取更多關鍵資訊，進而做出更準確的判斷。但也有例外，如 LLaMA – 3.2 在增加幀密度時，效能並未提升。

這可能與該模型自身的架構特點或訓練方式有關，導致它無法有效利用增加的幀資訊，這也為後續研究如何最佳化模型以更好地利用影片幀資訊提供了思考方向。

小結一下，透過對視覺資訊、音訊資訊以及影片幀取樣密度的研究，為提升MLLMs在真實世界場景中的理解能力提供了重要的參考方向。

未來的研究可以基於這些發現，進一步最佳化模型架構和訓練方法，以增強模型對多模態資訊的處理能力，縮小與人類真實世界理解能力之間的差距。

論文連結：
https://arxiv.org/abs/2502.04326
專案主頁：
https://jaaackhongggg.github.io/WorldSense/

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2024，即可下載CVPR 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請贊和在看

dignews.cc

小紅書&上交提出多模態大模型新基準WorldSense！Gemini1.5Pro準確率僅48％

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

WorldSense團隊投稿

轉載自：量子位（QbitAI）

WorldSense介紹

全模態協同，深度融合感知

影片與任務多樣性，全方位場景覆蓋

高質量標註，可靠性的基石

實驗

視覺資訊的影響

音訊資訊的作用

影片幀取樣密度的效果

何愷明在MIT授課的課件PPT下載

ECCV 2024 論文和程式碼下載

CVPR 2024 論文和程式碼下載

相關文章

河南大學公佈學術副校長海霞的排名

ICLR2025|南京大學等提出CG-Bench：線索推理驅動的長影片理解新標杆

CVPR2025知名影片分割挑戰賽啟動！

惋惜！年僅32歲，青年大學教師因病逝世，入職才2年

年僅32歲！又一青年大學教師因病逝世…

Transformer作者之一加入Anthropic，參與Claude3.7Sonnet研究！

ICLR2025|北大彭宇新團隊開源細粒度多模態大模型Finedefics

不要自迴歸！擴散模型作者創業，首個商業級擴散LLM來了！

ICLR2025|Z-Sampling：讓擴散模型在反思中提升取樣

ICLR2025|谷歌&港大提出SVG：基於擴散模型的雙目影片生成

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達 點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

WorldSense團隊 投稿 轉載自：量子位（QbitAI）

WorldSense介紹

全模態協同，深度融合感知

影片與任務多樣性，全方位場景覆蓋

高質量標註，可靠性的基石

實驗

視覺資訊的影響

音訊資訊的作用

影片幀取樣密度的效果

何愷明在MIT授課的課件PPT下載

ECCV 2024 論文和程式碼下載

CVPR 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

WorldSense團隊投稿

轉載自：量子位（QbitAI）