時空理解全新基準!STI-Bench:評估MLLMs的精確時空理解能力

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

上交、NTU、BAAI、斯坦福等: 
論文標題: STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? 
論文: https://arxiv.org/abs/2503.23765
主頁: https://mira-sjtu.github.io/STI-Bench.io/
MLLMs 真的具備精確時空理解能力嗎? 
當前,將多模態大模型(MLLM)作為具身智慧和自動駕駛的端到端方案已成趨勢。但這些模型在理解語義之外,是否真正具備了對現實世界精確、定量的時空理解能力?這直接關係到它們在物理世界中行動的可靠性。 作者們認為,現有對MLLM的評估大多集中在2D視覺感知和語義問答上,缺乏對精確時空理解(如距離、速度、姿態變化等精確3D空間和時序動態)能力的嚴格考察。 因此,這篇論文提出一個核心問題:當前的MLLMs是否已準備好迎接需要精確時空理解的現實世界任務? 

因此作者提出一個新基準STI-Bench:
專門設計用於評估MLLM的精確時空理解能力,即時空智慧 (Spatial-Temporal Intelligence)。 使用影片作為輸入,覆蓋桌面、室內、室外三大真實場景。 包含8大類挑戰性任務,強制模型進行精確定量的估計和預測,例如:物體的尺寸/距離測量、空間關係判斷、3D定位、位移/路徑長度計算、速度/加速度分析、自身朝向變化、軌跡描述、姿態估計。 

一個關鍵發現:
透過對包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在內的頂尖MLLM進行廣泛測試,發現它們在STI-Bench上的表現普遍不佳,尤其是在需要精確定量(如距離、運動引數)的任務上得分很低,顯示其精確時空理解能力遠未達到實際應用的要求。

三大核心挑戰:
透過針對Gemini-2.5-Pro這個有詳細思考過程的模型作為代表,分析錯誤模式後,作者指出現有MLLM主要存在定量空間屬性不準確、時間動態理解缺陷、跨模態資訊整合能力薄弱三大侷限性,阻礙了其精確時空理解。 

STI-Bench的意義
它不僅是一個評測工具,更像是一次現實檢驗,揭示了當前MLLM在邁向真正理解和交互於物理世界的道路上,尤其在精確時空理解方面存在的顯著差距。這項工作為社群指明瞭未來需要攻克的方向,以開發出更可靠、真正具備精確時空理解能力的MLLM,服務於具身智慧、自動駕駛等關鍵領域。

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章