AI能看懂影像卻算不好距離,上交時間——空間智慧基準難倒9大頂尖多模態模型

STI-Bench團隊 投稿量子位 | 公眾號 QbitAI
多模態大語言模型(MLLM)在具身智慧和自動駕駛“端到端”方案中的應用日益增多,但它們真的準備好理解複雜的物理世界了嗎?
上海交通大學聯合中國地質大學、南洋理工大學、智源研究院以及斯坦福大學的研究團隊推出首個多模態大模型(MLLM)時空智慧評測基準STI-Bench(Spatial-Temporal Intelligence Benchmark),向當前最先進的多模態大語言模型發起了關於精確空間時間理解的嚴峻挑戰。
結果顯示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等當前最強的多模態大模型,在需要定量分析真實世界空間關係和動態變化的任務上,表現並不盡人意。

從語義理解到時空智慧

MLLM在視覺語言理解上成就斐然,並被寄望於成為具身智慧和自動駕駛的“端到端”解決方案。但這要求模型超越傳統的語義理解,具備精準的時空智慧。
試想AI應用場景中的需求:
  • 自動駕駛: 
    需知曉與前車的精確距離(米)、行人過馬路的速度(米/秒)、安全過彎的車速限制等。
  • 機器人操作:
    需判斷目標物體的尺寸位置(毫米級)、物體間的空間佈局、高效的抓取路徑與速度。
這些任務的核心是定量化的空間-時間理解能力,而這恰恰可能是當前大模型能力的薄弱環節。STI-Bench正是為了系統評估這一關鍵能力而生。

STI-Bench:”時空智慧”的全面基準測試

與現有側重語義的評測不同,STI-Bench直接採用真實世界影片作為輸入,聚焦於精確、量化的時空理解,旨在評估模型在真實應用場景中的潛力。

基準構建

資料來源包括300多個真實世界影片,覆蓋三類典型場景:桌面操作(毫米級)、室內環境(釐米級)、戶外場景(分米級)。
評測任務共八項,分屬兩個維度。第一類是靜態空間理解,包括:(1)尺度度量,評估物體大小和物體之間的距離;(2)空間關係,理解物體的相對位置關係;(3)3D影片定位,預測物體在三維空間中的位置框。第二類是動態時序理解,包括:(4)位移與路徑長度,判斷物體運動距離;(5)速度與加速度,分析物體運動的快慢及其變化趨勢;(6)自我中心方向,估計相機的旋轉角度;(7)軌跡描述,概括物體運動路徑;(8)姿態估計,識別相機或物體在運動過程中的姿態變化。
此外,該資料集還包含2000多對高質量問答(QA),所有問答基於精確標註計算真值,採用GPT-4o生成多樣化問題與答案,並經過多輪人工稽核與校準,確保問答內容準確、語言合理、且與對應場景的精度需求高度匹配。

實驗結果

研究團隊對當前最先進的多模態模型進行了全面評測,包括最強的專有模型(GPT-4o、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.7-Sonnet)和知名開源模型(Qwen2.5-VL-72B、InternVL2.5-78B、VideoLLaMA 3等)。
評測結果令人感到擔憂:
整體表現不佳:表現最好的Qwen2.5-VL-72B和Gemini-2.5-Pro也僅不到42%的準確率,僅比隨機猜測(20%)高一些,距離實際應用所需的可靠性還有天壤之別。
定量空間任務成”重災區”:
  • 尺度度量:最高僅34.2%(Gemini-2.5-Pro)
  • 位移路徑長度:最佳成績不到33%
  • 速度與加速度:最高僅36.9%
場景差異明顯:
  • 所有模型在戶外場景表現相對較好(最高約50%)
  • 在對精度要求更高的室內場景和桌面環境中普遍下降(均低於40%)
開源模型嶄露頭角:
Qwen2.5-VL-72B不僅贏過所有開源對手,甚至擊敗了所有專有模型,為開源社群帶來振奮。

錯誤原因分析

為了揭示大模型在空間-時間理解上失敗的根本原因,研究者對Gemini-2.5-Pro在各個場景下各類任務的思考過程進行了詳細錯誤分析,發現了三大核心瓶頸:
1. 定量空間屬性不準確模型往往難以透過單目影片準確估計視覺輸入中物體的空間屬性,如尺寸、距離,以及無法從影片中推斷3D資訊,影響了所有需要精確空間測量的任務。
2. 時間動態理解缺陷模型在理解隨時間變化的跨幀資訊方面表現不佳,難以準確計算和描述運動特徵如位移、速度和軌跡。尤其難以區分物體運動與相機運動,這些問題源於跨幀資訊整合困難和物理先驗的缺失。
3. 跨模態整合能力薄弱模型無法有效結合理解文字指令與視覺內容,整合非視覺資料與視覺資訊。這導致對時間約束的誤解、給定初始條件等使用不當,以及結構化資料,如座標、姿態等與視覺元素的正確關聯,影響所有依賴多模態資訊的任務。
這些問題直指當前MLLM在精準的空間-時間理解上的能力缺陷,也為未來研究指明瞭方向。

總結

STI-Bench的結果清晰地揭示了當前多模態大模型在精確空間-時間理解方面的嚴重不足。只有當MLLM掌握了可靠、精確的空間-時間理解能力,它們才能在具身智慧和自動駕駛等領域發揮真正的價值,邁出從虛擬世界到物理世界的關鍵一步。
STI-Bench的釋出,為評估和改進MLLM的空間-時間理解能力提供了一個新的基準和“試金石”,有望引導研究人員更深入地探索解決方案。
目前,該專案的論文、程式碼、資料等已經開源。
論文連結: https://arxiv.org/pdf/2503.23765論文主頁: https://mira-sjtu.github.io/STI-Bench.io/Github: https://github.com/MIRA-SJTU/STI-BenchHuggingface: https://huggingface.co/datasets/MIRA-SJTU/STI-Bench
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章