點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!


OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
論文:https://arxiv.org/pdf/2506.03135
專案:qizekun.github.io/omnispatial/
-
建築的前方是否安裝有鐘錶?
-
沙發和扶手椅擺放的相互位置什麼樣?
-
哪個物體離你最近?
這些問題對目前的視覺語言模型(VLM)來說已經不算難事了!
得益於強化學習驅動的推理和VLM聯網/使用工具的能力,諸如 o3 和 Gemini-2.5-pro 等閉源模型在一些已釋出的空間推理資料集上,正確率已經可以達到70%以上,有些指標甚至有90%以上的表現。
我們發現,當前大多數空間推理基準在空間認知方面仍停留於基礎層面,比如簡單的“左邊/右邊”判斷或物體計數等任務。除了這些任務,我們人類觀察三維世界的能力遠不止於此,空間智慧還有哪些?

認知心理學中可以找到答案,空間推理是認知心理學的重要組成部分,並且已經有豐富的定義和分類框架系統的描述了人類的空間推理能力有哪些以及如何評價。基於此,為了填補VLM在這方面的空白,並且突破這種認知瓶頸,我們提出了OmniSpatial——首個聚焦高階空間認知的系統化基準。
除此之外,OmniSpatial團隊還創新提出了Spatial Chain-of-Thought(SpatialCoT)和PointGraph方法。結合OmniSpatial基準,能夠顯著提升AI的空間推理能力與空間想象力,推動AI邁向真正理解三維世界的新階段。
4大維度 × 50 個細粒度子任務
1. 四大維度
空間智慧並非簡單的判斷左右、計算物體數量。認知心理學研究表明,人類的空間理解能力是一個精細、多維度的體系。
基於認知心理學已有的空間推理框架,我們在OmniSpatial中提出了4大核心空間維度,包括動態推理、複雜空間邏輯、空間互動以及視角轉換;並進一步細分為50個明確具體的細粒度子任務,全面覆蓋真實世界中人類所需的各種空間理解場景。

動態推理
強調理解和分析物體或人物的運動狀態,以及動態場景未來可能發生的變化。這類任務對模型的時序分析和運動規律捕捉能力提出了更高要求。例如:
• 運動分析:在超市購物場景中,判斷前方的空間是否足夠容納購物車順利透過。
• 操作任務:對日常動作序列的理解,例如推斷出“手拿水杯進行倒水”這一連續動作的完整操作步驟。
複雜空間邏輯
複雜空間邏輯著重考察模型對物體在空間中的幾何變換、拓撲變化以及抽象空間關係的深度理解。這一維度要求模型不僅能識別物體,還需準確推演物體空間位置及形態變化後的邏輯關係。例如:
• 幾何推理:想象並描述剪紙圖案是如何被摺疊裁剪的。
• 形狀識別:從多個立體圖形的變化規律中推匯出下一個圖形的形態或特徵。
空間互動
空間互動任務關注模型在真實或虛擬場景中的互動決策能力,以及對環境的空間理解和地圖資訊的應用能力。這種能力在現實生活中非常常見且重要。例如:
• 地理空間策略:描述在一個複雜廚房環境中如何從洗衣機步行到灶臺,涉及路線規劃和空間佈局理解。
• 交通分析:在駕駛場景中,理解並提醒駕駛員前方車輛車門即將開啟,避免可能的安全風險。
• 定位任務:在互動介面上,準確判斷出進行聲音調節需要點選螢幕上的具體位置。
視角轉換
視角轉換任務考驗模型在不同觀察視角(主觀與客觀)之間靈活切換和相互理解的能力,也即“心像旋轉”和多座標系的空間認知能力。例如:
• 換位思考:在全甲格鬥運動場景中,準確判斷運動員紅方視角下對手的攻擊來自何方。
• 觀察者視角:在有鏡面反射的場景中,準確推斷實際存在的機器人數量,避免倒影產生的空間認知混亂。
• 虛設視角:在圖中沒有可以用來“換位思考”的具體目標,而是一個空的位置時。想像當一個人坐在餐桌的空座位時,判斷屬於他的刀叉分別位於其身體的左側還是右側。
2. 五十個細粒度子任務
為了更加精準、深入地評估視覺語言模型的空間推理能力,我們在OmniSpatial基準的四大維度基礎上,進一步細分為50個嚴格定義且精細明確的子任務。這些子任務涵蓋了從基礎到高階,從靜態到動態,從自我視角到他人視角的各種空間情境與挑戰。透過這一系統而細緻的任務設計,能夠最大化地檢驗和激發模型在多樣化空間場景中的表現潛力。

1.5K 純人工精標QA對
當前大部分空間推理benchmark均由2D/3D檢測資料集根據模板生成,這會導致資料來源過分單一,問答模板僵化等等,一個顯著的現象就是相似模板資料微調可以大幅度漲點,因為VLM微調並非在學習空間知識,而是在過擬合問答模板。
OmniSpatial包含超過1500個由專業人員精細手工標註的高質量問答。資料來源廣泛,涵蓋網路採集圖片、標準化的空間認知心理學測試、駕駛考試題庫以及公開的真實空間互動資料集,資料場景覆蓋自然環境、建築室內外、日常生活情境和動態互動環境,確保了資料的多樣性、真實性及跨領域泛化性。

一次性測 40 款 SOTA VLM
我們對包括ChatGPT o3、Gemini-2.5-Pro、Claude 3.7、Qwen、Gemma等在內的40款主流視覺語言模型進行了系統而全面的評測。結果顯示,這些現象級模型的整體平均準確率不足50%,尤其在“複雜空間邏輯”維度表現最差,最佳模型的準確率甚至低於40%。這些評測結果揭示出當前VLM在空間認知上的明顯不足,特別是在涉及座標系切換(Frame-of-Reference)和物體遮擋(occlusion)預測等高階空間任務時,暴露出顯著的認知短板。

可復現的開源評測流水線
1. 彌補模型“心像”能力
彌補模型“心像”能力 我們創新提出了Spatial Chain-of-Thought(SpatialCoT)方法,透過先進的3D生成模型(如InstantMesh)從原始影像中生成新的視角,提供豐富的空間視覺資訊,以提升模型的空間想象能力,從而增強模型在複雜空間場景中的理解和推理表現。

實驗結果表明,使用PointGraph作為預處理步驟後,GPT-4.1、Gemini-2.5-flash以及Qwen-VL2.5-7B等模型在動態推理和視角轉換任務中的準確率均有明顯提升,證實了結構化物件表示能夠有效增強模型的空間推理能力。同時實驗發現,傳統的文字鏈式思維(CoT)方法在空間推理任務中難以帶來明顯提升。

2. 彌補模型細粒度理解能力
我們提出了 PointGraph 方法,以增強模型對空間關係的細粒度理解能力。具體而言,我們藉助先進的影像分割模型(例如Segment Anything Model),將影像精細分割成獨立區域,並提取物體對應的畫素簇與空間點關係,從而使模型能夠更準確地感知和推理物體的空間位置關係。

實驗結果表明,採用PointGraph後,GPT-4.1、Gemini-2.5-flash以及Qwen-VL2.5-7B等模型在動態推理和視角轉換任務中都表現出了明顯提升,驗證了PointGraph透過引入結構化空間資訊能夠有效改善視覺語言模型在精細空間關係理解上的不足。

我們的洞察
語義理解 ≠ 空間理解:
OmniSpatial的評測顯示,即使主流視覺語言模型在傳統視覺問答(VQA)任務已接近飽和,但面對複雜空間任務卻普遍表現不佳,僅略高於隨機猜測。模型善於回答“是什麼”,但在涉及“在哪裡”、“如何運動”、“下一步如何發展”等空間推理問題時表現明顯不足。
FoR 歧義是瓶頸:
模型在不同座標系(Frame-of-Reference, FoR)的切換任務中普遍表現混亂,尤其在“映象座標”與“世界座標”切換時更為明顯。即便表現最佳的模型也經常出現自相矛盾的回答,凸顯出空間視角切換的靈活性不足。未來亟需增強模型對FoR的精確理解和靈活切換能力。
動態與互動任務最能拉開差距:
動態推理和空間互動類任務最能區分模型的表現差距。單幀靜態分析無法捕捉場景中的運動連貫性和因果關係,使模型在運動軌跡預測、碰撞風險評估等動態互動任務中表現落後。增強模型對連續狀態變化的理解和多步互動推理能力,是實現更高水平空間認知的關鍵突破口。
程式碼 & 資料集即刻上線(MIT License),提供標準評測指令碼
論文: https://arxiv.org/pdf/2506.03135主頁: qizekun.github.io/omnispatial/
ICCV 2025 論文和程式碼下載
ICCV 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
