CVPR2025|Qwen讓AI「看見」三維世界,SeeGround實現零樣本開放詞彙3D視覺定位

3D 視覺定位(3D Visual Grounding, 3DVG)是智慧體理解和互動三維世界的重要任務,旨在讓 AI 根據自然語言描述在 3D 場景中找到指定物體。
具體而言,給定一個 3D 場景和一段文字描述,模型需要準確預測目標物體的 3D 位置,並以 3D 包圍框的形式輸出。相比於傳統的目標檢測任務,3DVG 需要同時理解文字、視覺和空間資訊,挑戰性更高。
之前主流的方法大多基於監督學習,這類方法依賴大規模 3D 標註資料進行訓練,儘管在已知類別和場景中表現優異,但由於獲取 3D 標註資料的成本高昂,同時受限於訓練資料分佈,導致它難以泛化到未見過的新類別新環境。為了減少標註需求,弱監督方法嘗試使用少量 3D 標註資料進行學習,但它仍然依賴一定數量的 3D 訓練資料,並且在開放詞彙(Open-Vocabulary)場景下,模型對未見物體的識別能力仍然受限。
最近的零樣本 3DVG 方法透過大語言模型(LLM)進行目標推理,試圖繞開對 3D 訓練資料的需求。然而,這類方法通常忽略了 3D 視覺細節,例如物體的顏色、形狀、朝向等,使得模型在面對多個相似物體時難以進行細粒度區分。這些方法就像讓 AI “閉著眼睛” 理解 3D 世界,最終導致模型難以精準定位目標物體。
因此,如何在零樣本條件下結合視覺資訊與 3D 空間關係,實現高效、準確的 3DVG,成為當前 3D 視覺理解領域亟待解決的問題。
為此,來自香港科技大學(廣州)、新加坡 A*STAR 研究院和新加坡國立大學的研究團隊提出了 SeeGround:一種全新的零樣本 3DVG 框架。該方法無需任何 3D 訓練資料,僅透過 2D 視覺語言模型(VLM)即可實現 3D 物體定位。其核心創新在於將 3D 場景轉換為 2D-VLM 可處理的形式,利用 2D 任務的強大能力解決 3D 問題,實現對任意物體和場景的泛化,為實際應用提供了更高效的解決方案。
SeeGround 已被 CVPR 2025 接收,論文、程式碼和模型權重均已公開。
  • 論文標題:SeeGround: See and Ground for
    Zero-Shot Open-Vocabulary 3D Visual Grounding
  • 論文主頁:https://seeground.github.io
  • 論文地址:https://arxiv.org/pdf/2412.04383
  • 程式碼:https://github.com/iris0329/SeeGround
SeeGround:用 2D 視覺大模型完成 3D 物體定位
如圖所示,SeeGround 主要由兩個關鍵模組組成:透視自適應模組(PAM)和融合對齊模組(FAM)。PAM 透過動態視角選擇,確保 VLM 能夠準確理解物體的空間關係;FAM 則透過視覺提示增強技術,將 2D 影像中的物體與 3D 座標資訊對齊,提升定位精度
透視自適應模組(Perspective Adaptation Module, PAM)
在 3D 物體定位任務中,直接使用一個固定視角將 3D 場景渲染為 2D 影像(如俯檢視)雖然能提供物體的顏色、紋理等資訊,但卻存在一個關鍵問題 ——VLM 本質上是基於平面的視覺感知模型,它只能 “看到” 影像中的物體,而無法推理 3D 物體的空間位置,比如前後、左右關係。
因此,如果描述中涉及相對空間位置(如 “桌子右邊的椅子”),VLM 很可能誤判。例如,在俯視視角下,桌子和椅子的相對位置可能會因透視投影而發生變化,原本在桌子右邊的椅子可能會被誤認為在左邊,而 VLM 只能依賴 2D 影像中的視覺特徵,無法推斷物體在三維空間中的實際位置。直接使用固定視角渲染的 2D 影像作為輸入,會導致模型在涉及空間位置關係的任務上表現不佳。
為了解決這個問題,SeeGround 設計了一個動態視角選擇策略,先解析使用者輸入的文字,識別出描述中涉及的錨定物體(anchor object),即用於參考空間關係的物件。隨後,系統根據錨定物體的位置計算最佳觀察角度,調整虛擬攝像機,使其從更符合人類直覺的角度捕捉場景,確保 VLM 可以準確理解物體的空間關係。最終,SeeGround 生成一張符合查詢語義的 2D 影像,該影像能夠更清晰地呈現目標物體與其參考物體的相對位置,使 VLM 具備更強的 3D 關係推理能力。這一策略不僅提高了 VLM 在 3D 物體定位任務中的準確率,同時也避免了因固定視角導致的方向性誤判和遮擋問題,使得零樣本 3DVG 任務在複雜環境下依然具備穩定的泛化能力。
融合對齊模組(Fusion Alignment Module, FAM)
透視自適應模組(PAM)能夠為 VLM 提供更符合任務需求的觀察視角,但即使如此,VLM 仍然面臨一個關鍵挑戰:它無法直接推理 3D 物體的空間資訊,也無法自動對齊 2D 渲染圖中的物體與 3D 位置描述中的物體
SeeGround 將 3D 場景表示為 2D 渲染影像 + 文字 3D 座標資訊,然而,當 VLM 看到 2D 渲染影像時,它並不知道圖中的椅子對應的是哪個 3D 座標。這意味著,如果場景中有多個相似物體(如多把椅子),VLM 可能會誤解 2D 影像中的目標物體,導致錯誤的 3D 預測。
SeeGround 透過視覺提示增強(Visual Prompting) 技術,在 2D 渲染影像中標註出關鍵物體的位置,使 VLM 能夠識別出 2D 畫面中的具體目標物體,並將其與 3D 座標資料關聯。
首先,SeeGround 使用物件查詢表(Object Lookup Table) 來獲取場景中的所有物體的 3D 座標。然後,使用投影技術將 3D 物體的空間位置轉換為 2D 影像中的對應位置,並在渲染影像上新增視覺化標註,以便 VLM 在推理時能夠準確識別出目標物體。同時,在文字描述輸入部分,SeeGround 進一步增強了 3D 物體的空間描述,使 VLM 在推理時能夠結合 2D 視覺特徵和 3D 座標資訊,從而準確匹配目標物體。
實驗結果
為了驗證 SeeGround 在零樣本 3D 視覺定位(3DVG)任務中的有效性,作者在 ScanRefer 和 Nr3D 資料集上進行了廣泛的實驗。結果表明,SeeGround 在多個基準測試中顯著超越了現有零樣本方法,並在某些任務上接近弱監督甚至全監督方法的效能。
此外,在對比實驗中,即使去除部分文字資訊,SeeGround 仍然能夠利用視覺線索進行準確定位,進一步驗證了該方法在不完全資訊條件下的穩健性。
作者專門設計了一個場景,即讓模型在文字描述缺失關鍵物體資訊的情況下,嘗試定位目標物體:在 “請找到印表機上方的櫃子” 這一查詢任務中,文字輸入被刻意去除了 “印表機” 和 “櫃檯” 等關鍵資訊,僅提供物體類別及其位置資訊。
在這種情況下,僅依賴文字推理的 LLM 由於無法獲取必要的上下文資訊,錯誤地匹配到了錯誤的櫃子。而 SeeGround 透過 VLM 結合視覺資訊成功識別出影像中的印表機,並準確定位其上方的櫃子。
這一特性進一步提升了 SeeGround 在複雜現實環境中的適用性,使其能夠在 3D 物體定位任務中表現出更強的穩健性和泛化能力
結論
SeeGround 透過無需 3D 訓練資料的創新設計,成功解決了現有零樣本方法在視覺細節和空間推理上的不足,顯著提升了 3DVG 任務的泛化能力。這一突破為增強現實、機器人導航和智慧家居等領域提供了更高效、靈活的 3D 物體定位方案。
作者介紹
SeeGround 是香港科技大學(廣州)、新加坡 A*STAR 研究院和新加坡國立大學團隊的合作專案。
本文的第一作者為港科廣博士生李蓉,通訊作者為港科廣 AI Thrust 助理教授梁俊衛。其餘作者包括新加坡國立大學博士生孔令東,以及 A*STAR 研究院研究員李仕傑和 Xulei Yang。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章