ICLR2025|3D意圖定位:讓AI僅憑人類意圖實現3D空間定位!

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

圖一:我們引入了 3D 意圖定位(右),這一新任務旨在根據人類意圖句子(例如:“我想要一個能支撐我的背部、緩解壓力的物品”),在 3D 場景中透過 3D 邊界框檢測目標物體。相比之下,現有的 3D 視覺定位(左)依賴於人類的推理和參考來進行檢測。該示意圖清晰地區分了觀察和推理的執行方式:左側由人類手動完成,右側則由 AI 自動完成。


專案主頁:https://weitaikang.github.io/Intent3D-webpage/
論文地址:https://arxiv.org/abs/2405.18295
專案程式碼:https://github.com/WeitaiKang/Intent3D

🎯 介紹

在現實世界中,AI 能夠根據自然語言指令執行目標檢測,對人機互動至關重要。過去的研究主要集中在視覺指引(Visual Grounding),即根據人類提供的參照性語言,在2D影像或3D場景中定位目標物體。然而,人類在日常生活中尋找目標物品往往是起源於某個特定的意圖。例如,一個人可能會說:“我想找個東西靠著,以緩解背部壓力”,而不是毫無理由的直接描述“找到椅子”或“找到沙發”。

什麼是 3D 意圖定位(3D-IG)?

目前,3D 視覺指引(3D Visual Grounding, 3D-VG)方法依賴使用者提供明確的參照資訊,如目標的類別、屬性或空間關係。但在許多現實場景下,例如人在忙碌或有視覺障礙時,無法提供這樣的參照描述。因此,讓 AI 能夠自動推理使用者的意圖並檢測目標物體,才是更智慧、更自然的互動方式。如圖一所示,相較於傳統 3D-VG(左圖),我們的 3D-IG 任務(右圖)能夠讓 AI 直接基於使用者的意圖推理目標,而無需明確的物體描述。

為什麼選擇 3D 而非 2D?

近年來,基於意圖的推理任務在 2D 視覺領域有所研究,如意圖導向的目標檢測(Intention-Oriented Object Detection)、隱式指令理解(Implicit Instruction Understanding)等。然而,這些研究僅限於 2D 視角,無法完整反映現實世界的幾何和空間資訊。相比之下,3D 資料更加貼近現實世界,不僅包含深度資訊,還能提供完整的物體幾何、外觀特徵以及空間上下文。因此,在 3D 場景中進行意圖推理,不僅能更準確地模擬真實需求,還能推動智慧體(Embodied AI)、自動駕駛、AR/VR等領域的發展。

📦 資料集 & 基準

為了推動 3D 意圖定位研究,我們構建了 Intent3D 資料集,包含 44,990 條意圖文字,涉及 209 類物體,基於 1,042 個 ScanNet 點雲場景。由於意圖表達的多樣性,使用預定義格式進行標註會限制模型的泛化能力。此外,眾包標註往往缺乏可靠性,而專業標註成本高且難以擴充套件。因此,如圖二所示,我們採用 GPT-4 生成意圖文字,並經人工質量檢查,確保高準確性和多樣性。
圖二:(上排)資料集構建流程圖。構建場景圖後,我們根據三個標準選擇物件:常見物件、非平凡物件、無歧義物件。我們使用 ChatGPT 根據我們設計的提示生成意圖文字。最後,我們手動清理資料。(下排)我們的資料集中針對不同目標數量和文字長度的示例。


其次,為了充分評估我們目前解決這個問題的研究能力,我們使用三種主要的基於語言的 3D目標檢測技術為我們的基準構建了幾個基線。這涉及使用以下模型評估我們的資料集:專門為 3D 視覺定位設計的專家模型(BUTD-DETR, EDA)、為通用 3D 理解任務制定的基礎模型(3D-VisTA)以及基於大型語言模型 (LLM) 的模型(Chat-3D-v2)。我們使用多種設定評估這些基線,即從頭開始訓練、微調和零樣本。

⚙ 方法

如何解決 3D 意圖定位問題?

如圖三所示,我們設計了一種新方法 IntentNet,結合多個關鍵技術:🔹 動賓對齊(Verb-Object Alignment):先識別意圖中的動詞,再與相應賓語特徵進行對齊,提高意圖理解能力。🔹 候選框匹配(Candidate Box Matching):在稀疏 3D 點雲中顯式匹配候選目標框,提高多模態意圖推理能力。🔹 級聯自適應學習(Cascaded Adaptive Learning):根據不同損失函式的優先順序,自適應調整損失函式權重,提升模型效能。
圖三:IntentNet:(骨幹網路)PointNet++ 用於提取點特徵;MLP 編碼 3D 目標檢測器預測的框;RoBERTa 編碼文字輸入。(編碼器)基於注意力的塊用於多模態融合,透過與文字特徵的整合來增強框特徵。(解碼器)具有最高置信度的前 k 個點特徵被選擇為提出的查詢(query),然後透過基於注意力的塊進行更新。幾個 MLP 用於線性投影查詢,以便進行後續的損失計算。(損失函式)該模型學習使用 L_bce 將候選框與目標物件進行匹配; 查詢(query)被訓練以識別動詞 (L_vPos),與動詞對齊 (L_vSem),並與賓語對齊 (L_voSem)。

🔬 實驗

由於對意圖語言理解和推理進行了顯式建模,我們的 IntentNet 明顯優於所有以前的方法。與驗證集上的第二佳方法相比,我們在 [email protected][email protected] 中分別實現了 11.22% 和 8.05% 的改進。此外,我們分別將 [email protected][email protected] 提高了 9.12% 和 5.43%。同樣,在測試集上,我們在 [email protected][email protected] 中分別獲得了 11.06%、10.84% 的改進;在 [email protected][email protected] 中分別獲得了 6.72%、5.6% 的改進。
圖四:實驗結果

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章