ICLR2025|3D意圖定位：讓AI僅憑人類意圖實現3D空間定位！

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

圖一：我們引入了 3D 意圖定位（右），這一新任務旨在根據人類意圖句子（例如：“我想要一個能支撐我的背部、緩解壓力的物品”），在 3D 場景中透過 3D 邊界框檢測目標物體。相比之下，現有的 3D 視覺定位（左）依賴於人類的推理和參考來進行檢測。該示意圖清晰地區分了觀察和推理的執行方式：左側由人類手動完成，右側則由 AI 自動完成。

專案主頁：https://weitaikang.github.io/Intent3D-webpage/

論文地址：https://arxiv.org/abs/2405.18295

專案程式碼：https://github.com/WeitaiKang/Intent3D

🎯 介紹

在現實世界中，AI 能夠根據自然語言指令執行目標檢測，對人機互動至關重要。過去的研究主要集中在視覺指引（Visual Grounding），即根據人類提供的參照性語言，在2D影像或3D場景中定位目標物體。然而，人類在日常生活中尋找目標物品往往是起源於某個特定的意圖。例如，一個人可能會說：“我想找個東西靠著，以緩解背部壓力”，而不是毫無理由的直接描述“找到椅子”或“找到沙發”。

什麼是 3D 意圖定位（3D-IG）？

目前，3D 視覺指引（3D Visual Grounding, 3D-VG）方法依賴使用者提供明確的參照資訊，如目標的類別、屬性或空間關係。但在許多現實場景下，例如人在忙碌或有視覺障礙時，無法提供這樣的參照描述。因此，讓 AI 能夠自動推理使用者的意圖並檢測目標物體，才是更智慧、更自然的互動方式。如圖一所示，相較於傳統 3D-VG（左圖），我們的 3D-IG 任務（右圖）能夠讓 AI 直接基於使用者的意圖推理目標，而無需明確的物體描述。

為什麼選擇 3D 而非 2D？

近年來，基於意圖的推理任務在 2D 視覺領域有所研究，如意圖導向的目標檢測（Intention-Oriented Object Detection）、隱式指令理解（Implicit Instruction Understanding）等。然而，這些研究僅限於 2D 視角，無法完整反映現實世界的幾何和空間資訊。相比之下，3D 資料更加貼近現實世界，不僅包含深度資訊，還能提供完整的物體幾何、外觀特徵以及空間上下文。因此，在 3D 場景中進行意圖推理，不僅能更準確地模擬真實需求，還能推動智慧體（Embodied AI）、自動駕駛、AR/VR等領域的發展。

📦 資料集 & 基準

為了推動 3D 意圖定位研究，我們構建了 Intent3D 資料集，包含 44,990 條意圖文字，涉及 209 類物體，基於 1,042 個 ScanNet 點雲場景。由於意圖表達的多樣性，使用預定義格式進行標註會限制模型的泛化能力。此外，眾包標註往往缺乏可靠性，而專業標註成本高且難以擴充套件。因此，如圖二所示，我們採用 GPT-4 生成意圖文字，並經人工質量檢查，確保高準確性和多樣性。

圖二：（上排）資料集構建流程圖。構建場景圖後，我們根據三個標準選擇物件：常見物件、非平凡物件、無歧義物件。我們使用 ChatGPT 根據我們設計的提示生成意圖文字。最後，我們手動清理資料。（下排）我們的資料集中針對不同目標數量和文字長度的示例。

其次，為了充分評估我們目前解決這個問題的研究能力，我們使用三種主要的基於語言的 3D目標檢測技術為我們的基準構建了幾個基線。這涉及使用以下模型評估我們的資料集：專門為 3D 視覺定位設計的專家模型（BUTD-DETR, EDA）、為通用 3D 理解任務制定的基礎模型（3D-VisTA）以及基於大型語言模型 (LLM) 的模型（Chat-3D-v2）。我們使用多種設定評估這些基線，即從頭開始訓練、微調和零樣本。

⚙ 方法

如何解決 3D 意圖定位問題？

如圖三所示，我們設計了一種新方法 IntentNet，結合多個關鍵技術：🔹 動賓對齊（Verb-Object Alignment）：先識別意圖中的動詞，再與相應賓語特徵進行對齊，提高意圖理解能力。🔹 候選框匹配（Candidate Box Matching）：在稀疏 3D 點雲中顯式匹配候選目標框，提高多模態意圖推理能力。🔹 級聯自適應學習（Cascaded Adaptive Learning）：根據不同損失函式的優先順序，自適應調整損失函式權重，提升模型效能。

圖三：IntentNet：（骨幹網路）PointNet++ 用於提取點特徵；MLP 編碼 3D 目標檢測器預測的框；RoBERTa 編碼文字輸入。（編碼器）基於注意力的塊用於多模態融合，透過與文字特徵的整合來增強框特徵。（解碼器）具有最高置信度的前 k 個點特徵被選擇為提出的查詢（query），然後透過基於注意力的塊進行更新。幾個 MLP 用於線性投影查詢，以便進行後續的損失計算。（損失函式）該模型學習使用 L_bce 將候選框與目標物件進行匹配; 查詢（query）被訓練以識別動詞 (L_vPos)，與動詞對齊 (L_vSem)，並與賓語對齊 (L_voSem)。

🔬 實驗

由於對意圖語言理解和推理進行了顯式建模，我們的 IntentNet 明顯優於所有以前的方法。與驗證集上的第二佳方法相比，我們在 [email protected] 和 [email protected] 中分別實現了 11.22% 和 8.05% 的改進。此外，我們分別將 [email protected] 和 [email protected] 提高了 9.12% 和 5.43%。同樣，在測試集上，我們在 [email protected] 和 [email protected] 中分別獲得了 11.06%、10.84% 的改進；在 [email protected] 和 [email protected] 中分別獲得了 6.72%、5.6% 的改進。

圖四：實驗結果

何愷明在MIT授課的課件PPT下載

在CVer公眾號後臺回覆：何愷明，即可下載本課程的所有566頁課件PPT！趕緊學起來！

ECCV 2024 論文和程式碼下載

在CVer公眾號後臺回覆：ECCV2024，即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載

在CVer公眾號後臺回覆：CVPR2024，即可下載CVPR 2024論文和程式碼開源的論文合集

CV垂直方向和論文投稿交流群成立

掃描下方二維碼，或者新增微訊號：CVer2233，即可新增CVer小助手微信，便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋：目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要備註：研究方向+地點+學校/公司+暱稱（如Mamba、多模態學習或者論文投稿+上海+上交+卡卡），根據格式備註，可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233，進交流群

CVer計算機視覺（知識星球）來了！想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料，歡迎掃描下方二維碼，加入CVer計算機視覺（知識星球），已彙集上萬人！

▲掃碼加入星球學習

▲點選上方卡片，關注CVer公眾號

整理不易，請贊和在看

dignews.cc

ICLR2025|3D意圖定位：讓AI僅憑人類意圖實現3D空間定位！

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

🎯 介紹

什麼是 3D 意圖定位（3D-IG）？

為什麼選擇 3D 而非 2D？

📦 資料集 & 基準

⚙ 方法

如何解決 3D 意圖定位問題？

🔬 實驗

何愷明在MIT授課的課件PPT下載

ECCV 2024 論文和程式碼下載

CVPR 2024 論文和程式碼下載

相關文章

CVPR2025|突破2D侷限！Change3D：從3D影片建模視角重塑遙感變化檢測和描述任務

CVPR2025滿分論文！清華提出TSP3D：基於語言引導空間剪枝的高效3D視覺Grounding

CVPR2025|多視角視覺目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

CVPR2025|多視角目標跟蹤新突破！MITracker：高效融合多視角特徵，解決遮擋與目標丟失問題！

時空理解全新基準！STI-Bench：評估MLLMs的精確時空理解能力

CVPR2025|GuardSplat：高效且魯棒的3D高斯潑濺水印技術

CVPR2025|清華&哈佛提出4DLangSplat：4D語言場建模新方法，動態場景精準識別！

ICLR2025|MM-FSS：多模態資訊助力3D小樣本分割

CVPR2025|無需物理引擎，一個模型搞定影像渲染與分解！

ICRA2025|OpenGS-SLAM：僅憑RGB影像實現戶外場景高精度定位與重建

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達 點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！ 掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

🎯 介紹

什麼是 3D 意圖定位（3D-IG）？

為什麼選擇 3D 而非 2D？

📦 資料集 & 基準

⚙ 方法

如何解決 3D 意圖定位問題？

🔬 實驗

何愷明在MIT授課的課件PPT下載

ECCV 2024 論文和程式碼下載

CVPR 2024 論文和程式碼下載

相關文章

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！