ICLR2025|3D意圖定位:AI僅憑人類意圖就能完成三維空間的定位

專案主頁:
https://weitaikang.github.io/Intent3D-webpage/
論文地址:
https://arxiv.org/abs/2405.18295
專案程式碼:
https://github.com/WeitaiKang/Intent3D
介紹
在現實世界中,AI 能夠根據自然語言指令執行目標檢測,對人機互動至關重要。過去的研究主要集中在視覺指引(Visual Grounding),即根據人類提供的參照性語言,在 2D 影像或 3D 場景中定位目標物體。
然而,人類在日常生活中尋找目標物品往往是起源於某個特定的意圖。例如,一個人可能會說:“我想找個東西靠著,以緩解背部壓力”,而不是毫無理由的直接描述“找到椅子”或“找到沙發”。
1.1 什麼是 3D 意圖定位(3D-IG)?
目前,3D 視覺指引(3D Visual Grounding, 3D-VG)方法依賴使用者提供明確的參照資訊,如目標的類別、屬性或空間關係。但在許多現實場景下,例如人在忙碌或有視覺障礙時,無法提供這樣的參照描述。因此,讓 AI 能夠自動推理使用者的意圖並檢測目標物體,才是更智慧、更自然的互動方式。

▲ 圖一:我們引入了 3D 意圖定位(右),這一新任務旨在根據人類意圖句子(例如:“我想要一個能支撐我的背部、緩解壓力的物品”),在 3D 場景中透過 3D 邊界框檢測目標物體。相比之下,現有的 3D 視覺定位(左)依賴於人類的推理和參考來進行檢測。該示意圖清晰地區分了觀察和推理的執行方式:左側由人類手動完成,右側則由 AI 自動完成。

如圖一所示,相較於傳統 3D-VG(左圖),我們的 3D-IG 任務(右圖)能夠讓 AI 直接基於使用者的意圖推理目標,而無需明確的物體描述。
1.2 為什麼選擇 3D 而非 2D?
近年來,基於意圖的推理任務在 2D 視覺領域有所研究,如意圖導向的目標檢測(Intention-Oriented Object Detection)、隱式指令理解(Implicit Instruction Understanding)等。
然而,這些研究僅限於 2D 視角,無法完整反映現實世界的幾何和空間資訊。相比之下,3D 資料更加貼近現實世界,不僅包含深度資訊,還能提供完整的物體幾何、外觀特徵以及空間上下文。因此,在 3D 場景中進行意圖推理,不僅能更準確地模擬真實需求,還能推動智慧體(Embodied AI)、自動駕駛、AR/VR 等領域的發展。
資料集 & 基準
為了推動 3D 意圖定位研究,我們構建了 Intent3D 資料集,包含 44,990 條意圖文字,涉及 209 類物體,基於 1,042 個 ScanNet 點雲場景。由於意圖表達的多樣性,使用預定義格式進行標註會限制模型的泛化能力。
此外,眾包標註往往缺乏可靠性,而專業標註成本高且難以擴充套件。因此,如圖二所示,我們採用 GPT-4 生成意圖文字,並經人工質量檢查,確保高準確性和多樣性。
▲ 圖二:(上排)資料集構建流程圖。構建場景圖後,我們根據三個標準選擇物件:常見物件、非平凡物件、無歧義物件。我們使用 ChatGPT 根據我們設計的提示生成意圖文字。最後,我們手動清理資料。(下排)我們的資料集中針對不同目標數量和文字長度的示例。
其次,為了充分評估我們目前解決這個問題的研究能力,我們使用三種主要的基於語言的 3D 目標檢測技術為我們的基準構建了幾個基線。
這涉及使用以下模型評估我們的資料集:專門為 3D 視覺定位設計的專家模型(BUTD-DETR, EDA)、為通用 3D 理解任務制定的基礎模型(3D-VisTA)以及基於大型語言模型 (LLM) 的模型(Chat-3D-v2)。我們使用多種設定評估這些基線,即從頭開始訓練、微調和零樣本。
方法
3.1 如何解決 3D 意圖定位問題?
如圖三所示,我們設計了一種新方法 IntentNet,結合多個關鍵技術:
動賓對齊(Verb-Object Alignment):先識別意圖中的動詞,再與相應賓語特徵進行對齊,提高意圖理解能力。
候選框匹配(Candidate Box Matching):在稀疏 3D 點雲中顯式匹配候選目標框,提高多模態意圖推理能力。
級聯自適應學習(Cascaded Adaptive Learning):根據不同損失函式的優先順序,自適應調整損失函式權重,提升模型效能。
▲ 圖三:IntentNet:(骨幹網路)PointNet++ 用於提取點特徵;MLP 編碼 3D 目標檢測器預測的框;RoBERTa 編碼文字輸入。(編碼器)基於注意力的塊用於多模態融合,透過與文字特徵的整合來增強框特徵。(解碼器)具有最高置信度的前 k 個點特徵被選擇為提出的查詢(query),然後透過基於注意力的塊進行更新。幾個 MLP 用於線性投影查詢,以便進行後續的損失計算。(損失函式)該模型學習使用 L_bce 將候選框與目標物件進行匹配;查詢(query)被訓練以識別動詞(L_vPos),與動詞對齊(L_vSem),並與賓語對齊(L_voSem)。
實驗
由於對意圖語言理解和推理進行了顯式建模,我們的 IntentNet 明顯優於所有以前的方法。與驗證集上的第二佳方法相比,我們在 [email protected][email protected] 中分別實現了 11.22% 和 8.05% 的改進。此外,我們分別將 [email protected][email protected] 提高了 9.12% 和 5.43%。
同樣,在測試集上,我們在 [email protected][email protected] 中分別獲得了 11.06%、10.84% 的改進;在 [email protected][email protected] 中分別獲得了 6.72%、5.6% 的改進。
▲ 圖四:實驗結果
更多閱讀

#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章