
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected];[email protected]

圖一:我們引入了 3D 意圖定位(右),這一新任務旨在根據人類意圖句子(例如:“我想要一個能支撐我的背部、緩解壓力的物品”),在 3D 場景中透過 3D 邊界框檢測目標物體。相比之下,現有的 3D 視覺定位(左)依賴於人類的推理和參考來進行檢測。該示意圖清晰地區分了觀察和推理的執行方式:左側由人類手動完成,右側則由 AI 自動完成。

-
專案主頁:https://weitaikang.github.io/Intent3D-webpage/ -
論文地址:https://arxiv.org/abs/2405.18295 -
專案程式碼:https://github.com/WeitaiKang/Intent3D
介紹
在現實世界中,AI 能夠根據自然語言指令執行目標檢測,對人機互動至關重要。過去的研究主要集中在視覺指引(Visual Grounding),即根據人類提供的參照性語言,在 2D 影像或 3D 場景中定位目標物體。
然而,人類在日常生活中尋找目標物品往往是起源於某個特定的意圖。例如,一個人可能會說:“我想找個東西靠著,以緩解背部壓力”,而不是毫無理由的直接描述 “找到椅子” 或 “找到沙發”。
什麼是 3D 意圖定位(3D-IG)?
目前,3D 視覺指引(3D Visual Grounding, 3D-VG)方法依賴使用者提供明確的參照資訊,如目標的類別、屬性或空間關係。但在許多現實場景下,例如人在忙碌或有視覺障礙時,無法提供這樣的參照描述。因此,讓 AI 能夠自動推理使用者的意圖並檢測目標物體,才是更智慧、更自然的互動方式。如圖一所示,相較於傳統 3D-VG(左圖),我們的 3D-IG 任務(右圖)能夠讓 AI 直接基於使用者的意圖推理目標,而無需明確的物體描述。
為什麼選擇 3D 而非 2D?
近年來,基於意圖的推理任務在 2D 視覺領域有所研究,如意圖導向的目標檢測(Intention-Oriented Object Detection)、隱式指令理解(Implicit Instruction Understanding)等。然而,這些研究僅限於 2D 視角,無法完整反映現實世界的幾何和空間資訊。相比之下,3D 資料更加貼近現實世界,不僅包含深度資訊,還能提供完整的物體幾何、外觀特徵以及空間上下文。因此,在 3D 場景中進行意圖推理,不僅能更準確地模擬真實需求,還能推動智慧體(Embodied AI)、自動駕駛、AR/VR 等領域的發展。
資料集 & 基準
為了推動 3D 意圖定位研究,我們構建了 Intent3D 資料集,包含 44,990 條意圖文字,涉及 209 類物體,基於 1,042 個 ScanNet 點雲場景。由於意圖表達的多樣性,使用預定義格式進行標註會限制模型的泛化能力。此外,眾包標註往往缺乏可靠性,而專業標註成本高且難以擴充套件。因此,如圖二所示,我們採用 GPT-4 生成意圖文字,並經人工質量檢查,確保高準確性和多樣性。

圖二:(上排)資料集構建流程圖。構建場景圖後,我們根據三個標準選擇物件:常見物件、非平凡物件、無歧義物件。我們使用 ChatGPT 根據我們設計的提示生成意圖文字。最後,我們手動清理資料。(下排)我們的資料集中針對不同目標數量和文字長度的示例。
其次,為了充分評估我們目前解決這個問題的研究能力,我們使用三種主要的基於語言的 3D 目標檢測技術為我們的基準構建了幾個基線。這涉及使用以下模型評估我們的資料集:專門為 3D 視覺定位設計的專家模型(BUTD-DETR, EDA)、為通用 3D 理解任務制定的基礎模型(3D-VisTA)以及基於大型語言模型 (LLM) 的模型(Chat-3D-v2)。我們使用多種設定評估這些基線,即從頭開始訓練、微調和零樣本。
方法
如何解決 3D 意圖定位問題?
如圖三所示,我們設計了一種新方法 IntentNet,結合多個關鍵技術:
-
動賓對齊(Verb-Object Alignment):先識別意圖中的動詞,再與相應賓語特徵進行對齊,提高意圖理解能力。 -
候選框匹配(Candidate Box Matching):在稀疏 3D 點雲中顯式匹配候選目標框,提高多模態意圖推理能力。 -
級聯自適應學習(Cascaded Adaptive Learning):根據不同損失函式的優先順序,自適應調整損失函式權重,提升模型效能。

圖三:IntentNet:(骨幹網路)PointNet++ 用於提取點特徵;MLP 編碼 3D 目標檢測器預測的框;RoBERTa 編碼文字輸入。(編碼器)基於注意力的塊用於多模態融合,透過與文字特徵的整合來增強框特徵。(解碼器)具有最高置信度的前 k 個點特徵被選擇為提出的查詢(query),然後透過基於注意力的塊進行更新。幾個 MLP 用於線性投影查詢,以便進行後續的損失計算。(損失函式)該模型學習使用 L_bce 將候選框與目標物件進行匹配;查詢(query)被訓練以識別動詞 (L_vPos),與動詞對齊 (L_vSem),並與賓語對齊 (L_voSem)。
實驗
由於對意圖語言理解和推理進行了顯式建模,我們的 IntentNet 明顯優於所有以前的方法。與驗證集上的第二佳方法相比,我們在 [email protected] 和 [email protected] 中分別實現了 11.22% 和 8.05% 的改進。此外,我們分別將 [email protected] 和 [email protected] 提高了 9.12% 和 5.43%。同樣,在測試集上,我們在 [email protected] 和 [email protected] 中分別獲得了 11.06%、10.84% 的改進;在 [email protected] 和 [email protected] 中分別獲得了 6.72%、5.6% 的改進。

圖四:實驗結果
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]