

論文地址:
專案程式碼:

然而,人類在日常生活中尋找目標物品往往是起源於某個特定的意圖。例如,一個人可能會說:“我想找個東西靠著,以緩解背部壓力”,而不是毫無理由的直接描述“找到椅子”或“找到沙發”。
目前,3D 視覺指引(3D Visual Grounding, 3D-VG)方法依賴使用者提供明確的參照資訊,如目標的類別、屬性或空間關係。但在許多現實場景下,例如人在忙碌或有視覺障礙時,無法提供這樣的參照描述。因此,讓 AI 能夠自動推理使用者的意圖並檢測目標物體,才是更智慧、更自然的互動方式。

▲ 圖一:我們引入了 3D 意圖定位(右),這一新任務旨在根據人類意圖句子(例如:“我想要一個能支撐我的背部、緩解壓力的物品”),在 3D 場景中透過 3D 邊界框檢測目標物體。相比之下,現有的 3D 視覺定位(左)依賴於人類的推理和參考來進行檢測。該示意圖清晰地區分了觀察和推理的執行方式:左側由人類手動完成,右側則由 AI 自動完成。
如圖一所示,相較於傳統 3D-VG(左圖),我們的 3D-IG 任務(右圖)能夠讓 AI 直接基於使用者的意圖推理目標,而無需明確的物體描述。
1.2 為什麼選擇 3D 而非 2D?
然而,這些研究僅限於 2D 視角,無法完整反映現實世界的幾何和空間資訊。相比之下,3D 資料更加貼近現實世界,不僅包含深度資訊,還能提供完整的物體幾何、外觀特徵以及空間上下文。因此,在 3D 場景中進行意圖推理,不僅能更準確地模擬真實需求,還能推動智慧體(Embodied AI)、自動駕駛、AR/VR 等領域的發展。

此外,眾包標註往往缺乏可靠性,而專業標註成本高且難以擴充套件。因此,如圖二所示,我們採用 GPT-4 生成意圖文字,並經人工質量檢查,確保高準確性和多樣性。

這涉及使用以下模型評估我們的資料集:專門為 3D 視覺定位設計的專家模型(BUTD-DETR, EDA)、為通用 3D 理解任務制定的基礎模型(3D-VisTA)以及基於大型語言模型 (LLM) 的模型(Chat-3D-v2)。我們使用多種設定評估這些基線,即從頭開始訓練、微調和零樣本。

方法
3.1 如何解決 3D 意圖定位問題?
級聯自適應學習(Cascaded Adaptive Learning):根據不同損失函式的優先順序,自適應調整損失函式權重,提升模型效能。


實驗
同樣,在測試集上,我們在 [email protected] 和 [email protected] 中分別獲得了 11.06%、10.84% 的改進;在 [email protected] 和 [email protected] 中分別獲得了 6.72%、5.6% 的改進。

更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
