點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
點選進入—>【多模態和論文投稿】交流群
AI/CV重磅乾貨,第一時間送達
點選進入—>【多模態和論文投稿】交流群
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
作者:許修為
很開心我們最近的工作拿到了CVPR的滿分,這也是繼 DSPDet3D 之後三維空間剪枝在3DVG任務中的一次成功的嘗試。在這篇文章中,我們提出了TSP3D,一個高效的3D視覺定位(3D Visual Grounding)框架,在效能和推理速度上均達到SOTA。此外,文中還包含了我們將三維稀疏卷積引入3D Visual Grounding任務中遇到的挑戰,以及我們的探索和思考。

簡介
3D視覺定位(3D Visual Grounding, 3DVG)任務旨在根據自然語言描述在三維場景中定位指定的目標物件。這一多模態任務具有很大挑戰性,需要同時理解3D場景和語言描述。在實際應用(如機器人、AR/VR)中對模型的效率有著較高的要求,但現有方法在推理速度上受到了一定限制。早期的方法[1,2]大多采用兩階段框架:首先透過3D目標檢測在場景中找到所有候選物體,然後結合文字資訊在第二階段選出與描述匹配的目標。這種方法雖然直觀,但由於兩個階段分別提取特徵,存在大量冗餘計算,難以滿足實際應用中的推理速度要求。為提升效率,隨後出現了單階段方法[3,4],直接從點雲資料中定位目標物體,將目標檢測與語言匹配一步完成。然而,現有單階段方法大多同樣基於點雲處理架構(PointNet++[5]等),其特徵提取需要耗時的最遠點取樣(FPS)和近鄰搜尋等操作。因此當前單階段方法距離即時推理仍有差距(推理速度不足6 FPS)。
為了解決上述問題,本文提出了一種全新的單階段3DVG框架——TSP3D,即“Text-guided Sparse voxel Pruning for 3DVG”。 TSP3D放棄被現有方法廣泛使用的點雲處理架構,引入了多層稀疏卷積架構來同時實現高精度和高速推理。三維稀疏卷積架構提供了更高的解析度和更精細的場景表示,同時在推理速度上具有顯著優勢。同時,為了有效融合多模態資訊,TSP3D針對特徵融合進行了一系列設計。如上面圖一所示,TSP3D在精度和推理速度方面都超過了現有方法。
方法
我們將三維稀疏卷積引入3DVG任務時遇到了諸多挑戰,我們在文中介紹了這些挑戰以及我們的思考和分析,希望能夠對研究社群有所幫助。

架構分析
1. 點雲處理架構:特徵提取需要耗時的最遠點取樣(FPS)和近鄰搜尋等操作,同時受到場景表示的空間解析度限制。
2. 直接引入多層稀疏卷積(TSP3D-B):如上圖(a)所示,場景特徵和文字特徵透過簡單的拼接進行融合,推理速度快(14.58 FPS),但融合效果差,精度低。
3. 改為attention機制的特徵融合:如上圖(b)所示,由於生成式稀疏卷積的作用,體素數量(場景表示的解析度)極高,導致進行attention計算時視訊記憶體溢位,在消費級顯示卡上難以訓練和推理。
4. 引入基於文字引導的體素剪枝(TSP3D):如上圖(c)所示,根據語言描述逐步修剪對目標定位沒有幫助的voxel,極大程度上減小了計算量,並提高推理速度。
5. 簡化的TSP3D(主推版):去掉了最遠點取樣和插值,將多個attention模組重新組合,進一步提高計算效率。
文字引導的體素剪枝(Text-guided Pruning, TGP)
TGP的核心思想是賦予模型兩方面的能力:(1)在文字引導下修剪冗餘體素來減少特徵量;(2)引導網路將注意力逐漸集中到最終目標上。我們的TSP3D包含3 level的稀疏卷積和兩次特徵上取樣,因此相應設定了兩階段的TGP模組:場景級TGP (level 3 to 2) 和目標級TGP (level 2 to 1)。場景級TGP旨在區分物體和背景,用來修剪背景上的體素。目標級TGP側重於文字中提到的區域,保留目標物件和參考物件,同時修剪其他區域的體素。
TGP的作用分析:引入TGP後,level 1的體素數減少到原來的7%左右,並且精度得到了顯著提高。這歸功於TGP的多種功能:(1)透過attention機制促進多模態特徵之間的互動;(2)透過剪枝減少特徵數量;(3)基於文字特徵逐漸引導網路集中注意力到最終目標上。
基於補全的場景特徵融合(Completion-based Addition, CBA)

在剪枝過程中,一些目標體素可能會被錯誤地去除,尤其是對於較小或較窄的目標。因此,我們引入了基於補全的場景特徵融合模組(CBA),它提供了一種更有針對性且更有效的方法來融合multi-level特徵。CBA用於backbone特徵和上取樣的剪枝特徵融合,基於完整性較好的backbone特徵對剪枝特徵進行補充。同時,CBA引入的額外計算開銷可以忽略不計。方法細節請參見文章。
實驗結果
我們在主流的3DVG資料集ScanRefer[1]和ReferIt3D[6]上進行了實驗。我們是第一個全面評估3DVG方法的推理速度的工作,所有方法的推理速度在一個消費級的RTX 3090上測得。下面是兩個主表的結果,左側為ScanRefer資料集,右側為ReferIt3D資料集。

我們進行了一些列消融實驗,證明我們提出方法的有效性:

我們對文字引導的體素剪枝(TGP)進行了視覺化。在每個示例中從上到下為:場景級TGP、目標級TGP和最後一個上取樣層之後的體素特徵。藍框表示目標的ground truth,紅框表示參考物件的bounding box。可以看出,TSP3D透過兩個階段的剪枝減少體素特徵的數量,並逐步引導網路關注最終目標。

此外,我們對基於補全的場景特徵融合(CBA)進行了視覺化,展示了CBA自適應補全過度剪枝造成的目標體素缺失。圖中藍色點表示目標級TGP輸出的體素特徵,紅色點表示CBA預測的補全特徵,藍色框表示ground truth。

下圖展示了與其他方法的定性比較,TSP3D在定位相關目標、窄小目標、識別類別以及區分外觀和屬性方面表現出色。

更多實驗、視覺化可以參考我們的論文以及補充材料。如有問題歡迎大家在github上開issue討論~
參考文獻
[1] Dave Zhenyu Chen, Angel X Chang, and Matthias Nießner. Scanrefer: 3d object localization in rgb-d scans using natural language. In ECCV, pages 202–221. Springer, 2020.
[2] Pin-Hao Huang, Han-Hung Lee, Hwann-Tzong Chen, and Tyng-Luh Liu. Text-guided graph neural networks for referring 3d instance segmentation. In AAAI, pages 1610–1618, 2021.
[3] Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, HaoShen, HuaxiaXia, and SiLiu. 3d-sps: Single-stage 3d visual grounding via referred point progressive selection. In CVPR, pages 16454–16463, 2022.
[4] Yanmin Wu, Xinhua Cheng, Renrui Zhang, Zesen Cheng, and Jian Zhang. Eda: Explicit text-decoupling and dense alignment for 3d visual grounding. In CVPR, pages 19231-19242, 2023.
[5] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NeurIPS, 30, 2017.
[6] Panos Achlioptas, Ahmed Abdelreheem, Fei Xia, Mohamed Elhoseiny, and Leonidas Guibas. Referit3d: Neural listeners for fine-grained 3d object identification in real-world scenes. In ECCV, pages 422–440. Springer, 2020.
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看
