
該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師為 Serge Belongie。他碩士畢業於蘇黎世聯邦理工學院(ETH Zurich),在碩士期間,他跟隨導師 Luc Van Gool 進行了多個研究專案。他的主要研究方向包括場景理解、小樣本學習以及多模態學習。
當人形機器人能夠辨識身邊的一切,VR/AR 裝置呈現出定製化的虛擬世界,自動駕駛汽車即時捕捉路面狀況,這一切都依賴於對 3D 場景的精確理解。然而,這種精準的 3D 理解往往需要大量詳細標註的 3D 資料,極大推高了時間成本和資源消耗,而每當出現新場景或特定目標時,又不得不重複這一繁重過程。
Few-shot 學習是一種有效的解決思路——透過極少量標註樣本,讓模型迅速掌握新類別,從而大幅改善了這一侷限性。但當前研究都侷限於單模態點雲資料,忽略了多模態資訊的潛在價值。對此,University of Copenhagen、ETH Zurich 等團隊填補了這一空白,提出了一個全新的多模態 Few-shot 3D 分割設定和創新方法:在無需額外標註成本的前提下,融合了文字,2D,3D 資訊,助力模型更好地適應到新類別。
這篇文章已被 ICLR 2025 接收為 Spotlight 論文,歡迎關注論文和程式碼,瞭解更多細節!

-
論文:Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation -
論文連結:https://arxiv.org/abs/2410.22489 -
GitHub連結:https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

3D Few-shot 分割結果示例
引言
3D 場景理解在具身智慧、VR/AR 等領域至關重要,幫助裝置準確感知和解讀三維世界。然而,傳統全監督模型雖在特定類別上表現出色,但其能力侷限於預定義類別。每當需要識別新類別時,必須重新收集並標註大量 3D 資料以及重新訓練模型,這一過程既耗時又昂貴,極大地制約了模型的應用廣度。
3D Few-shot 學習旨在利用極少量的示例樣本以適應模型來有效的識別任意的全新類別,大大降低了新類適應的開銷,使得傳統的 3D 場景理解模型不再侷限於訓練集中有限的類別標籤,對廣泛的應用場景有重要的價值。
具體而言,對於 Few-shot 3D 點雲語義分割(FS-PCS)任務,模型的輸入包括少量支援樣本(包含點雲及對應新類標籤)和查詢點雲。模型需要透過利用支援樣本獲得關於新類別的知識並應用於分割查詢點雲,預測出查詢點雲中關於新類別的標籤。在模型訓練和測試時使用的目標類別無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。
目前,該領域湧現出的工作 [1,2] 都只利用點雲單模態的輸入,忽略了利用多模態資訊的潛在的益處。對此,這篇文章提出一個全新的多模態 Few-shot 3D 分割設定,利用了文字和 2D 模態且沒有引入額外的標註開銷。在這一設定下,他們推出了創新模型——MultiModal Few-Shot SegNet (MM-FSS)。該模型透過充分整合多模態資訊,有效提升小樣本上新類別的學習與泛化能力,證明了利用普遍被忽略的多模態資訊對於實現更好的小樣本新類泛化的重要性,為未來研究開闢了全新方向。
Multimodal FS-PCS Setup

圖 1. 多模態 FS-PCS 設定
為便於討論,以下都將 Few-shot 3D 點雲語義分割簡稱為 FS-PCS。
傳統的 FS-PCS 任務:模型的輸入包含少量的支援點雲以及對應的新類別的標註(support point cloud & support mask)。此外,輸入還包括查詢點雲(query point cloud)。模型需藉助 support 樣本中關於新類別的知識,在 query 點雲中完成新類別分割。
多模態 FS-PCS 任務:作者引入的多模態 FS-PCS 包括了除 3D 點雲之外的兩個額外模態:文字和 2D。文字模態相應於支援樣本中的目標類別 / 新類的名稱。2D 模態相應於 2D 圖片,往往伴隨 3D 場景採集同步獲得。值得注意的是,2D 模態僅用於模型預訓練,不要求在 meta-learning 和測試時作為輸入,保證了其 Few-shot 輸入形式與傳統 FS-PCS 對齊,僅需要相同的資料且無需額外標註。
新的 Multimodal FS-PCS 模型 MM-FSS
模型概覽

圖 2. MM-FSS 架構
關鍵模組解析
MM-FSS 在 Backbone 後引入兩個特徵提取分支:
-
Intermodal Feature (IF) Head(跨模態特徵頭):學習與 2D 視覺特徵對齊的 3D 點雲特徵。
-
Unimodal Feature (UF) Head(單模態特徵頭):提取 3D 點雲本身的特徵。
① 預訓練階段
MM-FSS 先進行跨模態對齊預訓練,透過利用 3D 點雲和 2D 圖片資料對,使用 2D 視覺 – 語言模型(VLM)輸出的 2D 特徵監督 IF head 輸出的 3D 特徵,使得 IF Head 學習到與 2D 視覺 – 語言模型對齊的 3D 特徵。這一階段完成後:
-
Backbone 和 IF Head 保持凍結,確保模型在 Few-shot 學習時能利用其預訓練學到的 Intermodal 特徵。這樣,在 Few-shot 任務中無需額外的 2D 輸入,僅依賴 Intermodal 特徵即可獲益於多模態資訊。
-
此外,該特徵也隱式對齊了 VLM 的文字特徵,為後續階段利用重要的文字引導奠定基礎。
② Meta-learning 階段
在 Few-shot 訓練(稱為 meta-learning)時,給定輸入的 support 和 query 點雲,MM-FSS 分別將 IF Head 和 UF Head 輸出的兩套特徵計算出對應的兩套 correlations(correlations 表示每個 query 點和目標類別 prototypes 之間的特徵相似度)。
-
兩套 correlations 會透過 Multimodal Correlation Fusion (MCF) 進行融合,生成初始多模態 correlations,包含了 2D 和 3D 的視覺資訊。這個過程可以表示為:

其中

和

分別表示用 IF Head 和 UF Head 特徵算得的 correlations。

為 MCF 輸出的初始多模態 correlations。
-
當前獲得的多模態 correlations 融合了不同的視覺資訊源,但文字模態中的語義資訊尚未被利用,因此設計了 Multimodal Semantic Fusion (MSF) 模組,進一步利用文字模態特徵作為語義引導,提升多模態 correlations:

其中

為文字模態的語義引導,

為文字和視覺模態間的權重(會動態變化以考慮不同模態間變化的相對重要性),

為多模態 correlations。
③ 測試階段
為緩解 Few-shot 模型對於訓練類別的 training bias(易被測試場景中存在的訓練類別干擾,影響新類分割),MM-FSS 在測試時引入 Test-time Adaptive Cross-modal Calibration (TACC) :利用跨模態的語義引導(由 IF Head 生成)適應性地修正預測結果,實現更好的泛化。
跨模態的語義引導未經 meta-learning 訓練,有更少的 training bias。為了有效的執行測試時修正,作者提出基於支援樣本及其標籤估算可靠性指標,用於自動調整修正程度(當該語義引導可靠性更高時,分配更大的修正權重,否則分配更小的權重):


為模型的預測,

為跨模態語義引導,γ 為適應性指標。透過藉助 support point cloud 以及可用的 support mask 可以如下計算 γ 作為修正可靠程度的估計:

實驗結果

表 1. 實驗結果

表 2.實驗結果

圖 3. MM-FSS 的視覺化對比結果

圖 4. MM-FSS 的視覺化消融實驗結果
實驗在兩個標準的 FS-PCS 資料集上進行,證明了 MM-FSS 在各類 few-shot 任務中都實現了最佳效能。視覺化也清楚表明了模型能夠實現更優的新類分割,展示了更強的新類泛化能力。更多詳細實驗和分析內容請參見論文。
總結
這項工作首次探索了融合多模態以提升 FS-PCS 任務的可能性。文中首先提出了全新的多模態 FS-PCS 設定,無額外開銷地融合文字和 2D 模態。在該設定下,作者提出首個多模態 FS-PCS 模型 MM-FSS,顯式的利用文字模態,隱式的利用 2D 模態,最大化其靈活性和各場景下的應用性。
MM-FSS 包含了 MCF 和 MSF 來有效的從視覺線索和語義資訊雙重角度高效聚合多模態知識,增強對新類概念的全面理解。此外,為了協調 few-shot 模型的 training bias,作者設計了 TACC 技術,在測試時動態的修正預測。
綜合來看,該工作展示了過往被普遍忽略的「免費」多模態資訊對於小樣本適應的重要性,為未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向。可參考的方向包括效能的提升 [2,3],訓練和推理效率的最佳化 [4],更深入的模態資訊利用等。
引用
[1] Zhao, Na, et al. "Few-shot 3d point cloud semantic segmentation." *Proceedings of the IEEE/CVF conference on computer vision and pattern recognition*. 2021.
[2] An, Zhaochong, et al. "Rethinking few-shot 3d point cloud semantic segmentation." *Proceedings of the IEEE/CVF conference on computer vision and pattern recognition*. 2024.
[3] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.
[4] Wu, Xiaoyang, et al. "Point transformer v3: Simpler faster stronger." *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition*. 2024.
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]