小q 投稿
量子位 | 公眾號 QbitAI
只要極少量的標註樣本,就能讓模型精準分割3D場景?
來自哥本哈根大學、蘇黎世聯邦理工學院等機構的研究人員,提出了一個全新的多模態Few-shot 3D分割設定和創新方法。
無需額外標註成本,該方法就可以融合文字、2D和3D資訊,讓模型迅速掌握新類別。
△3D Few-shot分割結果示例
人形機器人、VR/AR,以及自動駕駛汽車,都依賴於對3D場景的精確理解。
然而,這種精準的3D理解往往需要大量詳細標註的3D資料,極大推高了時間成本和資源消耗。
Few-shot學習是一種有效的解決思路,但當前研究都侷限於單模態點雲資料,忽略了多模態資訊的潛在價值。
對此,這項新研究填補了這一空白,文章已被ICLR 2025接收為Spotlight論文。

整合多模態資訊,理解3D場景
3D場景理解在具身智慧、VR/AR等領域至關重要,幫助裝置準確感知和解讀三維世界。
然而,傳統全監督模型雖在特定類別上表現出色,但其能力侷限於預定義類別。
每當需要識別新類別時,必須重新收集並標註大量3D資料以及重新訓練模型,這一過程既耗時又昂貴,極大地制約了模型的應用廣度。
3D Few-shot學習旨在利用極少量的示例樣本以適應模型來有效的識別任意的全新類別,大大降低了新類適應的開銷,使得傳統的3D場景理解模型不再侷限於訓練集中有限的類別標籤,對廣泛的應用場景有重要的價值。
具體而言,對於Few-shot 3D點雲語義分割(FS-PCS)任務,模型的輸入包括少量支援樣本(包含點雲及對應新類標籤)和查詢點雲。
模型需要透過利用支援樣本獲得關於新類別的知識並應用於分割查詢點雲,預測出查詢點雲中關於新類別的標籤。
在模型訓練和測試時使用的目標類別無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。
目前,該領域湧現出的工作都只利用點雲單模態的輸入,忽略了利用多模態資訊的潛在的益處。
對此,這篇文章提出一個全新的多模態Few-shot 3D分割設定,利用了文字和2D模態且沒有引入額外的標註開銷。
在這一設定下,他們推出了創新模型——MultiModal Few-Shot SegNet (MM-FSS)。
該模型透過充分整合多模態資訊,有效提升小樣本上新類別的學習與泛化能力,證明了利用普遍被忽略的多模態資訊對於實現更好的小樣本新類泛化的重要性。
多模態FS-PCS vs 傳統設定

△傳統和多模態FS-PCS設定對比
(為便於討論,以下都將Few-shot 3D點雲語義分割簡稱為FS-PCS。)
傳統的FS-PCS任務中,模型的輸入包含少量的支援點雲以及對應的新類別的標註(support point cloud & support mask)。
此外,輸入還包括查詢點雲(query point cloud)。模型需藉助support樣本中關於新類別的知識,在query點雲中完成新類別分割。
而作者引入的多模態FS-PCS包括了除3D點雲之外的兩個額外模態——文字和2D。
文字模態相應於支援樣本中的目標類別/新類的名稱。2D模態相應於2D圖片,往往伴隨3D場景採集同步獲得。
值得注意的是,2D模態僅用於模型預訓練,不要求在meta-learning和測試時作為輸入,保證了其Few-shot輸入形式與傳統FS-PCS對齊,僅需要相同的資料且無需額外標註。
引入特徵分支和有效的跨模態融合
MM-FSS在Backbone後引入了兩個特徵提取分支:
-
Intermodal Feature (IF) Head(跨模態特徵頭),學習與2D視覺特徵對齊的3D點雲特徵。
-
Unimodal Feature (UF) Head(單模態特徵頭),提取3D點雲本身的特徵。

△MM-FSS模型架構
在預訓練階段,MM-FSS先進行跨模態對齊預訓練,透過利用3D點雲和2D圖片資料對,使用2D視覺-語言模型(VLM)輸出的2D特徵監督IF head輸出的3D特徵,使得IF Head學習到與2D視覺-語言模型對齊的3D特徵。
這一階段完成後,Backbone和IF Head保持凍結,確保模型在Few-shot學習時能利用其預訓練學到的Intermodal特徵。這樣,在Few-shot任務中無需額外的2D輸入,僅依賴Intermodal特徵即可獲益於多模態資訊。
此外,該特徵也隱式對齊了VLM的文字特徵,為後續階段利用重要的文字引導奠定基礎。
而在Few-shot訓練(稱為meta-learning)時,給定輸入的support和query點雲,MM-FSS分別將IF Head和UF Head輸出的兩套特徵計算出對應的兩套correlations(correlations表示每個query點和目標類別prototypes之間的特徵相似度)。
兩套correlations會透過Multimodal Correlation Fusion (MCF)進行融合,生成初始多模態correlations,包含了2D和3D的視覺資訊。
這個過程可以表示為:

其中Ci和Cu分別表示用IF Head和UF Head特徵算得的correlations。C0為MCF輸出的初始多模態correlations。
當前獲得的多模態correlations融合了不同的視覺資訊源,但文字模態中的語義資訊尚未被利用,因此設計了Multimodal Semantic Fusion (MSF)模組,進一步利用文字模態特徵作為語義引導,提升多模態correlations:

其中Gq為文字模態的語義引導,Wq為文字和視覺模態間的權重(會動態變化以考慮不同模態間變化的相對重要性),Ck為多模態correlations。
到測試階段,為緩解Few-shot模型對於訓練類別的training bias(易被測試場景中存在的訓練類別干擾,影響新類分割),MM-FSS在測試時引入Test-time Adaptive Cross-modal Calibration (TACC) 。
TAAC利用跨模態的語義引導(由IF Head生成)適應性地修正預測結果,實現更好的泛化。
跨模態的語義引導未經meta-learning訓練,有更少的training bias。
為了有效的執行測試時修正,作者提出基於支援樣本及其標籤估算可靠性指標,用於自動調整修正程度(當該語義引導可靠性更高時,分配更大的修正權重,否則分配更小的權重):

其中Pq為模型的預測,Gq為跨模態語義引導,γ為適應性指標。
透過藉助支援點雲以及可用的支援點雲標籤可以如下計算γ作為修正可靠成都的估計:

實現few-shot任務最佳效能
實驗在兩個標準的FS-PCS資料集上進行,證明了MM-FSS在各類few-shot任務中都實現了最佳效能。

視覺化也清楚表明了模型能夠實現更優的新類分割,展示了更強的新類泛化能力。更多詳細實驗和分析內容請參見論文。

總之,這項工作首次提出了全新的多模態FS-PCS設定,無額外開銷地融合文字和2D模態。在該設定下,作者提出首個多模態FS-PCS模型MM-
FSS。
FSS。
MM-FSS包含了MCF和MSF來有效的從視覺線索和語義資訊雙重角度高效聚合多模態知識,增強對新類概念的全面理解。
同時,MM-FSS也揭示了過往被普遍忽略的“免費”多模態資訊對於小樣本適應的重要性,為未來的研究提供了寶貴的新視野且開放了更多有趣的潛在方向。
可參考的方向包括效能的提升、訓練和推理效率的最佳化,更深入的模態資訊利用等。
作者簡介
該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師為Serge Belongie。
他碩士畢業於蘇黎世聯邦理工學院(ETH Zurich),在碩士期間跟隨導師Luc Van Gool進行了多個研究專案。
他的主要研究方向包括3D/影片理解、小樣本學習以及多模態學習。
文章的通訊作者是蘇黎世聯邦理工的孫國磊博士和南開大學的劉雲教授。
歡迎關注論文和程式碼,瞭解更多細節!
論文:
https://arxiv.org/abs/2410.22489
程式碼:
https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

一鍵關注
點亮星標
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!