
©作者 | 湯軼文
單位 | 上海科技大學、上海AI Lab
研究方向 | 3D視覺,大模型高效遷移
許多近期的研究致力於開發大型多模態模型(LMMs),使 LLMs 能夠解讀多模態資訊,如 2D 影像(LLaVA)和 3D 點雲(Point-LLM, PointLLM, ShapeLLM)。主流的 LMM 通常是依賴於強大但計算量大的多模態編碼器(例如,2D 的 CLIP 和 3D 的 I2P-MAE)。
雖然這些預訓練編碼器提供了強大的多模態嵌入,富含預先存在的知識,但它們也帶來了挑戰,包括無法適應不同的點雲解析度,以及編碼器提取的點雲特徵無法滿足大語言模型的語義需求。
因此,作者首次全面研究了無編碼器架構在 3D 大型多模態模型中應用的潛力,將 3D 編碼器的功能直接整合到 LLM 本身。最終,他們展示了首個無編碼器架構的 3D LMM—ENEL,其 7B 模型與當前最先進的 ShapeLLM-13B 相媲美,表明無編碼器架構的巨大潛力。

論文標題:
Exploring the Potential of Encoder-free Architectures in 3D LMMs
作者單位:
上海人工智慧實驗室,西北工業大學,香港中文大學,清華大學
程式碼連結:
https://github.com/Ivan-Tang-3D/ENEL
論文連結:
https://arxiv.org/pdf/2502.09620v1

背景和動機

對於 3D LMMs,基於編碼器的架構有以下潛在缺點:
1. 點雲解析度限制:3D 編碼器通常在固定解析度的點雲資料上進行預訓練,例如 PointLLM 的編碼器 Point-BERT 使用 1,024 個點。然而,在推理過程中,輸入點雲的解析度可能會有所不同(例如,8,192 個點或 512 個點)。
訓練和推理解析度之間的差異可能導致在提取 3D 嵌入時丟失空間資訊,從而使 LLMs 理解變得困難。如(a)所示,PointLLM 在不同的點雲解析度輸入下效能差異過大,而我們提出的 ENEL 顯示出了一定的魯棒性。
2. 嵌入語義差異:3D 編碼器通常採用自監督方法(如掩碼學習和對比學習)進行預訓練,但 3D 編碼器和大語言模型的訓練分離導致訓練目標可能與 LLMs 的特定語義需求不一致,無法捕捉到 LLMs 理解 3D 物體所需的最相關語義。
即使使用投影層將 3D 編碼器與 LLMs 連線,簡單的 MLP 也往往不足以進行完全的語義轉換。如圖(b)所示,ENEL 架構中 text token 更能關注到點雲物體的關鍵部位,如椅腳和機翼。

具體方案
作者選擇 PointLLM 作為基準模型進行探索,並使用 GPT-4 評分標準在 Objaverse 資料集上評估不同策略的表現。在無編碼器結構的探索中他們提出以下兩個問題:
1. 如何彌補 3D 編碼器最初提取的高層次 3D 語義?在 3D LMMs 中,完全跳過編碼器會導致難以捕捉 3D 點雲的複雜空間結構。
2. 如何將歸納偏置整合到 LLM 中,以便更好地感知 3D 幾何結構?傳統的 3D 編碼器通常將顯式的歸納偏置嵌入到其架構中,以逐步捕捉多層次的 3D 幾何。例如,像 Point-M2AE 這樣的模型使用區域性到全域性的層次結構,這一概念在 2D 影像處理的卷積層中也很常見。

LLM 嵌入的語義編碼

因為缺乏 3D 編碼器導致點雲語義資訊的編碼不足,極大地阻礙了 LLM 理解點雲的結構細節。現有的大多數 3D 編碼器使用自監督損失將點雲的高層語義嵌入到 Transformer 中,主要分為四種類型:掩蔽建模損失(a)、重建損失(b)、對比損失(c)和知識蒸餾損失(d)。
基於 token embedding 模組和 LLM 可學習層,作者在預訓練階段實現並評估了這些損失對無編碼器 3D LMM 的影響,並提出混合語義損失。
-
點雲自監督學習損失通常有助於無編碼器 3D LMM。自監督學習損失透過特定的任務設計對複雜的點雲進行變換,促使 LLM 學習潛在的幾何關係和高層次的語義資訊。
-
在這些自監督學習損失中,掩蔽建模損失展示了最強的效能提升。掩蔽比率與訓練最佳化難度直接相關,從 30% 增加到 60% 會導致效能下降。此外,顯式重建點雲 patch 不如掩蔽建模有效,但有助於 LLM 學習點雲中的複雜模式。相比前兩種損失,知識蒸餾損失的效果較差。最後,對比損失未能提取詳細的語義資訊,表現最差。
-
基於上述實驗結果,作者提出混合語義損失(Hybrid Semantic Loss),他們對於掩蔽部分採用掩蔽建模,而對於可見部分,他們使用重建策略。這種方法不僅將高層次的語義嵌入 LLM 中,而且確保在整個點雲學習過程中保持幾何一致性。
層次幾何聚合策略

在無編碼器架構中,LLM 本身並沒有明確的區域性建模模組。自注意力機制主要用於建模全域性互動。因此,基於提出的混合語義損失,作者在指令調優階段探索如何使 LLM 主動感知 3D 區域性細節,並補充學到的全域性語義。為此,他們提出了層次幾何聚合策略。
從 LLM 的第二層開始,輸入的點雲 token 基於它們對應的座標使用最遠點取樣進行下采樣,將 token 數量從 M 減少到 𝑀/2, 作為區域性中心。然後,使用 k-NN 演算法獲得鄰近點。針對鄰近點他們採用門控自注意力機制進行組內互動,捕捉區域性幾何結構。最後,他們應用池化操作融合每個鄰居的特徵,結果特徵長度為 M/2。總共進行 l-1 次幾何聚合。
為了確保 LLM 充分提取區域性資訊,作者選擇在聚合操作後經過多層 LLM 層進行進一步的語義建模,避免丟失細粒度的幾何細節。
隨後,他們進行 l 次幾何傳播。按照 PointNet++ 的方法,他們將聚合後的特徵從區域性中心點傳播到它們周圍的 k 個鄰近點,經過 l 次後重新得到長度為 M 的點雲特徵。

定量分析

在 Objaverse 基準測試中,ENEL-7B 在 3D 物體描述任務中取得了 50.92% 的 GPT-4 得分,創下了新的 SOTA 效能。
在傳統指標中,SentenceBERT 和 SimCSE 分別達到了 48.61% 和 49.31% 的得分,表現與 ShapeLLM-13B 相當。對於 3D 物體分類任務,ENEL-7B 超越了先前基於編碼器的 3D LMMs,取得了 55% 的 GPT 得分。
此外,在 3D MM-Vet 資料集的 3D-VQA 任務上,儘管訓練集中缺乏空間和具身互動相關的資料,ENEL 仍取得了 42.7% 的 GPT 得分,超過了 PointLLM-7B 1.5%。
考慮到與 PointLLM 相同的訓練資料集,這些結果驗證了作者提出的 LLM 嵌入式語義編碼和層次幾何聚合策略在無編碼器架構中的有效性。

實現、訓練和推理細節
作者使用 7B Vicuna v1.1 的檢查點。在嵌入層中,點雲首先透過一個線性層處理,將其維度從 6 擴充套件到 288。輸入點雲初始包含 8192 個點,隨後經過三次最遠點取樣(FPS),分別將點雲數量減少到 512、256 和 128。
每次 FPS 操作後,使用 k 近鄰進行聚類,聚類大小為 81,並透過三角編碼提取幾何特徵,隨後透過線性層逐步將維度增加到 576、1152 和 2304。最後,投影層將特徵對映到 LLM 的 4096 維度。
在兩階段訓練過程中,每個階段使用的資料集和預處理方法與 PointLLM 一致。所有訓練均在 4 張 80G 的 A100 GPU 上以 BF16 精度進行,使用了 FlashAttention、AdamW 最佳化器以及餘弦學習率排程策略。
在預訓練階段,模型訓練了 3 個 epoch,批次大小為 128,學習率為 4e-4。在指令微調階段,訓練進行了 3 個 epoch,批次大小為 32,學習率為 2e-5。
用於分類和描述任務評估的 GPT-4 模型為「gpt-4-0613」版本,與 PointLLM 一致;而用於問答效能評估的 GPT-4 模型為「gpt-4-0125」版本,與 ShapeLLM 對齊。
本文一作湯軼文字科畢業於上海科技大學,導師是李學龍教授,在上海人工智慧實驗室實習。他的研究興趣是 3D 視覺,大模型高效遷移,多模態大模型和具身智慧等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
