無編碼器架構潛力或被低估，首個無編碼器3D多模態LLM大模型來了

©作者 | 湯軼文

單位 | 上海科技大學、上海AI Lab

研究方向 | 3D視覺，大模型高效遷移

許多近期的研究致力於開發大型多模態模型（LMMs），使 LLMs 能夠解讀多模態資訊，如 2D 影像（LLaVA）和 3D 點雲（Point-LLM, PointLLM, ShapeLLM）。主流的 LMM 通常是依賴於強大但計算量大的多模態編碼器（例如，2D 的 CLIP 和 3D 的 I2P-MAE）。

雖然這些預訓練編碼器提供了強大的多模態嵌入，富含預先存在的知識，但它們也帶來了挑戰，包括無法適應不同的點雲解析度，以及編碼器提取的點雲特徵無法滿足大語言模型的語義需求。

因此，作者首次全面研究了無編碼器架構在 3D 大型多模態模型中應用的潛力，將 3D 編碼器的功能直接整合到 LLM 本身。最終，他們展示了首個無編碼器架構的 3D LMM—ENEL，其 7B 模型與當前最先進的 ShapeLLM-13B 相媲美，表明無編碼器架構的巨大潛力。

論文標題：

Exploring the Potential of Encoder-free Architectures in 3D LMMs

作者單位：

上海人工智慧實驗室，西北工業大學，香港中文大學，清華大學

程式碼連結：

https://github.com/Ivan-Tang-3D/ENEL

論文連結：

https://arxiv.org/pdf/2502.09620v1

背景和動機

對於 3D LMMs，基於編碼器的架構有以下潛在缺點：

1. 點雲解析度限制：3D 編碼器通常在固定解析度的點雲資料上進行預訓練，例如 PointLLM 的編碼器 Point-BERT 使用 1,024 個點。然而，在推理過程中，輸入點雲的解析度可能會有所不同（例如，8,192 個點或 512 個點）。

訓練和推理解析度之間的差異可能導致在提取 3D 嵌入時丟失空間資訊，從而使 LLMs 理解變得困難。如（a）所示，PointLLM 在不同的點雲解析度輸入下效能差異過大，而我們提出的 ENEL 顯示出了一定的魯棒性。

2. 嵌入語義差異：3D 編碼器通常採用自監督方法（如掩碼學習和對比學習）進行預訓練，但 3D 編碼器和大語言模型的訓練分離導致訓練目標可能與 LLMs 的特定語義需求不一致，無法捕捉到 LLMs 理解 3D 物體所需的最相關語義。

即使使用投影層將 3D 編碼器與 LLMs 連線，簡單的 MLP 也往往不足以進行完全的語義轉換。如圖（b）所示，ENEL 架構中 text token 更能關注到點雲物體的關鍵部位，如椅腳和機翼。

具體方案

作者選擇 PointLLM 作為基準模型進行探索，並使用 GPT-4 評分標準在 Objaverse 資料集上評估不同策略的表現。在無編碼器結構的探索中他們提出以下兩個問題：

1. 如何彌補 3D 編碼器最初提取的高層次 3D 語義？在 3D LMMs 中，完全跳過編碼器會導致難以捕捉 3D 點雲的複雜空間結構。

2. 如何將歸納偏置整合到 LLM 中，以便更好地感知 3D 幾何結構？傳統的 3D 編碼器通常將顯式的歸納偏置嵌入到其架構中，以逐步捕捉多層次的 3D 幾何。例如，像 Point-M2AE 這樣的模型使用區域性到全域性的層次結構，這一概念在 2D 影像處理的卷積層中也很常見。

LLM 嵌入的語義編碼

因為缺乏 3D 編碼器導致點雲語義資訊的編碼不足，極大地阻礙了 LLM 理解點雲的結構細節。現有的大多數 3D 編碼器使用自監督損失將點雲的高層語義嵌入到 Transformer 中，主要分為四種類型：掩蔽建模損失（a）、重建損失（b）、對比損失（c）和知識蒸餾損失（d）。

基於 token embedding 模組和 LLM 可學習層，作者在預訓練階段實現並評估了這些損失對無編碼器 3D LMM 的影響，並提出混合語義損失。

點雲自監督學習損失通常有助於無編碼器 3D LMM。自監督學習損失透過特定的任務設計對複雜的點雲進行變換，促使 LLM 學習潛在的幾何關係和高層次的語義資訊。
在這些自監督學習損失中，掩蔽建模損失展示了最強的效能提升。掩蔽比率與訓練最佳化難度直接相關，從 30% 增加到 60% 會導致效能下降。此外，顯式重建點雲 patch 不如掩蔽建模有效，但有助於 LLM 學習點雲中的複雜模式。相比前兩種損失，知識蒸餾損失的效果較差。最後，對比損失未能提取詳細的語義資訊，表現最差。
基於上述實驗結果，作者提出混合語義損失（Hybrid Semantic Loss），他們對於掩蔽部分採用掩蔽建模，而對於可見部分，他們使用重建策略。這種方法不僅將高層次的語義嵌入 LLM 中，而且確保在整個點雲學習過程中保持幾何一致性。

層次幾何聚合策略

在無編碼器架構中，LLM 本身並沒有明確的區域性建模模組。自注意力機制主要用於建模全域性互動。因此，基於提出的混合語義損失，作者在指令調優階段探索如何使 LLM 主動感知 3D 區域性細節，並補充學到的全域性語義。為此，他們提出了層次幾何聚合策略。

從 LLM 的第二層開始，輸入的點雲 token 基於它們對應的座標使用最遠點取樣進行下采樣，將 token 數量從 M 減少到 𝑀/2, 作為區域性中心。然後，使用 k-NN 演算法獲得鄰近點。針對鄰近點他們採用門控自注意力機制進行組內互動，捕捉區域性幾何結構。最後，他們應用池化操作融合每個鄰居的特徵，結果特徵長度為 M/2。總共進行 l-1 次幾何聚合。

為了確保 LLM 充分提取區域性資訊，作者選擇在聚合操作後經過多層 LLM 層進行進一步的語義建模，避免丟失細粒度的幾何細節。

隨後，他們進行 l 次幾何傳播。按照 PointNet++ 的方法，他們將聚合後的特徵從區域性中心點傳播到它們周圍的 k 個鄰近點，經過 l 次後重新得到長度為 M 的點雲特徵。