Apple多模態大模型新工作！發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

點選下方卡片，關注“CVer”公眾號

AI/CV重磅乾貨，第一時間送達

點選進入—>【頂會/頂刊】投稿交流群

新增微訊號：CVer2233，小助手會拉你進群！

掃描下方二維碼，加入CVer學術星球！可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料，及最前沿應用！發論文/搞科研/漲薪，強烈推薦！

轉載自：機器之心｜編輯：澤南、Panda

讓大模型進入多模態模式，從而能夠有效感知世界，是最近 AI 領域裡人們一直的探索目標。

目前我們見到的很多多模態大模型應用是「組合式」的：其中集成了數個單獨預訓練的元件，例如將視覺編碼器連線到 LLM 上並繼續進行多模態訓練；而在谷歌 Gemin 2.0 推出之後，原生多模態模型（NMM）被認為是正確的方向。

但從零開始訓練的多模態大模型真的是更好的方法嗎？近日，來自法國索邦大學、蘋果的研究者進行了一項廣泛的 Scaling Laws 研究，涵蓋了 457 個採用不同架構和訓練方式的模型。

研究表明，不依賴影像編碼器的早融合架構與後融合架構相比並沒有固有優勢。不過，早融合在較低的引數數量下表現出更強的效能，訓練效率更高，並且更易於部署。受早融合架構強大效能的啟發，實驗表明，結合混合專家 (MoE) 可以使模型學習特定於模態的權重，從而顯著提升效能。

論文標題：Scaling Laws for Native Multimodal Models
論文地址：https://arxiv.org/abs/2504.07951

研究人員的發現可以概括如下：原生早融合和後融合模型的效能相當，從零開始訓練的早融合模型效能與後融合模型效能相當，在計算預算較低的情況下，略優於早融合模型。此外，對於多模態 Scaling Laws 的研究表明，隨著計算預算的增加，早融合和後融合的計算最優模型效能相似。

NMM 的 Scaling Law 與 LLM 類似：原生多模態模型的 Scaling Law 遵循與純文字 LLM 類似的規律，scaling 指數根據目標資料型別和訓練組合略有不同。

與此同時，後融合的模型需要更多引數：與早融合相比，計算最優的後融合模型需要更高的引數與資料比（見圖 1 右）。

再往下，稀疏性顯著有利於早融合的 NMM：在相同的推理成本下，稀疏 NMM 與密集 NMM 相比表現出顯著的改進。

在稀疏性訓練中，它們會隱式學習特定於模態的權重（圖 23）。此外，隨著計算預算的增長，計算最佳化模型更多地依賴於訓練 token 數量的擴充套件，而不是活動引數的數量（圖 1 右）。

對於稀疏 NMM，模態無關路由優於模態感知路由：使用模態無關路由訓練稀疏混合專家模型，其效能始終優於使用模態感知路由的模型（圖 11）。

原生多模態模型的 scaling 屬性

下面具體展示原生多模態模型的 Scaling Laws。該團隊研究了多種架構選擇、不同的資料混合方式、早融合和後融合 NMM 之間的實際權衡、NMM 的原生預訓練和持續預訓練的效能表現。

NMM 的 Scaling Laws

早融合和後融合模型的 Scaling Laws。

圖 2 左圖展示了早融合 NMM 在多模態交織資料集、影像 – 描述資料集和文字資料集上的平均最終損失。其最低損失邊界遵循與 FLOPs 的冪律關係。擬合該冪律可得出表示式 L ∝ C^−0.049，這指示了隨著計算量的增加，效能提升的速率。

擬合該冪律可得出表示式 L ∝ C^−0.049，這指示了隨著計算量的增加，效能提升的速率。

分析每種資料型別（例如，影像 – 說明、多模態交織的文件、文字）的 Scaling Laws 時，可以觀察到指數會發生變化（表 3）。例如，與多模態交織（L ∝ C^−0.046）相比，該模型在影像說明資料（L ∝ C^−0.061）上實現了更高的效能提升。

為了將損失建模為訓練 token 數量 D 和模型引數 N 的函式，他們還擬合了以下引數函式，得到了 scaling 指數 α = 0.301 和 β = 0.335。它們分別描述了 scaling 模型引數和訓練 token 數量時的效能提升率。

該團隊假設計算量、N 和 D 之間存線上性關係（即 C ∝ N D），推匯出了模型引數與計算預算之間的相關規律，詳見原論文附錄 C。簡單來說，對於給定的計算預算 C，以對數間隔的 D 值計算相應的模型大小 N，並確定使損失最小化的引數數量 N_opt。對不同的 FLOPs 值重複此操作，可得到一個 (C, N_opt) 資料集，該團隊對其擬合了一個冪律，可預測計算最優模型大小與計算量的關係：N ∗ ∝ C^0.526。

類似地，他們也擬合了估計計算最優訓練資料集大小與計算量和模型大小的關係：

這些關係可讓實踐者在給定固定計算預算的情況下確定最佳模型和資料集大小。在根據資料型別分析時，該團隊發現與影像說明資料 (a = 0.520) 相比，多模態交織資料可從較大的模型 (a = 0.532) 中獲益更多，而訓練 token 則呈現相反的趨勢。

該團隊在圖 2（右）中對後融合模型進行了類似的研究，並觀察到了類似的 scaling 行為。具體而言，損失 scaling 指數 (c = −0.0494) 與早融合 (c = −0.0492) 幾乎相同。這一趨勢在圖 3 中顯而易見，在較小的模型規模下，早融合的表現優於後融合，而在較大的模型規模下，兩種架構的效能收斂到相似的水平。在改變後融合配置時，該團隊也觀察到了類似的趨勢，例如使用較小的視覺編碼器和較大的文字解碼器。

NMM 和 LLM 的 Scaling Laws 比較。

透過比較 NMM 的 scaling laws 係數與純文字 LLM（例如 GPT-3、Chinchilla）的 scaling laws 係數，該團隊發現它們處於相似的範圍內。

具體來說，如果將損失看作計算量的函式，GPT-3 遵循 L ∝ C^−0.048，而該團隊的模型遵循 L ∝ C^−0.049，這表明 NMM 的效能遵循與 LLM 類似的 scaling 規律。同樣，該團隊對 α 和 β 引數的估計值 (α = 0.301, β = 0.335) 與 Hoffmann 等人報告的值 (α = 0.339, β = 0.285) 非常接近。同樣，該團隊計算出的 a = 0.526 和 b = 0.473 與 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

這表明：對於原生多模態模型，訓練 token 的數量和模型引數應按比例 scaling。然而，由於 a 和 b 之間的差距小於 LLM，因此這一原則對於 NMM 更為適用。此外，由於在該團隊的案例中 a = 0.526 大於 b = 0.473，因此在計算預算固定的情況下，NMM 的最佳模型大小大於 LLM，而最佳訓練 token 數量則較低。

早融合與後融合 NMM 的計算最佳化權衡。

雖然後融合和早融合模型的損失會隨著 FLOP 的增加以相似的速率降低，但該團隊觀察到它們的計算最佳化模型中存在明顯的權衡。具體而言，後融合模型的 N_opt 較大，而早融合模型的 D_opt 較大。這表明，在計算預算固定的情況下，後融合模型需要更多引數，而早融合模型則受益於更多訓練 token。

這一趨勢也反映在早融合的

低於後融合的

。如圖 1（右）所示，隨著 FLOPs 的 scaling，早融合模型的引數數量顯著減少，這對於降低推理成本，從而降低部署後的服務成本至關重要。

早融合的訓練效率更高。

該團隊比較了後融合和早融合架構的訓練效率。如圖 5 所示，在相同的計算預算下，早融合模型消耗的記憶體更少，訓練速度更快。隨著計算量的增加，這一優勢更加明顯，這表明：早融合在保持與後融合相當的大規模效能的同時，擁有卓越的訓練效率。

值得注意的是，在相同的 FLOPs 下，與早融合模型相比，後融合模型具有更高的引數數量和更高的有效深度（即除了解碼器層之外還增加了額外的視覺編碼器層）。

不同資料混合方式的 Scaling Laws

圖 4 展示了不同的混合方式都遵循相似的 scaling 趨勢；然而，scaling 係數會有差別（表 4）。有趣的是，增加影像 – 說明資料的比例（mixtures 1 和 2）會導致 a 降低、b 升高，而增加多模態交織資料和文字資料的比例（mixtures 3 和 4）則會產生相反的效果。

值得注意的是，影像說明資料包含的影像 token 比文字 token 多；因此，增加其比例會導致影像 token 增多，而增加多模態交織資料和文字資料的比例會增加文字 token 的數量。這表明，當影像 token 占主導地位時，訓練時間越長，損失的降低速度就越快，而增加模型大小則更快。

該團隊還發現，對於固定的模型大小，增加純文字和多模態交織資料的比例有利於早融合（圖 6）。

原生多模態預訓練 vs. LLM 的持續訓練

下面比較這兩種情況：從零開始進行原生訓練，以及使用預訓練的 LLM 進行初始化後再進行持續訓練。

這裡使用的初始模型是 DCLM-1B，該模型已使用超過 2T 個 token 進行訓練。圖 8 表明，當訓練時間更長時，原生多模態模型可以縮小與初始化模型的差距。

具體而言，在影像說明資料上，該模型需要不到 100B 個多模態 token 即可達到相當的效能。然而，在多模態交織資料和文字資料上，該模型可能需要更長時間的訓練 —— 可多達 1T 個 token。考慮到預訓練的成本，這些結果表明，為了在多模態基準測試中實現相同效能，原生訓練可能是更有效方法。

邁向多模態專業化

研究證明了在固定計算預算下，早融合模型的效能與後融合模型相當。然而，多模態資料本質上是異構的，訓練一個統一的模型來擬合如此多樣化的分佈可能並非最優方案。

因此研究人員主張在統一架構內進行多模態特化。理想情況下，模型應該隱式地適應每種模態，例如，透過學習特定於模態的權重或專門的專家。多模態模型 + MoE 是一個有潛力的方向，MoE 已在 LLM 中證明了其有效性。

研究觀察了不同數量活動引數、不同數量 token 訓練的模型，比較了稀疏 MoE 模型和密集 MoE 模型。圖 9 顯示，在相同的推理成本（或活動引數數量）下，MoE 的效能顯著優於密集模型。有趣的是，這種效能差距在模型規模較小時更為明顯。這表明 MoE 能夠使模型更有效地處理異構資料，並專注於不同的模態。然而，隨著密集模型規模變得足夠大，兩種架構之間的差距會逐漸縮小。