
新智元報道
新智元報道
編輯:英智
【新智元導讀】研究揭示早融合架構在低計算預算下表現更優,訓練效率更高。混合專家(MoE)技術讓模型動態適應不同模態,顯著提升效能,堪稱多模態模型的秘密武器。
如今,打造強大的多模態模型是AI領域的重要目標。
一種常用方法是把單獨預訓練好的模型組合起來,比如把訓練好的視覺編碼器連線到LLM的輸入層,再進行多模態訓練。
然而,單模態預訓練可能會帶來一些偏差,影響模型對不同模態之間相互依賴關係的學習。
且每個單模態元件都有自己的超引數、預訓練資料和縮放屬性,給系統擴充套件增加了不少難度。
研究人員把希望寄託在了原生多模態模型(NMM)上,NMM是在所有模態上同時從頭開始訓練的。
這種全新的訓練方式能不能突破現有的困境,讓模型效能更上一層樓呢?
來自法國索邦大學、蘋果的研究人員開展了原生多模態Scaling Laws的研究,表明早融合優於後融合,多模態MoE好於密集模型。

論文連結:https://arxiv.org/abs/2504.07951
研究表明,後融合架構相較於不依賴影像編碼器的早融合架構,並沒有固有優勢。
早融合架構在引數數量較少時,效能更強,訓練效率更高,部署起來也更容易。
引入混合專家(MoE)技術,能讓模型學到特定模態的權重,進而大幅提升效能。
研究成果總結如下:
原生早融合與後融合效能相當:從零開始訓練的早融合模型與後融合模型效能相當,在計算預算較低時,早融合模型略有優勢。

此外,Scaling Law研究表明,隨著計算預算的增加,早融合和後融合的計算最優模型效能相似(圖1-左)。

原生多模態模型(NMM)Scaling Law與LLM相似:原生多模態模型的擴充套件規律與純文字LLM相似,擴充套件指數因目標資料型別和訓練混合比例略有變化。

後融合需要更多引數:與早融合相比,計算最優的後融合模型需要更高的引數-資料比(圖1-右)。
稀疏性顯著提升早融合NMM效能:在相同推理成本下,稀疏NMM相較於密集模型有顯著改進。

此外,稀疏訓練的模型會隱式學習模態特定權重。
隨著計算預算增加,計算最優模型更依賴於增加訓練token數量,而非活躍引數數量(圖1-右)。
對於稀疏NMM,模態無關路由優於模態感知路由:在稀疏專家混合模型中,使用模態無關路由訓練的效能始終優於採用模態感知路由的模型。


原生多模態Scaling Law
為深入瞭解原生多模態模型的效能表現,研究人員引入了Scaling Law的概念。
透過計算模型的浮點運算次數(FLOPs)來衡量計算量的大小,並且假設模型最終的損失和模型的大小(用引數數量N來表示)以及訓練token的數量(D)之間存在一種冪律關係:

E代表在資料集上可達到的最低損失,

表示增加模型引數數量對損失的影響,一般來說,模型引數越多,損失就會越低,α是控制這種變化速度的,

體現了增加訓練token數量帶來的好處,β決定了其增長速度。
同時,研究人員還發現計算預算(FLOPs)和N、D之間存線上性關係

。
早融合和後融合模型的Scaling Law。
圖2(左)呈現了早融合的NMM在多模態交織、影像-描述以及文字這三類資料集上的平均最終損失。

可以看到,其最低損失的變化趨勢遵循著與浮點運算次數(FLOPs)相關的冪律關係。透過對這一規律進行擬合,得到表示式

反映出隨著計算量的增加,模型效能提升的速度。
在分析不同資料型別(如影像字幕、交錯、文字)時,觀察到指數有所不同。

與交錯文件相比,模型在影像字幕資料上實現了更高的效能提升速率。
圖2(右)後融合模型中,觀察到損失Scaling指數與早融合幾乎相同。
研究人員採用了457個具有不同架構和訓練混合方式的訓練模型,模型的引數量從0.3B到4B。
他們還調整了訓練token的數量,同時改變訓練資料的混合方式,以此來全面探究各種因素對模型效能的影響。
研究人員採用了自迴歸Transformer架構,搭配SwiGLU前饋網路和QK-Norm技術,還使用了像bfloat16、全分片資料並行(FSDP)、啟用檢查點和梯度累積等多種最佳化方法,讓訓練更高效。

早融合優勢盡顯
在低計算預算(模型規模較小)的情況下,早融合模型略勝一籌。
隨著計算預算的增加,雖然兩種模型的效能逐漸接近,但早融合模型在訓練效率上具有明顯優勢。

對比NMM和僅基於文字的LLM(如GPT-3、Chinchilla)的Scaling Law係數,會發現它們處於相似範圍。
早融合與後融合NMM的計算最優權衡。雖然後融合和早融合模型隨著FLOPs增加,損失降低的速度相近。
在縮放FLOPs時,早融合模型的引數數量明顯更少,這對降低推理成本很關鍵,部署後也能降低服務成本。
在計算資源相同的情況下,早融合模型不僅佔用的記憶體更少,訓練速度也更快。
當計算量增大時,這種優勢愈發顯著。這說明早融合在保持相當的大規模訓練時效能時,還具備超高的訓練效率。

值得注意,在相同的FLOPs下,與早融合模型相比,後融合模型具有更高的引數量和有效深度。

不同資料混合的Scaling Law
圖4表明不同的資料混合方式在模型訓練中呈現出相似的縮放趨勢,不過它們的縮放係數存在差異(表4)。


有趣的是,增加影像字幕資料的比例(混合方式1和2)會導致a值降低和b值升高,而增加交錯和文字資料的比例(混合方式3和4)會產生相反的效果。
影像說明資料中,影像token佔比高於文字token。因此,提高影像說明資料的比例會增加影像token數量,而增加多模態交織資料或文字資料的比例則會提升文字token數量。
這表明,當影像token佔主導時,訓練時間越長,損失下降越快,增加模型規模會進一步加速這一過程。
對於固定的模型大小,增加純文字和交錯資料的比例有利於早融合模型。


原生多模態預訓練與LLM的持續訓練
對比兩種訓練方式:一種是從頭開始進行原生訓練,另一種是先用預訓練的LLM進行初始化,再持續訓練。
實驗用的初始模型是DCLM-1B,它在超過2T個token的資料上完成了訓練。
隨著訓練時間的延長,NMM和經過初始化的模型之間的差距會逐漸縮小。

具體來說,在影像字幕資料上,模型需要不到100B個多模態token就能達到可比的效能。
然而,在交錯和文字資料上,模型可能需要更長的訓練時間(多達1T token)。
考慮到預訓練的成本,為了實現相同的效能,原生多模態訓練可能是更有效的方法。

多模態專業化:MoE的妙用
早融合模型在很多方面表現出色,但多模態資料的異構性仍然是一個挑戰。
為了讓模型更好地處理這種異構資料,研究人員引入了專家混合(MoE)技術。
MoE技術允許模型在不同模態之間動態分配專門的引數,以更好地適應多模態資料的特點。
實驗結果顯示,在相同推理成本下,MoE模型的表現明顯好於密集模型,尤其是在模型較小時,優勢更為明顯。
這說明MoE架構在處理異構資料時更高效,還能針對不同模態進行專門處理。

為了驗證前面透過驗證損失得到的結論在實際應用中的有效性,研究人員在下游任務上進行了評估。
他們在LLaVA混合資料上進行了多模態指令調整階段(SFT),並在多個視覺問答(VQA)和影像字幕任務中測試了模型的效能。

結果再次證實了之前的發現:早融合模型優於後融合模型,採用MoE的模型優於密集模型。
不過,由於實驗中的模型相對較小(1.5B),並且是從頭開始訓練並在小資料集上微調,總體分數與當前最先進的模型還有一定差距。
但這也為後續的研究指明瞭方向,即透過進一步最佳化模型規模、訓練資料和微調策略,有望提升模型在實際任務中的表現。
參考資料:
https://www.alphaxiv.org/overview/2504.07951
