ICLR2025|阿里等提出LLaVA-MoD,用MoE+蒸餾訓練輕量化多模態大模型

簡介

本文提出輕量化多模態大模型 LLaVA-MoD,透過整合稀疏的專家混合(MoE)架構,最佳化小模型的網路結構,並提出 Dense-to-Sparse 蒸餾框架,結合兩階段蒸餾策略(模仿蒸餾+偏好蒸餾),實現全面的知識遷移。
該方案僅用 0.3% 資料和 23% 啟用引數,即實現 2B 小模型綜合性能超越 7B 大模型 8.8%,並在幻覺檢測任務反超教師模型。
其研究思路與 Deepseek-R1 不謀而合,均聚焦 Dense 與 Sparse MoE 間的知識蒸餾架構,但 LLaVA-MoD 創新採用逆向路徑(Dense-to-Sparse),相較同類方案引數效率提升 3.2 倍,訓練資料消耗降低 99.7%,動態平衡模型效率與表達能力的同時,為智慧終端、邊緣計算等場景提供高性價比解決方案,相關程式碼已開源。
論文題目:
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation
作者單位:
阿里巴巴,香港中文大學,UCSD,北京航空航天大學
論文連結:
https://openreview.net/pdf?id=uWtLOy35WD
程式碼連結:
https://github.com/shufangxun/LLaVA-MoD

引言

多模態大型語言模型(MLLM)透過將視覺編碼器整合到大型語言模型(LLM)中,在多模態任務上取得了顯著成果。然而,這些大型模型的龐大規模和廣泛的訓練資料帶來了重大的計算挑戰。例如,LLaVA-NeXT 的最大版本使用 Qwen-1.5-110B 作為基礎,在 128 個 H800 GPU 上訓練了 18 小時。
此外,龐大的引數需求需要高效能硬體支援,導致推理速度緩慢,從而增加了在現實世界中,特別是在移動裝置上進行部署的難度。因此,探索一種在效能與效率之間取得平衡的小型 MLLM(s-MLLM)成為當前研究的關鍵挑戰。
s-MLLM 的研究主要集中在資料收集和過濾機制上,以確保高質量的訓練資料。雖然這些方法有效,但它們固有地限制了模型的容量。隨著開源 MLLM 的湧現,利用大型 MLLM(l-MLLM)作為教師,透過蒸餾其豐富知識到 s-MLLM,成為一種可行的研究方向。
然而,在 MLLM 中實施知識蒸餾是一個全新的嘗試。本文將重點關注兩個主要挑戰:首先,如何設計一種輕量級架構,以保持強大的學習和表達能力,使學生模型能夠有效吸收來自教師模型的複雜知識;其次,如何高效且全面地將這種知識從教師模型轉移到學生模型。為此,我們提出了 LLaVA-MoD。

方案

本文提出了 LLaVA-MoD,透過混合專家(MoE)和知識蒸餾(KD)來應對這些挑戰,包括兩個主要組成部分:
1. s-MLLM 架構設計:如圖 1 所示,設計了一個稀疏的 s-MLLM 以平衡效能和引數,能夠高效學習多樣性複雜知識。
2. 蒸餾機制:如圖 2 所示,設計了一個漸進式蒸餾框架,用於將知識從 l-MLLM 傳遞給稀疏的 s-MLLM,包含兩個階段:模仿蒸餾和偏好蒸餾。

3.1 稀疏架構設計

▲ 圖1. s-MLLM 的稀疏化
如圖 1 所示,s-MLLM 包含三個主要元件:視覺編碼器(Vision Encoder)、大型語言模型(LLM)和視覺語言介面卡(VL Adaptor)。構建 s-MLLM 的原則是保持 Vision Encoder 和 VL Adaptor 不變,同時引入混合專家(MoE)架構,將 LLM 從稠密型轉化為稀疏型。
具體而言,我們透過稀疏升取樣(sparse upcycling)將多個前饋網路(FFN)複製為專家模組。此外,增加了一個線性層作為路由器,以動態預測專家分配的機率,從而啟用合適的專家。在訓練和推理階段,專家模組能夠以動態和稀疏的方式被啟用,從而在增加模型容量的同時實現高效的訓練和推理過程。

3.2 漸進式蒸餾

▲ 圖2. LLaVA-MoD 的漸進蒸餾
漸進蒸餾包括兩個不同的階段,如圖 2,即模擬蒸餾和偏好蒸餾。在模仿蒸餾階段,學生 MLLM 模擬教師 MLLM 的通用和專家知識。在偏好蒸餾階段,學生 MLLM 基於教師 MLLM 的偏好知識,以進一步最佳化其輸出並減少幻覺。

3.2.1 模仿蒸餾

由於教師 MLLM 的知識豐富且複雜,學生 MLLM 難以一步掌握,因此我們將知識分解為通用知識和專業知識,分別進行密集到密集蒸餾和密集到稀疏蒸餾,以將這兩個方面的知識傳遞給學生 MLLM。
  • 密集到密集蒸餾:在這一階段,核心目標是學習教師 MLLM 的通用知識。通用知識至關重要,因為它為多個領域提供了廣泛的基礎和共同理解,使學生 MLLM 能夠建立適用於多種場景的基本框架。這個基礎支援學生在進入特定任務之前,擁有更全面和靈活的理解。具體而言,我們利用通用的影像-標題對和對話資料來更新 LLM 和 VL Adaptor。
  • 密集到稀疏蒸餾:在這一階段,透過引入混合專家(MoE)結構,學生 MLLM 能夠針對不同任務和輸入選擇性地啟用最相關的專家,從而在模擬教師的專業知識方面獲得顯著優勢。具體來說,在訓練過程中,我們利用多工資料,採用 Top-k 路由策略選擇專家,僅更新這些專家和 VL Adaptor。

3.2.2 偏好蒸餾

在這一階段,我們基於教師 MLLM 中的偏好知識,指導學生 MLLM 生成不僅準確而且合理的響應,這對於減少幻覺至關重要。偏好蒸餾受到離散描述偏好最佳化(DPO)進展的啟發,將教師 MLLM 視為參考模型,發揮關鍵作用,因為它提供了“好”和“壞”的見解,從而為學生模型建立一個基本參考。
具體而言,訓練目標是最佳化學生模型,使其在區分正面和負面響應時,為正面響應分配比教師模型更高的機率,同時為負面響應分配比教師模型更低的機率。

實驗結果

我們採用了成熟的 “ViT-MLP-LLM” 架構來證明 LLaVA-MoD 的有效性。在模擬蒸餾中,使用 2.4M 通用 captioning 和對話樣本來學習教師 MLLM 的通用知識,以及 1.4M 多工資料,包括 VQA、文件、科學和 OCR,以學習教師 MLLM 的專業知識。
在偏好蒸餾中,使用 8W 偏好樣本來學習教師偏好知識。評估 benchmark 包括多模態理解、推理和幻覺。
多模態理解和推理:表 21 表明,LLaVA-MoD 在以理解為導向的基準測試上表現出色。在 2B 規模和 1B 規模的模型中,它分別取得了最先進的平均結果。
▲ 表1. 理解知識能力
幻覺消除:如表 2 所示,LLaVA-MoD 在減輕幻覺方面表現出色,甚至超過了其教師模型。這可以歸因於兩個方面:
首先,透過為正響應分配更高的機率,偏好蒸餾鼓勵學生模型專注於提供正確和相關的資訊。
其次,透過為負響應分配較低的機率,偏好蒸餾 discourages 錯誤或不實的資訊。利用教師模型作為參考調整響應機率,這種最佳化使學生模型更準確、可靠地處理幻覺問題,從而超過了教師模型。
▲ 表2: 幻覺消除能力

結論

本文提出了 LLaVA-MoD,用於透過知識蒸餾從 l-MLLM 中高效訓練 s-MLLM。該框架解決了 MLLM 蒸餾的兩個關鍵挑戰:使用 MoE 設計增強 s-MLLM 架構的效率和表達能力平衡,並實現了一種漸進式知識轉移策略。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章