簡介

本文提出輕量化多模態大模型 LLaVA-MoD，透過整合稀疏的專家混合（MoE）架構，最佳化小模型的網路結構，並提出 Dense-to-Sparse 蒸餾框架，結合兩階段蒸餾策略（模仿蒸餾+偏好蒸餾），實現全面的知識遷移。

該方案僅用 0.3% 資料和 23% 啟用引數，即實現 2B 小模型綜合性能超越 7B 大模型 8.8%，並在幻覺檢測任務反超教師模型。

其研究思路與 Deepseek-R1 不謀而合，均聚焦 Dense 與 Sparse MoE 間的知識蒸餾架構，但 LLaVA-MoD 創新採用逆向路徑（Dense-to-Sparse），相較同類方案引數效率提升 3.2 倍，訓練資料消耗降低 99.7%，動態平衡模型效率與表達能力的同時，為智慧終端、邊緣計算等場景提供高性價比解決方案，相關程式碼已開源。

論文題目：

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

作者單位：

阿里巴巴，香港中文大學，UCSD，北京航空航天大學

論文連結：

https://openreview.net/pdf?id=uWtLOy35WD

程式碼連結：

https://github.com/shufangxun/LLaVA-MoD

引言

多模態大型語言模型（MLLM）透過將視覺編碼器整合到大型語言模型（LLM）中，在多模態任務上取得了顯著成果。然而，這些大型模型的龐大規模和廣泛的訓練資料帶來了重大的計算挑戰。例如，LLaVA-NeXT 的最大版本使用 Qwen-1.5-110B 作為基礎，在 128 個 H800 GPU 上訓練了 18 小時。

此外，龐大的引數需求需要高效能硬體支援，導致推理速度緩慢，從而增加了在現實世界中，特別是在移動裝置上進行部署的難度。因此，探索一種在效能與效率之間取得平衡的小型 MLLM（s-MLLM）成為當前研究的關鍵挑戰。

s-MLLM 的研究主要集中在資料收集和過濾機制上，以確保高質量的訓練資料。雖然這些方法有效，但它們固有地限制了模型的容量。隨著開源 MLLM 的湧現，利用大型 MLLM（l-MLLM）作為教師，透過蒸餾其豐富知識到 s-MLLM，成為一種可行的研究方向。

然而，在 MLLM 中實施知識蒸餾是一個全新的嘗試。本文將重點關注兩個主要挑戰：首先，如何設計一種輕量級架構，以保持強大的學習和表達能力，使學生模型能夠有效吸收來自教師模型的複雜知識；其次，如何高效且全面地將這種知識從教師模型轉移到學生模型。為此，我們提出了 LLaVA-MoD。

方案

本文提出了 LLaVA-MoD，透過混合專家（MoE）和知識蒸餾（KD）來應對這些挑戰，包括兩個主要組成部分：

1. s-MLLM 架構設計：如圖 1 所示，設計了一個稀疏的 s-MLLM 以平衡效能和引數，能夠高效學習多樣性複雜知識。

2. 蒸餾機制：如圖 2 所示，設計了一個漸進式蒸餾框架，用於將知識從 l-MLLM 傳遞給稀疏的 s-MLLM，包含兩個階段：模仿蒸餾和偏好蒸餾。

3.1 稀疏架構設計

▲ 圖1. s-MLLM 的稀疏化

如圖 1 所示，s-MLLM 包含三個主要元件：視覺編碼器（Vision Encoder）、大型語言模型（LLM）和視覺語言介面卡（VL Adaptor）。構建 s-MLLM 的原則是保持 Vision Encoder 和 VL Adaptor 不變，同時引入混合專家（MoE）架構，將 LLM 從稠密型轉化為稀疏型。

具體而言，我們透過稀疏升取樣（sparse upcycling）將多個前饋網路（FFN）複製為專家模組。此外，增加了一個線性層作為路由器，以動態預測專家分配的機率，從而啟用合適的專家。在訓練和推理階段，專家模組能夠以動態和稀疏的方式被啟用，從而在增加模型容量的同時實現高效的訓練和推理過程。

3.2 漸進式蒸餾

▲ 圖2. LLaVA-MoD 的漸進蒸餾

漸進蒸餾包括兩個不同的階段，如圖 2，即模擬蒸餾和偏好蒸餾。在模仿蒸餾階段，學生 MLLM 模擬教師 MLLM 的通用和專家知識。在偏好蒸餾階段，學生 MLLM 基於教師 MLLM 的偏好知識，以進一步最佳化其輸出並減少幻覺。

3.2.1 模仿蒸餾

由於教師 MLLM 的知識豐富且複雜，學生 MLLM 難以一步掌握，因此我們將知識分解為通用知識和專業知識，分別進行密集到密集蒸餾和密集到稀疏蒸餾，以將這兩個方面的知識傳遞給學生 MLLM。

密集到密集蒸餾：在這一階段，核心目標是學習教師 MLLM 的通用知識。通用知識至關重要，因為它為多個領域提供了廣泛的基礎和共同理解，使學生 MLLM 能夠建立適用於多種場景的基本框架。這個基礎支援學生在進入特定任務之前，擁有更全面和靈活的理解。具體而言，我們利用通用的影像-標題對和對話資料來更新 LLM 和 VL Adaptor。
密集到稀疏蒸餾：在這一階段，透過引入混合專家（MoE）結構，學生 MLLM 能夠針對不同任務和輸入選擇性地啟用最相關的專家，從而在模擬教師的專業知識方面獲得顯著優勢。具體來說，在訓練過程中，我們利用多工資料，採用 Top-k 路由策略選擇專家，僅更新這些專家和 VL Adaptor。