ICCV2025|小模型也能更“懂”多模態!LLaVA-KD:多模態大語言模型蒸餾框架

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達
點選進入—>【頂會/頂刊】投稿交流群

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文idea入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

(來自華中科大、浙大、騰訊優圖、華中農大)

論文:https://arxiv.org/abs/2410.16236v3
專案程式碼:github.com/Fantasyele/LLaVA-KD
內容總結(太長不看版)
大規模多模態模型(l-MLLMs)日益增長的模型規模與計算複雜度,限制了其在資源受限場景中的應用。儘管小規模多模態模型(s-MLLMs)能夠降低計算開銷,但往往面臨效能下降的問題。為緩解這一限制,本文提出了一種新穎的LLaVA-KD框架,將l-MLLMs的知識遷移到s-MLLMs。具體而言,我們引入了多模態蒸餾(MDist)以傳遞教師模型在視覺和語言模態下的魯棒表徵,以及關係蒸餾(RDist)以傳遞教師模型捕捉視覺token間關係的能力。此外,本文提出了三階段訓練方案,以充分發揮所提蒸餾策略的潛力:1)蒸餾預訓練,增強s-MLLMs中視覺-語言表徵的對齊;2)有監督微調,賦予s-MLLMs多模態理解能力;3)蒸餾微調,進一步最佳化s-MLLM的知識。我們的方法在不改變模型結構的前提下,顯著提升了s-MLLMs的效能。大量實驗和消融研究驗證了各個元件的有效性。

圖1 LLaVA-KD框架結構圖
1、引言
近年來,得益於大語言模型(LLM)在自然語言處理領域的巨大突破,研究者們開始積極探索多模態大語言模型(MLLM)。此類模型透過整合視覺編碼器、特徵投影器與LLM,實現了視覺與語言資訊的統一理。然而,MLLM的成功受益於模型規模的Scale law,導致模型引數量和推理成本大幅提升,進而限制了其在資源受限場景下的應用。 
2、LLaVA-KD貢獻
近年來,小規模多模態大語言模型(s-MLLM)因其高效性而受到關注。現有方法主要透過採用輕量級LLM骨幹網路,同時沿用大型MLLM(l-MLLM)的傳統“兩階段”訓練正規化,即預訓練(PT)與有監督微調(SFT),以實現視覺與語言特徵的跨模態對齊與理解。然而,該訓練正規化本質上為l-MLLM設計,直接遷移至s-MLLM往往因模型容量受限而表現不佳。
近期工作通常依賴於額外的結構改造或資料工程進行最佳化。

圖2 LLaVA-KD的訓練框架
針對上述不足,本文創新性地提出基於訓練正規化最佳化的s-MLLM效能提升方案,無需模型結構改動與額外資料工程,聚焦於高效知識遷移。我們系統分析了知識蒸餾(KD)在MLLM中的應用潛力,發現以往蒸餾工作多聚焦文字模態,忽視了視覺模態在跨模態理解中的作用。為此,本文提出兩項關鍵創新:(1)多模態蒸餾(MDist),首次將蒸餾目標擴充套件至視覺與語言雙模態,實現全面多模態表徵遷移;(2)關係蒸餾(RDist),顯式轉移教師模型對視覺token間空間與語義關係的建模能力,進一步提升s-MLLM對複雜場景的理解力。
進一步地,考慮到僅在SFT階段引入蒸餾難以充分發揮效果,本文提出最佳化的三階段訓練框架:首先在預訓練階段引入蒸餾(DPT),強化視覺-語言對齊;其次透過SFT獲取基礎能力;最後追加蒸餾微調(DFT),精細化遷移知識。實驗結果表明,所提LLaVA-KD框架在多個多模態基準上全面優於現有s-MLLM方法,有效彌補了容量受限帶來的效能瓶頸。具體來說,我們的貢獻如下:
1) 我們提出了LLaVA-KD,一種面向MLLM的新型蒸餾框架,實現大規模MLLM向小規模MLLM的知識遷移。該方法設計了三階段訓練流程,包括用於增強多模態對齊的蒸餾預訓練(DPT)、知識獲取的有監督微調(SFT)以及知識遷移的蒸餾微調(DFT)。
2) 此外,我們提出創新性的蒸餾策略,將多模態蒸餾(MDist)與關係蒸餾(RDist)結合,既最佳化視覺和語言雙模態表徵,又提升s-MLLM對視覺token間關係的建模能力。
3) 在多個主流多模態基準上的實驗結果表明,LLaVA-KD在效能上全面優於現有主流s-MLLM方法。
3、實驗結果

表1 LLaVA-KD與現有多模態大模型效能比較

表2 LLaVA-KD與現有s-MLLMs效率和效能比較

表3 在其他系列MLLMs上LLaVA-KD的有效性

圖3 LLaVA-KD與其Baseline定性實驗結果對比

何愷明在MIT授課的課件PPT下載
在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ICCV 2025 論文和程式碼下載

在CVer公眾號後臺回覆:ICCV2025,即可下載ICCV 2025論文和程式碼開源的論文合

CVPR 2025 論文和程式碼下載

在CVer公眾號後臺回覆:CVPR2025,即可下載CVPR 2025論文和程式碼開源的論文合集
CV垂直方向和論文投稿交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-垂直方向和論文投稿微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)人數破萬!如果你想要了解最新最快最好的CV/DL/AI論文、實戰專案、行業前沿、從入門到精通學習教程等資料,一定要掃描下方二維碼,加入CVer知識星球!最強助力你的科研和工作!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請點贊和在看


相關文章