
來源 |專知

原文連結:https://arxiv.org/pdf/2503.01887
摘要
近年來,隨著多模態大型語言模型(MLLMs, Multimodal Large Language Models)的快速發展,人工智慧領域取得了顯著進展。然而,將靜態的、預訓練的 MLLM 適配於動態資料分佈及多種任務,同時保證高效性和準確性,仍然是一項重大挑戰。在針對特定任務對預訓練 MLLM 進行微調(fine-tuning)時,模型在其原有知識領域中往往會出現明顯的效能下降——這一現象被稱為“災難性遺忘(Catastrophic Forgetting)”。儘管該問題在**持續學習(Continual Learning, CL)**領域已被廣泛研究,但在 MLLM 背景下仍然面臨新的挑戰。
作為首篇關於多模態大型模型持續學習的綜述論文,本文對MLLM 持續學習的 440 篇相關研究進行了全面梳理與深入分析。在介紹基本概念的基礎上,本文的綜述結構分為四個主要部分:
- 多模態大型語言模型的最新研究進展
涵蓋各類模型創新策略、基準測試(benchmark)以及在不同領域的應用; - 持續學習的最新研究進展分類及綜述
按研究物件劃分為三大方向: - 非大型語言模型(Non-LLM)單模態持續學習(Unimodal CL)
- 非大型語言模型多模態持續學習(Multimodal CL)
- 大型語言模型中的持續學習(CL in LLM)
- MLLM 持續學習的現狀分析
涵蓋主流基準測試、模型架構和方法的創新改進,並系統性地總結和回顧已有的理論與實證研究; - 未來發展方向
對 MLLM 持續學習領域的挑戰與前景展開前瞻性討論,旨在啟發研究人員,並推動相關技術的進步。
本綜述旨在系統性地連線基礎設定、理論基礎、方法創新和實際應用,全面展現多模態大型模型持續學習的研究進展和挑戰,為該領域的研究人員提供有價值的參考,並促進相關技術的發展。

近年來,多模態大型語言模型(MLLM, Multimodal Large Language Models) 的研究取得了快速進展,併成為人工智慧領域的重要研究方向之一 [1]-[10]。MLLM 透過融合語言、視覺、音訊等多模態資訊,展現出強大的跨模態理解與生成能力,為解決複雜的現實世界問題提供了創新性方案 [11]-[15]。
為了提升 MLLM 的效能,研究者提出了多種改進策略。首先,在跨模態資訊融合方面,引入了更高效的架構設計 [16]-[18],例如基於 Transformer 的多模態聯合編碼器和解碼器,以及輕量級跨模態注意力模組 [19]-[21]。其次,在預訓練技術方面,進一步發展了多模態對比學習、跨模態一致性約束、自監督學習(self-supervised learning)等方法,大幅提升了模型的泛化能力和魯棒性 [22]-[25]。此外,微調(fine-tuning)技術也不斷最佳化,例如引入了引數高效調整方法(如 LoRA [27])和任務特定適配層設計,使得 MLLM 能夠在較低計算成本下適應多樣化的任務場景 [26]-[31]。
MLLM 的效能評估主要依賴於多模態基準測試(benchmark),這些測試涵蓋多個任務類別(見圖 1)。例如,在視覺-語言任務領域,主流基準包括視覺問答(VQA, Visual Question Answering) [32]-[36]、影像描述(Image Captioning) [37]-[42]、視覺指引(Visual Grounding) [43]-[46];在音訊-語言任務領域,基準測試涵蓋音訊-文字對齊和音訊生成 [47]-[49];此外,還有更復雜的跨模態推理任務等 [50]-[51]。MLLM 在醫療、教育、機器人、自主駕駛等實際應用中也展現出巨大潛力,併發揮著日益重要的作用 [52]-[54]。
1.1 持續學習與多模態大型模型的結合
持續學習(Continual Learning, CL) 旨在解決模型在面對動態變化的資料流時,如何在學習新任務的同時有效保留已有知識,從而緩解**災難性遺忘(Catastrophic Forgetting)**問題 [55]-[57]。近年來,持續學習的研究不斷深入,特別是在不同規模的模型及多模態學習場景下取得了顯著進展 [58]-[63]。
在單模態持續學習(Unimodal CL) 研究中,主要關注緩解災難性遺忘的演算法設計,使模型在學習新任務的同時仍能保持對已有任務的良好效能 [64]-[69]。相比之下,多模態持續學習(Multimodal CL) 面臨更大挑戰,因為模型需要同時處理不同模態的特性及其跨模態互動 [61], [70]-[72]。研究者主要致力於跨模態特徵提取、對齊和處理,以減少跨模態干擾、增強模態間一致性,並提升模型的泛化能力 [73]-[76]。
隨著大型語言模型(LLM) 在自然語言處理(NLP)領域的廣泛應用,其持續學習研究也成為新興熱點 [77]-[82]。由於 LLM 具有龐大的引數規模,並依賴於大規模預訓練資料,傳統的持續學習策略在應用於 LLM 時面臨計算成本高、適應性受限等挑戰。為此,研究者提出了一些最佳化方向,包括引數高效微調(PEFT, Parameter-Efficient Fine-Tuning) 方法(如 LoRA、Prefix Tuning 等)[27]-[31],以及基於提示學習(prompt learning)的方法。這些技術在開放領域問答、持續對話系統、跨領域文字生成等任務中展現出極大潛力 [83]-[85]。
1.2 研究挑戰與綜述目標
MLLM 的快速發展與持續學習研究的深入結合,為探索人工智慧前沿方向提供了新的視角 [9], [14], [17], [24], [52], [65], [69], [79], [86]。該領域的關鍵挑戰在於:如何在學習新任務的同時高效保持已有知識,並維持跨模態協同能力 [87]-[89]。這是目前持續學習與 MLLM 結合研究的核心問題之一。
基於現有研究,本文對多模態大型模型持續學習的研究進行系統性綜述和總結,重點探討模型架構與方法的創新,包括不同模型框架的設計、動態引數調整機制,以及支援任務適配的模組 [90]-[93]。這些技術不僅能有效緩解災難性遺忘問題,還能顯著提升 MLLM 的任務適應能力和泛化能力。
此外,本文還介紹了現有的多模態大型模型持續學習評測基準,這些基準測試對評估 MLLM 在持續學習任務中的表現起到重要支援作用 [94]-[97]。多模態大型模型的持續學習研究,不僅為跨模態任務的動態適應提供了新的技術手段,還能為智慧教育、醫療、機器人互動等實際應用中的複雜任務提供創新性解決方案 [89], [98]-[100]。
最後,本文對多模態大型模型持續學習的挑戰與未來發展趨勢進行前瞻性討論,包括災難性遺忘問題、評測基準的改進與標準化、多模態持續學習的可解釋性與透明度提升等方面。透過這些討論,本文旨在為該領域的研究者提供有價值的研究洞見,並推動多模態大型模型持續學習技術的進一步發展與應用。
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
