CASIA等 投稿
量子位 | 公眾號 QbitAI
萬字長文,對多模態LLM中對齊演算法進行全面系統性回顧!
從現有對齊演算法涵蓋的應用場景,到構建對齊資料集的核心因素,再到用於評估對齊演算法的基準,還有對齊演算法未來潛在發展方向,全都梳理了一遍。

大語言模型(LLMs)能夠透過簡單的提示完成多種任務,且無需進行任務特定的訓練。然而,這些模型主要處理文字資料,對於多模態資料的處理存在侷限。
由於世界本質上是多模態的,包括視覺、聽覺和文字等資料,研究者開始在LLM的基礎上開發多模態大語言模型(MLLMs),以處理更復雜的資料形式。
然而,現有的MLLMs仍面臨一系列挑戰,尤其是在真實性、安全性、推理能力和與人類偏好對齊方面,這些問題尚未得到充分解決。
因此,針對這些問題的對齊演算法應運而生,成為解決這些挑戰的有效途徑。

本文這項研究的主要貢獻是對多模態大型語言模型(MLLMs)中的對齊演算法進行全面的系統性回顧。
具體而言,探討了以下四個關鍵問題:
-
現有對齊演算法的應用場景:文章透過分類當前的對齊演算法,清晰地展示了它們在不同應用領域的適用性,併為研究者提供了一個統一的符號系統,幫助理解各演算法之間的區別與聯絡。
-
對齊資料集的構建:對齊資料集的構建涉及資料來源、模型響應和偏好註釋三個核心因素。文章對這些因素進行了系統分析與分類,並總結了公開資料集的優勢與不足,為未來的改進提供參考。
-
對齊演算法的評估方法:鑑於大多數對齊演算法針對特定任務,如減少幻覺、確保安全性和改善推理能力,文章整理了常用的評估基準,提出了清晰的評估框架。
-
未來發展方向:文章提出了對齊演算法發展的潛在未來方向,特別是視覺資訊的整合、LLM對齊方法的經驗啟示,以及MLLM作為智慧體面臨的挑戰與機遇。
這項研究由來自中國科學院自動化研究所、南京大學、中國科學技術大學、南洋理工大學、清華大學深圳國際研究生院、騰訊優圖實驗室、新加坡國立大學、理海大學、香港科技大學、松鼠Ai學習等機構的研究人員共同完成。
中國科學院院士譚鐵牛、中國計算機學會會士王亮領銜。

以下是更多細節。
應用場景與代表性方法
應用場景
文章介紹了多模態大語言模型(MLLM)對齊演算法的應用場景,分為三大層次:
-
通用影像理解:主要集中在減少幻覺(模型生成不準確或無關的輸出),並提升模型在其他功能(如對話、推理能力)方面的表現。
-
多影像、影片和音訊:針對複雜多模態資料,如多影像和影片,提出了不同的架構和訓練方法來處理這些任務,尤其是如何在這些任務中減少幻覺並提高模型的能力。
-
擴充套件應用:探討了將MLLM應用於領域特定任務,如醫學、數學推理、安全系統等,介紹瞭如何根據這些特定領域的需求對模型進行最佳化。
通用影像理解與多模態o1
一般影像理解
MLLM對齊演算法的初衷是解決多模態系統中的幻覺問題。最近的研究表明,這些演算法不僅能提升幻覺的處理,還能增強模型的安全性、對話能力、推理能力等多個功能屬性。
本節將系統地介紹幾種創新的方法,按其主要應用場景分類:減少幻覺和提升其他能力。
減少幻覺
MLLM對齊演算法的最初設計目的是減少幻覺現象。
例如,Fact-RLHF是第一個多模態的RLHF演算法,使用了10K個人工標註的樣本來訓練獎勵模型,並引入了每個token的KL懲罰、事實資訊校準、以及正確性和長度懲罰等機制。
DDPO透過提高更正資料的權重,進一步優化了標準的DPO。
HA-DPO則利用MLLM生成影像描述,透過GPT-4驗證幻覺並對正負樣本進行重寫,加入了輔助的因果語言建模損失以減少幻覺。
mDPO透過引入視覺損失函式來解決視覺資訊忽視問題,並增加錨定機制來避免選定響應的機率下降。
提升綜合能力
除了減少幻覺,一些演算法還專注於提升模型的多方面能力。
例如,Silkie透過收集多樣的指令資料集,並使用GPT-4V評估生成的響應,從而為應用DPO提供偏好資料。CLIP-DPO利用CLIP分數對資料進行標註,並應用DPO損失,從而同時提升幻覺減緩和零樣本分類任務的表現。
SIMA透過讓模型自我評估其生成的響應來構建偏好對,進一步提升了多影像任務的表現。
近期,MM-RLHF等方法透過更多樣性的資料和演算法,將alignment的效果進一步提升。
多模態o1發展
DeepSeek-R1的流行給MLLM社群帶來了新的啟示。
LMM-R1使用純文字數學資料集,透過RLOO訓練,並在多模態數學基準上取得了改進。
Open-R1-Video則利用GRPO方法提升了模型在影片領域的表現。
VLM-R1應用R1方法處理指代表達理解任務,進一步擴充套件了多模態推理的能力。
多影像、影片和音訊
在這一部分,文章討論了多影像、影片和音訊任務中的挑戰和解決方法。
-
多影像任務:現有的MLLM在多影像理解方面常常遇到困難,MIA-DPO透過構建多影像偏好資料來解決這一問題,取得了較好的效果。
-
影片任務:影片理解任務比單影像任務更加複雜,DPO和交錯視覺指令的結合,能夠有效提升影片任務的處理能力,如LLaVA-NeXT-Interleave方法。
-
音訊任務:音訊-視覺理解存在音訊盲視問題,Video-SALMONN 2透過引入音訊-視覺對齊機制,成功解決了這一問題。
擴充套件多模態應用
文章還介紹了在特定領域的擴充套件應用,提出了針對性更強的對齊方法。
-
醫學應用:3D-CT-GPT++透過對醫學影像分析進行最佳化,成功減少了診斷中的誤差,達到了臨床級別的準確性。
-
數學應用:MAVIS方法透過改進視覺數學問題解決框架,提高了MLLM在數學推理中的表現。
-
安全性:為應對多模態大語言模型的對抗性攻擊,文章介紹了AdPO和VLGuard等方法,它們透過最佳化訓練資料和模型結構來提高模型的魯棒性。
-
代理和智慧系統:INTERACTIVECOT和EMMOE方法透過動態最佳化推理流程和分解任務,提高了多模態大語言模型在嵌入式智慧中的表現,尤其是在複雜決策過程中。
作者分析多模態大語言模型的不同應用場景,詳細介紹了多種演算法和方法,涵蓋了從通用影像理解到特定領域應用的各個方面。
主要貢獻在於展示瞭如何透過最佳化對齊演算法來減少幻覺現象並提升模型在不同任務中的綜合能力,尤其在影片、音訊、醫學、數學等複雜領域的應用。
隨著這些方法的不斷最佳化,MLLM將在更多領域展現其強大的處理能力。
下表總結了目前alignment策略常見的損失函式形式:

MLLM對齊資料構造與現有資料總結
主要內容總結
在多模態大型語言模型(MLLM)的研究中,對齊資料集是關鍵組成部分。由於多模態資料集的構建涉及到大量的資料來源、生成方法和註釋技術,研究者們對不同構建方法進行了分類。

這些資料集大致可以分為兩類:引入外部知識的資料集和依賴自我標註的資料集。
透過這些分類,研究者可以更清晰地瞭解不同資料集的特點,進而為多模態系統的最佳化提供支援。
作者對現有MLLM對齊資料集進行了全面的分類與分析,詳細介紹了不同構建方法的優缺點以及應用場景。研究主要關注以下幾個方面:
-
引入外部知識的資料集:討論了透過人類註釋和閉源模型(如GPT-4系列)構建的資料集,這些方法提高了資料的質量,但也面臨高成本和主觀性等挑戰。
-
自我標註的資料集:探討了利用模型自身生成偏好對進行資料集構建的方法,包括單一文字模態、單一影像模態和影像-文字混合模態三種類型的資料構建方法。
-
資料質量和規模的平衡:文章還討論瞭如何平衡資料質量、規模與成本的關係,並展望了未來自動化資料增強技術的潛力,特別是如何利用自我標註方法提升資料質量。
透過這項工作,研究者們可以更加清楚地理解多模態資料集的構建策略,為未來的研究提供有力的支援。
引入外部知識的資料集
-
人工註釋:透過人工標註,收集了不同領域的高質量資料。
例如,LLaVA-RLHF透過人工選擇正負響應收集了10k個樣本,RLHF-V透過人工修正幻覺響應收集了1.4k個樣本。
-
閉源LLM/MLLM:利用GPT-4系列模型生成的偏好資料,透過這種方法可以大規模構建資料集,同時減少成本。
像LRV-Instruction透過GPT-4生成了400k個視覺指令,涵蓋16個視覺語言任務。
-
開源LLM/MLLM:使用開源模型(如CLIP-DPO)來構建偏好資料,減少成本但可能犧牲資料質量。
例如,INTERACTIVECOT透過預定義分數構建了具身智慧的偏好資料集。
自我標註的資料集
-
單一文本模態:
SQuBa使用微調後的模型生成負樣本,並將其與正樣本進行DPO對比。SymDPO透過將VQA/分類資料轉化為ICL格式,以增強視覺學習。
-
單一圖像模態:
Image DPO透過對影像進行擾動(如高斯模糊或畫素化),而保持文字不變,構建DPO偏好對。
-
影像-文本混合模態:
AdPO透過構建原始/對抗影像及其模型響應的偏好對,在最佳化過程中,兩者的影像和文字內容在正負樣本中有所不同。
實驗發現
在實驗部分,研究發現:
資料集規模與質量的平衡:透過引入外部知識的資料集,能夠提高資料的質量,但這也增加了構建成本。而自我標註的方法雖然能夠大規模生成資料,但由於MLLM的效能限制,當前的自我標註資料集質量仍較低,且存在一定的分佈偏移問題。
自動化增強的潛力:隨著自動化資料增強技術的發展,未來的自我標註方法將可能解決當前資料質量低的問題,並提高資料的多樣性和可信度。
總的來說,資料集的構建方法和質量控制是影響MLLM對齊效果的關鍵因素,未來的研究應關注如何在保證資料質量的同時,降低成本並提高資料集的規模。
模型評估
現有的MLLM對齊評估基準被分為六個關鍵維度:
通用知識(評估基礎能力)、幻覺(衡量生成內容與事實的一致性)、安全性(評估響應中降低風險的能力)、對話(測試模型是否能輸出使用者要求的內容)、獎勵模型(評估獎勵模型的表現)和與人類偏好的對齊。
通用知識
大多數基準優先考慮高質量、人工註釋的資料集,這些資料集專門為實際應用場景量身定製。
例如,MME-RealWorld包含來自13K張影像的29K個問答對,MMMU包含來自學術來源的11.5K個問題。MMStar透過減少資料洩漏和強調視覺依賴性來增強可靠性。
許多基準引入了創新方法,如MMBench的雙語評估與CircularEval,MMT-Bench的任務圖用於域內外分析,以及BLINK專注於視覺感知任務。這些框架提升了評估精度,揭示了模型的侷限性。
任務通常需要高階的多模態推理能力,例如MathVista的數學視覺整合、SQA3D的3D情境問答以及MMMU對圖表和地圖的覆蓋。
這些基準推動模型解決跨學科的挑戰,透過策劃具有挑戰性的、細粒度的任務(如MVBench中的時間理解、Mantis-Instruct中的多影像處理),旨在提升模型解決現實世界問題的能力,特別是在細緻感知和推理方面。
幻覺
這些基準系統地識別並分類多模態模型中的幻覺問題,包括物件幻覺(Object HalBench)、內在和外在幻覺(VideoHallucer)以及關聯偏差(VALOR-Eval)。它們強調在視覺、文字和序列上下文中的細粒度評估。
許多基準提出了創新的框架,例如基於投票的查詢(POPE)、LLM驅動的評分(HaELM、RefoMB)、開放詞彙檢測(OpenCHAIR)、無註釋評估(GAVIE)、無LLM管道(AMBER)和GPT-4輔助的推理分析(Mementos)。
這些方法強調自動化、可擴充套件的評估,同時解決資料洩漏和語言先驗等問題。
資料集優先採用細粒度的人類註釋(M-HalDetect、HallusionBench)和合成資料生成(VHTest、MHaluBench),它們平衡了現實世界的複雜性(PhD的反常識影像、ActivityNet-QA的58K問答對)和受控挑戰(R-Bench的魯棒性分析)。
一些基準專注於特定任務,如多語言支援(MHumanEval),而另一些則處理更廣泛的問題,如偏見和干擾(Bingo)。所有這些都旨在提高模型在實際場景中的魯棒性。
透過提出對齊策略(如RLAIF-V的開源反饋)並提出統一框架(HQH),這些基準為開發更可靠的多模態系統提供了指導。
安全性
一些研究引入了新穎的技術,例如基於擴散的對抗性攻擊(AdvDiffVLM)、紅隊框架(RTVLM)和後期微調策略(VLGuard)。
這些方法透過模擬現實世界威脅或提升模型的抗干擾能力來增強評估的嚴謹性。
像MultiTrust和RTVLM這樣的基準透過多個維度統一了可信度評估(如真實性、公平性),而另一些基準則專注於特定挑戰,如超出分佈(OOD)泛化(VLLM-safety-bench)或過度敏感性(MOSSBench)。這些基準為模型的限制提供了整體的見解。
MM-RLHF-SafetyBench從現有資料集中進行取樣,進一步涵蓋了如對抗性攻擊、隱私、紅隊攻擊和有害內容檢測等領域。
對話
這些基準優先評估基礎的視覺技能,如低階感知能力(Q-Bench、LLVisionQA)、低階資訊的描述能力(LLDescribe)和質量評估。
它們強調模型解釋和表達細粒度視覺資訊的能力。
幾個基準測試了模型在具有挑戰性場景中的泛化能力,包括非常規影像(LLaVA Bench-Wilder)、跨領域任務(LiveBench的數學/新聞整合)和對抗性提示(Vibe-Eval的高難度問題)。這些基準揭示了模型在標準資料集之外的適應能力。
獎勵模型
每個基準都針對特定的評估維度,例如多語言能力(M-RewardBench中的23種語言)、對齊/安全性/偏見(MJ-Bench)、透過人類註釋增強可解釋性和最終模型評分能力(MM-RLHF-RewardBench)以及MLLM在輔助評判者跨多種模態中的能力(MLLM-as-a-Judge的評分與成對比較)。
這些框架揭示了模型在結構化和OOD場景中的優缺點。
高質量的資料集透過人類與AI合作(如VL-RewardBench的註釋管道)或結構化三元組設計(RewardBench)策劃而成,任務從簡單的偏好排序到複雜的推理,推動模型處理如幻覺和倫理對齊等細緻挑戰。
對齊
一些基準研究了模型與人類偏好的對齊能力。
Arena-Hard是一個全面的多維度基準,旨在評估中文LLM的對齊能力。AlpacaEval-V2提出了一種簡單的迴歸分析方法,用於控制自評中的長度偏差。Arena-Hard透過增加模型效能的分離度三倍,達到了98.6%的與人類偏好排名的相關性。MM-AlignBench是一個專門設計的手工註釋基準,旨在評估與人類價值觀的對齊。
總體而言,許多當前的MLLM對齊演算法側重於防止模型生成幻覺,同時探索如何利用對齊演算法提升MLLM的通用知識和對話能力,這是未來的重要方向。
一些研究者將不安全的響應視為與人類偏好不對齊,因此應用MLLM對齊演算法來解決安全問題。這些框架中獎勵模型的有效性,尤其是在引導對齊方面的表現,值得進一步研究。
此外,針對與人類偏好的對齊,基準也從LLM領域發展到了MLLM領域。
未來工作與挑戰
隨著多模態大型語言模型(MLLM)的迅速發展,將它們與人類偏好對齊已經成為研究的重點。然而,仍然存在若干挑戰。
首先,高質量和多樣化資料集的稀缺問題仍然未得到有效解決。其次,許多方法未能有效利用視覺資訊,往往主要依賴文字來構建正負樣本,忽略了多模態資料的全部潛力。此外,缺乏全面的評估標準,當前的方法通常僅在幻覺或對話任務等特定型別的基準上進行驗證,這使得它們的普適性難以評估。
透過借鑑LLM後期訓練策略和智慧體研究的進展,可以揭示現有MLLM對齊方法中的侷限性。克服這些挑戰對於開發更強大和全面的對齊方法至關重要。
資料挑戰
MLLM對齊面臨兩個關鍵的資料相關挑戰:資料質量和覆蓋範圍。
首先,高質量的MLLM對齊資料的可用性有限。與LLM相比,獲取和註釋多模態資料要複雜得多,因為它涉及多個模態的處理。
其次,現有資料集在涵蓋多樣化多模態任務方面存在不足,例如光學字元識別、數學問題和圖表理解等任務。構建一個涵蓋廣泛任務的綜合資料集是一項極具挑戰的工作。
據作者所知,目前沒有一個公開的、完全人工註釋的多模態資料集樣本量超過200,000個。
這些在資料質量和覆蓋範圍方面的限制,成為有效對齊MLLM的重大障礙。
利用視覺資訊進行對齊
目前的對齊資料可以表示為:偏好資料D=(x, I, yw, yl),其中x是問題,I是影像,yw、yl分別表示正確和錯誤的響應。
在當前的研究中,主要有三種方法用於利用視覺資訊來增強對齊效能,但每種方法都有其侷限性:
-
使用破損或無關影像作為對齊階段的負樣本。
研究人員建立新的影像Ineg,並使用(yw|X, Ineg)作為負樣本。此方法透過減少幻覺和提高MLLM對不同影像的魯棒性來改善對齊效果。然而,視覺負樣本通常依賴於擴散演算法或影像修改,這些方法缺乏強有力的質量度量,並且計算成本較高。
-
基於破損影像生成新的問題和答案。
在這種方法中,研究人員建立一個新的影像Ineg,使用該影像生成額外的響應yneg,然後將(yneg|X, I)視為負樣本。此方法增加了文字比較的多樣性,但生成額外負樣本的過程增加了計算開銷。
-
使用像CLIP這樣的餘弦相似度度量來評估文字-影像匹配。
該方法透過計算文字與影像之間的相似度分數來篩選資料,或將其作為強化學習獎勵函式的一部分。雖然這種方法有助於減少資料噪聲,但評分的質量依賴於評估模型的質量,可能受到模型偏見的影響。
每種方法在利用視覺資料增強MLLM對齊方面都有一定的作用,但在效率、成本和潛在偏見方面存在權衡。
綜合評估
大多數MLLM對齊研究主要評估其演算法在幻覺、對話能力或安全性等幾個關鍵領域的表現。
然而,未來的研究應採用更全面的評估方法,跨更廣泛的任務評估對齊方法,以更好地展示其普適性和有效性。
全模態對齊
Align-anything開創了透過多模態資料集“align-anything-200k”實現全模態對齊的研究,涵蓋了文字、影像、音訊和影片。這項研究展示了不同模態之間的互補效應。
然而,他們的工作仍處於初期階段,每種模態的資料集相對較小,限制了其任務覆蓋範圍。
此外,提出的演算法僅是DPO方法的初步改進,未能充分利用每種模態固有的獨特結構資訊。
未來,超越影像/文字領域的對齊演算法設計,尤其是針對其他模態的對齊,將是一個關鍵的趨勢。
MLLM推理
最近,由OpenAI(o1)和DeepSeek-R1代表的推理LLM已經證明,強化學習演算法和偏好資料對於提高LLM在複雜問題求解、長時上下文理解和生成任務中的表現至關重要。
本文將探討從LLM推理增強研究中獲得的洞察及其對對齊MLLM的影響,主要從資料和最佳化框架兩個維度進行分析。
(1) 資料。
-
規模與質量。對應的方法逐漸從小模型重取樣(如OpenMathInstruct)發展到高質量合成數據(如AceMath),並逐步採用尖端模型(如OpenAI o1)和透過領域專用模型合成數據實現可擴充套件的知識遷移(如DeepSeek-V3)。
目前,用於推理增強的資料集普遍達到百萬樣本規模(如Qwen-2.5-MATH)。
-
效率。採用“少即是多”的對齊(如LIMA的1k樣本用於65B Llama)證明了最少的高質量資料能夠最優地啟用預訓練能力,同時減少對資料規模的依賴。
(2) 最佳化框架。
-
取樣策略。最近的進展表明,線上強化學習(RL)逐漸成為主流方法,DeepSeek-V3和Qwen-2.5-MATH的線上取樣方法有效地緩解了分佈偏移。
此外,Mini-Max採用了離線+線上取樣策略,進一步提升了模型效能。
-
訓練正規化。多階段、協作最佳化已成為主流方法。
例如,Llama 3包含了六輪DPO迭代,而DeepSeek透過溫度變化的取樣和反射/驗證提示來最佳化推理深度(長鏈式推理)和簡潔性。
-
演算法。強化學習演算法從早期的策略梯度方法發展到更復雜的PPO,最近基於PPO的改進主要有兩個方向:
一個是去除評估模型並用稀疏獎勵訓練策略,從而減少一半的引數量(如DPO和GRPO);另一個是精煉評估模型的設計,例如引入比率作為優勢函式的PRIME和透過重塑正負樣本獎勵的OREAL。
透過優先考慮高質量資料和創新的最佳化框架,MLLM領域正朝著更有效、可擴充套件的模型發展,這些模型也能更好地解鎖MLLM的推理潛力。
LLM對齊的啟示
對LLM的對齊已經成為最近研究的一個關鍵焦點,提供了許多有價值的見解,可以為MLLM的開發提供指導。透過審視現有LLM對齊策略的經驗教訓,可以揭示出有助於提升MLLM研究的關鍵原則:
(1) 提高訓練效率。
當前MLLM的對齊方法依賴於DPO損失函式。然而,由於DPO需要同時載入策略模型和參考模型,訓練速度會顯著下降。是否可以利用類似SimPO的無參考方法進一步提升訓練效率?
這一方法可能加速訓練過程,同時減少對參考模型的依賴。進一步研究參考模型在MLLM對齊中的具體作用和影響,對於提高效率和最佳化模型設計至關重要。
(2) 減輕過度最佳化/獎勵駭客問題。
在使用DPO或RLHF進行LLM對齊時,過度最佳化仍然是一個關鍵挑戰,即透過學習到的代理獎勵模型來提高效能,但真正的質量可能停滯或退化。
為應對這一挑戰,解決策略包括:
-
使用平衡的訓練資料集確保多樣性和代表性,防止過於狹窄的最佳化;
-
在驗證效能平穩時實施早停;
-
引入正則化技術,減少對訓練資料的過度依賴,提高模型的泛化能力。
MLLM作為智慧體
MLLM結合了LLM強大的推理能力和處理來自多種模態(如影像、文字和音訊)資料的能力。這使得它們能夠從多種資訊源中提取知識並進行綜合分析,在處理複雜的現實任務中具有很大優勢。
然而,要將MLLM轉變為高效的智慧體,仍然需要解決幾個待處理的問題。
-
多智慧體協作。
目前,針對基於文字的智慧體的多智慧體協作框架已取得顯著進展,但基於MLLM的多智慧體系統仍缺乏成熟的解決方案。 -
魯棒性。
MLLM智慧體在開放環境中的魯棒性尚未得到系統驗證,需引入對抗性魯棒性測試和保障技術。 -
安全性。
MLLM智慧體中引入更多複雜元件增加了安全風險,未來的研究應探索多種安全保護機制,以減輕這些風險。
論文連結:https://arxiv.org/pdf/2503.14504
GitHub連結:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment
GitHub連結:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟