多模態大模型人類偏好對齊新正規化MM-RLHF!10個評估維度全面提升

儘管多模態大語言模型(MLLMs)取得了顯著的進展,但現有的先進模型仍然缺乏與人類偏好的充分對齊。這一差距的存在主要是因為現有的對齊研究多集中於某些特定領域(例如減少幻覺問題),是否與人類偏好對齊可以全面提升 MLLM 的各種能力仍是一個未知數。
快手,中科院,南大合作從三個層面入手推動 MLLM alignment 的發展,包括資料集,獎勵模型以及訓練演算法,最終的 alignment pipeline 使得不同基礎模型在 10 個評估維度,27 個 benchmark 上都取得了一致的效能增益,比較突出的是,基於本文提出的資料集和對齊演算法對 LLaVA-ov-7B 模型進行微調後,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。
偏好資料,訓練演算法,模型以及評估 pipeline 均已全面開源。
該方法在 twitter 上也引起了熱議,被評為多模態 alignment 的 game-changers。

📖 arXiv Paper
https://arxiv.org/abs/2502.10391
📊 Training Code
https://github.com/Kwai-YuanQi/MM-RLHF
📝 Homepage
https://mm-rlhf.github.io/
🏆 Reward Model
https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen
🔮 MM-RewardBench
https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench
🔮 MM-SafetyBench
https://github.com/yfzhang114/mmrlhf-eval
📈 Evaluation Suite
https://github.com/yfzhang114/mmrlhf-eval
主要貢獻
新資料集本文引入了一個包含 120k 精細標註的偏好比較對的資料集,包含三個維度的打分,排序,文字描述的具體原因以及平局等標註,所有標註由人類專家完成,一共 50 名標註人員,名專家,耗時兩個月。與現有資源相比,這一資料集在規模、樣本多樣性、標註粒度和質量等方面都有顯著提升。
創新的獎勵模型提出了基於批評的獎勵模型(Critique-Based Reward Model),該模型首先對模型輸出進行批評,然後再進行評分。這一方法相比傳統的標量獎勵機制,提供了更好的可解釋性和更有資訊量的反饋,基於該方法的模型只需要 7B size,在 reward model benchmark 就明顯優於現有公開的 72B-size 的 MLLM。
動態獎勵縮放提出了動態獎勵縮放(Dynamic Reward Scaling)方法,透過根據獎勵訊號調整每個樣本的損失權重,優化了高質量比較對的使用,進一步提高了資料的使用效率。
全面評估本文在 10 個維度和 27 個基準上對提出的方案進行了嚴格評估,同時構造了一個 reward model 的 benchmark 以及 safety 相關的 benchmark來彌補現有 benchmark 的不足,結果顯示,在各個方面均取得了顯著且一致的效能提升。
MM-RLHF 人類偏好資料
資料來源影像資料來源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,總共 10M,影片資料來源主要是 SharedGPT-4-video,安全性相關的資料來源主要包括 VLGuard 和自構造內容。
資料過濾與模型響應生成:透過預定義的多選題,長文字等類別均勻取樣,確保少數類也有足夠的樣本。同時採用了 knn 聚類並採樣的策略,保證資料的 diversity。響應生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先進的 MLLM。
資料標註主要包含三個維度,有用性,真實性,倫理性,同時標註人員需要提供打分的依據,最終排名以及排名的依據,標註粒度細,透過專家定期進行質量檢查和互動評審保證標註質量。
MM-RLHF 獎勵模型
標準獎勵模型通常透過預訓練的 LLM,並用線性獎勵頭替換原有頭部,以輸出一個標量獎勵值。然而,這些模型難以充分利用人類註釋中的豐富資訊,也不具備足夠的透明性。
為了解決標準獎勵模型的侷限性,本文提出了一種基於批評的訓練框架。在這個框架中,模型首先生成批評(對響應的分析和評估),然後基於批評來打分。批評生成部分與打分部分共同作用,確保了更細緻的評價。
增強註釋以提高批評質量由於人工註釋往往簡潔且精煉,直接使用它們作為訓練目標效果有限。因此,本文透過 GPT-4o 增強人工註釋,使其更為詳細和流暢,從而提高批評的質量。
在訓練過程中,批評的生成與獎勵頭的訓練同時進行,在訓練獎勵頭時採取了 teacher-forcing 的策略,即採用了 ground truth 的批評作為輸入,預設損失權重都為 1。測試階段先生成批評,然後基於批評得出最終得分。
效能評估
該模型框架簡單,且在多個基準測試中的表現與 GPT-4o 相媲美,甚至超越了許多開源模型,表現出色,尤其在自定義基準測試中,其表現遠超 GPT-4o,這驗證了其作為訓練演算法獎勵訊號的有效性。
表 4 中也展示了,當獎勵頭直接使用偏好資料集進行訓練時,模型的 ACC+ 穩定在 50% 左右。然而,當引入人工註釋作為學習目標時,ACC+ 穩定提升了 5%。進一步透過 GPT-4o 擴充套件人工註釋,生成更加詳細和流暢的批評,最終提高了 ACC+ 達 17%。當評估時直接使用人工批評時,ACC 和 ACC+ 均接近 90%,表明評估質量對獎勵模型效果的至關重要性。
MM-DPO:有效利用高質量偏好資料
要有效利用 MM-RLHF 中的高質量資料,我們有以下的實驗發現和技巧:
MM-DPO 不再僅僅關注“最難的比較對”(即排名差異最大的一對),而是將一個查詢下所有可能的響應對都納入訓練。具體來說,對於一個查詢 ,如果有多個響應,每一對具有不同排名的響應都被視為一個有效的比較對。這種全面的處理方式可以捕捉更細粒度的排序資訊,讓模型從更廣泛的偏好資料中學習。
而,這種策略也帶來了新的挑戰:當響應對的排名差異較小時(例如排名 3 和排名 4 的比較),其獎勵差距(reward margin)往往較小,而排名差異較大的響應對(例如排名 1 和排名 4 的比較)包含的資訊質量更高。如果對所有樣本對一視同仁,會導致高置信度的資訊被低效利用。
為了解決這個問題,MM-DPO 引入了動態獎勵縮放(Dynamic Reward Scaling)機制,根據獎勵差距動態調整更新強度,優先利用高置信度的樣本對。具體而言,獎勵模型可以自然地為樣本對提供獎勵差距(reward margin),這為動態控制樣本的更新權重提供了一個直接的訊號。
本文采用 MM-RLHF-Reward-7B 模型來計算獎勵差距 ,其中 和 分別是正樣本和負樣本的獎勵分數。
DPO 中,動態縮放因子 的計算公式如下:
其中: 是初始預設縮放因子; 是一個引數,用於平衡動態部分的貢獻; 是一個可調超引數,控制 隨著 的變化速度。
接下來只需要將 DPO 演算法中的 部分替換為動態的 即可。
MM-DPO 在各類 benchmark 上都表現出了不錯的效能增益,而且其對於超引數並不是非常敏感,大多數情況下都能使得高質量 pair 的利用效率得到明顯提升。
27個評估標準,10種評估維度的綜合評估
主要領域包括圖表與文件理解、OCR、幻覺檢測、數學推理、通用知識、多模態對話、高解析度與真實世界應用、影片理解、多影像處理以及多模態安全性。其中,多模態安全性基準 MM-RLHF-SafeBench 是自構建的,涵蓋對抗攻擊、越獄攻擊、隱私保護和有害內容生成等場景,重點評估模型的安全性與魯棒性。這些資料集為模型的多方面效能提供了詳盡的測試環境。
上面兩圖展示了使用我們的資料集和對齊演算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同維度上的對齊表現,其中每個評估維度的得分在相應的基準上進行了平均。
會話能力和安全性的顯著提升實驗結果表明,透過對齊過程,這兩個方面的表現得到了顯著改進,無需調整超引數。在會話基準中,平均提高超過 10%,而不安全行為減少了至少 50%。此外,在 WildsVision 任務中,勝率至少提高了 50%。
在幻覺、數學推理、多影像和影片理解方面的廣泛提升對齊後的模型在這些領域表現出顯著的提升。有趣的是,儘管我們的資料集中缺乏專門的多影像資料,模型在多影像任務中的表現依然顯著提升。這表明我們資料集的多樣性有助於模型在多個維度上進行更好的泛化。
未來可能的研究方向
在本研究中,我們提出了 MM-RLHF,一個高質量、細粒度的資料集,專門用於推動多模態大語言模型(MLLMs)的對齊工作。
與以往專注於特定任務的研究不同,我們的資料集和對齊方法旨在全面提升多個維度的效能。即使在獎勵建模和最佳化演算法方面僅進行了初步改進,我們在幾乎所有評估基準上都觀察到了顯著且持續的提升,強調了綜合性對齊策略的潛力。
展望未來,我們看到進一步挖掘我們資料集價值的巨大機會。資料集的豐富註釋粒度,如每個維度的分數和排名理由,在當前的對齊演算法中仍未得到充分利用。未來的工作將重點關注利用這些粒度資訊與先進的最佳化技術,結合高解析度資料來解決特定基準的侷限性,並使用半自動化策略高效地擴充套件資料集。
我們相信,這些努力不僅將推動 MLLM 對齊到新的高度,還將為更廣泛、更具普適性的多模態學習框架奠定基礎。
更多閱讀

#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章