
該方法在 twitter 上也引起了熱議,被評為多模態 alignment 的 game-changers。


📊 Training Code
📝 Homepage
🏆 Reward Model
🔮 MM-RewardBench
🔮 MM-SafetyBench
📈 Evaluation Suite


主要貢獻
全面評估:本文在 10 個維度和 27 個基準上對提出的方案進行了嚴格評估,同時構造了一個 reward model 的 benchmark 以及 safety 相關的 benchmark來彌補現有 benchmark 的不足,結果顯示,在各個方面均取得了顯著且一致的效能提升。

MM-RLHF 人類偏好資料

資料過濾與模型響應生成:透過預定義的多選題,長文字等類別均勻取樣,確保少數類也有足夠的樣本。同時採用了 knn 聚類並採樣的策略,保證資料的 diversity。響應生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先進的 MLLM。

資料標註:主要包含三個維度,有用性,真實性,倫理性,同時標註人員需要提供打分的依據,最終排名以及排名的依據,標註粒度細,透過專家定期進行質量檢查和互動評審保證標註質量。

MM-RLHF 獎勵模型

在訓練過程中,批評的生成與獎勵頭的訓練同時進行,在訓練獎勵頭時採取了 teacher-forcing 的策略,即採用了 ground truth 的批評作為輸入,預設損失權重都為 1。測試階段先生成批評,然後基於批評得出最終得分。
效能評估

表 4 中也展示了,當獎勵頭直接使用偏好資料集進行訓練時,模型的 ACC+ 穩定在 50% 左右。然而,當引入人工註釋作為學習目標時,ACC+ 穩定提升了 5%。進一步透過 GPT-4o 擴充套件人工註釋,生成更加詳細和流暢的批評,最終提高了 ACC+ 達 17%。當評估時直接使用人工批評時,ACC 和 ACC+ 均接近 90%,表明評估質量對獎勵模型效果的至關重要性。

MM-DPO:有效利用高質量偏好資料

為了解決這個問題,MM-DPO 引入了動態獎勵縮放(Dynamic Reward Scaling)機制,根據獎勵差距動態調整更新強度,優先利用高置信度的樣本對。具體而言,獎勵模型可以自然地為樣本對提供獎勵差距(reward margin),這為動態控制樣本的更新權重提供了一個直接的訊號。




主要領域包括圖表與文件理解、OCR、幻覺檢測、數學推理、通用知識、多模態對話、高解析度與真實世界應用、影片理解、多影像處理以及多模態安全性。其中,多模態安全性基準 MM-RLHF-SafeBench 是自構建的,涵蓋對抗攻擊、越獄攻擊、隱私保護和有害內容生成等場景,重點評估模型的安全性與魯棒性。這些資料集為模型的多方面效能提供了詳盡的測試環境。


上面兩圖展示了使用我們的資料集和對齊演算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同維度上的對齊表現,其中每個評估維度的得分在相應的基準上進行了平均。
會話能力和安全性的顯著提升:實驗結果表明,透過對齊過程,這兩個方面的表現得到了顯著改進,無需調整超引數。在會話基準中,平均提高超過 10%,而不安全行為減少了至少 50%。此外,在 WildsVision 任務中,勝率至少提高了 50%。

在本研究中,我們提出了 MM-RLHF,一個高質量、細粒度的資料集,專門用於推動多模態大語言模型(MLLMs)的對齊工作。
與以往專注於特定任務的研究不同,我們的資料集和對齊方法旨在全面提升多個維度的效能。即使在獎勵建模和最佳化演算法方面僅進行了初步改進,我們在幾乎所有評估基準上都觀察到了顯著且持續的提升,強調了綜合性對齊策略的潛力。
我們相信,這些努力不僅將推動 MLLM 對齊到新的高度,還將為更廣泛、更具普適性的多模態學習框架奠定基礎。
更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
