
直接偏好最佳化(DPO)在大語言模型(LLMs)對齊研究上表現優異,許多方法嘗試透過替換輸入資料將其擴充套件至多模態場景。這種方法有什麼侷限性?我們透過視覺化圖文表徵空間發現,現有多模態 DPO 模型即便經過嚴格的對齊訓練,仍難以準確區分有無幻覺的描述,也難以識別影像與語義一致的文字。
為此,本文提出 CHiP 方法,融合視覺偏好與多粒度文字偏好,有效提升模型的幻覺識別與跨模態對齊能力,並在多個基準和多模態大語言模型上驗證該框架的效果性。

論文標題:
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs
論文地址:
https://openreview.net/pdf?id=7lpDn2MhM2
程式碼地址:
https://github.com/LVUGAI/CHiP

現有方法存在的問題與研究動機
現有研究表明,直接偏好最佳化(Direct Preference Optimization, DPO)在大語言模型(Large Language Models, LLMs)中能有效提升人類偏好對齊能力並取得顯著效能突破(其框架如圖 1(a)所示)。
許多現有研究試圖將 DPO 直接遷移至多模態場景(框架如圖 1(b)所示),然而簡單的多模態偏好資料替換策略難以有效應對多模態場景的複雜挑戰。

▲ 圖1:DPO,多模態DPO,以及本文方法 CHiP 的框架圖
理想情況下,對於對齊良好的多模態大語言模型(MLLMs),影像與其真實描述的表示應儘可能接近,而真實描述與幻覺描述的表示則應保持較大距離。
本文透過多模態表徵空間的視覺化分析發現,現有基於 DPO 的多模態對齊方法在影像-文字語義對齊及幻覺描述辨識方面存在顯著侷限。
如圖 2 所示,對比 LLaVA-1.6(圖 2(a))與 DPO 增強的 LLaVA(圖 2(b))可以發現:儘管後者在影像-描述表徵對齊度和幻覺/非幻覺描述區分度上有所改進,但其最佳化效果與期望效果差距甚遠。
為了解決這些問題,本文提出跨模態分層偏好最佳化方法 CHiP(Cross-modal Hierarchical Direct Preference Optimization)。該方法透過構建視覺偏好與多粒度文字偏好(響應級、片段級、詞元級)的雙重最佳化框架,實現跨模態對齊能力的系統性提升,其方法論框架如圖 1(c)所示。
實驗設計方面,我們在 LLaVA-1.6 和 Muffin 兩大主流框架上進行系統驗證,實驗覆蓋四個流行幻覺基準測試集。
實證結果表明:在關鍵指標幻覺率方面,CHiP 相較傳統 DPO 方法實現了突破性改進。在 Object HalBench 資料集上,CHiP 在減少幻覺方面顯著優於 DPO,基於基礎模型 Muffin 和 LLaVA,分別實現了 52.7% 和 55.5% 的相對提升。
視覺化分析進一步證實(如圖 2(c)所示),CHiP 在影像-描述語義對齊精度和幻覺描述鑑別能力方面顯著優於基準方法(LLaVA+DPO)。

▲ 圖2:表示空間的視覺化分析
本文的主要貢獻:
1. 我們透過圖文表示分佈分析發現,多模態 DPO 在語義對齊和幻覺識別方面存在不足。
2. 為此,我們提出 CHiP,結合分層多粒度的文字偏好和視覺偏好最佳化,以增強跨模態偏好建模。
3. CHiP 整合至多種 MLLM 後,在多個數據集上顯著減少幻覺,並保持多模態大語言模型通用能力不下降。

方法:跨模態分層直接偏好最佳化(CHiP)
我們提出的 CHiP 方法包含兩個核心模組:
1. 分層文字偏好最佳化(Hierarchical Textual Preference Optimization):在響應級、片段級和 token 級對文字進行偏好最佳化;
2. 視覺偏好最佳化(Visual Preference Optimization):引入影像偏好對,引導模型生成過程中多關注圖片的內容。
2.1 分層文字偏好最佳化
基於影像的回覆通常冗長複雜,而回復級偏好最佳化依賴於對回覆質量的粗略排序,無法清晰識別哪些片段或標記包含幻覺。這使得將期望行為的權重分配變得十分困難,從而導致 reward hacking,以及對大量標記資料的需求。
因此,我們提出分層文字偏好最佳化模組,以更細粒度地分配獎勵。對於多模態大模型(MLLMs),每個訓練樣本包含輸入影像 、提示詞 、被選回覆 和被拒回覆 。多模態 DPO 依賴影像和文字共同選擇更偏好的回覆。
以下是三個層級的最佳化設計:
2.1.1 響應級偏好最佳化
目標為最大化 ,損失函式定義為:

其中:

2.1.2 段落級偏好最佳化
我們對比選中與拒絕響應中出現差異的片段(尤其是實體名詞)並給予更高獎勵。段落級行為分數如下:

其中 表示發生變化的 token 子集,歸一化因子為 。代入上式可得 。
2.1.3 Token 級偏好最佳化
由於影像輸出是自迴歸生成序列,Token 級對齊有助於更精細控制模型生成行為,也有助於保持多樣性。其損失函式定義如下:

其中:

2.1.4 HDPO 總體目標
分層文字偏好最佳化最終目標為:

其中 和 控制段落級與 token 級的權重。
2.2 視覺偏好最佳化
為緩解 MLLMs 對語言模型的過度依賴,我們引入視覺偏好最佳化模組。該模組透過構造影像對 ,引導模型根據視覺資訊判斷偏好。
目標是最大化 ,損失函式為:

其中, 可透過旋轉、裁剪、加噪聲等方式擾動 而獲得。
2.3 總體目標函式:CHiP
最終的跨模態分層最佳化目標為:

其中, 與 被賦予權重 1(完全考慮), 和 小於 1(部分考慮)。

實驗與分析
3.1 主要實驗結果
我們在 LLaVA-1.6 與 Muffin 框架上引入了 CHiP,並在四個主流幻覺基準上進行評測,即 Object HalBench,MMHal-Bench,HallusionBench,AMBER。
結果表明:
1. CHiP 顯著減少了基礎模型 Muffin 和 LLaVA 的幻覺率。
2. CHiP 在四個基準測試中均優於 DPO。
3. 在 ObjHal 和 AMBER 資料集上,結合 CHiP 的 LLaVA 和 Muffin 的幻覺率低於 GPT-4。

▲ 表1:CHiP 基於 LLaVA-1.6 和 Muffin 在多模態幻覺的四個基準上的評估結果
3.2 通用能力評估
偏好最佳化可能削弱模型的通用能力。為驗證 CHiP 是否會影響模型泛化能力,我們對比評估了 LLaVA 與 LLaVA+CHiP,結果如圖 5。 在多個通用評估集上的表現。

▲ 表2:通用能力評估。觀察結果:在 6 個數據集中,LLaVA+CHiP 在其中 5 個上優於 LLaVA,表現出 CHiP 在提升幻覺對齊的同時,不影響通用能力,反而在 MMMU、LLaVA-Wild、MMB-CN 等任務上略有提升。
3.3 人工評估
由於 MMHal-Bench (MMHal) 部分樣本缺少準確標註,GPT-4 難以識別幻覺,我們引入專家人工標註對比 CHiP 與 DPO(基於 LLaVA)的效能。
觀察結果:在可判別的 36.5% 樣本中,CHiP 在 31.6% 上優於 DPO。

▲ 圖3:MMHal-Bench 資料的人工標註結果
3.4 分層文字最佳化強度分析
CHiP 在文字上進行響應級、段落級和 token 級偏好最佳化。
在權重設定方面,我們固定響應級權重為 1,token 級權重 ,重點研究段落級權重 。
如圖 6 所示,當 (Muffin)或 (LLaVA)時,AMBER 資料集上 CHAIR 與幻覺率指標表現最佳。
因此我們在所有實驗中使用此設定。

▲ 表4:段落級權重()的取值搜尋
3.5 訓練正規化的影響
圖文語義不對齊是 MLLM 幻覺的重要成因。然而,大多數方法在訓練時凍結視覺編碼器,僅訓練連線層與語言模型部分。
這引出了一個關鍵問題:在偏好最佳化過程中聯合訓練視覺編碼器是否有助於降低幻覺?我們在 LLaVA+CHiP 與 LLaVA+DPO 下對視覺編碼器是否訓練進行對比,結果如表 5 所示。

▲ 表5:訓練正規化的影響。結果觀察:DPO 在訓練視覺編碼器時幻覺率更低;CHiP 在視覺編碼器參與訓練時反而效果略差。可能原因在於:多重最佳化目標(文字+影像)在聯合訓練時會稀釋模型對圖文對齊的關注度,導致效果下降。
3.6 拒絕影像構建策略分析
偏好樣本的質量依賴於拒絕影像的構造方式及其與選中影像的差異。文字探索了五種,如下所示
1. 擴散(Diffusion):按照影像生成中的前向擴散過程,對 chosen 影像逐步加入高斯噪聲(T=500 步);
2. 黑屏(Blackness):將 chosen 影像所有畫素 RGB 設定為 0;
3. 裁剪(Crop):對 chosen 影像進行隨機裁剪;
4. 旋轉(Rotation):將影像隨機旋轉 10 至 80 度;
5. 隨機替換(Randomness):從訓練集中隨機選取其他影像作為拒絕影像。構造示例如圖 7 所示。

▲ 圖4:拒絕影像(rejected image)構建策略示例

▲ 表6:不同策略下的 CHiP 表現。結果觀察:(1) 擴散與裁剪策略效果最佳,能保留較多視覺語義資訊;(2)黑色與隨機替換最差,幾乎完全丟失了影像特徵;(3)旋轉策略表現一般,雖然保留影像資訊但引入了強視覺偏差。
噪聲步數 T 的影響: 本文進一步探索了擴散步驟數 T 對 CHiP 效能的影響,結果如圖 5 所示。

▲ 圖5:不同加噪步數下的 CHiP 表現。結果觀察:(1)當 T = 500 時,CHiP 效果最佳;(2)T 太小 → 選拒圖太相似 → 偏好標籤含糊;(3)T 太大 → 資訊丟失嚴重 → 模型區分太容易,弱化了視覺偏好學習。

總結
CHiP(跨模態層次化直接偏好最佳化方法)在緩解多模態大語言模型中的幻覺問題上表現出顯著成效。
實驗結果表明,CHiP 在四個主流資料集上均有效降低了幻覺率。表徵視覺化進一步驗證了其優勢:相比標準多模態 DPO,CHiP 更好地縮小了影像與非幻覺描述間的語義差距,並增強了對幻覺內容的辨別能力。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
