8B模型超越GPT-4o!通義實驗室提出多輪對齊SDPO,讓LLM更擅長多輪互動

LLM 如何在多輪任務中對齊人類偏好?通義提出多輪對齊 SDPO 效果上大幅度超過標準 DPO,讓 8B 模型在多輪對話上超過 GPT-4o!

SDPO 簡介

在 LLM 的訓練過程中,如何保持 LLM 與人類的價值觀對齊是一個至關重要的問題,然而當前的對齊方法在訓練時都只考慮當前輪生成的回覆的收益,而不會考慮當前動作後後續多輪可能動作的影響,這一問題導致大模型在多輪互動中難以考慮後續的對話策略或行動軌跡
之前的工作有過一些任務級對齊的嘗試,但是存在粒度太粗和理論推導不完善的問題。在本文中,我們在之前工作的基礎上,進一步簡化並完善了多輪直接偏好對齊的理論推導過程,並提出了可以適應不同輪次的多輪對齊 SDPO(Segment-level DPO)目標函式。
我們首先在社交對話資料集 SOTOPIA 上進行了驗證,發現 SDPO 可以顯著超過直接偏好對齊 DPO(+6.1%),基於 8B 模型經過 SFT 和 SDPO 後效果超過 GPT-4o(8.56 vs. 7.90),後續還可以拓展到其他多輪任務中。
論文標題:
SDPO: Segment-Level Direct Preference Optimization for Social Agents
論文作者:
馬文濤、孔奧博、武玉川、黃非,李永彬
論文地址:
https://arxiv.org/pdf/2501.01821
程式碼地址:
https://huggingface.co/datasets/Tongyi-ConvAI/SDPO
論文公開後即登入 2025-01-06 HuggingFace DailyPaper 並被多人點贊,為了便於業界大家使用,程式碼直接基於 LLama-Factory 進行開源。

相關工作

2.1 直接偏好對齊

目前直接偏好對齊 DPO [1] 已經在大模型 Alignment 訓練中廣泛使用,與傳統基於強化學習的偏好對齊(如RLHF,Reinforcement Learning from Human Feedback)相比,DPO 透過直接最佳化模型以符合人類偏好,簡化了對齊過程,提高了效率和穩定性。其訓練的損失函式如下:
其中 和 分別為偏好資料的正負例,在多輪任務如多輪對話中,二者分別對標同一個對話上下文下的正例和負例回覆,但是在多輪對話中,最終的結果往往是需要多個輪次共同作用,標準的 DPO 主要關注當前輪次的回覆偏好也就限制了其在多輪任務上的效果。

2.2 任務級偏好對齊

為了引入更長輪次的偏好訊號,有學者相繼提出了 ETO [2] 和 DMPO [3],二者的核心都是將上述單輪的偏好提升到整個任務粒度,將完成任務的正負例對應的整個軌跡作為正負例偏好資料。其中 DMPO(Direct Multi-Turn Preference Optimization)給出了這類任務級對齊的理論推導與損失函式,具體如下:
其中 log 之前 函式是為了解決輪數不對稱所引入的長度正則。對比 DPO 的損失函式我們可以發現,DMPO 這類任務級對齊方法增加了輪次級的求和,求和的範圍完成整個任務所需要的互動輪次,因此 loss 中的 和 分別是正例軌跡和負例軌跡的總輪數,這裡正負例軌跡一般對應完成任務和未完成任務的軌跡。
由於完成一個任務或者進行多輪對話往往需要很多輪次的互動,這裡直接進行整個任務級別對齊粒度較粗,對應存在兩個問題:
1. 訓練噪聲大:負例中有些沒錯的輪次被當成了錯誤輪次參與了 loss 的計算,同時正例中也存在不合適的輪次,因此整個訓練噪聲較大;
2. 正向訊號弱:從頭取樣給予了模型過大的行為空間,這種過大的空間導致正例的訊號很不明確。另外,部分正例結果較好可能是環境不同的反饋導致的,跟 LLM/Agent 的本身的動作關係不大,這些導致模型可能很難得到明確的正例訊號。

SDPO多輪對齊

為了解決以上問題,我們提出了可以適應不同輪次的多輪對齊方法 SDPO(Segment-level Direct Preference Optimization),基於嚴格推匯出 Segment 粒度損失函式,按需構建出所需輪數的偏好資料,可以支援從 1 到 N(N 為整個互動輪次)動態輪數的對齊。

3.1 SDPO 損失函式

回顧一下 DMPO 中多輪對齊 Loss 推導過程,透過 Bradley-Terry(BT)模型構建出的多輪 Reward 函式如下:
其中,r(s, a) 展開如下:
我們可以發現,如果正負例的輪數不對稱,也就是說當 不等於 時,分割槽函式部分 logZ 就無法被抵消掉,也就無法推匯出最終的損失函式,因此 DMPO 中引入了長度正則 函式來解決這個問題。
然而,我們發現這種長度正則會引入額外的假設缺乏嚴格的理論支撐,同時增加計算的複雜度。我們在實踐中發現,在多輪互動正負例的核心輪次往往並不多,而且在正負例中核心輪數往往相同或者很相近。因此,我們提出了基於正負例輪數對稱的 SDPO 損失函式:
相對 DMPO 的損失函式,SDPO 的損失函式去掉了長度正則顯著簡化了計算,同時不再要求從對話開始到結束去構建整個偏序資料,而是引入區間定位去找到關鍵輪次片段作為偏好資料(起始輪次 t=e 到結束輪次 e+k)。(詳細推導過程見論文及其附錄)
SDPO 透過輪次定位找出關鍵的 segment 構建偏好對,克服了標準 DPO 只最佳化一輪偏好的的問題,與任務級對齊方法 DMPO 等相比,關鍵 segment 建模避免了對負例中非錯誤輪次 loss 的計算,減少了噪聲,同時 SDPO 是基於互動歷史取樣的,縮窄了對話者的行為空間,減少了單純由於對話者或環境導致正例分高的現象。
本質上,標準 DPO 和任務級 DMPO 均是 SDPO 的特例,SDPO 可以針對任一資料靈活的選擇合適的資料粒度進行最佳化。

3.2 多輪偏好資料構建

標準 DPO 的偏好資料是基於固定的對話上下文,構建一輪正例和負例的回覆內容,而 SDPO 核心區別在於構建多輪正例和負例的對話內容,其中具體需要多少輪次取決於關鍵問題片段的長度,避免直接使用整個 session 作為正負例而引入噪音。
具體如下圖,該場景下對話雙方主要在討論他們週末的旅行計劃,其中 Agent1 的目標是說服 Agent2 去露營,而 Agent2 的目標是選擇城市休閒活動。DPO,ETO/DMPO 和 SDPO 的正負例分別如下:
1. DPO:如圖中下劃線部分,負例為問題較明顯的第三輪,正例為基於相同對話歷史重新取樣出的回覆,長度均為一輪;
2. ETO/DMPO:如圖中左側兩列,負例一般為未完成目標的整個 session,正例為從頭開始取樣出的完成情況更好的 session;
3. SDPO:如圖中第 1 和第 3 列中的虛線框中部分輪次,負例為原始對話中 3 輪關鍵出問題的輪次,正例為重新取樣出的對應輪次。(注意環境反饋或其他對話者的回覆不參與 Loss 計算)
具體到 SDPO 中,其正負例偏好資料構造流程如下:
1. 錯誤定位:基於完成情況較差的對話 session,利用 GPT-4 定位出錯的輪次
2. 取樣正例:基於錯誤輪次前的互動歷史取樣多個完整的互動路徑,選出分數最高的作為正例;
3. 區間選擇:利用 GPT-4 從正例中選出一個區間,應是該區間導致正例的分數高於負例,然後再從負例中選取同樣長度的區間與正例的區間構成正負樣本對。
與標準 DPO 相比,SDPO 僅僅增加了區間選擇的步驟,與任務級對齊如DMPO相比,SDPO 僅僅增加了錯誤定位的步驟。

實驗結果

4.1 主實驗對比

我們選擇近期學界中比較熱的社交智慧資料集 SOTOPIA [4] 作為主要的評估 benchmark,使用我方 agent 進行 Self-chat 以及與 GPT-4o 和 GPT-4o-mini 互動三個 setting 進行對比,評估結果如下:
DPO-based 對齊演算法中,SDPO 取得了最優的效果,現對於標準 DPO 提升6.1%(7.95-8.56)說明多輪對齊比單輪有比較顯著的提升,相對任務級別對齊 ETO 和 DMPO 效果也有顯著提升,說明我們按需構建多輪偏好比直接使用任務級偏好更好

最終效果上,超過了 OpenAI 系列的各個閉源模型,體現了基於 SDPO 進行 post-training 的優勢。上述實驗使用 Llama-3.1-8B,為了證明 SDPO 的泛化性,我們利用 Mistral-v0.3 進行相同的實驗,結果如下:
基於 Mistral 的實驗,SDPO 同樣取得了最優的效果,且整體趨勢跟基於 Llama-3.1-8B 相似,說明我們整個方法具有模型上的遷移性。同時,SDPO 適用於各類多輪任務,因此我們同時還在基於 ALFWorld 等 Agent 資料集上進行實驗,後續再進行論文和結論的迭代。

4.2 分析實驗

SDPO 核心是探索出動態多輪作為多輪任務的對齊粒度,為了探究最佳的對齊輪數,我們針對 Segment 長度進行了分析實驗,基於 SDPO 選擇不同的正負例輪數進行對比,實驗結果如下:

方括號內前一個數字代表負例包含的輪次數量,後一個數字代表正例包含的 turns 的數量。[1,1] 就是標準的單輪 DPO,[m,n] 就是任務級對齊方法如 DMPO,加粗的則是 SDPO,區間長度由 GPT-4 自動選擇。

表格中上半部分正負例區間長度是一致的,可以看出,輪最佳化的效果均超過了單輪標準 DPO,但也並非輪次越多越好,我們引入 GPT-4 根據語義動態選擇區間長度,取得了最優的效果。
表格的下半部分正負例區間長度不一致,其效果均差於對應的區間長度一致的方法,與理論推導要求區間長度一致相符合,且隨著區間長度不一致情況的減弱,模型效果逐漸變好,也解釋了為什麼任務級別對齊效果也會相對標準 DPO 更好的原因。
另外,我們還分析了不同對齊演算法資料取樣質量的差異,對正負例樣本機率差的影響,對模型輸出長度變化的影響,以及不同資料來源的影響等,相關討論詳見論文。
參考文獻
[1]Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023
[2]Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents. ACL 2024
[3]Direct Multi-Turn Preference Optimization for Language Agents. EMNLP 2024
[4]SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents. ICLR 2024
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章