
在自然界中,好奇心驅使著生物探索未知,是生存和進化的關鍵。人類,作為地球上最具智慧的物種,其探索精神引領了科技、文化和社會的進步。1492 年,哥倫布懷揣探索未知的理想,勇敢地向西航行,最終發現了新大陸。
正如人類在面對未知時展現出的探索行為,在人工智慧領域,尤其在大型語言模型(LLMs)理解語言和知識中,研究人員正嘗試賦予 LLM 類似的探索能力,從而突破其在給定資料集中學習的能力邊界,進一步提升效能和安全性。
近期,中國電信集團 CTO、首席科學家、中國電信人工智慧研究院(TeleAI)院長李學龍教授帶領團隊在全模態星辰大模型體系深耕的基礎之上,聯合清華大學、香港城市大學、上海人工智慧實驗室等單位提出了一種新的探索驅動的大模型對齊方法 Count-based Online Preference Optimization(COPO)。
該工作將人類探索的本能融入到大語言模型的後訓練(Post-Training)中,引導模型在人類反饋強化學習(RLHF)框架下主動探索尚未充分理解的知識,解決了現有對齊框架受限於偏好資料集覆蓋範圍的問題。
這一創新成果為智傳網(AI Flow)中 “基於連線與互動的智慧湧現” 提供了重要技術支撐,使得模型在動態互動中不斷學習和進步,在探索的過程中實現智慧的持續湧現。論文被國際表徵學習大會 ICLR 2025 錄用,實現了大模型多輪互動探索中的能力持續提升。TeleAI 研究科學家白辰甲為論文的第一作者。

論文標題:
Online Preference Alignment for Language Models via Count-based Exploration
論文地址:
https://arxiv.org/abs/2501.12735
程式碼地址:
https://github.com/Baichenjia/COPO

研究動機
雖然大型語言模型(LLM)在進行多種語言任務中已經有出色的表現,但它們在與人類價值觀和意圖對齊方面仍面臨著很多挑戰。現有的大模型 RLHF 框架主要依賴於預先收集的偏好資料集進行對齊,其效能受限於離線偏好資料集對提示 – 回覆(Prompt-Response)的覆蓋範圍,對資料集覆蓋之外的語言難以進行有效泛化。
然而,人類偏好資料集的收集是較為昂貴的,且現有的偏好資料難以覆蓋所有可能的提示和回覆。這就引出了一個關鍵問題:是否可以使 LLM 在對齊過程中對語言空間進行自主探索,從而突破離線資料集的約束,不斷提升泛化能力?
為了解決這一問題,近期的大模型相關研究開始由人類反饋強化學習驅動的離線對齊(Offline RLHF)轉向線上對齊(Online RLHF),透過迭代式地收集提示和回覆,允許大模型在與語言環境的互動中不斷學習和進步,從而在偏好資料集的覆蓋之外進行探索。
本研究旨在解決線上 RLHF 過程中的核心問題:如何使 LLM 高效在語言空間(類比於強化學習動作空間)中進行探索。
具體地,強化學習演算法在進行大規模的狀態動作空間(類比於 LLM 中的語言生成空間)中的最優策略求解時,系統性探索(Systematic Exploration)對於收集有益的經驗至關重要,會直接關係到策略學習的效果。在 LLM 對齊中,如果缺乏有效的探索機制,可能會導致模型對齊陷入區域性最優策略。
同時,有效的探索可以幫助大模型更好地理解語言環境的知識,從而在廣闊的語言空間中找到最優回覆策略。
本研究的目標在於解決線上 RLHF 中的探索問題,即如何在每次迭代中有效地探索提示 – 回覆空間,以擴大偏好資料覆蓋範圍,提高模型對人類偏好的學習和適應能力。具體地,COPO 演算法透過結合基於計數的探索(Count-based Exploration)和直接偏好最佳化(DPO)框架,利用一個輕量級的偽計數模組來平衡探索和偏好最佳化,並在線性獎勵函式近似和離散狀態空間中提供了理論框架。
實驗中,在 Zephyr 和 Llama-3 模型上進行的 RLHF 實驗結果表明,COPO 在指令遵循和學術基準測試中的效能優於其他 RLHF 基線。

理論框架
研究的理論框架基於大模型獎勵的線性假設,將獎勵函式簡化為引數向量和特徵向量的內積形式。在此假設下,可以將複雜大模型對語言提取的特徵作為一個低維的向量,將 RLHF 過程中構建的顯式或隱式的大模型獎勵視為向量的線性函式,具體地:

在此基礎上,給定大模型偏好資料集 ,在現有 Bradley-Terry (BT) 獎勵模型的基礎上可以透過極大似然估計來估計獎勵模型的引數,即:

隨後,根據統計學中的相關理論,可以定量地為獎勵模型提供了一個明確的誤差界限,並得到關於獎勵模型引數的置信集合(confidence set),從而使估計的引數以較大機率落在置信集合中。具體地:

隨後,在引數集合中可以使用樂觀的期望值函式來獲得值函式估計的置信上界,從而實現了強化學習探中的樂觀原則(Optimism), 使大模型策略向樂觀方向進行策略最佳化。

在上述目標中,最終的最佳化項包含兩個部分:第一部分對應於經典的兩階段 RLHF 方法,在 BT 模型的基礎上估計獎勵,透過最大化獎勵來學習策略,同時保持和原始大模型策略的接近性約束。第二部分為新引入的置信區間上界(UCB)項,用於測量當前資料集對目標策略生成的狀態分佈的覆蓋程度,鼓勵模型探索那些尚未充分探索的語言空間。
具體來說,UCB 項透過增加對較少產生的提問 – 回答的組合的對數似然,從而鼓勵大模型生成新的、可能更優的回答。這將有助於大模型在最大化獎勵和探索新響應之間的權衡,即著名的強化學習探索 – 利用權衡(exploration-exploitation trade-off)。
最終,研究證明了採用 COPO 演算法的線上學習正規化能夠在 T 次迭代後,將總後悔值限制在 O (√T) 的量級內,顯示了演算法在處理大規模狀態空間時的效率和穩定性。


演算法設計
在理論框架下,具體的演算法設計中結合了直接偏好最佳化(DPO)的演算法框架。其中第一項對獎勵的構建和獎勵最大化的學習具象化為 DPO 的學習目標,而將樂觀探索的 UCB 項轉化為更容易求解的目標。具體地,在有限狀態動作空間的假設下,樂觀探索項可以表示為基於狀態 – 動作計數(Count)的學習目標,即:

從而,最終的學習目標表示為 DPO 獎勵和基於提示 – 回答計數的探索目標。具體地:

上式中第二項透過在偏好資料中對模型產生的提示 – 回答進行計數,可以鼓勵增加對之前出現次數較少的提示 – 回答的探索來鼓勵大模型突破離線資料集的覆蓋,使模型主動探索新的、可能更優的回覆,從而在迭代過程中擴大資料覆蓋範圍並提高策略的效能。
進而可以透過求解梯度的方式進一步的解析 COPO 最佳化目標的意義:

由兩部分組成:第一部分負責最佳化模型以最大化偏好資料上的預期獎勵;第二部分對應於探索項的梯度,它根據提示 – 回覆對的歷史訪問次數來調整模型的最佳化方向。
當某個回覆的歷史訪問次數較少時,該項會推動模型增加生成該回復的對數似然,從而鼓勵模型探索那些較少被訪問但可能帶來更高獎勵的區域,使演算法能夠在最大化獎勵的同時有效地平衡探索與利用,實現更優的策略學習。
然而,在對大模型進行上述目標最佳化中,往往無法在大規模語言空間中實現對 “提示 – 回覆” 的準確 “計數”。語言空間的狀態通常是無限的,且完全相同的回覆很少被多次產生,因此需要一種方法來估計或模擬這些提示 – 回覆對的 “偽計數”,以便演算法能夠在探索較少訪問的區域時獲得激勵。
在此基礎上,COPO 提出使用 Coin Flipping Network(CFN)來高效的實現偽計數。CFN 不依賴於複雜的密度估計或對模型架構和訓練過程的限制,而是透過一個簡單的迴歸問題來預測基於計數的探索獎勵。
具體地,CFN 基於的基本假設是,計數可以透過從 Rademacher 分佈的取樣來估計來得到,考慮從 {-1,1} 的集合中近似隨機取樣得到的分佈,如果進行 n 次取樣並對取樣結果取平均,則該變數的二階矩和計數的倒數呈現出等價的關係,即:

進而,CFN 透過在每次遇到狀態時進行 Rademacher 試驗(即硬幣翻轉),並利用這些試驗的平均值來推斷狀態的訪問頻率。在實現中,CFN 表示為一個輕量化的網路,它透過最小化預測值和實際 Rademacher 標籤之間的均方誤差來進行訓練。
在實現中,CFN 接受由主語言模型提取的提示 – 回覆對的最後隱藏狀態作為輸入,並輸出一個預測值,該值與狀態的 “偽計數” 成反比。透過這種方式,CFN 能夠為每個提示 – 響應提供一個探索激勵,鼓勵模型在探索迭代中擴大資料覆蓋範圍,提高模型對齊的效能。

實驗結果
在實驗中使用 UltraFeedback 60K 偏好資料集來對 Zephyr-7B 和 Llama3-8B 模型進行微調,資料集中包含豐富的單輪對話偏好對的資料。
實驗中使用了一個小型的獎勵模型 PairRM 0.4B 來對多輪迭代過程中模型模型生成的回覆進行偏好排序,從而在探索中利用不斷更新後的大模型來產生不斷擴充的偏好資料,提升了資料集的質量和覆蓋率。
此外,實驗中使用輕量化的 CFN 網路實現對提示 – 響應對的偽計數,大幅提升了線上 RLHF 演算法的探索能力。

實驗結果表明,COPO 演算法在 AlpacaEval 2.0 和 MT-Bench 基準測試可以透過多輪探索和對齊來不斷進行效能提升。具體地,相比於離線 DPO 演算法,COPO 顯著提升了 Zephyr-7B 和 Llama3-8B 模型的 LC 勝率,分別達到了 18.8% 和 7.1% 的提升,驗證了 LLM 探索能力提升對獲取更大資料覆蓋和最優策略方面的優勢。
此外,COPO 超越了線上 DPO、SELM 等當前最好的線上對齊方法,以 8B 的模型容量超越了許多大體量模型(如 Yi-34B,Llama3-70B)的效能,提升了大模型在語言任務中的指令跟隨能力和泛化能力。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
