(本文閱讀時間:14分鐘)
7月13日至7月19日,人工智慧、機器學習領域全球頂級的學術盛會之一 ICML 將在溫哥華舉辦。來自微軟亞洲研究院的多篇論文入選。在接下來的幾天裡,我們將透過兩期“科研上新”為大家帶來多篇研究院入選 ICML 2025 的精選論文解讀。第一期的研究工作主要關注決策模型,涵蓋強化學習、RLHF、擴散模型建模等方向。
歡迎大家參與文末投票,選出你最感興趣的論文!我們將邀請論文的作者們與你在直播間進行前沿技術的交流與探討!


BRIDGE:透過多智慧體迭代最佳化與擴散建模,實現文字引導的時間序列生成
DPO與PPO融合:用於RLHF的強化詞元最佳化
將擴散規劃習慣化,實現高效且有效的決策制定
組合多臂老虎機的離線學習方法
策略過濾機制提升RLHF獎勵訊號質量
預訓練語言模型中馬爾可夫注意力機制在離線強化學習中的作用探析
BRIDGE:透過多智慧體迭代最佳化與擴散建模,實現文字引導的時間序列生成

論文連結:
https://arxiv.org/abs/2503.02445
高質量的時間序列生成(Time-Series Generation, TSG)在金融、醫療、氣象等諸多領域都有著極為廣泛的應用。然而,當前的許多方法主要集中在無條件的單一領域生成上,難以滿足現實場景中對於跨領域、可控性強的時間序列生成需求。特別是在那些需要結合領域知識、例項特徵或操作約束的任務中,傳統方法往往在靈活性與精度方面存在明顯不足。
鑑於此,研究員們提出了一種創新思路——利用文字作為控制訊號來引導時間序列生成,從而提高生成結果的語義一致性與定製化能力。資料稀缺是目前文字引導生成過程中所面臨的關鍵挑戰,對此,研究員們設計了一個基於大語言模型(LLMs)的多智慧體框架,專門用於自動合成豐富多樣且真實可靠的文字到時間序列(Text-to-TS)資料集。透過多個智慧體之間的協同最佳化,該框架可以模擬人類專家的標註過程,顯著提升資料的質量與多樣性。
在此基礎之上,研究員們又進一步提出了 BRIDGE 框架,這是一種混合式的文字控制時間序列生成方法。BRIDGE 框架透過融合語義原型與文字描述,為生成過程提供了領域級別的精準引導訊號,並且巧妙地結合了擴散模型與最佳化機制,實現了高保真度與高可控性的時間序列生成。

圖1:BRIDGE 框架圖
研究員們在12個不同的資料集上對 BRIDGE 框架進行了全面評估。結果顯示,BRIDGE 在其中的11個數據集上均取得了最先進的生成質量表現。在控制能力方面,相較於傳統無文字輸入的生成方式,BRIDGE 在均方誤差(MSE)上實現了12.52%的顯著提升,在平均絕對誤差(MAE)上也達到了6.34%的提升。
這些結果充分表明,文字不僅能夠提供豐富的語義資訊,還能有效地嵌入例項級的時間模式,進而極大地增強生成模型的表現力與適應性。
DPO與PPO融合:用於RLHF的強化詞元最佳化

論文連結:
https://arxiv.org/abs/2404.18922
大語言模型透過基於人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)實現了和人類的價值對齊。在這一過程中,使用近端策略最佳化(Proximal Policy Optimization, PPO)可以最大化稀疏的句子級獎勵,但 PPO 在實際應用中常常面臨訓練不穩定、樣本效率低下等問題。
為解決這一挑戰,研究員們嘗試將 RLHF 問題建模為 token 級的馬爾可夫決策過程(Markov Decision Process, MDP),並使用細粒度的 token 級獎勵資訊來進行強化學習訓練。基於此,研究員們提出了“強化詞元最佳化”(Reinforced Token Optimization, RTO)演算法。該演算法透過人類偏好資料學習 token 級獎勵函式,然後根據獎勵訊號進行策略最佳化。RTO 證明了另一種 RLHF 演算法直接偏好最佳化(Direct Preference Optimization, DPO)訓練得到的模型,可以隱式地提供 token 級獎勵資訊。因此,RTO 將 DPO 和 PPO 融合,能夠使用 PPO 最佳化 DPO 提供的 token 級獎勵。

圖2:RTO 方法的整體架構圖
理論分析表明,RTO 可以尋找近似最優策略的能力,使其在樣本效率方面具有優勢。實踐中,RTO 使用1/8的樣本數量即可超越 PPO。研究員們在多個基準任務上對 RTO 進行了測試,其表現優異,大幅超過傳統 PPO 和其他偏好學習演算法。在 AlpacaEval 2 基準上,RTO 相較於 PPO 提升了7.5個百分點;在 Arena-Hard 任務上提升了4.1個百分點,充分展示了其在真實對齊任務中的強大效能。
將擴散規劃習慣化,實現高效且有效的決策制定

論文連結:
https://arxiv.org/abs/2502.06401
近年來,擴散模型在決策領域展現出極大的潛力,特別是在強化學習任務中表現突出。然而,這類模型在推理階段的高計算成本嚴重製約了其實際應用。對此,研究員們提出了 Habi 通用框架,透過將計算密集的擴散規劃模型轉化為高效的決策模型來突破這一限制。

圖3:Habi 框架示意圖。(a) 在習慣化(訓練)階段,Habi 透過重建由擴散規劃器生成的計劃中的動作進行學習,習慣(先驗)與規劃(後驗)的決策空間透過潛在空間中的 KL 散度進行對齊。可訓練的模組包括先驗編碼器、後驗編碼器、解碼器和評價器;(b) 在習慣性推理(HI)階段,僅需使用輕量級的先驗編碼器和潛在解碼器,即可實現快速且高質量的習慣性行為以支援決策制定。
Habi 框架的創新靈感源自人類認知的習慣化機制——透過反覆訓練,將高成本的目標導向行為轉化為高效的自動化響應。其核心在於利用擴散模型強大的訓練階段表徵能力,結合策略蒸餾等技術,將其決策能力遷移至輕量級策略網路,從而實現推理階段的快速響應。
研究員們在 D4RL 等標準離線強化學習基準上進行了系統驗證。結果顯示,即使在普通筆記本 CPU 環境下,經過習慣化處理的模型仍能保持800Hz以上的決策頻率,顯著超越現有擴散規劃方法的推理效率。更值得注意的是,模型在加速推理的同時,效能與原始擴散模型基本持平,部分任務中甚至展現出更優的表現。
該研究還從跨學科視角進行了深入探討:在生物學層面,透過類比大腦習慣化機制闡釋了模型的行為遷移原理;在工程層面,系統評估了新方法在不同任務和架構下的魯棒性。這項研究不僅為擴散規劃的效率最佳化提供了創新解決方案,更為複雜決策模型的實用化落地開闢了新的技術路徑。
組合多臂老虎機的離線學習方法

論文連結:
https://arxiv.org/abs/2501.19300
組合多臂老虎機(Combinatorial Multi-armed Bandit, CMAB)是一個重要的序貫決策框架,過去十年中受到廣泛關注。但現有研究大多集中在線上學習場景,往往忽視了線上互動帶來的高昂成本以及現實中大量可用的離線資料。為此,本論文提出了首個專為 CMAB 設計的離線學習框架 Off-CMAB,旨在充分利用已有資料,降低學習成本,同時保持高效的策略最佳化能力。
Off-CMAB 的核心是組合下置信界(CLCB)演算法。該演算法結合了悲觀的獎勵估計和組合最佳化求解器,能夠在不進行線上互動的前提下,從離線資料中學習出接近最優的策略。為評估離線資料的質量,研究員們提出了兩個新的資料覆蓋條件,並在理論上進行了證明:在滿足這些條件的情況下,CLCB 演算法可以達到近乎最優的次優性間隙,其效能與理論下界相差僅一個對數因子。
該方法在多個實際應用中得到了驗證,包括排序學習、LLMs 快取策略最佳化,以及社交影響最大化等任務。實驗表明,CLCB 不僅能處理非線性獎勵函式和複雜的反饋機制,還能應對分佈外的動作樣本,即使這些樣本不包含最優甚至可行的動作。在多個合成和真實資料集上的廣泛實驗進一步證明了 CLCB 的優越效能,其在準確性和穩定性方面均優於現有方法。

圖4:LLMs 快取策略最佳化問題和排序學習問題中,各演算法的次優性間隙比較
策略過濾機制提升RLHF獎勵訊號質量

論文連結:
https://arxiv.org/abs/2409.06957
RLHF 已成為對大語言模型進行對齊微調的核心技術。其關鍵在於透過獎勵模型模擬人類偏好,引導模型生成更符合人類價值觀的響應。然而,在程式碼生成和數學推理等需要精確判斷的任務中,獎勵模型給出的訊號中通常夾雜了大量的噪聲,這是因為獎勵模型容易受到輸入分佈、模型偏差和訓練資料稀疏性等方面的影響。這種噪聲不僅降低了訓練效率,還可能誤導策略學習,最終影響模型效能。
研究員們發現,獎勵模型給出的獎勵訊號的可靠性隨著獎勵區間的不同而具有明顯差異。由此,研究員們提出了一種名為“策略過濾”(Policy Filtration)的新方法,並將其整合到主流的 PPO 演算法中,形成 PF-PPO。該方法的核心思想是在訓練過程中動態識別並過濾掉那些獎勵不可靠的樣本,僅保留獎勵模型在其“信任區域”內的樣本用於策略更新。具體做法是透過計算獎勵與參考得分之間的決定係數(R²)來評估獎勵的可信度,並據此確定最優的獎勵過濾區間。研究發現,獎勵模型在高分段或中間分段的穩定性更強,因此策略過濾機制能夠有效提升訓練訊號的質量。

圖5:獎勵模型的可靠性在不同獎勵區間存在顯著差異
研究員們在多個真實任務上的實驗驗證了PF-PPO的有效性。PF-PPO 在 HumanEval、MBPP 和 LeetCode Contest 等程式碼生成基準測試以及 Ape210K 和 CMATH 等數學推理基準測試上都取得了明顯的效能提升。而且,該演算法能夠適用於不同的模型架構(如 deepseek-7B,qwen1.5-7B 和 doubao-25B),並在不同模型下均表現出顯著的能力提升。此外,PF-PPO 還展現出更強的訓練穩定性和更快的收斂速度,表明其在實際部署中具有較高的實用價值。
該研究表明,策略過濾是一種簡單而有效的機制,能夠顯著緩解獎勵模型噪聲對 RLHF 訓練的干擾。該方法為未來更高效、更可靠的 RLHF 訓練框架提供了重要啟示。
預訓練語言模型中馬爾可夫注意力機制在離線強化學習中的作用探析

論文連結:
https://arxiv.org/abs/2409.06985
近年來,離線強化學習(Offline Reinforcement Learning, Offline RL)因其無需線上互動即可學習策略,受到了廣泛關注。決策 Transformer(Decision Transformer, DT)作為一種能夠將強化學習問題轉化為序列建模任務的方法,在多個環境中取得了顯著成果。與此同時,預訓練語言模型(如 GPT)在自然語言處理領域的成功,激發了科研人員將其遷移至強化學習任務的興趣,期望藉助其強大的表示能力來提升策略學習的效率與泛化能力。然而,在實際應用中,雖然這類跨領域預訓練模型在短期任務中表現優異,但在需要長期規劃能力的任務中卻常常失效,甚至不如從零開始訓練的模型。
為此,微軟亞洲研究院的研究員們開始對其內部機制進行深入探究。本篇論文聚焦於預訓練語言模型中的注意力機制,首次揭示了“馬爾可夫注意力頭”(Markov Heads)在強化學習任務中的關鍵作用。研究發現,這些注意力頭傾向於僅關注當前時間步及其相鄰狀態,然後形成一種近似馬爾可夫性的注意力分佈。這種結構在短期任務中有助於對區域性資訊的利用,但在長期任務中卻限制了模型對遠端依賴的建模能力,從而影響策略的整體表現。
為解決這一問題,研究員們提出了一種通用的增強方法 GPT2-DTMA(General Pre-trained Transformer with Decision Transformer Mixture of Attention)。該方法在微調階段引入混合注意力機制(Mixture of Attention, MoA),透過組合馬爾可夫注意力與全域性注意力,使模型能夠根據任務需求自適應地調整注意力分佈,從而兼顧短期與長期任務的表現。該機制無需修改原始模型結構,且具有良好的通用性與可擴充套件性。

圖6:(左)DT 在訓練後對於鄰近時間步資訊的關注顯著提升;(右)預訓練模型在微調前後都有相似的現象,且研究員們從理論上證明了這種現象是微調模型無法改變的。
研究員們在多個標準離線強化學習基準環境(如 D4RL)上對該方法進行了實驗,結果表明,GPT2-DTMA 在短期任務中顯著優於傳統 DT 和其他預訓練方法,在長期任務中也有效緩解了馬爾可夫注意力帶來的效能瓶頸,表現接近甚至超過從零訓練的模型。此外,分析還表明,MoA 機制能夠動態調整注意力頭的權重分佈,提升了模型對不同時間尺度資訊的建模能力。
快來為你希望直播分享的論文投上一票吧!
微軟亞洲研究院新書《無界》上市
當面對集體性的難題時,思想的碰撞與智慧的共鳴顯得尤為重要。微軟亞洲研究院歷時兩年打磨的《無界——透視微軟創新研究之境》一書,正是獻給這個時代的探索指南。
包括周禮棟院長在內的十餘位頂尖科研人員參與了本書的編寫工作,他們從不同角度探討了人工智慧、計算機科學及其交叉領域的最新進展,分享了前沿的展望、觀點以及寶貴的科研經驗。
本書已獲得十餘位全球頂尖學者的推薦,其中包括圖靈獎得主、院士、知名高校領導、在各自領域享有盛譽的學者,以及微軟亞洲研究院的傑出院友。
現在,《無界——透視微軟創新研究之境》已全平臺火爆開售!首批讀者將獲得限量版微軟50週年書籤,書籤上的文章作者親筆簽名將隨機呈現,盲盒式驚喜等你開啟!
立即點選下方連結,開啟你的專屬閱讀之旅!
你也許還想看:
