
當前,大語言模型(LLMs)已在數學推理、程式碼等任務中展現出強大的能力。然而,現有提升推理效能的主流正規化,往往依賴監督微調(SFT)與強化學習(RL)的結合,依賴於人工標註的推理路徑、標準答案或額外的獎勵模型。這不僅成本高昂,也限制了方法的通用性與可擴充套件性。
針對這一痛點,本文(2025 年 4 月 8 日首次放出)提出 Entropy Minimized Policy Optimization(EMPO)方法,開創性地探索完全無監督條件下實現 R1-Zero-like 正規化的大模型推理能力提升策略。

論文標題:
Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization
論文地址:
https://arxiv.org/pdf/2504.05812
Github 地址:
https://github.com/QingyangZhang/EMPO
完全無監督:EMPO 直接從 base 模型進行強化學習訓練,不需要 SFT 啟動和指令微調, 不依賴人工標註的問題答案;
任務通用性:每輪迭代中,從當前策略模型中取樣生成多個回答,透過語義等價性構建聚類,用語義簇機率作為獎勵訊號驅動學習,可適用於數學外的通用推理任務。在語義層面持續最小化回答的不確定性(熵),突破格式固定答案的限制。
為實現語義熵最小化,EMPO 透過最大化下述策略:

需要指出的是,相較於 GRPO 幾乎沒有 reward hacking 空間的基於回答正確性的獎勵,無監督的熵目標在最佳化過程中可能存在被“投機取巧”利用的風險。例如,模型可能會傾向於過度擬合那些具有高置信度的常見回覆模式(例如總是簡單的回覆 “I don’t know”),以獲取更高的獎勵,而不真正進行深入推理。
為應對這一問題,文章提出了一種簡單的熵閾值控制策略:透過設定雙閾值(即 和 ),僅對不確定性處於適中範圍的提示進行最佳化,從而避免模型對於過簡單過困難問題的最佳化。
未來若能設計出更有效的無監督代理目標,將有望進一步提升模型的推理能力,同時降低獎勵欺騙的風險。
相比依賴有監督訊號的 GRPO,EMPO 僅以問題本身作為唯一監督訊號,在無需標註答案或推理軌跡的條件下,僅透過 20K 條推理資料微調,便在數學推理任務中展現出顯著效能提升:

EMPO 可適用的推理任務不只包括數學,還包括其他通用推理任務,如物理、化學、生物、法律、醫學等通用推理任務。這些問題答案形式自由,正確答案不唯一。
針對更一般的 free-form 的推理任務,EMPO 首先使用蘊含模型(bert-like 的小模型、或引數量 ≤ 1B 的語言模型)對不同回覆根據語義相似性進行聚類,計算語義層面的機率作為獎勵訊號,克服了傳統的 GRPO 無法計算開放問答獎勵的侷限性,透過無監督 RL 微調,模型的通用推理任務能力得到進一步提升:

文章進一步對 EMPO 起作用的原因進行了解釋。在經典機器學習中,熵最小化是常用的無監督最佳化目標。EMPO 可以看作經典熵最小化學習目標在 LLM 推理領域的拓展,即:在語義空間最小化預測的熵進行無監督學習。
對 Qwen2.5-Math-7B Base 模型在上應用 EMPO 進行微調,訓練過程的視覺化如下:
-
左圖展示了語義熵的滑動平均變化,穩定下降;
-
中圖顯示了無監督獎勵訊號的上升趨勢;
-
右圖呈現了模型在訓練資料上的準確率提升軌跡。
文章進一步對 EMPO 起作用的原因進行了解釋。在經典機器學習中,熵最小化是常用的無監督最佳化目標。EMPO 可以看作經典熵最小化學習目標在 LLM 推理領域的拓展,即:在語義空間最小化預測的熵進行無監督學習。
對 Qwen2.5-Math-7B Base 模型在上應用 EMPO 進行微調,訓練過程的視覺化如下:

-
左圖展示了語義熵的滑動平均變化,穩定下降;
-
中圖顯示了無監督獎勵訊號的上升趨勢;
-
右圖呈現了模型在訓練資料上的準確率提升軌跡。
上述結果表明,EMPO 能夠降低模型在無標註資料上的語義熵,進而無監督提升了模型的效能。
為什麼 EMPO 能夠起作用?
EMPO 是經典機器學習中熵最小化在大語言模型推理任務上的拓展,語義熵(semantic entropy)是經典的夏農熵在大語言模型上的自然拓展,而前者已被廣泛驗證與大模型的錯誤(幻覺)輸出有強的負相關性,因此語義熵最小化能夠作為代理最佳化目標提升模型效能。
與基於多數投票或模型自我評估的 self-training 相比,語義熵具有更完備的理論支撐,進一步結合熵閾值過濾機制後,能夠提供更精細、可靠的細粒度監督訊號。
EMPO 起作用說明了什麼?
在文章 7B 模型的實驗中,EMPO 的表現與 GRPO 和 Online-DPO 等有監督方法相當,而它本身卻完全不依賴外部監督。
這一不尋常的觀測結果促使文章提出了一些可能的解釋:預訓練階段已經賦予了 Base 模型的全部能力,而微調更像是對輸出風格的遷移,使模型定位到合適的輸出空間。
基於這一假設,文章認為 EMPO 的出色表現歸功於 Qwen Base 模型強大的預訓練過程。文章猜測 Qwen Base 在預訓練過程中已經見過許多推理語料,而激發模型本身已有的推理能力並不需要非常密集的監督訊號。這一猜測也能夠和同期的其他工作相互印證 [3]。

參考文獻

[1] Online-dpo-r1: Unlocking effective reasoning without the ppo overhead
[2] Reft: Representation finetuning for language models
[3] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
