
來源 | 知乎
作者|haotian
近期,無監督RL在社群也掀起了一陣熱潮,主打一個 多快好省(不能訓太長step)有效果,且不論文章裡面的evaluation是否存在問題(紅溫預警!“打假”7篇近期熱門RL強化學習論文),本文簡要分析一下這些文章的出發點以及一些形而上學的直觀分析。
無監督RL
無監督RL目前在LLM領域多指不需要使用gold-answer的RL,這裡一般包括兩種:
-
• 第一種setting:prompt為真實資料,不使用真實answer -
• 第二種setting:prompt為合成數據,沒有真實answer
目前的無監督RL主要集中在第一種setting,即不使用真實資料提供的answer進行RL訓練。如果不使用真實資料的answer作為reward-signal,只能借鑑傳統semi-supervised-learning的想法:利用某種consistency(比如rdropout、uda等等),降低輸出的不確定性。(這裡敲重點:RL本事是reverse-kl的最佳化目標,最佳化過程中,輸出不確定性天然會下降,如果進一步利用consistency,可預期輸出的不確定性會下降的更多,最終導致輸出坍縮到某個固定的pattern,進而失去探索能力,使得模型效能下降)。
CONSISTENCY
consistency在半監督學習中是一個常見的思想(包括 自監督學習),透過擾動、變換、加噪聲等等,讓這些輸入和clean樣本透過網路後,輸出分佈具有一致性:
-
• kl-divergence低 -
• distance-metric小
如google的UDA[1]:

進入正題:LLM取樣輸出的一致性metric如何選擇,便有了不同的無監督RL方法。經典的一致性準則:
-
• 答案一致性(majority-voting) -
• 熵/kl-divergence
答案一致性
相關工作如TTRL[2]、Can Large Reasoning Models Self-Train?[3],均是利用答案一致性得到pesudo-answer,並將pesudo-answer作為“gold- answer”用於RLVR的最佳化:


包括SEED-GRPO[4]也引入semantic-entropy(按照answer是否一致做“語義”聚類)。
使用投票機制獲取pesudo-answer,天然會讓模型的輸出越來越一致,而明顯的short-cut就是輸出response幾乎“一摸一樣”,答案投票才會越來越一致,reward才會越來越高。自然而然,輸出多樣性會下降甚至崩潰。當訓練step過多後,效果下降似乎不可避免,但在合理的訓練step內,可預期可以提升效果。
trajectory-level的自洽性
最容易想到的是熵,熵代表了不確定度量,熵越低,系統越穩定,結論越一致,但效果不一定更好。
相關工作如ent-rl [5]、Intuitor[6],透過最佳化不確定度,在合理的訓練step內,有效提升了模型效能。
如ent-rl使用entropy作為reward,讓模型越來越自信。


Intuitor(Learning to Reason without External Rewards)則提出使用self-certainty:


self-certainty越偏離均勻分佈,self-certainty越大(self-certainty[7]是一種test-time-scaling的取樣方法,能夠提升BON的效果)。
當然,在標準RLVR訓練中(使用gold-answer),self-certainty指標也是隨著訓練過程的進行越來越大。

No Free Lunch: Rethinking Internal Feedback for LLM Reasoning[8]則更為系統的分析了基於internal-feedback的LLM-RL訓練,基本結論也是類似:隨著訓練的進行,基於internal-feedback的效果會逐漸decay。
借鑑UDA等等方法,更好的利用internal-feedback還是半監督方法,即使用一部分gold-answer的reward+一部分internal-feedback的reward,可能可以避免這個問題。另外,internal-feedback 可能也可以用來作為 Intrinsically-motivated-RL[9]比如random-network-distillation:

總結
無監督RL大部分可以歸為利用某種內在一致性,輸出不確定性 如投票、entropy、self-certainty等等。使用內在一致性作為reward大機率隨著訓練的進行,熵會坍縮,進而導致效果下降。在合理的訓練steps內,效果也可預期有一定提升。
未來,參考半監督學習的常見方法如UDA等等,混合gold-answer-reward-signal以及internal-feedback,可能可以更好的實現資料效率提升以及提升exploration效率(如random-network-disitllation和self-certainty筆者感覺就非常像,random-network的輸出比較接近均勻分佈)。
最後吐槽一下,近期agentic-rl,環境穩定性(經常失敗、掛掉),太影響訓練的debug了(有時候是環境延遲超時、環境崩潰導致模型一次又一次工具呼叫,這個時候加入reward-penalty會讓訓練跑的更偏)。
引用連結
[1]
UDA:https://arxiv.org/abs/1904.12848[2]
TTRL:https://arxiv.org/pdf/2504.16084[3]
Can Large Reasoning Models Self-Train?:https://arxiv.org/abs/2505.21444[4]
SEED-GRPO:https://arxiv.org/abs/2505.12346[5]
ent-rl :https://arxiv.org/abs/2505.22660[6]
Intuitor:https://arxiv.org/abs/2505.19590[7]
self-certainty:https://arxiv.org/abs/2502.18581[8]
No Free Lunch: Rethinking Internal Feedback for LLM Reasoning:https://www.alphaxiv.org/abs/2506.17219v1[9]
Intrinsically-motivated-RL:https://arxiv.org/abs/2203.02298
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
