MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 知乎

作者｜haotian

近期，無監督RL在社群也掀起了一陣熱潮，主打一個多快好省（不能訓太長step）有效果，且不論文章裡面的evaluation是否存在問題（紅溫預警！“打假”7篇近期熱門RL強化學習論文），本文簡要分析一下這些文章的出發點以及一些形而上學的直觀分析。

無監督RL

無監督RL目前在LLM領域多指不需要使用gold-answer的RL，這裡一般包括兩種：

• 第一種setting：prompt為真實資料，不使用真實answer
• 第二種setting：prompt為合成數據，沒有真實answer

目前的無監督RL主要集中在第一種setting，即不使用真實資料提供的answer進行RL訓練。如果不使用真實資料的answer作為reward-signal，只能借鑑傳統semi-supervised-learning的想法：利用某種consistency（比如rdropout、uda等等），降低輸出的不確定性。（這裡敲重點：RL本事是reverse-kl的最佳化目標，最佳化過程中，輸出不確定性天然會下降，如果進一步利用consistency，可預期輸出的不確定性會下降的更多，最終導致輸出坍縮到某個固定的pattern，進而失去探索能力，使得模型效能下降）。

CONSISTENCY

consistency在半監督學習中是一個常見的思想（包括自監督學習），透過擾動、變換、加噪聲等等，讓這些輸入和clean樣本透過網路後，輸出分佈具有一致性：

• kl-divergence低
• distance-metric小

如google的UDA^[1]:

進入正題：LLM取樣輸出的一致性metric如何選擇，便有了不同的無監督RL方法。經典的一致性準則：

• 答案一致性（majority-voting）
• 熵/kl-divergence

答案一致性

相關工作如TTRL^[2]、Can Large Reasoning Models Self-Train?^[3]，均是利用答案一致性得到pesudo-answer，並將pesudo-answer作為“gold- answer”用於RLVR的最佳化：

直播預告！從 TTS 到 TTRL：無標籤資料強化學習探索與展望

包括SEED-GRPO^[4]也引入semantic-entropy（按照answer是否一致做“語義”聚類）。

使用投票機制獲取pesudo-answer，天然會讓模型的輸出越來越一致，而明顯的short-cut就是輸出response幾乎“一摸一樣”，答案投票才會越來越一致，reward才會越來越高。自然而然，輸出多樣性會下降甚至崩潰。當訓練step過多後，效果下降似乎不可避免，但在合理的訓練step內，可預期可以提升效果。

trajectory-level的自洽性

最容易想到的是熵，熵代表了不確定度量，熵越低，系統越穩定，結論越一致，但效果不一定更好。

相關工作如ent-rl ^[5]、Intuitor^[6]，透過最佳化不確定度，在合理的訓練step內，有效提升了模型效能。

如ent-rl使用entropy作為reward，讓模型越來越自信。

Intuitor(Learning to Reason without External Rewards)則提出使用self-certainty：

self-certainty越偏離均勻分佈，self-certainty越大（self-certainty^[7]是一種test-time-scaling的取樣方法，能夠提升BON的效果）。

當然，在標準RLVR訓練中（使用gold-answer），self-certainty指標也是隨著訓練過程的進行越來越大。

No Free Lunch: Rethinking Internal Feedback for LLM Reasoning^[8]則更為系統的分析了基於internal-feedback的LLM-RL訓練，基本結論也是類似：隨著訓練的進行，基於internal-feedback的效果會逐漸decay。

借鑑UDA等等方法，更好的利用internal-feedback還是半監督方法，即使用一部分gold-answer的reward+一部分internal-feedback的reward，可能可以避免這個問題。另外，internal-feedback 可能也可以用來作為 Intrinsically-motivated-RL^[9]比如random-network-distillation：

總結

無監督RL大部分可以歸為利用某種內在一致性，輸出不確定性如投票、entropy、self-certainty等等。使用內在一致性作為reward大機率隨著訓練的進行，熵會坍縮，進而導致效果下降。在合理的訓練steps內，效果也可預期有一定提升。

未來，參考半監督學習的常見方法如UDA等等，混合gold-answer-reward-signal以及internal-feedback，可能可以更好的實現資料效率提升以及提升exploration效率（如random-network-disitllation和self-certainty筆者感覺就非常像，random-network的輸出比較接近均勻分佈）。

最後吐槽一下，近期agentic-rl，環境穩定性（經常失敗、掛掉），太影響訓練的debug了（有時候是環境延遲超時、環境崩潰導致模型一次又一次工具呼叫，這個時候加入reward-penalty會讓訓練跑的更偏）。

引用連結

[1] UDA:https://arxiv.org/abs/1904.12848[2]TTRL:https://arxiv.org/pdf/2504.16084[3]Can Large Reasoning Models Self-Train?:https://arxiv.org/abs/2505.21444[4]SEED-GRPO:https://arxiv.org/abs/2505.12346[5]ent-rl :https://arxiv.org/abs/2505.22660[6]Intuitor:https://arxiv.org/abs/2505.19590[7]self-certainty:https://arxiv.org/abs/2502.18581[8]No Free Lunch: Rethinking Internal Feedback for LLM Reasoning:https://www.alphaxiv.org/abs/2506.17219v1[9]Intrinsically-motivated-RL:https://arxiv.org/abs/2203.02298