監督學習也能從錯誤中學習反思?!清華英偉達聯合提出隱式負向策略爆炸提升數學能力

NFT團隊 投稿量子位 | 公眾號 QbitAI
監督學習也能像強化學習一樣進行“自我反思”了。
清華大學與英偉達、斯坦福聯合提出新的監督學習方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)演算法基礎上透過構造一個“隱式負向模型” 來額外利用負向資料進行訓練。
這並不意味著使用“差資料”進行訓練,而是在已知的模型計算結果前提下,透過負向資料訓練正向模型,即“隱式負向策略(Implicit Negative Policy)”
這一策略彌合了監督學習和強化學習的差距,使得兩者效能基本持平。

架構圖語言模型線上強化演算法光譜圖
更讓人驚訝的是,NFT損失函式梯度和GRPO在On-Policy條件下是等價的!這意味著,GRPO中人為經驗設定的“Group Relative Normalization”方案,可以直接透過理論推導自然得出。

方法:負向策略計算出正向模型

NFT定義了一個線上強化過程:
1.資料取樣:語言模型自己產生大量數學問題答案,透過一個01獎勵函式,把答案分為正確和錯誤兩類,並統計每個問題回答準確率[數學公式]。
2.隱式策略建模:利用原始模型和待訓練正向模型,構造一個隱式負向策略來建模負向資料。
3.策略最佳化:在正確資料上,直接監督訓練正向策略模型;在錯誤資料上,透過用隱式負向策略擬合建模,達到直接最佳化正向策略模型的目的。
考慮這樣一個監督學習基線:Rejection sampling Finetuning(RFT)。每一輪,研究團隊讓模型自己產生大量數學問題答案,透過一個01獎勵函式,把所有模型產生的錯誤答案丟棄,僅在高質量正向資料上進行監督訓練。RFT中,研究團隊每一輪的訓練目標是:
問題關鍵在於:能否在負向資料上監督訓練,也同樣得到上面的“正向策略”呢?
乍看上去是不可能的,在負向資料上訓練只能得到沒有用的“負向策略”。
然而,問題的轉折點在於,資料是已知模型線上取樣的,也就是正負向資料分佈的和是已知的。由貝葉斯公式可知以下線性關係:
這說明,假設真能在負向資料上學習到一個“負向策略”,可以把這個負向策略和原始生成策略結合,“計算”得出想要的正向模型。
在實際操作中,不是真的去學習一個“差模型”。研究團隊提出“隱式負向策略”(Implicit Negative Policy),可以直接在負向資料上訓練正向策略。可用以下表達式來引數化隱式負向模型:
其中rq表示模型在回答問題q時的正確率,現實中由於模型對一個問題會產生多個回答,我們可以很容易地估計rq這裡表明隱式負向策略不是一個靜態的模型,而是基於不同難度的問題動態構造的
因此,NFT損失函式就可以表達為:
對以上損失函式直接求導,研究團隊在嚴格On-policy條件下得到和GRPO等價的梯度表示式。
這暗示了監督學習和強化學習或許存在深層的聯絡,也直接說明NFT是一個絕對可靠的演算法,最差也是退回On-Policy訓練和GRPO等價。

結果:監督強化學習方案效能持平,負向反饋在大模型中優勢更加明顯

NFT和當下效能最優的強化學習演算法效能持平,部分場景下可能更有優勢(可以在現有監督學習框架基礎上簡單實現)。
與主流RLHF演算法對比,NFT7B效能超過GRPO、DAPO;32B效能和DAPO基本持平。研究團隊還觀察到,模型越大,NFT和RFT演算法效能差異越明顯。這暗示了負向反饋在大模型中承擔更重要的作用。
和其他已有的基於Qwen-7B zero style訓練模型相比,NFT達到最高的數學平均成績。
作為一個純監督學習演算法,NFT不依賴任何外界資料,可實現數學能力的大幅提升。

架構圖NFT在Qwen-7B(左)和32B模型(右)上效能表現及對比
研究團隊還發現NFT演算法在不損失效能條件下有利於模型熵增加,鼓勵模型充分探索。
NFT演算法指出並彌合了強化學習和監督學習的本質差異,這暗示兩套機器學習理論存在深層聯絡,可以幫助研究者重新定位、思考和放大強化訓練的本質優勢。
專案網頁: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/論文連結: https://arxiv.org/pdf/2505.18116專案程式碼: https://github.com/NVlabs/NFT
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章