位元組再送神助攻,大模型繼續狂飆…

你好,我是郭震
今日AI技術再迎來突破,OpenAI發現一種微調技術,能讓大模型o1-mini超越地表最強大模型o1
如下圖所示,微調後的o1-mini竟然超越了o1:
他們稱這項微調技術為:強化微調(Reinforcement Fine-Tuning),下文統一簡稱為RFT.
更令人意想不到的是,強化微調RFT的技術思路,竟然全部來自位元組

下面這篇Reasoing with REinforced Fine-Tuning:

就這樣位元組再送神助攻。
OpenAI拿它來訓練自家模型,再讓大模型繼續狂飆,o1-mini漲超o1.
因此要想了解強化微調RTF,透過位元組的這篇論文就能知道大概。先看看下面這幅圖:
此圖來自位元組的這篇論文
此圖講解了RFT的主要步驟,首先經過監督微調(Supervised Fine-Tuning ),簡稱SFT,目的就是為了預熱RFT,透過Chain of Thought (COT) ,也就是上圖中的標記 e,得到很多推理路徑樣本。
RFT預熱後,進入第二階段,使用線上強化學習演算法訓練,訓練完成得到最終Policy. 使用的強化學習演算法是OpenAI提出的PPO.
總結來說RFT步驟:先SFT,後PPO.
下面說下RFT使用的一個核心演算法:PPO
PPO現在強化學習中使用很多,主要原因就是它讓策略更新穩定,並且訓練速度還挺快。
如下是PPO的三個核心要點,PPO透過引入取樣比,使用剪枝損失函式,確保了策略的更新幅度不會過大,使用epochs 和 mini-batch重複利用樣本從而提升樣本利用率:
可這是為什麼,如何做到策略的更新幅度不會過大的?這個問題曾經一直很困擾研究者。
取樣比的公式給出了新舊策略的變化率。
然後關鍵來了。
引入了牛逼的剪枝目標函式,透過這個損失函式加大懲罰那些變化率大的策略更新。
具體來說,如下圖所示,超過閾值1或低於某閾值2,都認為變動過大,然後剪枝發揮威力,返回一個較小的相對於At的權重:
那麼At是什麼?
At是優勢函式(Advantage Function)
衡量了動作相對於狀態的平均好壞程度,如果大於0,表明當前策略下推理出的動作a優於平均水平,具體看下面截圖:
這裡面又引出了強化學習最為核心的、最為基礎的兩個函式,動作價值函式,狀態價值函式。它們直接用於評估當前決策(s,a)後,在未來的回報變現。
簡單理解,這是兩個"算命"函式,一旦訓練後,模型便具備了預測未來的能力。
深度強化學習,是AI領域很有意思的一個分支,感興趣的可以進一步深入理解裡面的細節,限於篇幅,不再繼續展開。
總結一下子
強化微調RFT有望成為大模型微調的新正規化,個人理解尤其是在複雜推理方面有望有較大或大幅效能提升。
它使用了SFT做熱身得到大量樣本,然後PPO強化學習,得到最終的決策Policy,一旦有了很好的Policy,複雜推理任務給到它後,它就能決策出最佳的推理路徑step1, step2,step3,…stepn,從而更有可能得到正確答案。
最後一句,OpenAI得感謝位元組做出的技術貢獻。
如果這篇文章覺得對你有用,可否點個關注,給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,這樣以後就不會錯過我的AI教程。謝謝你看我的文章,我們下篇再見!


相關文章