夕小瑤科技說 原創
作者 | 海野
OpenAI第二天直播日程:
一句話總結,你可以快速、低成本地微調o1了。
好多人覺得沒意思,奧特曼也沒在場,但是對於科研領域和專業領域的研究者相當有價值!
因為這意味著,可以把你的資料和o1牛逼的推理能力結合起來,讓你快速擁有某個領域的o1模型。
具體就是,透過 「強化微調」 實現。
直播嘉賓還是3男1女的組合,三位是OpenAI的研究員Mark Chen、John Allard、Julie Wang,還有伯克利實驗室計算生物學家Justin Reese。
直播中特意強調,這不是普通的微調,是強化微調。

奧特曼更是讚揚這是2024年最大驚喜之一。

這次釋出的主題雖然和普通人沒什麼關係,但是給領域垂直模型、小型化模型等開闢巨大的想象空間。
在現有模型基礎上,花費有限算力和資料做增強改進,訓練出一個更強的模型。
未來很快,就會出現各個領域的o1模型。
前有OpenAI已經搞定一個強基模型,加上一些高質量的推理問題資料集(不需要正確的推理過程,只要有正確的答案就行),任何人都可以透過Reinforcement Learning Fine-tuning,在現有強大的推理模型基礎上訓練出推理能力更強的模型。
或者,蒸餾出一個更緊湊的小模型,有了領域私有資料和業務邏輯複雜的推理資料集,訓出表現更好領域模型。

介紹中是這樣說的:
強化微調(Reinforcement Fine-Tuning,簡稱ReFT),是一種全新(區別於之前的監督微調)的模型定製技術,允許開發者透過數十到數千個高質量任務的資料集,對模型進行針對性最佳化,並根據提供的參考答案對模型的響應進行評分,使AI在特定領域的複雜任務中表現得更為精準。
經常關注OpenAI的小夥伴可能知道,OpenAI去年初支援對GPT模型的微調,僅是監督式微調(Supervised Fine-Tuning,簡稱SFT)。
與SFT相比,強化微調不僅是教模型記住資料並進行模仿,而是教模型在特定領域進行推理。

強化微調只需要少量的資料(官方說法:as little as a few dozen examples,少到幾十個示例)即可適應任意專業領域。
在官方直播演示裡,他們設定了一個實驗:在給定症狀列表的情況下,用模型預測可能導致罕見遺傳疾病的基因,並讓模型解釋為什麼選這些基因。
實驗人員使用三種模型進行對比:o1 mini、o1滿血版、o1 mini強化微調版。
對於o1 mini強化微調版,實驗人員彙集了大約1100個病例報告作為訓練和驗證的資料集,在使用訓練資料集對模型進行訓練後,上傳驗證資料集對模型推理能力進行反覆測試和調整,同時保證驗證資料集和訓練資料集之間的正確基因沒有重疊,以防模型作弊。
評估結果時,實驗人員設定了三項指標:
第一項,模型一次答對的機率;
第二項,模型前五次預測中有正確答案的機率;
第三項,模型預測中有正確答案的機率。
結果如下圖所示,o1 mini的強化微調版,甚至戰勝了昨天剛釋出的o1。

ReFT概念更早來自位元組
Reinforcement learning fine-tuning,簡稱為ReFT,它結合了監督微調(SFT)和強化學習(RL)的方法,透過引入多條推理路徑的學習,對這些路徑與正確答案的匹配程度進行自動評估,從而最佳化模型生成高質量解答的能力。
而且,這個技術路線,更早竟然是字節跳動提出發出的,論文還發布在今年ACL 24上。
字節跳動在ACL 2024頂會上發表的ReFT論文是:
REFT: Reasoning with REinforced Fine-Tuning
研究內容為,透過監督微調(SFT)和強化學習RL(PPO演算法)結合,來提高大語言模型在解決數學問題方面的推理能力。

ReFT 由兩個階段組成:預熱(Warm-up)階段和強化學習RL階段。首先使用 SFT 對模型進行預熱,然後採用線上強化學習(在該工作中具體是 PPO 演算法)進行最佳化。

預熱階段(Warm-up)
Warm-up是ReFT的初始步驟,其目的是為模型提供一個基礎,使其能夠生成對數學問題的基本正確響應。這個階段使用監督式微調SFT實現:
這一階段使用包含“Question”和“思維鏈CoT”元組的資料集:(x, e)。模型在這些“Question-CoT”對上進行微調,通常持續1-2個epoch。這個過程將模型的預測能力調整到能夠生成適當的響應。
RL階段
在預熱階段之後,模型進入強化學習階段,這個階段使用PPO(Proximal Policy Optimization)演算法來進一步提升模型的效能。
這一階段使用包含“Question”和“Answer”元組(x,y)組成的資料集。
具體來說,模型透過反覆生成多種可能的CoT推理路徑,還有一個評估器,專門評估響應的答案正確性,生成reward訊號反饋。正確答案會給予正獎勵,錯誤答案則不給予獎勵。
這個過程,類似於AlphaZero在圍棋領域的自對弈(self-play)學習。

從結果上看,ReFT在所有資料集上都顯示出比SFT更好的效能,特別是在CodeLLAMA模型上,ReFT在GSM8K資料集上的準確率比SFT提高了近10個百分點。

論文地址:https://arxiv.org/pdf/2401.08967
o1的釋出和強化微調證明了,給定優質推理資料集,透過RL可以確定性提高模型的推理能力。
在RL路線下,垂直領域的應用開發者和研究者,不用再頭疼業務效能的問題了,可以做的事情更多了。
可以透過Reinforcement Learning Fine-tuning的方式,結合領域資料和領域經驗(私域場景裡獨有業務邏輯、工作流程、專家經驗等),去訓練一個垂直領域的模型,提升AI在特定領域的推理能力,這樣以來,就大大加速了AI在各個應用場景落地的速度。
對開發者和企業來說,這樣做的好處不言而喻:
提升了AI模型效能的同時,也加深了業務的護城河。
總結
在今晚直播開始前,已經有網友在網上放出了一些預告:今天OpenAI是面向開發者的一天。

結果,今天的新預告確實足夠振奮人心。
不過目前OpenAI只開放了alpha測試,公開使用要等2025年春季了。

測試申請入口:https://openai.com/form/rft-research-program/
另外,Altman又放出了一個新的訊號……


參考資料:
https://openai.com/12-days/
https://x.com/sama/status/1865096914359980048
https://mp.weixin.qq.com/s/NI6cHRSz4ETp-haY4SgfmA