7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM|Transformer作者團隊

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者|不圓
Thinking模式當道,教師模型也該學會“啟發式”教學了——
由Transformer作者之一Llion Jones創立的明星AI公司Sakana AI,帶著他們的新方法來了!
這個方法要求教師模型像優秀的人類教師一樣,根據已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。
用Sanaka AI的新方法訓練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。
訓練比自己大3倍的學生模型也不在話下。
對此有網友評價:我們剛剛才意識到,最好的老師不是房間裡最聰明的人。

像人類老師一樣

許多高階推理模型,如DeepSeek-R1,遵循兩階段的訓練過程:首先訓練教師模型,然後使用其輸出訓練學生模型,最終產品為學生模型。
傳統上,這些教師模型透過昂貴的強化學習(RL)進行訓練,模型必須從頭學習解決複雜問題,只有在得到正確答案時才會獲得獎勵:
先讓教師模型得到問題的答案,再把答案仔細過濾並重新用作學生模型的訓練資料。
這種方法緩慢、昂貴且往往過於偏狹,過於依賴教師模型自身能力。因為教師模型拿到的僅僅只有問題,它們需要自己思考給出結果。
而Sanaka AI的新方法不再透過解決問題來教學,而是讓新的強化學習教師(RLTs)“學會教學”
要求它們根據已知解決方案輸出清晰的逐步解釋,就像優秀的人類教師一樣。
就像一位好教師不需要重新發現數學定理來解釋它們一樣,RLTs在輸入提示中既獲得問題的內容,也獲得每個問題的正確答案
它們的任務是提供有助於學生模型學習的、逐步的詳細解釋,從而連線這些知識點。如果學生模型能夠根據教師對問題的解釋輕鬆理解正確解決方案,那麼這就是RLTs做得好的訊號。
也就是說,對RLTs的獎勵不再是能自己解決問題,而是能解釋對學生模型有多有幫助。
Sanaka AI的新方法解決了傳統方法中的兩個問題:
首先,新方法的訓練迴圈使教師訓練與其真正目的(為學生進行蒸餾/冷啟動提供幫助)保持一致,從而大大提高了效率。
其次,將問題和正確答案同時輸入RLT,能幫助原本無法獨立解決問題的小型模型學會教學。
這些特性使Sanaka AI的新方法能更快、更經濟、更有效地訓練出具有強大推理能力的學生模型。

小型教師模型的“不合理但有效”

為了驗證新方法的有效性,Sanaka AI用新方法訓練了一個7B的RLT小模型作為教學模型與此前最先進的方法進行比較。
競爭方法使用規模更大的模型,如DeepSeek-R1和QwQ,並結合GPT-4o-mini等工具在用於訓練學生模型之前清理其輸出,以獲得額外幫助。
結果發現:使用相同的Qwen2.5學生模型、相同的問題以及相同的評估設定,RLT以遠少的計算量取得了比DeepSeek-R1和QwQ更好的效果。
把學生模型的規模擴大,結果同樣令人驚訝:7B的RLT成功訓練了一個32B的學生模型,其規模是自己四倍以上,並取得了優異的成果。
Sanaka AI的新方法還可以和傳統RL方法相輔相成:
上圖展示了在2024年美國邀請數學考試(AIME)、競賽數學和研究生級問答基準(GPQA)上的平均效能。
新方法和傳統RL方法聯合使用,使RLT獲得了改進效能,並補充了傳統RL方法在問題解決方面的應用。
用作起點時,RLT幫助學生模型達到了更高的效能水平。
從成本角度來看,差異非常顯著:使用RLT訓練32B的學生模型僅需單個計算節點一天時間,而傳統RL方法在相同硬體上需要數月。
一項定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異:

Deepseek-R1的輸出常常依賴於外部工具,例如計算器、網路上的討論以及玩梗,包括一些具有誤導性的內容。
相比之下,RLT提供的解釋避免了令人困惑的語言,並增加了額外的邏輯步驟來幫助學生。
這些直觀的改進能夠轉化為學生語言模型的改進學習,像人類專家一樣簡潔且清晰。
參考連結:https://x.com/SakanaAILabs/status/1936965841188425776部落格:https://sakana.ai/rlt論文:https://arxiv.org/abs/2506.08388程式碼:github.com/SakanaAI/RLT

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章