MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

轉載自 | 夕小瑤科技說

作者 | 含蕭

“世間的捷徑，皆有代價”

大家好，我是含蕭。

近日，在 OpenAI 計劃長達十二天的"Shipmas"的前兩天釋出中，滿血版 o1 系列以及強化微調技術 RFT(Reinforcement Fine-Tuning)面世。

其中，完全體 o1 更智慧、更快、多模態輸入、更擅長指令遵循、編碼效能提升、錯誤率降低約 34%、思考速度提升約 50%。

而 RFT 技術則聲稱，僅用少量資料（官方說法：_dozens to thousands of high quality tasks_，數十到數千個高質量資料）就可以幫助使用者微調出某一領域的專家模型，影片 demo 中僅用 1100 個數據就讓 o1-mini 在對應領域的表現超越了 o1，讓許多人都對這項新技術振奮不已，也猜測這就是實現 o1 的重要技術之一。

這也引發了我的好奇，o1 的背後究竟藏著什麼獨門秘技？

“xx 年高考壓軸題居然被它解出來了”

“我沒寫出來的 hard 題它給出了完美解”

…

o1 強大的數學和程式碼能力讓無數人琢磨起它的技術實現。

在之前，一個主流猜想是 o1 很可能使用了 OpenAI 在 23 年釋出的一篇論文——

"Let’s Verify Step by Step"

論文中提出了 PRM 模型（過程獎勵模型）以及 ORM 模型（結果獎勵模型）等技巧。

而前幾日，OpenAI 提出的強化微調 RFT，也讓人們關注起前段時間位元組釋出的一篇論文：

"ReFT: Reasoning with Reinforced Fine-Tuning"

它透過監督微調（SFT）和強化學習 RL（PPO 演算法）結合，來提高大語言模型在解決數學問題方面的推理能力。

論文中描述的帶 Resoning 的 CoT 參與 SFT 和 Warm-up/RL 的兩階段微調，和 OpenAI 在 demo 裡提出的概念和方法非常相似，這也給 o1 的技術復現提供了更明確的理論支撐。

但是，這些方法的實現往往過於繁瑣且耗費巨大，PRM 需要對 CoT 過程進行打分標註，MCTS 需要解決如何在四階段高效 rollout 等難題，而 ReFT 需要多個模型為最終效果服務。

在道路尚不清晰的情況下，選擇一種理論方法去嘗試復現 o1 模型，但是最終發現結果不盡人意，其中的代價是絕大多數研究者和企業都難以承擔的。

那麼，如果不需要繁瑣複雜的技巧來增加變數，只需要利用合成數據進行微調訓練，就能達到優異的結果甚至擊敗 o1-preview 呢？

今天，我想和大家聊聊一篇引人深思的論文。

上海交大的作者們僅用數萬條資料，透過簡單的蒸餾，就在 AIME2024 評分上超越了 o1-preview。

這篇論文對當前 o1 模型復現熱潮中缺乏技術透明度的現象提出了質疑，設立了一套技術透明度評測標準，向大眾提供一條快速追趕 o1 的捷徑的同時，也提醒我們不能做簡單的“蒸餾發明家”，需要注意過度依賴蒸餾可能帶來的潛在問題。

論文標題：
O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?

論文連結：
https://arxiv.org/abs/2411.16489

開源倉庫：https://github.com/GAIR-NLP/O1-Journey

快速復現類 o1 能力的方法:蒸餾 SFT

在大型語言模型（LLM）時代，訓練資料的質量成為模型開發的關鍵因素。例如，LIMA 僅透過使用 1000 個高質量的提示和回答進行監督微調（SFT），就可以擁有優於使用大量低質量資料訓練的模型的表現；Phi-1 利用從 GPT-3.5 合成的高質量資料就在多個基準測試中超越了更大引數量的模型。

而隨著市面上通用類 LLM 不斷的迭代最佳化，它們往往具備全面的知識、複雜的推理能力和強大的指令遵循能力。同時，這些大模型使用成本的逐步下降，各種原因讓從這些模型中蒸餾高質量資料以訓練更小模型的做法日益普遍。

論文的作者們透過深入研究，發現了一個令人驚訝的現象：

透過簡單的知識蒸餾，就能讓一個基礎模型在複雜的數學推理任務上以及泛化性上取得優異的表現。

具體來說，分為兩個步驟。

首先，作者們精心挑選和重構了部分公共資料集的資料，，讓模型能熟練地產生詳細的推理並遵守標準化的輸出樣式，為後續的蒸餾階段做好準備。

其次，他們利用 o1 模型的 API 獲得高質量且詳細的解答過程（即“長鏈路 CoT”）推理資料，使用這些資料對 Qwen2.5-Math-72B 模型進行第二段 sft 微調，來增強它的推理能力並確保產生精確和連貫輸出的一致性。結果顯示，他們的模型在美國數學邀請賽（AIME）上的準確率超過了 o1-preview。

模型在 AIME 上的效能對比

有趣的是，作者們還發現，透過在數學問題上的蒸餾訓練，模型在其他任務上也表現出了不錯的泛化能力。

例如，在開放領域的問答任務中，模型能夠給出詳細且準確的回答；在安全性測試中，模型表現出了更高的謹慎性，減少了錯誤和不當的回答。

這表明，數學問題求解中固有的系統思維模式和結構化方法可以有效地轉移到其他領域，而模型在蒸餾出來的數學領域資料集微調後，在數學領域能力的提升同樣可以輻射到其他領域。

如果只需要簡單的蒸餾資料就能達成這種效果，好像還挺划算？

這似乎是一個“低投入、高回報”的捷徑，我們為什麼還需要去做過程監督，搞強化學習 PPO，最佳化 CoT？

直接精心蒸餾一個數據集，我的模型就可以“打敗”o1 了！

但是,事情往往沒有這麼簡單。

技術透明度指數（TTI）

首先，為了系統地評估和比較各種復現嘗試，作者們提出了“技術透明度指數”（TTI），從以下四個方面對 o1 復刻的嘗試進行評估：

資料透明度：資料集的來源、處理和使用是否公開透明。
方法透明度：研究方法、演算法細節和實驗設定是否詳盡披露。
評估透明度：模型的效能評估是否公正、全面、可復現。
資源開源：程式碼、模型、資料等資源是否對外開放。

他們對多個聲稱復現 o1 的團隊進行了評估，結果顯示，大部分團隊在 TTI 評分上並不理想，尤其是在資料和方法透明度方面，而本論文的 Part 1 和 Part 2 中構建的模型，在這些方面都有不錯的得分。

Part1 論文連結：

https://arxiv.org/pdf/2410.18982

捷徑並非長久之計

在文章最後，作者們指出，從 o1 模型進行知識蒸餾的顯著成功，為快速復現 o1 類模型提供了一種誘人的捷徑。但是，過度依賴簡單蒸餾，可能會帶來一系列負面影響：

難以突破的效能上限：無論蒸餾過程多麼複雜，都很難真正超越原始 Teacher 模型的能力，這會導致少數擁有強大 Teacher 模型的機構始終對使用蒸餾技術的機構有強大的統治性，擴大行業內的技術鴻溝。
技術創新與第一性原理的缺失：o1 的真正突破在於其對 inference time scaling 和 CoT 的深刻構思，依靠蒸餾缺乏對基礎技術的創新。研究人員從頭研發 CoT 檢索演算法、實踐 inference time scaling 和構建 reasoning mechanisms 的過程，不僅提供了寶貴的時間經驗，還迫使研究者深入理解模型行為和侷限性，從而建立系統的問題解決策略和演算法設計直覺。如果缺失這些第一性思維的實踐，可能導致研究者習慣於應用現成方案，難以開拓新的解決路徑。
人才培養與研究文化的負面轉變：當透過蒸餾提升模型能力成為首要選擇且“快速且有效”時，學生和早期研究人員可能會優先選擇最便捷的方法，而不會深層思考去解決本質問題。長此以往，這種從“How it works”到“What works”的轉變很可能會帶來研究者心態的根本性變化，對該領域的未來創新能力產生深遠的影響。

因此，他們呼籲，AI 研究者們應該重視基礎技術的研究和創新，保持對第一性原理的探究精神，而不是一味追求捷徑。