螞蟻&清華聯手開源,人人都能復刻QwQ-32B

在過去很長時間裡,預訓練擴充套件定律(Pre-training Scaling Law)都是機器學習領域最重要的經驗法則之一,它不僅幫助研究人員理解和最佳化模型訓練過程,還為資源分配提供了理論依據。簡單來說,當在特定任務上使用引數更大的模型、更多的訓練資料和更強的計算能力時,模型效能也會更強。
而 DeepSeek R1 、 OpenAI o1 、文心大模型 X1 以及 QVQ-Max 的出現,則表明 LLM 領域的 Scaling Law 正在發生變化。這類模型在數學、程式碼、長程規劃等問題上的表現尤為突出,而且其推理能力提升的關鍵,就是後訓練階段中強化學習訓練和推理階段思考計算量的增大。一方面意味著後訓練擴充套件定律(Post-Training Scaling Laws)正在引發社群對於算力分配、後訓練能力的重新思考,另一方面也讓強化學習(RL,Reinforcement Learning)成為了大語言模型能力提升的新引擎。
就在本週,螞蟻技術研究院和清華大學交叉資訊院吳翼團隊,釋出了訓練速度最快最穩定的開源強化學習訓練框架 AReaL(Ant Reasoning RL,https://github.com/inclusionAI/AReaL),並公開了全部資料和完成可復現的訓練指令碼。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型數學推理分數重新整理同尺寸模型 AIME 分數紀錄,並且僅僅使用 200 條資料就在 AIME 2024 上覆刻 QwQ-32B 的推理結果,相當於僅僅使用了 200 美金的計算成本,讓所有人都可以以極低的成本實現最強的推理訓練效果。
1 後訓練定律崛起,強化學習重塑大模型能力邊界
後訓練擴充套件定律的興起是大語言模型能力進化的重要轉折點,該定律表明訓練階段的計算量不再只和引數量的上升有關,同時也會包含強化學習探索時大語言模型推理的計算量。這也就意味著可以使用微調、剪枝、量化、蒸餾、強化學習和合成資料增強等技術,進一步提高預訓練模型的效能。
以強化學習為例,作為一種對標註資料數量要求更少的機器學習技術,它只通過獎勵模型來訓練大模型,使其學習做出與特定用例相符的決策。大模型的目標是在與環境互動的過程中,隨著時間推移最大化累積獎勵。
例如,一個大語言模型可以透過使用者的“點贊”反應獲得正向強化,這種技術被稱為基於人類反饋的強化學習 (RLHF)。另一種更新的技術是基於 AI 反饋的強化學習 (RLAIF),它使用 AI 模型的反饋來指導學習過程,從而簡化後訓練的最佳化工作。
透過引入強化學習機制,大語言模型可藉助即時反饋對生成內容進行動態最佳化,使其輸出更精準地適配人類偏好,從而將海量知識儲備有效轉化為針對特定場景的任務解決能力。
不過,強化學習雖然效果顯著,但針對大語言模型的大規模強化學習訓練門檻卻一直很高:例如在資料方面,某些大規模強化學習訓練需要大量高質量的人類反饋資料,需要收集和處理大量的人類偏好資料,可能還會涉及隱私和倫理問題。
計算資源方面,大規模強化學習訓練需要強大的計算資源,包括 GPU 叢集和高效的分散式訓練演算法。
成本方面,大規模強化學習訓練所需的時間成本、財務成本都比較高,對不少團隊來說都是一個挑戰。
演算法複雜度方面,強化學習演算法設計比較複雜,獎勵模型構建和策略最佳化都需要考慮在內,還需要處理自注意力機制、長距離依賴等問題。
模型設計方面,也需要平衡模型的複雜度與效能,同時由於獎勵模型準確率直接影響強化學習的效果,還需要高質量訓練資料的支援。
生成評估方面,需要結合人工評估與自動指標,如果是多模態模型,還需要應對跨模態任務評估的難題。
總體來說,大規模強化學習訓練的流程複雜,涉及模組繁多(如生成、訓練、獎勵判定等),這為實現高效穩定的分散式訓練帶來了很多挑戰;其次,類似 DeepSeek R1 這樣的推理模型輸出長度會很長(超過 10K),隨著訓練持續變化,很容易造成視訊記憶體和效率瓶頸;最後,目前的開源社群中缺乏高質量的強化學習訓練資料,也缺乏完整可復現的訓練過程。
針對上述挑戰,螞蟻技術研究院於上個月正式開源了強化學習框架 AReaL(Ant Reasoning RL)。AReaL 基於開源框架 ReaLHF 構建,旨在訓練每個人都可以復現和貢獻的大型推理模型 。
AReaL 秉承完全開放與可復現的理念,團隊將持續公開包括 LRM 訓練模型的全套程式碼、完整資料集及系統化訓練方案。專案所有核心演算法元件完整開源,開發者可自由進行模型驗證、功能改進及實際應用,推動大型推理模型、智慧體開發領域的協作創新。
此外,AReaL 可以適配多種計算資源環境,從單節點開發除錯環境到千卡級 GPU 叢集分散式訓練場景均可實現全流程高效執行。在首次釋出的 v0.1 版本中,就包含了基於 AReaL 的可復現實驗,涵蓋 1.5B 和 7B 引數的推理模型,並在多種計算預算下進行了驗證。
透過 AReaL,開發者可以在 40 小時內穩定完成 1.5B 的強化學習訓練,使其在數學推理任務能力上超越 o1-Preview;或者在 Qwen2.5-7B 大模型上實現穩定復現的強化學習訓練,從而系統化驗證 thinking token 的演化規律及模型數學推理能力的持續最佳化過程。
而本週釋出的 v0.2 版本 AReaL-boba,則讓普通人也擁有了“手搓” QwQ-32B 的能力。
2 開源框架革新:三大核心解鎖強化學習規模化
AReaL 團隊表示,新版本“boba” 的命名一方面源自團隊對珍珠奶茶的偏愛,另一面也是希望強化學習技術能如奶茶成為大眾飲品一般,滲透至 AI 開發的每個日常場景,普惠整個社群。事實上,AReaL-boba 也完全擁有這樣的能力,其技術亮點主要表現在以下三個方面:
全面擁抱 SGLang 框架,訓練速度大幅提升
AReaL-boba 是首個全面擁抱 SGLang 推理框架的開源訓練系統,並充分利用了 SGLang 推理框架的多種優勢,包括更高的推理效能、更低的資源消耗、更高的靈活性、易於整合等等。
AReaL-boba在初代 AReaL 版本的基礎上實現了突破性進展:透過深度整合 SGLang 框架並實施多維度工程最佳化,AReaL-boba 能夠靈活適配不同的計算資源配置,並且效能提升呈現出顯著的規模效應——在 1.5B 引數模型上訓練速度提升 35%,7B 模型加速達 60%,當擴充套件至 32B 大模型時更獲得 73% 的顯著效能躍升,為大規模強化學習訓練提供了高效的解決方案。
此外,AReaL-boba 也展現出了卓越的大模型訓練效率:僅需 128 張 H800 顯示卡即可在 24 小時內完成 1.5B 引數的 SOTA 推理模型訓練;當擴充套件至 256 張 H800 時,可在 48 小時內完成 7B 引數的 SOTA 推理模型訓練。這些也得益於 AReaL-boba 在系統級方面的最佳化:
  • 生成後端升級
AReaL-boba 的生成後端升級到了 SGLang v0.4.0,並透過 RadixAttention 機制顯著提高了從同一提示中取樣多個響應的場景中的吞吐量。此外,SGLang 會在權重更新時自動重新整理 Radix 快取,從而確保強化學習的正確性。
  • 最佳化可變長度序列與大批次訓練
為了高效處理可變序列長度問題,AReaL 團隊摒棄了填充操作,轉而將序列打包為 1D 張量。透過動態分配演算法(近似)最優地將序列分配到最大令牌預算下,在平衡微批次規模的同時最小化微批次數量。該方法能最大化 GPU 記憶體利用率,從而支援高效處理大規模可變長度輸入。
  • 面向千卡級 GPU 擴充套件的高效能資料傳輸
AReaL 團隊採用了基於 InfiniBand/RoCE 協議的 GPU 直連遠端直接記憶體訪問(GDRDMA)技術,配合 NVIDIA 集合通訊庫(NCCL),實現了 GPU 間的直接通訊。該技術繞過了傳統 CPU 中介傳輸和 PCIe 匯流排瓶頸,相較於基於乙太網的傳統方案,顯著降低了通訊延遲並提升了傳輸吞吐量。即使在包含 1000 塊 GPU 的超大叢集中,也能將生成到訓練流程的資料傳輸開銷控制在 3 秒以內。
種種技術加持之下,AReaL-boba 成為了目前訓練速度最快的開源框架
強化學習賦能,7B 模型數學推理分數重新整理開源社群紀錄
數學推理是大型模型實現強人工智慧的關鍵,它不僅能直接提升模型在數學相關任務的表現,更透過培養邏輯嚴謹性、抽象思維和問題分解能力,間接增強模型在通用領域的推理效能。
AReaL 團隊基於 Qwen-R1-Distill-7B 基礎模型,透過大規模強化學習訓練,在 48 小時內即可取得領域最佳的數學推理能力,並重新整理開源社群新紀錄,實現 AIME2024 61.9 分與 AIME2025 48.3 分的優異成績,顯著超越 OpenAI o1-preview 模型。
與基礎模型相比,AReaL-boba 透過強化學習實現了模型的能力躍遷,分別較 AIME2024 和 AIME2025 提升了 6.9 分與 8.6 分,進一步驗證了強化學習規模化應用在推理模型最佳化中的關鍵價值。
基於 AReaL 完全開放與可復現的理念,AReaL-boba 在開源推理模型的基礎上也開源了所有的訓練資料 AReaL-boba-106k,以及全部的訓練指令碼和評估指令碼。同時在專案官方倉庫上,AReaL 團隊也放出了極其詳細的技術筆記,總結了大量訓練中的關鍵點,包括 PPO 超引數、獎勵函式設定、正則化設定、長度上限設定等等。
例如,AReaL 團隊以 PPO 超引數作為核心訓練演算法,為節省計算資源,移除了策略評估網路(Critic 模型)。同時,將折扣因子γ和廣義優勢估計(GAE)引數λ均設定為 1。這些配置策略與 Open-Reasoner-Zero 專案的實現方案保持一致。
在獎勵函式設定方面,AReaL 團隊則採用了稀疏序列級獎勵機制。模型被要求將最終答案用方框標出(即\boxed{}格式),隨後系統會對該答案進行驗證。若答案正確則給予 +5 的獎勵,錯誤則處以 -5 的懲罰。同時,由於 KL 散度獎勵可能對模型效能產生負面影響,尤其是在長思維鏈訓練中,因此將其係數設為 0 以消除干擾。
創新性蒸餾技術,200 條資料輕鬆復刻 QwQ-32B
針對 32B 引數規模的推理模型,AReaL 團隊進一步精簡了訓練資料併發布了 AReaL-boba-200 資料集以及相關訓練指令碼,在以 Qwen-32B-Distill 作為基礎模型時,AReaL-boba 採用輕量級監督微調 (SFT) 技術,在 AIME2024 評測中成功復現了 QwQ-32B 模型的推理效能,並且整個訓練過程僅需 200 美元的計算成本,為開發者甚至普通人提供了低門檻實現高效能推理訓練的可行性路徑。
3 結尾
與傳統的深度學習演算法相比,強化學習更為複雜,且模組更多,這使得搭建適應強化學習演算法的訓練系統成為了一件頗具挑戰的課題,AReaL 作為一個專為大型推理模型設計的靈活高效的開源強化學習系統,如今已經更新到了訓練速度更快的 AReaL-boba 版本,這無疑為強化學習在大模型時代的創新應用注入了新的活力。
值得一提的是,AReaL 團隊的核心成員均來自螞蟻研究院強化學習實驗室,以及交叉資訊研究院吳翼團隊,專案也借鑑了大量優秀的開源專案,比如 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、veRL、SGLang、QwQ、Light-R1 和 DAPO。作為國內第一個完整開源(資料、程式碼、模型、指令碼全開源)的專案團隊,AReaL 的初衷就是真正實現 AI 訓練的普惠。
在專案官方倉庫中,AReaL 團隊也列出了團隊後續的開源計劃和目標,包括非同步訓練、訓練吞吐最佳化、資料集和演算法升級,以及程式碼和 Agent 智慧體能力支援。也許,下一個 AReaL 版的“奶茶”,也已經在路上。
這不僅是一次技術開源嘗試,更是推動算力普惠化的積極探索——當 AReaL-boba 將大模型強化學習訓練簡化為如同點奶茶般簡易的操作時,人人都能“手搓”大模型的時代,可能馬上就要來臨了。
  • 專案連結:https://github.com/inclusionAI/AReaL
  • HuggingFace 資料模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a

相關文章