去中心化訓練更進一步,全球首個分散式強化學習訓練的320億引數模型釋出

去年我們曾報道了 Prime Intellect 團隊釋出的全球首個去中心化訓練的 10B 級別模型 INTELLECT-1,它首次驗證了跨越廣闊地域、利用分散式 GPU 資源訓練大規模語言模型的可能性。時隔一年,INTELLECT-2 也終於來了,這是一款引數規模達到 320 億的更為強大的推理模型,其核心亮點在於,它是全球首個透過完全非同步的強化學習(RL,Reinforcement Learning)正規化,在一個由全球貢獻者組成的動態、異構且無需許可的計算網路中成功訓練出來的模型,讓去中心化的 AI 訓練又達到了新的高度。
專為全球分散式、非同步強化學習設計的技術棧
去年釋出的 INTELLECT-1 使用橫跨三大洲的 112 塊 GPU,基於 DeepMind 提出的 DiLoCo(Distributed Low-Communication, 分散式低通訊)框架的復現與擴充套件 OpenDiLoCo 進行訓練,成功驗證了在廣域網路下進行大規模分散式訓練的可行性。而 INTELLECT-2 則進一步將目光投向了強化學習,同時模型引數規模也從 10B 躍升至 320B。
實際上,強化學習固有的特性使其天然就適合非同步和去中心化設定。其在本質上更具非同步性——政策更新可以在舊版本上生成的資料上進行訓練,且不需要像監督學習那樣頻繁的引數同步。特別是在近期興起的“測試時計算”(test-time compute scaling)正規化中,模型在推理過程中生成長序列進行推理,這些計算密集型操作可以在分散節點上高效執行,隨後只需要將結果(而非大量中間狀態)傳回進行驗證和訓練。正是這種特性使得強化學習成為連線全球分散式計算資源的理想方法。
INTELLECT-2 專為全球分散式、非同步強化學習設計了一套完整技術棧,團隊從零開始構建了多個關鍵元件,以應對在異構、不可靠網路環境下進行大規模 RL 訓練的挑戰。
圖丨INTELLECT-2 分散式強化學習訓練基礎設施(來源:Prime Intellect)
其核心框架 PRIME-RL 地將強化學習中的推理生成、模型訓練和策略權重廣播三個環節進行解耦,使得訓練能在異構且地理位置分散的節點上完全非同步地進行。
在訓練端,PRIME-RL 採用 PyTorch FSDP2 技術對模型相關狀態進行分片,降低單節點視訊記憶體需求,並非同步處理推理節點生成的 rollout 資料,有效應對策略滯後問題。推理端則利用 vLLM 框架進行 rollout 生成,並透過最佳化手段(如增量雜湊啟用值、CPU 與 GPU 並行處理)將驗證證明的生成開銷降至極低,同時透過“步驟計數器”機制確保與訓練進度的同步。
為了在去中心化環境中高效、可靠地分發最新的策略模型權重,團隊構建了構建了 Shardcast——一個透過基於 HTTP 的樹狀拓撲網路分發大檔案的庫。
它構建了一個類似 CDN 的中繼伺服器網路,將訓練主伺服器產生的檢查點分片並以流水線方式流式傳輸,允許推理節點在完整檢查點可用前即開始下載,顯著減少等待延遲。SHARDCAST 透過 IP 速率限制、動態防火牆規則、基於預期的機率性伺服器取樣(實現負載均衡與最大化吞吐量)以及 SHA-256 校驗和比對等多重機制,確保了權重廣播的安全、高效與完整性。
圖丨Shardcast 概述(來源:Prime Intellect)
由於推理節點是無需許可且不可信的,驗證其計算真實性至關重要。為此,Prime Intellect 設計了 TOPLOC(區域性敏感雜湊的無信任可驗證推理方案)和 Prime Intellect 協議
TOPLOC 允許受信任的驗證者節點高效審計推理節點生成的加密承諾,確保其計算的正確性,並透過取樣檢查(如終止檢查、令牌取樣檢查)和健全性檢查(如固定資料取樣、值範圍檢查)進一步保障資料質量。
Prime Intellect 協議則扮演了整個去中心化網路的“大腦”,透過 Rust 實現的去中心化賬本、工作者軟體、發現服務和協調器,實現了對節點的自動註冊、硬體檢查、心跳監控、任務排程與分發(採用拉取模式)、以及貢獻記錄等功能,構建了一個類似於去中心化 SLURM 的系統,有效協調全球計算資源。
受益於 Qwen 和 DeepSeek 的模型訓練
INTELLECT-2 的訓練基於 QwQ-32B 模型,並很大程度上遵循了 DeepSeek-R1 的 GRPO(Group Relative Policy Optimization)訓練方法,但進行了多項關鍵修改。
訓練始於一個包含 28.5 萬個可驗證數學與編碼任務的資料集(來自 NuminaMath-1.5、Deepscaler 和 SYNTHETIC-1)。它採用雙重目標:二元任務獎勵(正確為 1,錯誤為 0)和長度獎勵,後者使使用者能夠在推理時控制“思考令牌”的數量。這種設計允許模型學習在解決數學和編碼問題的同時,根據使用者指定的思考長度控制其推理過程,提供了靈活性和可控性。
為了適應去中心化環境並提高效率,訓練採用了多步非同步強化學習。實驗表明,即使存在多達四步的非同步延遲,模型效能也能與同步基線持平,證明了在輕微離策略資料上訓練的有效性。資料過濾在其中發揮了重要作用,團隊結合了離線過濾(預先篩選掉對基模型而言過易或過難的問題)和線上過濾(確保訓練批次中包含足夠數量的具有非零優勢值的樣本),這不僅提升了學習效率,也間接增加了對去中心化推理節點的需求。
圖丨同步、集中式單步非同步和去中心化兩步非同步強化學習的比較(來源:Prime Intellect)
為了應對訓練過程中(尤其是訓練大型模型時)常見的損失尖峰和梯度爆炸等不穩定性問題,團隊引入了雙邊令牌機率比率裁剪(Two-Sided GRPO Clipping)機制,為負優勢情況下的機率比率新增上界,顯著緩解了傳統 PPO 類演算法中可能出現的巨大損失值和梯度更新問題。
團隊還觀察到,隨著訓練進行,即使在沒有立即尖峰的情況下,梯度範數也會逐漸但持續增加。這種現象似乎與模型大小相關,在更大的架構中更為明顯。他們發現,採用激進的梯度裁剪(閾值低至 0.05-0.1)能有效緩解穩定性問題,而不顯著阻礙收斂,在穩定性和訓練效率之間取得了平衡。
圖丨在 MATH 資料集上訓練的不同模型規模的梯度範數和裁剪率不斷上升(來源:Prime Intellect)
那麼這種訓練的效率究竟如何呢?團隊採用兩種設定進行了實驗:
  • TARGET-SHORT:使用較短目標長度(1000、2000、3000、4000)訓練高效推理模型
  • TARGET-LONG:使用較長目標長度(2000、4000、6000、8000、10000)的主要執行
在計算利用率方面,SHARDCAST 向所有節點廣播權重(62GB)平均耗時 14 分鐘,對應約 590Mb/s 的頻寬吞吐量。連線性好的節點能更早收到檢查點並開始生成資料。
在 TARGET-SHORT 設定中,首個數據檔案在廣播完成約 10 分鐘後提交,由於 TOPLOC 的高效驗證(通常 1 分鐘內完成),約 22 分鐘後即可收集到足夠用於一個批次的已驗證樣本。
TARGET-LONG 場景則需約 29 分鐘。兩個實驗中,訓練與推理的 FLOPs 比率平均為 4.5 倍,即去中心化推理節點消耗的計算量遠大於訓練節點。這種非同步設定有效實現了計算與通訊(廣播、推理生成、驗證)的重疊,最大限度減少了訓練 GPU 的空閒時間。
從獎勵軌跡來看,兩個實驗均顯示模型在解決數學和編碼問題的能力上(任務獎勵)取得了顯著提升。長度懲罰也有所減少,但收斂速度慢於預期,表明模型在實驗時間內未能完全精確地學會遵循思考預算。
在多個標準推理基準測試中,INTELLECT-2 相較於其基模型 QwQ-32B,在數學和編碼能力上有所提升,但在更通用的指令遵循任務上略有下降,這可能是因為其訓練資料僅專注於數學和編碼,而非更通用的指令遵循任務。
圖丨基準測試結果(來源:Prime Intellect)
為 AI 的民主化和開源發展開闢新道路
不過,相比起模型的能力提升,INTELLECT-2 更重要的意義在於進一步拓展了分散式訓練的邊界,證明了在全球範圍內,透過無需許可的貢獻者網路進行復雜的強化學習以及更大規模的模型是完全可行的。這為 AI 的民主化和開源發展開闢了新的道路。
這一探索方向也獲得了資本市場的積極響應。繼 2024 年早些時候由 Distributed Global 和 CoinFund 共同領投的 550 萬美元種子輪融資後,最近他們又成功完成了由 Founders Fund 和 Menlo Ventures 領投,並有 Andrej Karpathy、Clem Delangue 和 Emad Mostaque 等 AI 領域先驅人物參投的 1,500 萬美元融資,使其總融資額超過 2,000 萬美元。
未來,Prime Intellect 團隊計劃在現有基礎上持續深耕。他們將致力於提高推理與訓練的計算比率,進一步發揮去中心化推理的優勢;探索為推理模型引入工具呼叫能力,以增強其實際應用價值;並積極推動眾包 RL 任務和環境的建設,構建更加豐富和多樣化的訓練生態。
同時,模型合併技術與 DiLoCo 框架在強化學習場景下的應用潛力也將是他們未來研究的重點方向,這有望將去中心化訓練的規模和效率再提升一個數量級。
參考資料:
1.https://www.primeintellect.ai/blog/intellect-2#intellect-2-model-and-training-details
2.http://primeintellect.ai/intellect-2?_gl=1*1r01y4g*_gcl_au*MTgxMDE2Njk5NS4xNzQ0NzY0NDUy
運營/排版:何晨龍


相關文章