全球開發者組團訓練,首個非同步強化學習32B推理模型震撼來襲!資料已開源


新智元報道  

編輯:英智 好睏
【新智元導讀】全球首個去中心化強化學習訓練的32B模型震撼釋出!無需授權,就能用自家異構計算資源參與其中,讓編碼、數學與科學領域的推理效能邁向新高度。
最近,全球第一個用去中心化強化學習訓練的32B模型——INTELLECT-2正式釋出!
任何人都能用自己的異構計算資源參與,無需授權。
這種全新的正規化,讓去中心化訓練在編碼、數學和科學領域,邁向前沿的推理效能。
INTELLECT-2是大規模去中心化強化學習的開端,他們的下一步計劃是用強化學習訓練端到端智慧體。
去中心化強化學習正處於起步階段,若能匯聚社群和各方貢獻,開源AI有望超越閉源實驗室。
AI社群對這項工作給出了非常積極的肯定。
隨著OpenAI o1和DeepSeek R1的釋出,出現了預訓練以外的擴充套件正規化,藉助RL進行最佳化,讓模型有更多時間進行推理。
之前釋出的成果曾探討,為何透過RL訓練的推理模型,相比標準的LLM預訓練,更適合去中心化訓練。
INTELLECT-2將有力地證實這一觀點。
部落格連結:https://www.primeintellect.ai/blog/intellect-2

全球首個去中心化強化學習32B模型
過去一年,研究者致力於構建所有關鍵的開源元件,讓INTELLECT-2具備前沿的推理效能,支援異構計算節點,並允許無需授權的貢獻,能對32B引數模型進行去中心化RL訓練:
  • prime-RL:新推出的開源庫,用於完全非同步的去中心化RL,基於具備容錯的去中心化訓練框架prime開發。
  • SYNTHETIC-1 & GENESYS:用於RL任務眾包和驗證環境的庫。
  • TOPLOC:實現高效、可驗證的推理方法,用於驗證INTELLECT-2中所有去中心化rollout節點的計算。
  • 協議測試網:提供基礎設施和經濟激勵,用於聚合和協調全球計算資源,打造真正自主的開源AI生態系統。

Prime-RL:去中心化訓練框架
INTELLECT-2基礎設施主要由三個元件構成:
  • 推理取樣節點(Inference Rollout Workers):一組去中心化節點,用最新的策略模型,從環境中收集推理軌跡(reasoning rollouts),並計算相應的獎勵。
  • TOPLOC驗證節點(TOPLOC Validators):負責高效驗證無需授權的rollout工作節點的推理計算,打造無需信任的系統。
  • GRPO訓練節點(GRPO Training Workers):從去中心化推理取樣節點收集到新生成的資料後,採用DeepSeek的GRPO訓練方法進行訓練。訓練完成後,這些訓練節點會透過Shardcast庫,將更新後的權重廣播給所有推理節點,以啟動下一輪資料收集。
該基礎設施具備以下特性:
  • 完全消除通訊開銷:透過非同步強化學習,新策略模型的廣播與正在進行的推理和訓練完全重疊,通訊不再成為瓶頸。
  • 支援異構推理節點:允許任何人按自己的節奏生成推理軌跡(reasoning traces),跨節點處理速度沒有統一要求。
  • 資源需求低:在這種訓練設定中,佔計算資源大頭的推理節點可以在消費級GPU上執行。例如,配備4塊RTX 3090 GPU的機器,足以支援32B引數模型的訓練。
  • 實現高效驗證:推理計算的驗證過程,不會引入訓練瓶頸。

非同步強化學習
RL在本質上比傳統的LLM預訓練更具非同步性。在去中心化RL中,資料收集和網路訓練可以分開進行。
多個節點在並行環境中執行,各自非同步收集經驗資料,中央學習器負責接收和處理這些資料。
由於經驗資料到達的時間不同,且來自狀態空間的不同部分,每個步驟的發生速率也有所不同。
非同步強化學習在Tulu 3和Llama 4中得到了成功應用,採用單步非同步強化學習方法,提升了訓練效率。
消融實驗表明,即使採用四步非同步訓練(即推理節點使用的策略模型落後四步),也能復現DeepScaleR的結果,且不會降低模型效能。
這樣的非同步程度,在去中心化RL訓練中,即使全域性互聯較弱,也能將通訊時間完全隱藏在計算過程中。
同步DeepScaleR訓練與非同步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的效能仍能與同步基線媲美
此外,非同步強化學習不僅實現了去中心化訓練設定,還透過分別最佳化訓練和推理引擎,進一步提高了效率。
例如,在prime-rl庫中,rollout節點可以利用vLLM,及全套推理最佳化技術。
完全非同步的線上RL訓練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓練。

Shardcast
基礎設施中的一個關鍵元件,Shardcast是能儘快將新策略模型從訓練節點廣播到所有去中心化推理節點的機制。
Shardcast是一個透過基於HTTP的樹狀拓撲網路分發大型檔案的庫,由以下部分組成:
  • 源伺服器(Origin Server):作為根節點,將大檔案分片,並透過HTTP提供分片服務。
  • 中間節點(Middle Nodes):作為中間伺服器,從上游伺服器下載分片,並以流水線方式轉發。
  • 客戶端節點(Client Nodes):下載分片並重新組裝成原始檔案。

TOPLOC驗證
TOPLOC是一種用於可驗證推理的區域性敏感雜湊方案,旨在檢測推理過程中的惡意修改。
它能實現以下功能:
  • 檢測推理過程中對模型、提示或精度的修改。
  • 有效應對GPU硬體的不確定性,這是可驗證計算中的主要挑戰之一。TOPLOC在不同型別的GPU、張量並行配置和注意力核心上都能可靠執行。
  • 驗證速度比生成速度快得多。
在INTELLECT-2中對TOPLOC進行生產環境測試,任何人都能以無需授權的方式貢獻GPU資源。

協議測試網
幾周前,團隊宣佈了公共協議測試網的啟動,旨在實現真正自主的開源AI生態系統。
今天,首個無需授權的計算池開放,任何人都能在自己的GPU上執行協議測試網節點。
註冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網上完成。這帶來了諸多好處:
  • 全球規模的計算資源聚合:節點設計允許任何人在全球任何計算裝置上執行,加入去中心化網路,並最終因節點所做的貢獻獲得獎勵。這有助於擴充套件規模,無授權地整合來自全球的資料中心資源。
  • 為完全去中心化訓練奠定基礎:所有加入計算池的節點都以點對點(peer-to-peer)的方式進行通訊和協調。這為完全去中心化、無授權地訓練和微調開源模型奠定了基礎,對構建真正自主的開源AI生態系統至關重要。
除了對基礎設施進行多項改進,在協議層面也有其他關鍵進展。
  • 檢測和防範攻擊與欺詐的機制:將TOPLOC驗證整合到節點中,實現高效驗證,有助於識別偽造GPU或汙染資料集的行為。
  • 鼓勵誠實行為的激勵:為減少不誠信行為,嘗試採用經濟激勵,抑制偽造GPU或提交虛假資料等惡意行為。具體做法是要求節點預先抵押一定的資金,如果節點被認定存在不誠信行為,這些抵押資金將被扣除。
此外,團隊為節點的工作設定了24小時的驗證期,期間若發現問題,節點工作將被判定無效並扣除相應獎勵。如果節點出現惡意行為或試圖鑽機制的空子,最多會扣除24小時的獎勵。

模型訓練詳情
INTELLECT-2的目標是訓練出一個具有可控思考預算的前沿推理模型。
使用者和開發者可透過系統提示詞,指定模型在得出最終解決方案前,對一個問題應思考的token數量。
這種方法能讓訓練出的模型在實際應用中更加高效。
近期的研究(如ThinkPrune、L1和Deepscaler)表明,經過專門訓練、在嚴格約束下進行推理訓練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。
透過提示控制推理預算,使用者既能利用這一優勢,又能在遇到極具挑戰性的問題時,選擇更長的推理時間。
「L1:利用RL控制推理模型的思考時長」的研究結果表明,推理模型可以被訓練來遵循其提示詞中指定的token數量,且模型效能會隨推理預算的增加而可預測地提升團隊用自研框架prime-rl獨立復現了論文結果
為訓練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應用GRPO演算法,結合數學和程式設計領域的可驗證獎勵。
在初步實驗中,以下幾個部分對控制模型思考預算、提升模型效能起到了重要作用:

透過長度獎勵實現可控思考預算
除了根據輸出的正確性給予任務獎勵外,還引入了長度獎勵,以引導模型遵循提示詞中指定的思維預算。
團隊參考了L1的研究思路,從指定範圍內取樣目標長度,將其加入提示詞,根據目標長度與實際響應長度的差異來分配獎勵。
與L1不同,團隊沒有從一個連續的值範圍中取樣目標長度,而是從一小組預定義的值中取樣,更有利於模型學習。
透過長度控制進行訓練,不僅讓模型更實用,還能更高效地利用異構推理硬體。
對於每個rollout過程,為GPU視訊記憶體和算力較低的推理節點分配較小的思考預算,為計算能力更強的節點分配較大的思考預算。
這樣,可以在較慢的節點設定較低的最大生成長度,從而在使用異構硬體時,各個rollout的處理時間基本一致。

離線資料過濾
實驗中發現仔細篩選資料對模型效能至關重要。
用原始的Deepscaler資料集和方法訓練DeepSeek-R1-Distill-Qwen-7B模型時,模型效能並未提升。
對資料難度進行嚴格篩選,只保留模型無法100%正確解答的問題。訓練過程中的獎勵增加,最終模型在數學基準測試中的表現也有提高。
在Deepscaler資料集的未過濾版本(左)和經難度過濾版本(右)上訓練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡
為篩選INTELLECT-2的訓練資料集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次取樣,以評估問題的難度。為確保訓練集中只保留具有挑戰性的問題,僅採用解答率為75%及以下的問題。
線上優勢過濾:訓練過程中,如果所有完成結果都獲得相同的獎勵,這些問題就不會產生訓練訊號,因為其優勢值(以及相應的損失)為零。
團隊會過濾掉這些問題,繼續進行推理,直到獲得一整批具有非零優勢的問題。
這提高了訓練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多於訓練,因此非常適合用去中心化推理節點。

訓練任務與驗證器
對於INTELLECT-2,團隊主要關注可驗證的數學和程式設計問題,從SYNTHETIC-1中選取了經過嚴格質量和難度篩選的任務子集。
完整的訓練資料集可在Hugging Face上獲取。
資料集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset

如何貢獻計算資源
INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的專案。
由於大家的熱情極高,計算池的容量早早就已經滿了。
現在想要貢獻算力,還得提申請排隊才行。
當然,並不是隨便什麼算力他們都接受——
  • GPU必須是A100(80GB),H100(80GB),H200(141GB)
  • 算力節點需要是4卡或者8卡為一組

訓練進度和算力貢獻情況長這樣:
儀表盤:https://app.primeintellect.ai/intelligence
總結來看,INTELLECT-2的釋出是大規模去中心化強化學習的開端。
基礎架構現已搭建完畢,接下來需要共同努力,將其擴充套件到更具影響力的應用領域。
參考資料:
https://x.com/PrimeIntellect/status/1912266266137764307


相關文章