直逼DeepSeek-R1,碾壓李飛飛s1!UC伯克利等開源全新SOTA推理模型

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:編輯部 HNYZ

【導讀】近日,斯坦福、UC伯克利等多機構聯手釋出了開源推理新SOTA——OpenThinker-32B,效能直逼DeepSeek-R1-32B。其成功秘訣在於資料規模化、嚴格驗證和模型擴充套件。
32B推理模型,僅用1/8資料,與同尺寸DeepSeek-R1打成平手!
就在剛剛,來自斯坦福、UC伯克利、華盛頓大學等機構聯手釋出了一款SOTA級推理模型——OpenThinker-32B,並同時開源了高達114k的訓練資料。

專案主頁:https://www.open-thoughts.ai/blog/scale
Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B
資料集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
團隊發現:採用經DeepSeek-R1驗證標註(基於R1蒸餾)的大規模優質資料集,便可訓練出SOTA的推理模型。
具體方法,就是透過資料規模化、推理過程驗證以及模型規模擴充套件。
由此得到的OpenThinker-32B,在數學、程式碼和科學等多個基準測試中,OpenThinker-32B效能直接碾壓了李飛飛團隊s1和s1.1模型,直逼R1-Distill-32B。
值得一提的是,相比於使用了800k資料(包含600k個推理樣本)的R1-Distill,OpenThinker-32B僅用了114k資料,就能拿下幾乎同等的優異成績。
結果均透過開源評估框架Evalchemy計算得出
除此之外,OpenThinker-32還把模型權重、資料集、資料生成程式碼、訓練程式碼上,全部都給公開了!
資料策展
研究人員使用了與之前訓練OpenThinker-7B模型相同的OpenThoughts-114k資料集來訓練OpenThinker-32B。
他們利用DeepSeek-R1模型,收集了精心挑選的17.3萬個問題的推理過程和解答嘗試。然後將這些原始資料作為OpenThoughts-Unverfied-173k資料集公開發布。
整個流程的最後一步是,如果推理過程未能透過驗證,就過濾掉相應的資料樣本。
下圖視覺化地展示了整個過程。
研究團隊首先輸入源資料或問題提示,這些內容可以來自不同的領域和平臺,如BAAI/TACO、DeepMind、Python提交等,涉及程式碼、謎題、科學和數學等多個方面。
接著這些多元的輸入會進入核心的處理模組——DeepSeek-R1,在這裡對資料進行分析與處理。這些問題會被分成三個方面,分別是:科學類問題、數學與謎題和程式碼。
有些結果不需要驗證,可能是簡單的分析或直接輸出。對於一些需要深入驗證的內容,利用大語言模型(LLM)採用與GT(Ground Truth)對比的方式進行評判。如果是程式碼,執行程式碼並進行單元測試,確保程式碼的正確性和有效性。
最後能將不同方向的結果結合起來,生成開放的思考和更為綜合的解決方案。
研究團隊更新了最終的OpenThoughts-114k資料集,加入了一個名為「metadata」的配置,其中包含了一些用於資料集構建的額外列:
  • problem
  • ground_truth_solution
  • test_cases (code only)
  • starter_code (code only)
  • DeepSeek_reasoning
  • DeepSeek_solution
  • domain
  • source
這些額外的元資料將使得這個資料集更容易用於新的場景,例如資料過濾、領域切換、驗證檢查以及更改推理過程的模板。
這些額外的元資料將得使該資料集使用起來更加容易,僅需一行程式碼就能完成例如過濾、更換領域、檢查驗證和更改推理跟蹤模板等。
load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")
研究團隊表示,他們期待看到社群利用這些問題和標準答案,在OpenThinker模型上進行強化學習(RL)的研究。DeepScaleR已經證明,規模較小時,這種方法效果特別好。
驗證
為了得到最終的OpenThoughts-114k資料集,研究團隊對答案進行了驗證,並剔除了不正確的回答。
如下表所示,保留那些未透過驗證的推理過程可能會損害效能,儘管未經驗證的模型與其他32B推理模型相比仍然表現良好。
驗證的作用在於,在擴大訓練提示集的多樣性和規模的同時,保持R1註釋的質量。另一方面,未經驗證的資料可以更容易地擴充套件,因此也值得進一步探索。
對於程式碼問題,我們透過對照已有的測試用例來驗證解答嘗試,從而完成推理過程的驗證。
受到程式碼執行過程中所面臨挑戰的啟發,我們在Curator中實現了一個程式碼執行框架,使使用者能夠大規模、安全地執行程式碼,並對照預期輸出進行驗證。
對於數學問題,研究團隊使用一個LLM(大語言模型)評判器來進行驗證,它會同時接收標準答案和DeepSeek-R1的解答嘗試。
結果發現,在資料生成過程中,使用LLM評判器而不是更嚴格的解析引擎(Math-Verify)進行驗證,可以獲得更高的有效資料率,並能訓練出效能更好的下游模型。
訓練
研究團隊使用LLaMa-Factory對Qwen2.5-32B-Instruct在OpenThoughts-114k資料集上進行了三輪微調,上下文長度為16k。完整訓練配置可在GitHub中找到。
OpenThinker-32B在AWS SageMaker叢集上使用四個8xH100 P5節點訓練了90小時,累計使用了2,880個H100小時。
同時,OpenThinker-32B-Unverified在Leonardo超級計算機上使用96個4xA100節點(每個GPU64GB)訓練了30小時,累計使用了11,520個A100小時。
評估
研究團隊使用開源評估庫Evalchemy(鍊金術)對所有模型進行評估。
對於AIME24和AIME25,他們透過平均五次執行的結果來計算準確率。評估配置使用0.7的溫度引數,將模型響應限制在32,768個token以內,不新增任何額外的系統或使用者提示詞,也不使用任何特殊的解碼策略(如預算強制)。
當啟動OpenThoughts專案時,他們設定了一個目標,即建立一個性能可以達到DeepSeek-R1-Distill-Qwen-32B的開放資料模型。
現在這個差距已經幾乎消除。
最後,研究團隊為社群在過去幾周在構建開放資料推理模型方面取得的快速進展感到振奮,並期待基於彼此的洞見繼續向前發展。
OpenThinker-32B的開源,證明了資料、驗證和模型規模的協同作用是提升推理能力的關鍵。
這一成果不僅推動了開源推理模型的發展,也為整個AI社群提供了寶貴的資源和啟示。
參考資料:
https://x.com/NeginRaoof_/status/1889739171826377008

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
Mamba、多模態和擴散模型交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-Mamba、多模態學習或者擴散模型微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者擴散模型+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章