來源 | RUC AI Box
作者|鄧佳@中國人民大學
研究方向|大語言模型
1.DeepSeek-R1技術報告
標題:DeepSeek-R1: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
作者:DeepSeek-AI
機構:DeepSeek-AI
連結:https://arxiv.org/pdf/2501.12948
簡介:DeepSeek-R1-Zero首次驗證了無需SFT的純強化學習驅動推理的可行性,成功透過自我進化展現了反思、長鏈推理等能力。DeepSeek-R1進一步透過SFT和多階段強化學習最佳化,有效解決了可讀性問題,效能接近o1-1217,同時大幅降低了訓練成本。此外,藉助蒸餾技術賦能小模型,取得了顯著效果。
關鍵詞:純強化學習
2.KIMI K1.5技術報告
標題:KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
作者:Kimi Team
機構:月之暗面
連結:https://arxiv.org/pdf/2501.12599
簡介:這是除OpenAI之外,首次有多模態模型在數學和程式碼能力上達到了滿血版o1的水平。Kimi團隊創新性地擴充套件了強化學習(RL)的應用,開闢出一條全新的路徑。它能夠讓LLM透過獎勵機制進行探索性學習,從而自主擴充套件訓練資料,從而實現計算規模有效擴充套件。
關鍵詞:多模態, 簡化框架,長上下文擴充套件,改進的策略最佳化
3.少樣本資料集訓練實現高準確率
標題:s1: Simple test-time scaling
作者:Niklas Muennighoff、Zitong Yang、Weijia Shi、Xiang Lisa Li、 Li Fei-Fei…
機構:Stanford University、University of Washington, Seattle、Allen Institute for AI,Contextual AI.
連結:https://arxiv.org/pdf/2501.19393
簡介:研究團隊精心挑選並建立了一個包含1000個問題的資料集,且每個問題都附有答案,以及Gemini 2.0 Flash Thinking實驗版的思考過程。以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎模型,透過該蒸餾資料集,最終得到了s1模型。
關鍵詞:少量樣本,蒸餾,budget forcing
4.關注模型背後的邏輯能力
標題:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
作者:Tian Xie、Zitian Gao、Qingnan Ren、Haoming Luo、Yuqian Hong…
機構:微軟、九坤投資
連結:https://arxiv.org/abs/2502.14768
簡介:常見的數學訓練集在問題難度上無明確界限,數學問題往往具有不定的邏輯深度、知識背景要求,對可控的分析實驗不友好。於是為了分析推理模型的機制,作者轉向了完全由程式合成的的「邏輯謎題」作為訓練資料,並採用REINFORCE++ 演算法,使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數的訓練之後,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的效能。
關鍵詞:REINFORCE++ ,邏輯謎題
5.多層次(Hierarchical)LLM 推理框架
標題:ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
作者:Ling Yang、Zhaochen Yu、Bin Cui、Mengdi Wang
機構:Princeton University、Peking University
連結:https://arxiv.org/abs/2502.06772
簡介:利用大語言模型從以往的數學問題中提取了一個包含大約 500 個結構化思維模板的知識庫。每個模板都包含標籤、描述、適用範圍、應用步驟等資訊,這些資訊經過組織和結構化處理,為 LLM 的推理提供了元知識參考。
關鍵詞:層次化推理,強可解釋性,結構化思維模板
6.培養AI的"結構化思維能力"
標題:LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
作者:Dacheng Li、Shiyi Cao、Tyler Griggs、Shu Liu、Xiangxi Mo
機構:Department of Electrical Engineering and Computer Sciences、University of California、Berkeley
連結:https://arxiv.org/pdf/2502.07374
簡介:研究表明,培養AI的"結構化思維能力"比灌輸具體知識更為關鍵,這一發現可能會影響未來AI訓練方法的發展方向。
關鍵詞:結構化思維
7.讓AI學會"如何思考"而非"如何回答"
標題:Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
作者:Violet Xiang、Charlie Snell、Kanishk Gandhi、Alon Albalak、Anikait Singh
機構:SynthLabs.ai、Stanford University、UC Berkeley
連結:https://arxiv.org/abs/2501.04682
簡介:在複雜問題解決過程中,人類的思維並非簡單的線性步驟,而是包含了探索、驗證等多維度的迭代過程。Meta-CoT正是基於這一洞察,將傳統CoT擴充套件為一個更完整的推理框架。具體來說,它透過建模"潛在思維過程",讓AI不只是學會按部就班地解題,而是理解和掌握解決問題的策略與方法。這就像教會一個人釣魚,而不是簡單地給他一條魚。
關鍵詞:建模潛在思維過程
8.識別影響模型生成長鏈式思維的關鍵因素
標題:Demystifying Long Chain-of-Thought Reasoning in LLMs
作者:Edward Yeo、Yuxuan Tong、Morry Niu、Graham Neubig、Xiang Yue
機構:IN.AI、Tsinghua University、Carnegie Mellon University
連結:http://arxiv.org/abs/2502.03373v1
簡介:研究表明,儘管透過強化學習(RL)能夠改善模型的表現,然而如何有效地促使長鏈式思維的生成仍然缺乏明確的指導。因此,本研究旨在揭示長鏈式思維推理的機制,識別出影響模型生成長鏈式思維的關鍵因素。
關鍵詞: 影響長鏈思維的關鍵因素
9.結合強化學習和推理擴充套件
標題:Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling
作者:Zhenyu Hou、Xin Lv、Rui Lu、Jiajie Zhang、Yujiang Li…
機構:Tsinghua University、Zhipu AI
連結:https://arxiv.org/abs/2501.11651
簡介:清華大學提出了T1框架,結合強化學習和推理擴充套件(Inference Scaling),透過鼓勵模型在訓練過程中廣泛探索推理路徑,大幅提升了複雜推理任務的表現。
關鍵詞:探索驅動的強化學習訓練
10.多模態的長思維鏈資料構造
標題:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
作者:Yuhao Dong、Zuyan Liu、Hai-Long Sun、Jingkang Yang、Winston Hu…
機構:S-Lab、NTU、Tencent、Tsinghua University、Nanjing University
連結:https://arxiv.org/pdf/2411.14432
簡介:作者設計了一個多智慧體系統,包括一個專注於執行長鏈推理的推理智慧體和一個訓練有素以判斷和總結推理結果的摘要智慧體。作者進一步引入了一個迭代DPO演算法,以增強推理智慧體的生成穩定性和質量。基於流行的LLaVA-NeXT模型以及作者更強大的基礎MLLM,作者在需要視覺推理的具有挑戰性的多模態基準測試中實現了顯著的效能提升。
關鍵詞:多模態,長鏈構造
11.語言模型中不需要蒸餾自力實現的長鏈思考
標題:BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
作者:Bo Pang、Hanze Dong、Jiacheng Xu、Silvio Savarese、Yingbo Zhou…
機構:Salesforce AI Research
連結:https://arxiv.org/pdf/2502.03860
簡介:本文介紹了一種新穎的方法,可以在不需要從o1類模型或昂貴的人工註釋中提取資訊的情況下啟用LLM的LongCoT能力,我們從一個標準的指導模型中引導LongCoT(BOLT)。BOLT包括三個階段:1)在標準指導模型上進行上下文學習的LongCoT資料引導;2)LongCoT監督微調;3)線上訓練以進一步完善LongCoT能力。
關鍵詞: LongCot資料構造
12.從強化學習的角度分析實現o1的路線圖
標題:Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
作者:Zhiyuan Zeng1、Qinyuan Cheng、Zhangyue Yin、Bo Wang、Shimin Li…
機構:Fudan University、Shanghai AI Laboratory
連結:https://arxiv.org/pdf/2412.14135
簡介:本文從強化學習的角度分析實現o1的路線圖,重點討論四個關鍵元件:策略初始化、獎勵設計、搜尋和學習。策略初始化使模型能夠發展出類人推理行為,使其具備有效探索複雜問題解空間的能力。獎勵設計透過獎勵塑造或獎勵建模提供密集而有效的訊號,這些訊號為搜尋和學習提供了指導。搜尋在訓練和測試階段生成高質量解中起著至關重要的作用,它能夠透過更多的計算產生更好的解決方案。學習則利用搜索生成的資料來改進策略,從而透過更多的引數和更多的搜尋資料實現更好的效能。
關鍵詞:策略初始化,獎勵設計,搜尋,學習
13. STILL系列
簡介:STILL系列目前為止共包含三個階段,記錄了AI Box小組成員在O1復現過程中的探索過程與寶貴經驗。
作者:Yingqian Min、Zhipeng Chen、Jinhao Jiang…
機構:Gaoling School of Artificial Intelligence, Renmin University of China、BAAI
專案連結:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
(1)STILL-3-1.5B-preview:1.5B小模型強化學習訓練
(2)Virgo:多模態長鏈SFT 論文連結:https://arxiv.org/pdf/2501.01904
(3)STILL-Hallucination Mitigation:慢思考+幻象消除 論文連結: https://arxiv.org/pdf/2501.01306
(4)STILL-2:SFT長鏈+自我提升 論文連結:https://arxiv.org/abs/2412.09413
(5)STILL-1:慢思考+MCTS 論文連結:https://arxiv.org/abs/2411.11694
關鍵詞:探索,強化學習,多模態,幻象,蒸餾與自我提升,MCTS
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
