從自我進化視角出發，全面解析LLM的推理能力技術演進路徑

論文標題：A Survey on LLM Complex Reasoning through the Lens of Self-Evolution
論文連結：https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution?channel=doi&linkId=67b8b5b0207c0c20fa9111fb&showFulltext=true
倉庫連結：https://github.com/cs-holder/Reasoning-Self-Evolution-Survey

1. 引言

在人工智慧領域，大型語言模型的複雜推理研究正成為學術界和工業界關注的焦點。隨著 OpenAI 的 O1 以及後續 DeepSeek R1 等突破性成果的釋出，這一領域的研究熱度持續升溫，引發了廣泛的學術討論和實踐探索。這些里程碑式的研究成果不僅推動了相關技術的快速發展，也激勵著研究者們不斷嘗試復現並拓展其應用邊界。

為促進該領域的深入研究，哈工大賽爾實驗室知識挖掘組從自我進化的視角對現有技術體系進行了系統性分析從自我進化的視角對現有技術體系進行了系統性分析。我們的研究框架包含三個相互支撐的核心維度：資料進化、模型進化和自我進化。在資料進化維度，我們著重探討了推理訓練資料的最佳化策略，包括任務設計的改進和推理計算過程的最佳化，旨在提升思維鏈推理的質量和效率；在模型進化維度，我們系統梳理了透過訓練最佳化模型模組來增強複雜推理能力的技術路徑；在自我進化維度，我們深入分析了進化策略與模式，並基於此對 O1 類代表性工作進行解讀。

本研究基於對 200 餘篇前沿文獻的深入調研，全面總結了提升 LLM 推理能力的技術演進路徑。從基於樹搜尋的短思維鏈到基於強化學習的長思維鏈，我們系統梳理了當前最先進的研究方法，並對未來可能的研究方向進行了前瞻性展望。我們期待這篇綜述能夠為 LLM 複雜推理研究社群提供新的思路，推動該領域向更深層次發展，為提升 LLM 的推理能力開闢新的研究路徑。

2. 章節組織

本文將從三個主要部分介紹 LLM 複雜推理的自我進化方法：資料進化、模型進化和自我進化。最後，我們將分析具有代表性的 O1 類工作，並對未來研究方向進行展望。

資料進化：探討如何透過任務進化和思維鏈進化來生成更高質量的訓練資料。
模型進化：關注如何透過最佳化模型模組來提升系統的推理能力。
自我進化：探討如何透過迭代的資料和模型進化來實現系統的自我最佳化。

3. 資料進化

資料進化關注的是如何透過生成更高質量的訓練資料來提升系統的推理能力。這一部分主要包含任務進化和思維鏈進化。我們將詳細介紹每個部分的最佳化策略和技術。

3.1 任務進化

任務進化專注於生成更多樣化和更具挑戰性的任務，以提升模型的推理和泛化能力。當前研究中，任務進化的三個關鍵方向包括任務多樣性、任務複雜性和任務可靠性。

任務多樣性：為提高任務多樣性，一些研究提示 LLM 修改資料型別和邏輯操作，生成結構相似但邏輯不同的任務。另一些研究使用 LLM 重新表述參考問題，或採用溫度取樣和以多樣性為重點的提示來豐富問題生成。還有研究明確指導 LLM 建立罕見且領域特定的問題。此外，結合人工編寫的任務與模型生成的任務，透過特定提示生成新任務也是一種有效方法。

任務複雜性：生成更復雜任務的方法包括新增約束、深化、具體化、增加推理步驟和增加輸入複雜性。例如，透過引入額外的約束或要求來增加任務難度，或透過擴充套件查詢深度和廣度來提升模型的推理能力。具體化方法將問題中的通用概念替換為更具體的概念，使指令更清晰。增加推理步驟則透過要求額外的推理步驟來加強模型的邏輯思維能力。增加輸入複雜性則透過修改問題條件，引入結構化資料或特定輸入格式，提升模型的魯棒性和泛化能力。

任務可靠性：自動生成任務可能會產生未解決的任務或錯誤答案。為解決這一問題，一些研究使用微調的 LLM 對任務進行評分並選擇高質量任務。另一些研究從原始問題生成任務，並透過驗證答案過濾不一致性。還有一些研究透過 Python 直譯器和預定義規則驗證程式設計任務的正確性以確保質量。此外，生成對抗網路（GAN）可用於合成任務，並透過評估與真實資料相似性的批評器提高可靠性。從數學解決方案中推導問題，或從高質量開原始碼中建立程式設計任務，也是提高任務可靠性的有效方法。

3.2 思維鏈進化

思維鏈進化透過定義三個關鍵的元操作來構建更強大的推理鏈，這些元操作透過搜尋演算法擴充套件，生成更高質量的推理鏈。

3.2.1 元操作

思維鏈進化透過定義三個關鍵的元操作來構建更強大的推理鏈：逐步推理、評估和後處理。逐步推理將問題分解為逐步依賴的步驟，評估則在推理過程中進行自我評估和反思，後處理則對推理結果進行修正和總結。這些元操作透過搜尋演算法擴充套件，生成更高質量的推理鏈。

逐步推理：將複雜問題分解為一系列逐步依賴的步驟，使模型能夠逐步解決每個子問題。這種方法透過遞迴分解，使模型能夠處理更復雜的任務。例如，CoT 透過逐步提示解決每個子問題，Plan-and-Solve 透過生成計劃並基於計劃進行推理，Least-to-Most Prompting 透過顯式分解問題並逐步解決每個子問題，ReACT 透過結合迭代推理和行動來增強推理過程。

評估：在推理過程中進行自我評估和反思，使模型能夠識別和糾正錯誤。評估可以分為結果級、步驟級和 token 級。結果級評估在推理完成後對整個解決方案進行評估，步驟級評估在推理過程中對每個步驟進行評估，token 級評估對每個生成的 token 進行評估。這些評估方法透過不同的粒度，提供更細緻的反饋，幫助模型改進推理過程。

後處理：後處理對推理結果進行修正和總結，使模型能夠從錯誤中學習並改進未來的推理。後處理方法包括過濾、總結和修正。過濾直接移除低質量的推理結果，總結從推理過程中提取關鍵資訊，修正則透過糾正錯誤來最佳化推理結果。這些方法透過不同的方式，提高推理結果的質量和可靠性。

3.2.2 顯式樹搜尋（Short CoT）

顯式樹搜尋方法透過樹狀搜尋演算法（如 BFS/DFS、Beam Search、A * 和 MCTS）來探索多個推理路徑，生成正確且簡潔的推理鏈。這些方法在搜尋過程中使用評估函式指導探索方向，並進行剪枝以提高效率。例如，BFS/DFS 透過經典搜尋演算法探索多樣化推理路徑，Beam Search 透過維護候選序列平衡搜尋準確性和計算效率，A * 透過評估函式最佳化搜尋效率，MCTS 則透過平衡探索和利用來找到高質量的推理路徑。

3.2.3 隱式試錯搜素（Long CoT）

隱式試錯搜素方法透過線性化整個搜尋過程，允許模型在推理過程中進行自我評估和自我修正，生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器，而是透過模型的自我評估機制來調整推理路徑。例如，O1 Journey 透過蒸餾方法訓練模型生成長推理鏈，而 DeepSeek-R1、Kimi-k1.5 和 T1 則透過強化學習訓練模型生成長推理鏈。

3.2.4 顯式樹搜尋與隱式試錯搜尋的比較和關聯

比較：

顯式樹搜尋方法透過樹狀搜尋演算法（如 BFS/DFS、Beam Search、A * 和 MCTS）來探索多個推理路徑，生成正確且簡潔的推理鏈。這些方法在搜尋過程中使用評估函式指導探索方向，並進行剪枝以提高效率。而隱式試錯搜尋方法透過線性化整個搜尋過程，允許模型在推理過程中進行自我評估和自我修正，生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器，而是透過模型的自我評估機制來調整推理路徑。

關聯：

搜尋空間角度：樹搜尋專注於探索單個推理步驟定義的動作空間，確保每一步的邏輯性。試錯搜尋引入元操作（如評估、修正、回溯）擴充套件動作空間，生成更詳細的長推理鏈。因此，如果將 Tree Search 的動作空間擴充套件為包含評估、修正、回溯等元操作，那麼理論上可以透過 Tree Search 搜尋到 Long CoT。

推理能力進化角度：Long CoT 是解決新問題的有效策略，透過試錯和自我修正探索解決方案。Short CoT 透過持續訓練從 Long CoT 中提取知識，學習高效推理路徑，減少試錯，縮短推理鏈。Long CoT 作為初始解決方案，其知識可用於學習 Short CoT，後者作為先驗知識，減少處理更復雜任務時的試錯迭代。

4. 模型進化

模型進化關注的是如何透過最佳化模型的各個模組來提升系統的推理能力。這一部分主要包含 Reasoner、Evaluator 和 Post-Processor 的最佳化方法。我們將詳細介紹每個模組的最佳化策略和技術。

4.1 Background RL Knowledge

強化學習為 LLM 的模型進化提供了核心最佳化框架，其技術演進從傳統 RLHF 逐步發展為更高效的正規化。RLHF 透過人工標註的偏好資料訓練結果獎勵模型實現LLM對齊。PPO 演算法透過約束策略最佳化步長進行策略偏移控制，具備穩定性地優勢，但存在訓練複雜度高、資源消耗大等問題。為此後續研究提出多種改進：REINFORCE 簡化架構，利用最高機率動作作為基線（ReMax）或多軌跡取樣估計基線（RLOO），降低對價值模型的依賴；GRPO 通過蒙特卡洛組內歸一化替代價值模型，提升訓練穩定性；DPO 省去顯式獎勵建模，直接透過偏好資料對齊策略模型，但面臨細粒度最佳化不足的侷限；PRIME 結合結果獎勵模型（ORM）的訓練實現 token 級隱式獎勵訊號分發。

4.2 Reasoner 最佳化

Reasoner 是模型的核心元件，負責生成推理過程和最終答案。最佳化 Reasoner 的方法主要包括行為克隆、偏好最佳化和強化學習。

4.2.1 行為克隆

行為克隆透過監督學習直接模仿高質量推理軌跡來最佳化模型，是模型進化的基礎方法。其核心流程包括：從正確解中篩選訓練資料，透過微調使模型學習標準推理模式。

然而，傳統方法僅使用正確資料，導致大量錯誤解被浪費。為此，改進方法透過逆向策略利用錯誤資料：例如，將錯誤問題重新生成正確解法以擴充正樣本，或修改錯誤解的指令標籤（如將 “生成正確答案” 改為 “生成錯誤答案”），使其轉化為負樣本供模型學習。此外，部分方法訓練專用修正器模型，定位並修復推理錯誤。

儘管行為克隆實現簡單，但其依賴靜態資料集的特性限制了持續進化能力，且難以充分探索錯誤樣本中的潛在價值，成為後續強化學習方法的重要補充。

4.2.2 偏好最佳化

偏好最佳化透過推動高質量推理路徑的機率上升，低質量路徑的機率下降來提升模型的推理能力。偏好最佳化可以根據偏好資料的粒度分為解決方案級、步驟級和 token 級最佳化。

解決方案級偏好最佳化：透過比較不同解決方案的質量來最佳化模型。具體來說，給定一組解決方案，根據答案的正確性將其分為正確和錯誤兩組，然後構建偏好對進行最佳化。這種方法簡單直觀，但對中間推理步驟的最佳化能力較弱。

步驟級偏好最佳化：透過評估每個推理步驟的質量來最佳化模型。具體來說，透過主動構造或樹搜尋方法生成帶有相同字首的正確和錯誤推理軌跡，然後構建偏好對進行最佳化。這種方法能夠更細緻地最佳化模型的推理過程，但對資料的要求較高。

Token 級偏好最佳化：透過評估每個生成的 token 來最佳化模型。具體來說，透過隱式獎勵或顯式標註方法為每個 token 分配獎勵值，然後基於這些獎勵值進行最佳化。這種方法能夠提供最細粒度的反饋，但計算複雜度較高。

4.2.3 強化學習

強化學習透過與環境的互動來最佳化 LLM 的推理能力。具體來說，強化學習方法包括 model-free 線上強化學習、離線強化學習、基於模型的強化學習和層次強化學習。

model-free 線上強化學習：透過直接與環境互動來訓練策略模型。具體來說，模型在環境中生成推理軌跡，然後根據獎勵訊號進行最佳化。常用的方法包括 REINFORCE、PPO 和 GRPO。這些方法透過線上互動，能夠動態調整模型的行為，但對環境的依賴性較強。

離線強化學習：使用靜態資料集進行訓練，而不是透過與環境互動來收集資料。具體來說，離線強化學習方法如 DPO 透過收集偏好資料，然後基於這些資料進行最佳化。這種方法能夠高效利用已有資料，但對資料質量的要求較高。

基於模型的強化學習：透過模擬環境來減少訓練和推理中的互動成本。具體來說，模型首先學習一個環境模型，然後在模擬環境中進行訓練。這種方法能夠顯著減少與真實環境的互動次數，但對環境模型的準確性要求較高。

層次強化學習：透過分解任務為高層次和低層次的馬爾可夫決策過程來提升推理能力。具體來說，高層次模型負責規劃推理步驟，低層次模型負責生成具體的推理內容。這種方法能夠更好地模擬人類的推理過程，但實現複雜度較高。

4.3 Evaluator 最佳化

Evaluator 負責評估 Reasoner 生成的推理過程和答案的質量。最佳化 Evaluator 的方法主要包括訓練資料的構造和訓練格式的選擇。

4.3.1 訓練資料構造

Evaluator 的最佳化需要構造高質量的訓練資料，包括結果級、步驟級和 token 級資料。

結果級資料構造：透過正確答案標籤或 LLM 評估來生成。具體來說，使用正確答案標籤將解決方案分類為正確和錯誤，然後基於這些分類進行訓練。這種方法簡單直觀，但對中間推理步驟的評估能力較弱。

步驟級資料構造：通過蒙特卡洛取樣、LLM 評估或一致性評估來生成。具體來說，透過取樣或評估方法為每個推理步驟分配獎勵值，然後基於這些獎勵值進行訓練。這種方法能夠提供更細緻的反饋，但計算複雜度較高。

Token 級資料構造：透過生成模型重寫原始解決方案或利用隱式獎勵來生成。具體來說，透過重寫或獎勵分配方法為每個 token 分配獎勵值，然後基於這些獎勵值進行訓練。這種方法能夠提供最細粒度的反饋，但實現難度較大。

4.3.2 訓練格式

Evaluator 的訓練格式可以是點式、成對式或語言式。

點式訓練：使用標量值最佳化評估模型。具體來說，透過預測每個解決方案或步驟的獎勵值來訓練模型。這種方法簡單直觀，但對偏好資料的利用不夠充分。

成對式訓練：使用偏好資料最佳化評估模型。具體來說，透過比較不同解決方案或步驟的偏好關係來訓練模型。這種方法能夠更好地利用偏好資料，但對資料的要求較高。

語言式訓練：透過生成自然語言反饋來提升評估的可靠性和可解釋性。具體來說，透過生成對解決方案或步驟的自然語言評價來訓練模型。這種方法能夠提供更豐富的反饋，但實現複雜度較高。

4.4 Post-Processor 最佳化

Post-Processor 負責對 Reasoner 生成的推理結果進行修正和總結。最佳化 Post-Processor 的方法主要包括行為克隆和強化學習。

行為克隆：透過利用錯誤資料生成修正資料來提升模型的自我修正能力。具體來說，透過生成錯誤資料並利用正確資料進行微調，訓練模型學習如何修正錯誤。這種方法能夠顯著提高模型的自我修正能力，但對資料的要求較高。

強化學習：透過整合外部執行反饋來提升模型的自我改進能力。具體來說，透過將修正過程建模為馬爾可夫決策過程，並使用強化學習演算法進行最佳化，訓練模型學習如何在推理過程中進行自我修正。這種方法能夠提供更動態的反饋，但實現複雜度較高。

5. 自我進化

自我進化要求系統利用自身生成的資料來持續提升效能。這一部分將探討自我進化的理論基礎、策略、模式以及面臨的挑戰和未來方向。

5.1 自我進化背後的理論

透過期望最大化（EM）演算法，自我進化被形式化為一個交替最佳化過程。E 步（資料進化）生成高質量推理軌跡並評估其質量，M 步（模型進化）基於生成資料最佳化模型引數，形成一個閉環迭代機制。這一過程在理論上能夠保證系統性能的逐步提升並最終收斂。

5.2 自我進化策略

自我進化策略包括獨立進化、合作進化和對抗進化。獨立進化透過單獨最佳化一個模組來提升效能，合作進化透過模組間的合作來提升整體效能，而對抗進化則透過模組間的對抗來避免區域性最優問題。

獨立進化：每個模組獨立進行最佳化，不依賴於其他模組的反饋。例如，Reasoner 可以透過行為克隆或偏好最佳化單獨進行訓練，Evaluator 可以透過結果級或步驟級資料單獨進行訓練，Post-Processor 可以透過行為克隆單獨進行訓練。這種方法簡單直觀，但可能無法充分利用模組間的協同作用。

合作進化：模組間透過合作來提升整體效能。例如，Reasoner 生成的推理結果可以用於訓練 Evaluator，Evaluator 的反饋可以用於最佳化 Reasoner，Post-Processor 的修正結果可以用於進一步訓練 Reasoner。這種方法能夠充分利用模組間的協同作用，提升整體效能，但實現複雜度較高。

對抗進化：模組間透過對抗來避免區域性最優問題。例如，Task Creator 生成更具挑戰性的任務來測試 Reasoner，Reasoner 透過解決這些任務來提升自身能力。這種方法能夠有效避免模型陷入區域性最優，但需要精心設計對抗機制。

5.3 自我進化模式

自我進化模式包括僅最佳化 Reasoner、Reasoner + Evaluator、Reasoner + Post-Processor、Reasoner + Task Creator 和 Reasoner + Evaluator + Post-Processor。每種模式都有其獨特的最佳化方法和優勢，透過結合多種模式可以實現更顯著的效能提升。

僅最佳化 Reasoner：僅對 Reasoner 進行最佳化，不涉及其他模組。最佳化方法包括行為克隆、偏好最佳化和強化學習。這種方法簡單直觀，但可能無法充分利用其他模組的反饋。

Reasoner + Evaluator：Reasoner 生成的推理結果用於訓練 Evaluator，Evaluator 的反饋用於最佳化 Reasoner。這種方法能夠充分利用模組間的協同作用，提升推理能力和評估能力。

Reasoner + Post-Processor：Reasoner 生成的推理結果用於訓練 Post-Processor，Post-Processor 的修正結果用於進一步訓練 Reasoner。這種方法能夠提升推理結果的質量和可靠性。

Reasoner + Task Creator：Task Creator 生成更具挑戰性的任務來測試 Reasoner，Reasoner 透過解決這些任務來提升自身能力。這種方法能夠提升模型的泛化能力和任務多樣性。

Reasoner + Evaluator + Post-Processor：Reasoner 生成的推理結果用於訓練 Evaluator 和 Post-Processor，Evaluator 的反饋和 Post-Processor 的修正結果用於進一步訓練 Reasoner。這種方法能夠充分利用模組間的協同作用，實現更全面的效能提升。

6. 對代表性 O1 類研究的重新解讀

透過對代表性 O1 類研究的分析，我們發現這些研究都可以用自我進化框架來解釋。例如，Marco-O1 透過 MCTS 生成資料並進行監督式微調，O1 Journey 透過長推理鏈的生成和 DPO 最佳化提升推理能力，Slow Thinking with LLMs 透過迭代訓練和 DPO 最佳化實現 Reasoner 和 Evaluator 的共同進化，rStar-Math 透過多輪迭代訓練實現 Reasoner 和 Evaluator 的共同進化，OpenR/O1-Coder 透過 RL 最佳化 Reasoner 和 Evaluator，DeepSeek R1/Kimi-k1.5/T1 則透過線上 RL 實現 Reasoner、Evaluator 和 Post-Processor 的共同進化。

7. 挑戰和未來方向

自我進化框架的挑戰與方向：

更有前景的自我進化模式：透過探索不同的模組組合和策略，如合作和對抗學習，可以實現更有效的自我進化框架。理想情況下，所有模組的同時提升將帶來持續且顯著的改進。

系統泛化：自我進化透過迭代訓練提升系統性能。持續進化的關鍵在於防止過擬合併確保泛化。首先，任務泛化至關重要；合成更多樣化和複雜的任務可以確保更廣泛的覆蓋範圍，這是解決泛化問題的基礎。其次，推理器、評估器和後處理器的泛化能力至關重要。B-StAR 顯示，增強推理器的探索能力可以減少過擬合。後處理器在多樣化解決方案中也起著關鍵作用。此外，獎勵駭客行為表明當前的評估器可能會過擬合到推理器並利用獎勵捷徑。總之，推理系統的泛化對於自我進化框架中的持續增強至關重要。

自我進化視角下提升 R1 等工作的不足：

任務多樣性：當前任務生成方法在複雜性和多樣性上有提升空間，需進一步增強任務多樣性，生成更具挑戰性和領域相關性的任務。
自我評估和修正能力：模型的自我評估和修正能力在準確性和效率上存在不足，需進一步提升以更準確地識別和修正錯誤，從而透過更準確更高效的試錯搜尋實現資料進化。
獎勵建模方法：解決LLM在隱式試錯搜尋過程中過思考和欠思考等問題可能需要更細粒度的獎勵訊號，現有獎勵建模方法在泛化能力和準確性不足等問題，需開發更有效的獎勵建模方法以更準確地評估模型效能，指導基於RL的模型進化。

將自我進化應用於具身智慧場景：

在具身智慧場景中，為實現自我進化，需提升模型對多模態資料的理解能力，重新定義多模態推理的思維鏈格式，降低與環境互動的成本，並增加訓練資料資源。

8. 總結

本文系統地綜述了 LLM 複雜推理的自我進化方法，從資料進化、模型進化和自我進化三個角度進行了深入分析。透過對現有技術和方法的總結，我們希望為 LLM 複雜推理社群提供新的研究方向和靈感，推動 LLM 推理能力的進一步提升。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]