
來自中科院、MBZUAI、港科廣、港城、華東師大、小紅書等 8 家機構的研究人員總結超過 300 篇文獻,系統地回顧了大模型推理能力發展的主要脈絡,經典技術,熱點問題。
其中,第一作者李忠志、張篤振來自中國科學院自動化研究所、MBZUAI,研究方向主要涉及多模態大模型、數學推理和 AI4Science,分別來自劉成林研究員、宋樂教授團隊,本文的另一個通訊作者郭志江博士來自於港科廣,主要關注大模型的知識和推理。
過去有大量認知科學的研究聚焦於人類認知系統的 System1/2 的理解和分析,也是人工智慧領域重要的研究課題。實現人類水平智慧需要最佳化從快速、直覺的系統 1 到更慢速、更審慎的系統 2 推理的過渡。系統 1 擅長快速、啟發式決策,而系統 2 則依賴邏輯推理以實現更準確的判斷並減少偏見。
“不要教,要激勵。”—Hyung Won Chung, OpenAI
System-2 AI 技術在最近出現了突飛猛進的發展,以“激勵”而非“教導”的新的語言模型學習方式的工作對領域產生了顛覆性的影響。
OpenAI o1/Deepseek R1 之後如雨後春筍般出來的工作,Reasoning LLM 在各種 NLP、CV 和多模態任務上都出現了快速的進展,並且展示出了在智慧體、具身智慧以及 AI4Science 等任務上的巨大應用潛力。
從 o1 到 R1,再到 o3,Grok3,到剛剛釋出的 QwQ-Max 和 Claude3.7,很有必要對這些強推理大模型,包括它們的特點、核心方法以及演變過程進行系統性的總結。


在此背景下,中國科學院自動化所、MBZUAI、CityU、University of Strathclyde,Xiaohonshu Inc. 等八家機構機構聯合對近 300 篇文獻進行全面調研,釋出了《From System 1 to System 2: A Survey of Reasoning Large Language Models》的調研綜述。

論文連結:
https://arxiv.org/abs/2502.17419
程式碼連結:
https://github.com/zzli2022/Awesome-System2-Reasoning-LLM.
該綜述首先簡要回顧了基礎大語言模型的進展以及系統2技術的早期發展,探討了它們的結合如何為推理大語言模型鋪平道路。
接著,文章討論瞭如何構建推理大語言模型,分析了其特點、實現高階推理的核心方法以及各類推理大語言模型的演變。此外,該文還概述了推理基準測試,並對代表性推理大語言模型的效能進行了深入比較。最後,探討了推動推理大語言模型發展的潛在方向,並維護了一個即時 GitHub 倉庫以跟蹤最新進展。
作者團隊希望該文章能為這一快速發展的領域提供有價值的參考,激發創新並推動進步,倉庫內將會不斷的維護,聚合這個領域令人興奮的開源資源,共同促進領域的快速進步。

▲ 圖1. Survey 資源倉庫

綜述結構
本綜述提供了關於推理型 LLM 發展中的關鍵概念、方法和挑戰的全面概述。如圖 2 所示,本綜述結構如下:
第 2 節簡要回顧了基礎 LLM 的進展和系統 2 關鍵技術的早期發展,包括符號邏輯系統、蒙特卡洛樹搜尋和強化學習,文章重新回顧了這些經典技術的核心科學原理以及涉及到 System-2 智慧的核心特質,重點介紹了它們的結合如何為推理型 LLM 鋪平道路。
第 3 節介紹了推理型 LLM,並概述了其構建過程。具體而言,第 3.1 節從輸出行為和訓練動態兩個角度呈現推理型 LLM 的特點,強調它們與基礎 LLM 的區別。第 3.2 節識別了實現高階推理能力所需的核心方法,重點介紹五個方面:結構搜尋、獎勵建模、自我改進、宏動作和強化微調。每個部分深入探討了這些方法的具體特點、方法的受限性質,並介紹了代表性推理型 LLM。

▲ 圖2. 綜述結構
第 4 節評估了代表性的推理型 LLM。文章回顧了目前 System-2 Reasoning LLM 在文字、多模態、智慧體領域出現的經典基準和經典任務型別。對出現的指標和內容進行了系統化的總結並且梳理了 Reasoning LLM 時代模型評估的發展趨勢。
第 5 節強調了現有推理型 LLM 的侷限性,並概述了這些模型的若干有前景的未來發展方向,比如:高效 System-2 的 Reasoning LLM,System-1 和 System-2 系統的協作,面向 AI4Science 的 Reasoning LLM,深度整合 System-2 系統的 Reasoning LLM,多語種、多模態場景下的 Reasoning LLM 等等。

▲ 圖3. 傳統推理技術與大模型推理技術分類
相比於最近的一些復現性專案,本綜述與現有文獻的不同之處及貢獻在於:沒有專注於單一技術方法,而是提供了推理型 LLM 的關鍵概念、方法和挑戰的全面概述;總結了早期系統 2 的關鍵進展,並闡述了它們如何與基礎 LLM 結合,為推理型 LLM 鋪路——這是之前文獻中常被忽視的關鍵方面。
文章提供了更為徹底和全面的核心方法總結,這些方法對於構建推理型 LLM 至關重要,包括但不限於強化學習。作者還提供了一個即時跟蹤GitHub倉庫,供使用者關注該領域的最新進展。希望本綜述能夠作為一個寶貴的資源,促進這一快速發展的領域的創新和進步。

更全面的技術路線回顧
本節概述了驅動推理大語言模型高階推理能力的核心方法,如圖 4 所示。這些方法包括結構搜尋、獎勵建模、自我改進、宏動作和強化微調。文章還為每種方法列舉了具有代表性的推理大語言模型。

▲ 圖4. 近期 Reason LLM 的發展時間線示意圖
(1)結構搜尋:解決複雜問題一直是基礎模型的一個目標,基礎模型在解決複雜的問題缺少關鍵的認知機制,比如缺少對於外在環境的建模和理解以及機制機制來執行長期限的推理,這些都阻礙了模型在複雜規劃和推理時的探索和利用。
結構化搜尋的方法將現在的各類方法建模為結構化的方式,推理狀態被建模為樹或者圖結構中的節點,模仿人類推理過程中的結構化思維過程,搜尋最高獎勵的路徑,並且來高效的探索現在 LLM 中巨大的搜尋空間。

▲ 圖5. 結構搜尋方法歸類
文章根據各種結構化搜尋採用結構化動作粒度的不同,探索展開(Rollout)的不同、外部獎勵模式模式的不同、以及具體的應用場景,對現有的大量結構化搜尋的方法進行了細粒度的分類和總結。
儘管結構化在增強模型推理能力上取得了大幅度的收益。然而,主流結構化搜尋的的效率特性限制了他們在在真實場景的應用,精心設計的宏動作模式和獎勵引入方式也給泛化性帶來了挑戰,將來形式更高效、更自由的結構化搜尋的方法在未來值得探索。

▲ 圖5. 五大類基本技術
(2)獎勵建模:在推理任務中,出現了兩種主要的獎勵機制用於對於多步推理問題的準確度進行建模。結果獎勵模型主要從比較高的層次去評估求解軌跡是否能達成正確的答案。過程獎勵模型則提供一步一步的標籤用於評估每一步的步驟。過程獎勵模型相比於結果獎勵模型,更符合人類的認知機制,在自動過程評估,強化學習監督上也有更大的應用潛力。

然而,過程獎勵建模方法面臨比較多的困境,比如步驟的貢獻和正確性比較難定義,儘管過去產生了一些利用 MCTS 之類的結構化搜尋方法進行自動化合成的策略,又不可避免的引入資料偏差。

▲ 圖6. PRM 技術與 ORM 技術
此外,也有研究表明,構建高效的自動化合成策略。文章對獎勵型別、訓練資料來源、訓練方式、應用方法和分類特色對於獎勵模型對於現有的獎勵模型進行了細粒度的分類。
(3)自我改進:傳統的 CoT 微調改進面臨比較大的 Scaling 困境,自我改進策略利用模型自身的探索能力,提升最終在翻譯、數學、多模態感知領域的能力。探索和學習技術是兩個核心的要素。探索過程中模型需要挖掘自己內部的知識,並且透過合理的方法根據外部/內部的篩選出冗餘的探索軌跡,學習過程中將探索的經驗用於重新內化到模型本身當中。

文章根據探索策略、反饋型別、學習策略、是否涉及訓練、以及應用領域對於模型對於現有的自我改進方法進行了細粒度的分類。
(4)宏動作:層次化的思考結構和思維動作模式在人類的 System-2 認知過程中作用非常顯著。這些宏觀的思考結構和動作模式使得傳統思維鏈的過程具有更強的結構一致性、更系統的探索模式、實現 System-2 系統特有的反思行為。

過去,自迴歸模型預測下一個 token 模式的方法不能有效地自我構建宏動作方法來實現更強的宏觀規劃。
最近,出現了大量的工作聚焦於手工設計、或者自動設計宏動作,來引導大語言模型內部的探索空間或者合成數據。文章根據這些方法的宏動作方法用途、構建方式、動作型別和動作規模、涉及到的基礎模型的模態型別進行了分類。
(5)強化微調:OpenAI 釋出以來,強化微調的熱度產生了巨大的進步,相比指令微調引入多樣化資料用於監督的方法而言,強化微調聚焦於使用獎勵機制去引導模型的自我進化。相比於過去指令微調進行稠密獎勵的方法,強化微調引入係數的獎勵訊號,在少數高質量的資料集上就能迸發出驚人的效能。

從 R1 釋出以來,在單模態和多模態領域都出現了大量的工作用於研究在合適的基座的上進行強化自我提升的工作,文章全面總結了這些專案,並且總結了強化微調的核心優勢和困境,優勢包括:
更高效精簡的訓練流水線、更強的可擴充套件性、自我的湧現屬性和不清晰的推理機制。然而,強化微調演算法也存在大量的問題,比如存在的問題包括:不清晰的內部機制、獎勵的飽和、不穩定的長思維鏈生成過程。
文章根據獎勵型別、模態屬性、使用的強化演算法、學習機制、激勵樣本規模、驗證領域對於現有的開源專案、技術報告進行了細粒度總結。

系統的 Benchmark,指標,正規化總結
構建一個強有力的基準測試對於記錄推理大語言模型能力的進步以及確定未來發展的有前景的研究方向至關重要。在此,文章從三個關鍵方面回顧這些基準測試:分類、評估指標和效能比較,並提供反思與洞見。
文章將目前的主要 MLLM 評估分為數學、程式碼、科學、智慧體、醫學和多模態6 個主要領域,系統總結了目前的主要的評估指標和設計思想。
除此之外,文章涵蓋了後 R1 時代新型別的評價指標,比如過程準確率和推理效率。文章指出未來需設計更多樣的評估指標用於捕捉長推理鏈細微差別的任務/資料集和評估方式,來評估整個推理過程的效率與連貫性。

▲ 圖7. Reason LLM 的評估,技術報告和正規化
由於推理 LLM 進行推理會產生大量的資源消耗。鑑於大規模推理計算消耗巨大,開發一個全面考量推理過程效率和粒度的多方面的評估框架勢在必行。文章也提出探索更高效的代理任務作為潛在解決方案。



未來挑戰
儘管推理大語言模型(LLMs)取得了快速進展,但仍存在若干挑戰,限制了其泛化能力和實際應用性。文章最後概述了這些挑戰,並強調應對這些挑戰的潛在研究方向。
(1)高效推理大語言模型:雖然推理大語言模型在解決複雜問題上很厲害,但它們依賴大規模架構中的長自迴歸推理,這帶來了很大的效率問題,也都限制了推理模型在更端側場景的應用。
(2)更好的 System-1/2 切換:推理大語言模型面臨的一個關鍵挑戰是快速思維能力的喪失,這導致在處理簡單任務時,不必要的深度推理會降低效率。與人類能夠在快速(系統 1)和慢速(系統 2)思維之間自如切換不同,當前的推理 LLMs 難以保持這種平衡。雖然推理 LLMs 確保了深思熟慮和全面的推理。
(3)面向科學發現 System-2 AI:推理大語言模型在科學研究中發揮著至關重要的作用,它們能夠進行深入、結構化的分析,超越了基於啟發式的快思考模型。在需要複雜推理的領域,如醫學和數學領域,推理 LLMs 的價值尤為顯著。
除了這些領域,推理 LLMs 還可以透過改進模型構建和假設檢驗,推動物理學、工程學和計算生物學等領域的進步。推理 LLMs 的研究不僅彌合了AI計算能力與類人分析深度之間的差距,還為更可靠、可解釋和突破性的科學發現鋪平了道路。
(4)神經與符號深度整合的 System-2 AI 系統:一個充滿前景的未來方向是神經與符號系統的深度融合。谷歌的 AlphaGeometry 和 AlphaGeometry2 將推理 LLMs 與符號引擎結合,在國際數學奧林匹克中取得了突破。神經與符號系統的整合提供了一種平衡的方法,既提高了適應性又增強了可解釋性,對於超越數學幾何問題的複雜現實世界推理任務具有巨大潛力。
(3)多語言條件下的 System-2 AI 探索:當前的推理大語言模型在高資源語言中表現優異,展示了在翻譯和各種推理任務中的強大能力。這些模型在擁有大規模資料和多樣化語言資源的環境中表現出色。然而,它們在低資源語言中的表現仍然有限,面臨著資料稀疏性、穩定性、安全性和整體效能方面的挑戰。這些問題阻礙了推理LLMs在缺乏大量語言資料集和資源的語言中的有效性。
(4)多模態推理的 System-2 AI 探索:將慢思考推理能力從基於文字的領域擴充套件到多模態環境仍然是一個重大挑戰,特別是在需要細粒度感知的任務中。關鍵的研究方向可能包括開發分層推理的 LLMs,以實現細粒度的跨模態理解和生成,這些模型需要針對音訊、影片和 3D 資料等模態的獨特特性進行定製。
(5)推理大模型的安全性問題:隨著 OpenAI-o1 和 DeepSeek-R1 等推理大語言模型的快速發展,能夠持續自我進化的超級智慧模型逐漸崛起。然而,這一進展也帶來了安全性與可控性方面的挑戰。強化學習作為一種關鍵的訓練方法,引入了獎勵駭客攻擊、泛化失敗和語言混合等風險,這些可能導致有害的結果。
隨著這些模型超越人類的認知能力,確保其安全、負責任和透明的使用變得至關重要。這需要持續的研究,以開發控制和引導其行為的方法,從而在 AI 的強大能力與倫理決策之間取得平衡。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
