
來源 | 專知

論文連結:https://arxiv.org/abs/2503.09567
近年來,大型語言模型(RLLMs)在推理領域取得了顯著進展,例如OpenAI-O1和DeepSeek-R1,它們在數學和程式設計等複雜領域中展現了令人印象深刻的能力。其成功的一個核心因素在於長鏈推理(Long CoT)特性的應用,這種特性增強了模型的推理能力,使其能夠解決複雜問題。然而,儘管取得了這些進展,目前仍缺乏對長鏈推理的全面綜述,這限制了我們對其與傳統短鏈推理(Short CoT)區別的理解,也使關於“過度思考”和“測試時間擴充套件”等問題的討論更加複雜。本綜述旨在填補這一空白,為長鏈推理提供一個統一的視角。
-
區分長鏈推理與短鏈推理:我們首先明確長鏈推理與短鏈推理的區別,並引入一種新的分類法來對當前的推理正規化進行分類。
-
長鏈推理的核心特性:我們探討長鏈推理的三大關鍵特性——深度推理、廣泛探索和可行反思。這些特性使模型能夠處理更復雜的任務,並生成比淺層短鏈推理更高效、更連貫的結果。
-
關鍵現象研究:我們研究了長鏈推理中的關鍵現象,例如伴隨這些特性出現的“過度思考”和“測試時間擴充套件”,並深入分析這些現象在實際中的表現。
-
未來研究方向:最後,我們指出了當前研究中的重要空白,並強調了未來的潛在方向,包括多模態推理的整合、效率提升以及知識框架的最佳化。透過提供結構化的綜述,本文旨在啟發未來的研究,並推動人工智慧邏輯推理的進一步發展。

引言
近年來,隨著推理型大型語言模型(RLLMs)的出現,例如OpenAI O1 [208] 和DeepSeek R1 [155],針對長鏈推理(Long Chain-of-Thought, Long CoT)的研究逐漸增多,這些研究極大地提升了模型在數學推理、程式設計任務以及多學科知識推理方面的能力 [488, 686, 508, 50, 58, 673, 133, 776],如圖1所示。這一轉變標誌著與傳統大型語言模型(LLMs)任務處理方式的顯著不同 [798, 437, 439, 421]。與傳統LLMs中使用的短鏈推理(Short CoT)不同,長鏈推理透過在測試時間擴充套件(test-time scaling)[299, 520, 364] 的支援下,在問題空間內進行更詳細、迭代的探索和反思。這一過程在數學和邏輯推理方面取得了顯著進展,同時也探索了監督微調(SFT)和強化學習(RL)技術如何增強對擴充套件推理鏈的學習和探索 [440, 385]。
然而,目前尚無系統的綜述來全面理解長鏈推理的主要因素及其在RLLMs中的最新進展,這阻礙了RLLMs的進一步發展。因此,關於“測試時間擴充套件”對長鏈推理的有效性 [610, 343] 與“過度思考”可能對LLMs造成損害並引入不必要複雜性 [73, 96, 251] 的爭論仍在持續。此外,一些研究者認為,在解決特定問題時,推理鏈的長度與準確性之間並無明確關聯 [622]。
為了填補這一空白,本文對長鏈推理進行了廣泛而全面的綜述。具體而言,如圖2所示,我們首先定義並分析了長鏈推理與傳統短鏈推理的區別,重點關注以下關鍵方面:(1)深度推理,即需要足夠的邏輯處理深度來管理大量的推理節點;(2)廣泛探索,即生成並行的不確定節點,並從已知邏輯過渡到未知邏輯;(3)可行反思,即對邏輯連線進行反饋和最佳化。這些特性使長鏈推理正規化能夠整合更復雜的推理過程,並適應更廣泛的邏輯結構,最終生成更高效、更連貫的結果。隨後,我們系統地探討了與長鏈推理相關的關鍵現象,例如其湧現性、過度思考現象、測試時的推理時間擴充套件以及“頓悟時刻”(Aha Moment)等。據我們所知,這是首次針對這些具體主題進行的全面綜述。最後,基於大量文獻,我們指出了未來研究的前沿方向,並建議了一些有價值的開源框架和資料集,為未來的研究提供基礎。
本文的主要貢獻如下:
系統性區分:本文首次提出了長鏈推理的概念,並將其與傳統短鏈推理區分開來,從而為理解這兩種正規化及其特性提供了清晰的框架。
熱點現象解釋:我們系統地研究了與長鏈推理相關的顯著現象,例如過度思考、測試時推理時間擴充套件以及“頓悟時刻”,為複雜推理中的認知過程提供了有價值的見解。
新興挑戰與前沿:我們探討了長鏈推理領域的新興挑戰,並指出了關鍵的研究前沿。基於大量文獻,我們強調了進一步研究可能顯著推動長鏈推理方法發展的領域。

長鏈推理與短鏈推理的討論
本節形式化地闡述了長鏈推理(Long CoT)與短鏈推理(Short CoT)之間的關鍵區別,重點在於推理深度、連線的重訪以及邏輯節點的探索 [607]。這些區別與系統1(System 1)和系統2(System 2)思維模式明顯不同。長鏈推理與短鏈推理的比較是在系統2的框架內進行的,其中長鏈推理涉及更徹底的推理、反思和探索,而短鏈推理通常優先考慮淺層且高效的邏輯,而非窮盡式的推理。

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

掃描二維碼新增小助手微信
關於我們
