大模型推理新正規化！清華&螞蟻：用程式設計思維來思考，用自然語言來表達

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報道。投稿郵箱：[email protected]；[email protected]

該論文的第一作者是清華大學計算機系研究生溫佳鑫，螞蟻技術研究院副研究員關健為共同第一作者。

大模型應該以什麼形式進行推理？自然語言是表示推理路徑的最佳方案嗎？

2024 年 9 月，OpenAI 攜 o1 模型吹響推理革命的號角，以驚人的思維鏈長度重新整理認知邊界。在這場技術革命中，中國力量迅速崛起：DeepSeek R1 以極低的訓練成本成功復現 o1 效能，引發全球熱議。然而，在振奮的結果背後，上述「靈魂拷問」似乎並沒有得到解答。

事實上，在這場推理大潮來臨之前，本文研究團隊就一直在圍繞這些問題進行思考和探討。自然語言形式的推理正規化雖然從思維鏈開始就主導了推理模型的構建，其本身卻存在著不可忽視的缺陷：推理過程中常見邏輯斷裂、焦點漂移、冗餘重複等系統性問題。這就像一名博學卻缺乏系統訓練的學生，知識有餘而邏輯不足。

研究團隊認為這些問題源自自然語言的雙面性：表達自由靈活，卻難以傳遞嚴謹的結構化思維。更本質的挑戰在於：文字中蘊含的推理結構往往被埋藏在自然語言冗餘的表達形式之下。這些隱含的邏輯模式難以被模型有效捕捉和複用。對於引數量較小的模型而言，這一困境更為嚴峻。

為應對這一困境，研究團隊在 ICLR 2025 上提出了 CodePlan 方法。這一創新框架將「程式碼形式的規劃」（Code-Form Planning）引入推理過程，讓大模型先用「程式設計思維」來思考，再用自然語言來表達。

得益於程式語言的嚴謹特性，程式碼規劃能夠精確構建包含條件分支、迴圈迭代、函式呼叫等結構的推理藍圖，就像為大模型裝上了一個邏輯嚴密的「作業系統」。更有趣的是，由於程式語言存在海量的資料，這種方法無需繁重的人工標註，能夠自動從已有資料中提取隱含的規劃訊號；並且由於已有程式碼覆蓋了各個領域的問題，CodePlan 除了解決複雜推理問題外，還可以很好地泛化到其它任務上。

在 13 個具有挑戰性的基準測試中，CodePlan 實現了平均 25.1% 的相對效能提升。目前，研究團隊已開源了 200 萬條包含程式碼形式規劃的推理資料，以期推動這一方向的研究。

論文標題：CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning
論文地址：https://arxiv.org/pdf/2409.12452
Github: https://github.com/thu-coai/CodePlan
Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

一. 推理能力的阿喀琉斯之踵

在大模型推理能力突飛猛進的表象之下，隱藏著一個被忽視的現象：隨著研究者不斷追逐更大的引數規模、更龐大的資料量，模型的「思維熵增」現象反而愈發嚴重。這種反常現象主要表現在兩個方面：一是推理過度膨脹，即便是回答「2+3=?」這樣的簡單問題，o1 模型也會生成長達 200 多個 token 的冗長思維鏈；二是推理不夠專注，在解決複雜問題時頻繁跳躍於不同思路之間，卻始終無法深入任何一個方向得出正確答案。

這一現象暴露出當前技術路線中一個根本性矛盾：自然語言固有的非結構化特性，與系統化推理所需的嚴謹規劃框架之間存在著難以調和的衝突。

深入分析這一現象，研究團隊發現現有的推理模型主要依賴兩個步驟：首先透過自然語言形式隨機探索生成海量的推理路徑，然後藉助強化學習演算法從中篩選優質軌跡。這種方法雖然拓寬了推理的探索空間，卻像在茫茫沙漠中漫無目的地搜尋綠洲，缺乏有效的導航機制必然導致效率低下。更為致命的是，這種基於自然語言的自由推理方式難以沉澱出可複用的結構化知識，導致模型每次面對新問題時都需要從零開始探索。

因此，現有方法雖然培養了模型強大的直覺能力，卻忽視了人類思維最本質的特徵 —— 透過高層規劃將零散知識系統化的能力。

CodePlan 在 5 類核心推理任務上取得顯著提升。Vaniila: 不使用規劃的基線方法；Natural Language Plan：基於自然語言的規劃方法。

二. CodePlan：為大模型裝載結構化思維引擎

面對大模型推理能力的瓶頸，研究團隊提出了 CodePlan 框架，其核心創新在於引入「程式碼形式規劃」（Code-Form Planning）作為思維的中間表徵。

這一創新建立在對推理結構的精確表達之上。透過將程式語言的嚴謹結構引入推理過程，CodePlan 為大模型構建了一個可靠的「思維作業系統」。這個系統透過兩個層次來實現思維的結構化：先用 Python 風格的虛擬碼勾勒出高層次的推理框架；再基於這個框架，系統性地展開具體推理步驟。

如下圖所示，這種基於程式碼的表達方式具有四大核心優勢：

條件分支能力：透過 if 語句動態調整推理路徑，實現靈活的上下文適應；
迴圈迭代結構：利用 for 迴圈高效處理序列資料和重複操作；
模組化工具：透過函式定義和呼叫，增強模型對工具的建立和使用能力；
層次化架構：透過變數定義、子任務分解和嚴謹的邏輯編排，支援複雜推理任務的模組化分解。

相比傳統的自然語言規劃，CodePlan 的優勢突出。Python 程式碼不僅能夠以更簡潔的方式傳遞規劃資訊，而且這種表達方式在預訓練語料中分佈更廣，使模型在訓練階段就已經建立起對程式碼結構的深層理解。

這種與生俱來的「程式碼素養」讓模型能夠更自然地生成和理解規劃資訊，大大降低了學習成本。更重要的是，這種規劃方式展現出驚人的通用性——從數學推理到指令理解，從符號運算到開放式問題，都能構建出清晰的程式碼形式規劃表示。

三. 廣泛提升模型推理能力

為驗證 CodePlan 的效果，研究團隊構建了一套高效的規劃資訊自動挖掘方法。如下圖所示，該方法包含兩個關鍵創新：首先透過程式碼預訓練模型精準解析文字中潛藏的推理結構，將其轉化為顯式的偽程式碼表示；其次設計了基於啟發式評分的動態過濾機制，確保所提取規劃的質量。

基於這一方法，團隊成功構建了一個包含 200 萬個「< 使用者提示，程式碼規劃，回覆 >」三元組的大規模資料集。

訓練資料構建流程。

實驗結果令人振奮。研究團隊以 Mistral 和 Llama 為基座模型，在跨越數學推理、符號運算、指令理解、多跳問答和決策等五大領域的 13 個具有挑戰性的基準測試中進行了系統評估。

結果顯示，相比於直接從使用者指令生成推理步驟的基線方法（Vanilla）和使用自然語言形式規劃的傳統方法（PS Prompting），CodePlan 在所有任務上都實現了顯著提升。特別是在複雜度較高的任務上，效能提升更為明顯。例如，在 Last Letter 任務上，Mistral-7B 的準確率提升了超過 20 個百分點，展示出 CodePlan 在處理高難度推理問題時的獨特優勢。

1. 任務越複雜，提升越顯著

深入分析實驗結果揭示了 CodePlan 一個令人矚目的特性：隨著任務複雜度的提升，其效能優勢愈發顯著。研究團隊以多跳問答任務為例進行了精細化分析，透過將資料集按推理步數（2 跳、3 跳、4 跳）劃分，清晰地展示了這一規律。

多跳問答任務的效能對比。

如上圖所示，在相對簡單的 2 跳問題上，CodePlan 相比基線模型已有穩定提升；而在需要三次以上推理跳轉的複雜問題中，效能差距急劇擴大。特別是在最具挑戰性的 4 跳問題上，CodePlan 的優勢達到最大，這充分說明其在處理深層次推理時的卓越能力。

這種「難者愈強」的特性，正是源於 CodePlan 的結構化推理框架。透過將複雜推理過程分解為清晰的程式碼步驟，模型能夠更好地把控長程依賴關係，避免了傳統方法在多步推理中常見的邏輯斷裂和注意力發散問題。

2. 更高效、更穩定的後訓練

研究團隊在探索 CodePlan 的訓練特性時，發現了另一個重要優勢：它為大模型的後訓練提供了一條更高效、更可靠的路徑。

CodePlan 的訓練曲線。

如上圖所示，在 GSM8K 數學推理和 MuSiQue 多跳問答這兩個具有代表性的任務上，CodePlan 展現出顯著的訓練優勢。傳統的後訓練方法（藍線）在訓練過程中表現出明顯的效能波動。相比之下，CodePlan（橙線）不僅實現了更快的效能提升，更重要的是保持了穩定的上升趨勢。

這一現象揭示了 CodePlan 的核心優勢：透過引入結構化的程式碼規劃作為中間表示，它成功建立了一個更加普適的學習框架。這個框架能夠有效降低不同任務之間的表達差異，使得模型可以更專注於學習本質的推理模式，從而實現知識的高效遷移和穩定積累。這不僅提高了訓練效率，更為大模型能力的持續進化提供了可靠保障。

3. 案例分析：化繁為簡的結構化思維

讓我們來看看「數值比較」（9.8 和 9.11 誰更大）和「字母計數」（統計 strawberry 中字母 r 的出現次數）這兩個看似簡單，卻常常難倒模型的問題。

如上表所示，CodePlan 透過引入程式碼形式的規劃，優雅地解決了這些問題。與之形成鮮明對比的是，沒有規劃輔助的模型往往給出模糊或錯誤的答案。它們要麼直接下結論，要麼陷入冗長卻不準確的解釋中，反映出缺乏系統化思維方法的侷限。

這個對比表明：CodePlan 不是簡單地告訴模型「該做什麼」，而是教會模型「如何思考」。透過將複雜任務分解為清晰的程式碼步驟，CodePlan 為模型提供了一個可靠的問題解決正規化。

結語：開闢大模型結構化思維新思路

CodePlan 的提出為大模型推理能力發展提供了一個新思路。這項創新透過將程式碼形式規劃引入推理過程，成功解決了自然語言表達中的結構化缺陷；更重要的是，它開創了一種全新的方法論，為大模型注入了系統化的問題解決能力。透過開源 200 萬條規劃資料，研究團隊為整個社群貢獻了資源。在此基礎上，期待在金融、醫療等高要求場景中有更多激動人心的應用突破。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]