全新CoD顛覆推理正規化，準確率接近但token消耗成倍降低

機器之心報道

編輯：凱文、杜偉

隨著推理模型 Deepseek R1 的爆火，Zoom 研究團隊將認知科學中的思維鏈注入進 AI 推理領域，開創性地提出 Chain of Draft（CoD）技術框架，重塑大語言模型推理正規化。

如今，OpenAI o1 和 DeepSeek R1 等推理模型的發展，顯著提升了思維鏈 (CoT) 之類的技術在大語言模型 (LLM) 推理任務上的表現。這種正規化鼓勵模型將問題分解為逐步探索，模仿人類的結構化推理過程。雖然這種方法有效，但它在推理時需要更多的計算資源，導致輸出冗長且延遲更高。

這種冗長與人類通常解決問題的方式形成了鮮明的對比：我們依靠簡潔的草稿或速記筆記來捕捉基本見解，而無需不必要的繁瑣。

受這種差異的啟發，來自美國 Zoom 影片通訊公司的研究團隊提出了 Chain of Draft（CoD），這是一種新穎的提示策略，透過優先考慮效率和極簡主義，更接近人類推理。

具體來講，CoD 鼓勵 LLM 在每個步驟生成簡潔、資訊密集的輸出，而不是過度強調中間步驟。這種方法在不犧牲準確性的情況下減少了延遲和計算成本，使 LLM 更適合效率至上的實際應用。

論文標題：Chain of Draft: Thinking Faster by Writing Less
論文地址：https://arxiv.org/pdf/2502.18600

針對大語言模型傳統推理正規化中的效率瓶頸，該研究捕捉到了人類思維中「關鍵資訊快照」的本質特徵，提出了 CoD。為了評估 CoD 的有效性，研究團隊在數學推理、常識推理和符號推理等需要多步推理的基準上進行了實驗。

結果顯示，在符號推理任務中，CoD 的資訊密度達到標準 CoT 輸出的 14.7 倍，同時顯著減少了 token 的使用和延遲。

本文的研究貢獻包括：

設計稀疏的推理草稿，僅需 7.6% 的 token 量即可完成等效推理深度，開創了認知啟發的模型壓縮新路徑；
端到端推理延遲壓縮與部署成本的降低，推理延遲從 0.9 秒壓縮至 0.7 秒，實現「降本增效」的雙重突破；
提出了新的大模型重構推理架構，為金融高頻交易、自動駕駛決策等時延敏感型應用提供了可行性驗證，標誌著 LLM 從實驗室模型向工業引擎的實質性跨越。

方法概述

該研究創新性地提出了 CoD。CoD 提示將推理過程濃縮為最小的抽象表示。推理過程被提煉為一個簡潔的方程式，僅關注得出解決方案所需的基本數學運算。透過抽象出不相關的上下文細節，CoD 顯著減少了 token 數量，同時保持了透明度和正確性。

CoD 基於認知科學中人類思維模式，其資訊密度是傳統 CoT 的 13.2 倍，在開發過程中，研究團隊透過跨學科迭代：

首先基於思路鏈的結構化提示，構建端到端、簡化認知等特徵的思維稿；
繼而設計思維稿對大模型驅動推理賦能，在 Claude 3.5 Sonnet 上實現算術推理 token 消耗從 189.4 驟降至 14.3（節省 92.4%）；
最終透過並行稀疏注意力框架（吞吐量 + 3.8 倍）和動態批處理技術（批次彈性擴充套件 1-128）完成工業級最佳化，實測端到端延遲從 3.1 秒壓縮至 1.6 秒（降幅 48.4%），為高頻金融交易等場景提供亞秒級（<0.5s）高效推理支援。

下圖展示了 CoT 與 CoD 提示的區別：

實驗結果

研究中較為全面、科學地評估其有效性和效能，設定了一系列嚴謹且針對性強的實驗：基準測試實驗、效率驗證實驗和成本效益實驗。

基準測試實驗選取了多個要求多步推理的基準測試，涵蓋了數學推理、常識推理和符號推理等領域。
效率驗證實驗包括 token 消耗評估和推理延遲測試，其中 token 消耗評估包括精確測量 CoD 在各個基準測試任務中所使用的 token 數量，並與 CoT 進行對比；推理延遲測試透過 CoD 在不同任務中的端到端推理延遲，並與 CoT 進行比較。
成本效益實驗基於 token 消耗和推理延遲等因素，計算 CoD 和 CoT 的單位推理成本。

推理試驗資料集考慮以下五個數學應用題基準，(1) 數學應用題的 GSM8K 資料集，(2) 結構各異的數學應用題的 SVAMP 資料集，(3) 各種數學應用題的 ASDiv 資料集，(4) 代數應用題的 AQuA 資料集，以及 (5) MAWPS 基準。

研究中所提出的模型方法在 GSM8K 這一數學推理任務中，在 GPT-4o 下，CoD 的準確率達到了 91.1%，CoT 的準確率為 95.4%，CoT 的準確率略高於 CoD。但 Token 消耗方面，CoD 僅需 14.3 個 Token，相比傳統模型的 161.2 個 Token。推理延遲也從傳統模型的 4.2 秒大幅壓縮至 1.0 秒，降低了 76.2%。

對於 Claude 3.5 Sonnet，CoD 和 CoT 的準確率表現相近。在 Token 消耗方面，CoD 相較於 CoT 下降了 79.1%，推理速度提升至 1.6 秒，延遲降低了 48.4%。這表明 CoD 在保證較高準確率的同時，極大地提升了推理效率，減少了計算資源的消耗。

對於常識推理任務（下表 2 日期理解），在 GPT-4o 下，CoD 的準確率為 88.1%，低於 CoT 的 90.2%。Token 消耗上，CoD 為 30.2 個 Token，CoT 則達到 75.7 個 Token，節省了 60.1% 的 Token，時間也從 1.7 秒降低到 1.3 秒。

對於 Claude 3.5 Sonnet，CoD 的準確率高達 89.7%，高於 CoT 的 87.0%，而 token 消耗相較於 CoT 下降了 82.0%，推理時間從 3.2 秒減少到 1.4 秒。CoD 在常識推理任務中同樣展現出高效性和準確性，能夠更快速且精準地處理常識性問題。

在原始 CoT 研究論文中提出的硬幣翻轉推理任務框架下，研究者要求大語言模型（LLM）根據一系列拋硬幣操作序列預測最終硬幣的正反面狀態。由於該研究的原始實驗資料集尚未開源，本研究嚴格遵循其方法論復現了包含 250 個測試樣本的基準資料集。研究人員按照相同的設計合成了一個包含 250 個示例的測試集，基於 NameDataset 資料集，從美國地區排名前 1000 的名字中隨機選擇 4 個，並隨機決定是否對每個名字拋硬幣。評估資料的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的測試結果如表 4 所示。在標準提示方式下，這兩個模型的準確率分別為 73.2% 和 85.2%。不過當採用 CoT和 CoD提示策略時，兩個模型均達到了 100% 的完美準確率。透過與 CoT 相比， CoD 顯著減少了 token 使用量，對於 GPT-4o 減少了 68%，對於 Claude 3.5 Sonnet 則減少了 86%。