機器之心報道
隨著推理模型 Deepseek R1 的爆火,Zoom 研究團隊將認知科學中的思維鏈注入進 AI 推理領域,開創性地提出 Chain of Draft(CoD)技術框架,重塑大語言模型推理正規化。
如今,OpenAI o1 和 DeepSeek R1 等推理模型的發展,顯著提升了思維鏈 (CoT) 之類的技術在大語言模型 (LLM) 推理任務上的表現。這種正規化鼓勵模型將問題分解為逐步探索,模仿人類的結構化推理過程。雖然這種方法有效,但它在推理時需要更多的計算資源,導致輸出冗長且延遲更高。
這種冗長與人類通常解決問題的方式形成了鮮明的對比:我們依靠簡潔的草稿或速記筆記來捕捉基本見解,而無需不必要的繁瑣。
受這種差異的啟發,來自美國 Zoom 影片通訊公司的研究團隊提出了 Chain of Draft(CoD),這是一種新穎的提示策略,透過優先考慮效率和極簡主義,更接近人類推理。
具體來講,CoD 鼓勵 LLM 在每個步驟生成簡潔、資訊密集的輸出,而不是過度強調中間步驟。這種方法在不犧牲準確性的情況下減少了延遲和計算成本,使 LLM 更適合效率至上的實際應用。

-
論文標題:Chain of Draft: Thinking Faster by Writing Less -
論文地址:https://arxiv.org/pdf/2502.18600
針對大語言模型傳統推理正規化中的效率瓶頸,該研究捕捉到了人類思維中「關鍵資訊快照」的本質特徵,提出了 CoD。為了評估 CoD 的有效性,研究團隊在數學推理、常識推理和符號推理等需要多步推理的基準上進行了實驗。
結果顯示,在符號推理任務中,CoD 的資訊密度達到標準 CoT 輸出的 14.7 倍,同時顯著減少了 token 的使用和延遲。
本文的研究貢獻包括:
-
設計稀疏的推理草稿,僅需 7.6% 的 token 量即可完成等效推理深度,開創了認知啟發的模型壓縮新路徑; -
端到端推理延遲壓縮與部署成本的降低,推理延遲從 0.9 秒壓縮至 0.7 秒,實現「降本增效」的雙重突破; -
提出了新的大模型重構推理架構,為金融高頻交易、自動駕駛決策等時延敏感型應用提供了可行性驗證,標誌著 LLM 從實驗室模型向工業引擎的實質性跨越。
方法概述
該研究創新性地提出了 CoD。CoD 提示將推理過程濃縮為最小的抽象表示。推理過程被提煉為一個簡潔的方程式,僅關注得出解決方案所需的基本數學運算。透過抽象出不相關的上下文細節,CoD 顯著減少了 token 數量,同時保持了透明度和正確性。
CoD 基於認知科學中人類思維模式,其資訊密度是傳統 CoT 的 13.2 倍,在開發過程中,研究團隊透過跨學科迭代:
-
首先基於思路鏈的結構化提示,構建端到端、簡化認知等特徵的思維稿; -
繼而設計思維稿對大模型驅動推理賦能,在 Claude 3.5 Sonnet 上實現算術推理 token 消耗從 189.4 驟降至 14.3(節省 92.4%); -
最終透過並行稀疏注意力框架(吞吐量 + 3.8 倍)和動態批處理技術(批次彈性擴充套件 1-128)完成工業級最佳化,實測端到端延遲從 3.1 秒壓縮至 1.6 秒(降幅 48.4%),為高頻金融交易等場景提供亞秒級(<0.5s)高效推理支援。
下圖展示了 CoT 與 CoD 提示的區別:

實驗結果
研究中較為全面、科學地評估其有效性和效能,設定了一系列嚴謹且針對性強的實驗:基準測試實驗、效率驗證實驗和成本效益實驗。
-
基準測試實驗選取了多個要求多步推理的基準測試,涵蓋了數學推理、常識推理和符號推理等領域。 -
效率驗證實驗包括 token 消耗評估和推理延遲測試,其中 token 消耗評估包括精確測量 CoD 在各個基準測試任務中所使用的 token 數量,並與 CoT 進行對比;推理延遲測試透過 CoD 在不同任務中的端到端推理延遲,並與 CoT 進行比較。 -
成本效益實驗基於 token 消耗和推理延遲等因素,計算 CoD 和 CoT 的單位推理成本。
推理試驗資料集考慮以下五個數學應用題基準,(1) 數學應用題的 GSM8K 資料集,(2) 結構各異的數學應用題的 SVAMP 資料集,(3) 各種數學應用題的 ASDiv 資料集,(4) 代數應用題的 AQuA 資料集,以及 (5) MAWPS 基準。

研究中所提出的模型方法在 GSM8K 這一數學推理任務中,在 GPT-4o 下,CoD 的準確率達到了 91.1%,CoT 的準確率為 95.4%,CoT 的準確率略高於 CoD。但 Token 消耗方面,CoD 僅需 14.3 個 Token,相比傳統模型的 161.2 個 Token。推理延遲也從傳統模型的 4.2 秒大幅壓縮至 1.0 秒,降低了 76.2%。
對於 Claude 3.5 Sonnet,CoD 和 CoT 的準確率表現相近。在 Token 消耗方面,CoD 相較於 CoT 下降了 79.1%,推理速度提升至 1.6 秒,延遲降低了 48.4%。這表明 CoD 在保證較高準確率的同時,極大地提升了推理效率,減少了計算資源的消耗。

對於常識推理任務(下表 2 日期理解),在 GPT-4o 下,CoD 的準確率為 88.1%,低於 CoT 的 90.2%。Token 消耗上,CoD 為 30.2 個 Token,CoT 則達到 75.7 個 Token,節省了 60.1% 的 Token,時間也從 1.7 秒降低到 1.3 秒。
對於 Claude 3.5 Sonnet,CoD 的準確率高達 89.7%,高於 CoT 的 87.0%,而 token 消耗相較於 CoT 下降了 82.0%,推理時間從 3.2 秒減少到 1.4 秒。CoD 在常識推理任務中同樣展現出高效性和準確性,能夠更快速且精準地處理常識性問題。

在原始 CoT 研究論文中提出的硬幣翻轉推理任務框架下,研究者要求大語言模型(LLM)根據一系列拋硬幣操作序列預測最終硬幣的正反面狀態。由於該研究的原始實驗資料集尚未開源,本研究嚴格遵循其方法論復現了包含 250 個測試樣本的基準資料集。研究人員按照相同的設計合成了一個包含 250 個示例的測試集,基於 NameDataset 資料集,從美國地區排名前 1000 的名字中隨機選擇 4 個,並隨機決定是否對每個名字拋硬幣。評估資料的示例如下所示。

GPT-4o 和 Claude 3.5 Sonnet 的測試結果如表 4 所示。在標準提示方式下,這兩個模型的準確率分別為 73.2% 和 85.2%。不過當採用 CoT和 CoD提示策略時,兩個模型均達到了 100% 的完美準確率。透過與 CoT 相比, CoD 顯著減少了 token 使用量,對於 GPT-4o 減少了 68%,對於 Claude 3.5 Sonnet 則減少了 86%。

更多實驗結果請參閱原論文。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]