只需7.6%token,效能還更強!華人團隊提全新「草稿鏈」CoD,成本延遲大降


新智元報道  

編輯:英智
【新智元導讀】LLM推理中的延遲問題常被忽視,而即時應用對此要求嚴苛。來自Zoom的華人團隊提出草稿鏈(CoD)技術,僅用7.6%的token,就能在保持準確率的同時,大幅降低推理成本和延遲。
當下,企業正處於部署AI的關鍵節點。
隨著AI系統在企業運營中的深度融合,計算成本與響應時間成為阻礙AI廣泛應用的主要瓶頸。
來自Zoom的華人研究團隊取得了一項突破性成果,他們開發的「草稿鏈」(Chain of Draft,CoD)技術,有望從根本上改變企業大規模部署AI的模式。
透過減少冗長表述並聚焦關鍵要點,草稿鏈(CoD)在準確率上與思維鏈(CoT)相當甚至更優,使用的token量僅為7.6%,顯著降低了推理任務的成本和延遲。
目前,該專案已在GitHub上開源。
論文連結:https://arxiv.org/abs/2502.18600
專案連結:https://github.com/sileix/chain-of-draft
AI研究員Prabhakar表示,「對於一家每月處理100萬次推理查詢的企業而言,採用草稿鏈技術,每月成本可從(使用思維鏈時的)3800美元降至760美元,每月節省超過3000美元。」
草稿鏈對於企業的吸引力,更在於其簡便的實現方式。
與需要投入大量成本進行模型重新訓練或架構調整的技術不同,已在使用CoT的企業,僅需對現有模型的提示進行簡單修改,就能順利切換至CoD。
在即時客戶支援、移動AI、教育以及金融服務等對延遲極為敏感的應用場景中,CoD技術的價值尤為明顯。
在這些場景下,即使是極短暫的延遲,也可能對使用者體驗造成嚴重影響。
Prabhakar總結道,「隨著AI模型的不斷演進,最佳化推理效率與提升原始能力同樣重要。」
OpenAI o1和DeepSeek R1等推理模型在複雜任務處理上取得了顯著進展,思維鏈(CoT)技術功不可沒。
CoT模仿人類的結構化推理,將問題分解為逐步探索的過程。
然而,CoT往往產生冗長的中間推理步驟,導致高延遲和更高的計算成本。
草稿鏈:靈感源於人類認知
CoD的靈感來源於人類解決複雜問題的方式。
在解數學題或邏輯謎題時,人們通常不會詳細闡述每一個細節,而是用縮寫形式只記錄關鍵資訊。
受此啟發,研究人員提出了草稿鏈(CoD)這一全新的提示策略。
CoD不要求模型生成冗長的中間步驟,而是讓LLM在每一步生成簡潔、資訊密集的輸出。
這種方法限制每個推理步驟最多五個詞,使模型專注於最關鍵的資訊。
研究團隊在眾多基準測試中驗證了CoD的效能,包括算術推理(GSM8k)、常識推理(日期理解和體育知識理解)以及符號推理(拋硬幣任務)。
其中,Claude 3.5 Sonnet在處理體育相關問題時,CoD將平均輸出從189.4個token減少到僅14.3個token,降幅達92.4%!同時準確率從93.2%提高到了97.3%。
CoD在顯著減少token的情況下,大幅降低了延遲和計算成本,實現了與CoT相當的準確率。
為了說明標準提示、CoT和CoD的區別,考慮以下簡單的算術問題:
「Jason有20個棒棒糖,他分給Denny一些,現在有12個棒棒糖,他給了Denny多少?」
標準提示方法生成的回答通常直接輸出答案,而沒有任何推理過程。雖然結果正確,卻缺乏推理過程的透明度。
CoT提供了詳細的推理步驟。雖然回答準確且可解釋,但包含了許多與解決數學問題無關的描述性細節,增加了token數量和響應延遲。
CoD僅聚焦於得出解決方案所必需的基本數學運算,將無關的上下文細節統統去除。
這種方式在確保透明度和答案正確性的同時,顯著減少了所需的token數量,使得推理過程更加簡潔高效。
實驗結果

實驗中比較了三種不同的提示策略:標準提示、思維鏈(CoT)和草稿鏈(CoD)。

標準提示策略使用常規的少樣本提示,模型直接返回最終答案,沒有任何推理或解釋。
CoT策略遵循論文中提供的少樣本示例,讓模型逐步進行詳細推理。
而CoD策略則要求模型在思考時逐步推理,但每個推理步驟限制在最多五個詞,從而實現簡潔高效的推理過程。
實驗採用了兩個主流模型:OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet,確保研究結果具有廣泛的代表性。
實驗結果清晰地表明,CoD在保持高準確率的同時,大幅降低了token使用量和延遲。在各類推理任務中,CoD與CoT相比展現出顯著的效率優勢。

算術推理

在算術推理任務中,研究人員選擇了GSM8k資料集,該資料集包含8500個小學水平的數學問題,每個問題都配有詳細的逐步解決方案。
CoD展現出顯著的效率提升,實驗結果見下表。
對於GPT-4o和Claude 3.5,CoD都達到了91%的準確率,而每個響應僅需約40個token,相比CoT減少了約80%。
這也降低了平均延遲,GPT-4o降低了76.2%,Claude 3.5降低了48.4%。

常識推理

在常識推理方面,研究人員評估了BIG – bench中的日期理解和體育理解任務。
CoD不僅透過生成顯著更少的響應token,顯著降低了延遲和成本,而且準確率優於CoT。
在日期理解任務中,使用CoD的Claude 3.5 Sonnet模型達到了89.7%的準確率,超過了CoT的87.0%,延遲從3.2s降低到1.4s。
體育理解任務中,CoD將Claude 3.5 Sonnet的平均輸出token從189.4減少到14.3,減少了92.4%!同時準確率從93.2%提升至97.3%。

符號推理

在符號推理任務中,研究人員按照原始思維鏈論文的設計合成了一個包含250個示例的拋硬幣測試集。
在標準提示下,GPT-4o和Claude 3.5 Sonnet的準確率分別為73.2%和85.2%。使用CoT和CoD時,兩個模型的準確率均達到了100%。
與CoT相比,GPT-4o的token減少了68%,Claude 3.5 Sonnet減少了86%。
這些實驗結果表明,CoD不僅能保持高準確性,還能大幅提高推理效率。
CoT在需要高透明度、可解釋性強的場合表現出色,如複雜決策支援。CoD則在對效率和響應速度有高要求的場景中更具優勢,如即時應用、大規模AI部署、資源受限環境等。
CoD讓先進的推理技術變得更加親民、易用,有助於推動其在更廣泛場景中的普及。
參考資料:
https://arxiv.org/abs/2502.18600
https://venturebeat.com/ai/less-is-more-how-chain-of-draft-could-cut-ai-costs-by-90-while-improving-performance/

相關文章