推測性思維鏈SCoT：小模型“模仿”大模型，最高提速2.9倍，準確率幾乎不降

2025-06-23 20:43 PaperWeekly

現在的大模型（比如論文提到的 Deepseek-R1）雖然能解決複雜數學題，但有兩個致命缺點：

體型龐大：動輒幾百億引數，像“超級計算機”一樣耗資源；
思考過程長：解一道題要生成幾千甚至上萬字的思維鏈（Chain-of-Thought, CoT），相當於“把草稿紙寫滿才交卷”。

這就導致用大模型做題成本高、速度慢，使用者體驗像“等蝸牛爬完馬拉松”。

論文標題：

Efficient Reasoning for LLMs through Speculative Chain-of-Thought

論文連結：

https://arxiv.org/pdf/2504.19095

程式碼連結：

https://github.com/Jikai0Wang/Speculative_CoT

傳統解決方案的侷限性

過去科學家嘗試兩種方法提速：

減肥法：把大模型壓縮成小模型（比如從 300 億引數壓到 15 億），但小模型解題能力直線下降；
縮寫法：讓模型少寫點“草稿”，直接給答案。但遇到難題時，草稿太短反而容易出錯。

這兩種方法像是“要麼砍效能，要麼賭運氣”，都不是最優解。

SCoT 的創新思路：大小模型“打配合”

這篇論文提出的 SCoT（推測性思維鏈），核心思想像職場中的“高效團隊”：

小模型當實習生：快速生成多個解題草稿（比如同時寫 5 種解法）；
大模型當老闆：一鍵稽核草稿，選中最好的直接交卷，發現全錯就自己重寫。

這樣一來，簡單題靠小模型速戰速決，難題靠大模型兜底，既省時間又保質量。

▲ 小模型批次生成草稿，大模型快速選擇或糾錯

技術細節：如何讓小模型“模仿”大模型？

要讓小模型寫出和大模型風格一致的“草稿”，論文做了兩件事：

對齊思考行為：用大模型的解題過程當參考答案，訓練小模型“抄作業”；
動態糾錯機制：大模型稽核時，如果所有草稿都錯，就啟動“老闆親自上陣”模式。

這裡用到一個關鍵公式（原文公式 2），訓練小模型時讓它最大化匹配大模型的輸出機率：

簡單說，就是讓小模型寫的每一步草稿，都儘量接近大模型的習慣。

結果：推理速度翻倍，準確率幾乎不降

論文在5個數學資料集上測試 SCoT，結果驚豔：

速度提升：最高提速 2.9 倍（比如原來需要 225 秒的題，現在 77 秒搞定）；
準確率無損：複雜題（如奧賽級題目）的準確率只比大模型單獨解題低 1%~2%。

▲ 不同資料集上的速度對比

▲ SCoT與純大模型的準確率接近

更厲害的是，SCoT 甚至讓最終答案更簡潔（草稿質量高，大模型不用再囉嗦）！

意義：LLM 推理的“價效比革命”

SCoT 的價值不僅是技術突破，更打開了新思路：

成本降低：小模型承擔大部分工作，減少大模型呼叫次數；
靈活適配：根據題目難度動態分配資源，像“智慧檔位切換”；
開原始碼：作者公開了程式碼，大家可以快速落地應用。

未來，這種“協作式推理”可能會成為 AI 產品的標配，讓 ChatGPT 們既快又聰明！

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

·

相關文章

大模型推理無損加速6.5倍！EAGLE-3碾壓一切、延續ScalingLaw能力

大模型推理無損加速6.5倍！EAGLE-3碾壓一切、延續ScalingLaw能力

打破自迴歸模型的“速度枷鎖”！NYU、賓大等釋出「推測解碼技術」最新綜述

打破自迴歸模型的“速度枷鎖”！NYU、賓大等釋出「推測解碼技術」最新綜述

華人團隊提出「CoD」草稿鏈，減少80％Token，AI省錢第一名！

華人團隊提出「CoD」草稿鏈，減少80％Token，AI省錢第一名！

草稿鏈代替思維鏈，推理token砍掉80％，顯著降低算力成本和延遲

草稿鏈代替思維鏈，推理token砍掉80％，顯著降低算力成本和延遲

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

只需7.6％token，效能還更強！華人團隊提全新「草稿鏈」CoD，成本延遲大降

時隔一年Midjourney釋出全新影像模型，可呈現皮膚皺紋或花瓶細紋

時隔一年Midjourney釋出全新影像模型，可呈現皮膚皺紋或花瓶細紋

哥哥8年前狠狠踩了個坑，現在我反覆提醒自己，不能讓妹妹再重蹈覆轍了

哥哥8年前狠狠踩了個坑，現在我反覆提醒自己，不能讓妹妹再重蹈覆轍了

中科院、人大、百川提出影片理解基準合成框架VideoNIAH

中科院、人大、百川提出影片理解基準合成框架VideoNIAH

中科大ICLR2025：特定領域僅用5％訓練資料，知識準確率提升14％

中科大ICLR2025：特定領域僅用5％訓練資料，知識準確率提升14％

讓RAG更聰明！通義實驗室ViDoRAG開啟視覺文件檢索增強生成新正規化

讓RAG更聰明！通義實驗室ViDoRAG開啟視覺文件檢索增強生成新正規化

Copyright © 2025 | WordPress Theme by MH Themes