推測性思維鏈SCoT:小模型“模仿”大模型,最高提速2.9倍,準確率幾乎不降

現在的大模型(比如論文提到的 Deepseek-R1)雖然能解決複雜數學題,但有兩個致命缺點:
  • 體型龐大:動輒幾百億引數,像“超級計算機”一樣耗資源;
  • 思考過程長:解一道題要生成幾千甚至上萬字的思維鏈(Chain-of-Thought, CoT),相當於“把草稿紙寫滿才交卷”。
這就導致用大模型做題成本高、速度慢,使用者體驗像“等蝸牛爬完馬拉松”。
論文標題:
Efficient Reasoning for LLMs through Speculative Chain-of-Thought
論文連結:
https://arxiv.org/pdf/2504.19095
程式碼連結:
https://github.com/Jikai0Wang/Speculative_CoT
傳統解決方案的侷限性
過去科學家嘗試兩種方法提速:
  • 減肥法:把大模型壓縮成小模型(比如從 300 億引數壓到 15 億),但小模型解題能力直線下降;
  • 縮寫法:讓模型少寫點“草稿”,直接給答案。但遇到難題時,草稿太短反而容易出錯。
這兩種方法像是“要麼砍效能,要麼賭運氣”,都不是最優解。
SCoT 的創新思路:大小模型“打配合”
這篇論文提出的 SCoT(推測性思維鏈),核心思想像職場中的“高效團隊”:
  • 小模型當實習生:快速生成多個解題草稿(比如同時寫 5 種解法);
  • 大模型當老闆:一鍵稽核草稿,選中最好的直接交卷,發現全錯就自己重寫。
這樣一來,簡單題靠小模型速戰速決,難題靠大模型兜底,既省時間又保質量。
▲ 小模型批次生成草稿,大模型快速選擇或糾錯
技術細節:如何讓小模型“模仿”大模型?
要讓小模型寫出和大模型風格一致的“草稿”,論文做了兩件事:
  • 對齊思考行為:用大模型的解題過程當參考答案,訓練小模型“抄作業”;
  • 動態糾錯機制:大模型稽核時,如果所有草稿都錯,就啟動“老闆親自上陣”模式。
這裡用到一個關鍵公式(原文公式 2),訓練小模型時讓它最大化匹配大模型的輸出機率
簡單說,就是讓小模型寫的每一步草稿,都儘量接近大模型的習慣。
結果:推理速度翻倍,準確率幾乎不降
論文在5個數學資料集上測試 SCoT,結果驚豔:
  • 速度提升:最高提速 2.9 倍(比如原來需要 225 秒的題,現在 77 秒搞定);
  • 準確率無損:複雜題(如奧賽級題目)的準確率只比大模型單獨解題低 1%~2%。
▲ 不同資料集上的速度對比
▲ SCoT與純大模型的準確率接近
更厲害的是,SCoT 甚至讓最終答案更簡潔(草稿質量高,大模型不用再囉嗦)!
意義:LLM 推理的“價效比革命”
SCoT 的價值不僅是技術突破,更打開了新思路:
  • 成本降低:小模型承擔大部分工作,減少大模型呼叫次數;
  • 靈活適配:根據題目難度動態分配資源,像“智慧檔位切換”;
  • 開原始碼:作者公開了程式碼,大家可以快速落地應用。
未來,這種“協作式推理”可能會成為 AI 產品的標配,讓 ChatGPT 們既快又聰明!
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章