自動調整推理鏈長度，SCoT來了！為激發推理能力研究還提出了一個新架構

2025-08-05 17:44 量子位

SCoT團隊投稿

量子位 | 公眾號 QbitAI

不怕推理模型簡單問題過度思考了，能動態調整CoT的新推理正規化SCoT來了！

SCoT，即自結構化推理鏈（Self-structured Chain of Thought ）。

它透過將推理過程分解為最小語義原子步驟，能動態生成適配不同複雜度問題的CoT結構，解決了現有方法在推理多樣性和效率上的不足。

另外，為了激發推理能力，研究人員還提出了AtomThink，這是一個包含資料構造、訓練、推理和評估的全過程框架，用來提升多模態大模型在複雜推理任務上的表現。

實驗中，SCoT使模型能根據問題複雜度自動調整推理鏈長度，複雜問題的推理步驟更長。

在多個數據集上，AtomThink框架顯著提升了基線模型的準確率，資料利用效率和推理效率也表現出顯著優勢。

並且，原子能力評估揭示了多模態模型在不同推理能力上的分佈特徵，為理解多模態推理模式提供了新視角。

這項研究由來自中山大學、香港科技大學、上海交通大學、香港大學、華為諾亞方舟實驗室的研究人員聯合提出，以下是更多細節。

SCoT、AtomThink長啥樣？

當前，結構化和非結構化CoT面臨一定的挑戰。

現有方法或依賴於固定模板的結構化推理，或採用自由形式的非結構化推理，存在如推理行為單一、需要人工設計模版、計算效率低下或在簡單問題上過度思考的問題。

因此，團隊提出兩個假設：

不同型別的問題可能需要不同的推理能力；
推理的複雜性應與問題的難度相匹配。

為了為具有不同複雜性的問題動態生成適當的推理結構，團隊引入了自結構化思維鏈（SCoT）和一個全過程訓推框架AtomThink。

其中自結構化思維鏈（SCoT），即作者提出將推理過程分解為最小語義單元——原子步驟，並透過多輪預測方法動態生成推理鏈。

模型每次僅預測一個原子步驟，並將其附加到歷史推理步驟中，作為下一輪推理的輸入。

為應對模型推理異常（如重複、停滯等），引入基於規則的過濾機制和溫度累積策略，以增強推理的多樣性和流暢性。

AtomThink框架則包含四個關鍵模組：

數據引擎：透過動態提示策略和短推理增強方法生成高質量多步推理路徑，構建包含20k多模態數學問題和124k原子步驟標註的AMATH資料集。
原子步驟微調：採用步驟級掩碼訓練，迫使模型學習獨立推理步驟。
策略引導的多輪推理：在過程監督模型的基礎上，結合路徑搜尋和步驟搜尋策略（如多數投票、最佳候選選擇、貪婪演算法和束搜尋）擴充套件推理空間。
原子能力評估：基於推理行為聚類和步驟利用率計算，評估模型在不同推理能力上的表現。

實驗結果如何？

研究團隊選取不同規模的LLaVA1.5-7B和Llama3.2-Vision-11B作為基線模型，使用AMATH-SFT資料集進行微調，並在MathVista、MathVerse、MathVision和Humanity’s Last Exam基準資料集上進行評估。

實驗設定包括直接推理、普通推理鏈（CoT）、自結構化推理鏈（SCoT）以及結合過程獎勵模型（PRM）的SCoT推理。

在MathVista、MathVerse和MathVision資料集上，AtomThink框架顯著提升了基線模型Llama3.2-Vision-11B的準確率，分別提高10.9%、10.2%和7.2%。

與現有結構化CoT方法相比，AtomThink在準確率、資料利用效率和推理效率上均表現出顯著優勢，在準確率超越LLaVA-CoT的條件下資料利用效率提升5倍，推理效率提升85.3%。

另外，與結構化方法相比，SCoT能夠動態生成更多樣化的推理結構，涵蓋影像描述、資料提取、邏輯推理、因果推理等多種能力。

模型還能夠根據問題複雜度自動調整推理鏈長度，複雜問題的推理步驟更長，表現出自適應的深度探索能力。

為了評估推理模型對於不同中間步驟的利用能力，團隊提出了一個新穎的評估方式。

首先透過聚類GPT-4o的推理行為來生成原子步驟分佈集合（包含16種行為），構建歷史步驟後進行rollout來計算對最近步驟的利用效率。

透過原子能力評估發現模型存在推理誤差累計現象，在CoT早期階段（如資料提取和影像描述）開始繼承推理的錯誤率較高，提示未來工作需關注推理初期的質量控制。

論文：https://arxiv.org/pdf/2503.06252
開源倉庫：https://github.com/Quinn777/AtomThink

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

英國NHS隱藏免費服務有這麼多？疫苗/牙科/視力檢測/處方藥…這些免費醫療你不能放過！

英國NHS隱藏免費服務有這麼多？疫苗/牙科/視力檢測/處方藥…這些免費醫療你不能放過！

美國知名折扣連鎖店宣佈大規模關店，分析人士警告：可能會迎來更多關店潮

美國知名折扣連鎖店宣佈大規模關店，分析人士警告：可能會迎來更多關店潮

美國男子化療9年後發現根本沒病？！“誤診”背後的真相竟如此荒謬！

美國男子化療9年後發現根本沒病？！“誤診”背後的真相竟如此荒謬！

美國三一神學院將遷至加拿大

美國三一神學院將遷至加拿大

ESV聖經進行近十年來重大更新修訂創世記受爭議譯文及68單詞

ESV聖經進行近十年來重大更新修訂創世記受爭議譯文及68單詞

簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數：以步驟為粒度對齊上下文學習與推理

簡單示例提升DeepSeek-R1美國數學邀請賽AIME分數：以步驟為粒度對齊上下文學習與推理

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

超越DeepSeekV3！普林斯頓&北大提出ReasonFlux：層次化RL推理新正規化

超越DeepSeekV3！普林斯頓&北大提出ReasonFlux：層次化RL推理新正規化

8卡32B模型超越o1預覽版、DeepSeekV3，普林斯頓、北大提出層次化RL推理新正規化

8卡32B模型超越o1預覽版、DeepSeekV3，普林斯頓、北大提出層次化RL推理新正規化

停止過度思考！一篇關於高效Reasoning的綜述來了~

停止過度思考！一篇關於高效Reasoning的綜述來了~

Copyright © 2025 | WordPress Theme by MH Themes