大模型“快答”能力堪憂?中科院推出S1-Bench,直擊大推理模型快思考短板

大推理模型(LRM)在非常複雜或困難的任務中表現非凡,這依賴於其強大的系統 2 思維模式(深思熟慮的慢思考)。但在日常的使用中,大量使用者提問的問題更多是系統 1 問題(這些問題可以直覺快速回答),他們期待模型儘快回答,而不是等待模型冗長的思考。
一些初期的示例級的探索反映出了 LRM 在這類問題上存在思考冗長的直觀表現。這不僅消耗了更多無用資源,也大大降低了使用者體驗(甚至很多自媒體博主做了不少影片調侃這個現象)。
但當前仍缺乏全面評估這一現象的基準測評集。現有的資料集,要麼領域單一(只有小學數學題),要麼沒那麼簡單(有些問題對人類簡單,但模型並不容易答對)。
為了填補這一研究空白,本文正式提出了 S1-Bench,一個適用於系統 1 思維簡單多樣自然的測評資料集。這項研究旨在揭示 LRM 的系統 1 表現缺陷,為 LRM 邁向雙系統相容的目標提供評測基礎。
論文標題:
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
論文作者:
張文源,聶帥怡,張興華,張澤鋒,柳廳文
論文連結:
https://arxiv.org/abs/2504.10368
Github連結:
https://github.com/WYRipple/S1_Bench
Huggingface連結:
https://huggingface.co/datasets/WYRipple/S1-Bench
S1-Bench:適用於系統 1 思維的基準測試
S1-Bench 是一個包含英漢雙語、多領域的基準,共 422 個問答對,旨在評估 LRM 在極其簡單問題上的系統 1 思維能力。傳統的大模型能夠輕鬆解決這些問題,對人類來說也不難。S1-Bench 由四個廣泛用於大模型評估的類別構成:推理(RSN)、知識(KNO)、遵循指令(IF)和分析(ANA),幷包含 28 個子類別。
1.1 如何確保問題簡單
透過兩個方面確保問題簡單且適合系統 1 思維:先驗的簡單性約束後驗的簡單性驗證
先驗簡單性約束要求問題滿足如下準則:
(1)問題必須自然、清晰地表達,並且不含歧義,且沒有故意設定的陷阱。
(2)答案必須是獨特的或易於證偽的(例如,提供一個三個字母的英語單詞)。
進一步對類別限制以確保簡單性:
  • RSN:僅限於可用最少推理或直覺解決的問題。
  • KNO:限制為具有獨特、可驗證答案的常識性知識,答案來源如維基百科。
  • IF:涉及簡單的指令,不要求嚴格的格式。
  • ANA:僅限於答案可以直接從提示中推斷的問題,例如二分類。這些限制確保所有問題對人類回答者保持簡單明瞭。
後驗簡單性驗證要求問題滿足如下準則:
由於語言模型與人類之間存在 bias,對於人類來說簡單的問題可能對大模型來說較為困難。因此,引入了額外的事後驗證,以確保問題足夠簡單:不同家族的小型大模型能夠正確且穩健地回答正確
1.2 如何構建 S1-Bench
為了實現先驗約束,本文引入遵循先驗設定的資料生成器(generator)和質量鑑別器(discriminator)。為了確保後驗驗證,本文引入簡單性驗證器(validator)和正確性評估器(evaluator)
生成器、鑑別器和評估器的配置均為溫度 0.7 和 top-p=0.9,而驗證器的溫度設定為 0.0、0.2 和 0.4,每個取樣 10 次。此外,招募了三名經驗豐富的研究生作為註釋員,他們熟悉大模型,並充分理解 S1-Bench 的構建目標。
子類準備
為了確保多樣性,本文借鑑現有的基準分類方法(如 MMLU、IFEval 和 GSM8K)以及大模型評估綜述,選擇或合併現有的子類別,並設計新的子類別。本文確保所有子類別滿足簡單性的要求,併為每個子類別提供一個示例問題。
生成與修改
本文使用兩個資料生成器為每個候選子類別建立初始問題和答案。生成過程遵循 prompt 的要求(詳情可參考原論文),確保雙語內容與子類別定義一致,同時保持多樣化的視角。
每個問題都附有輔助答案,每個子類別生成 50 對初始雙語問答對。這些問答對由三位註釋員和兩位質量鑑別員獨立評估,確保問題明確、邊界清晰,並且僅接受一個正確答案。對於每個問答對,進行五次獨立評估。
基於這些評估,註釋員進行討論並集體決定是否保留、修改或丟棄每個問題,以確保符合先驗簡單性要求。保留的問題提交給驗證器進行測試,並由評估器評估回答的準確率。正確答案的問題被納入 S1-Bench,而其他問題則進行重新處理。
在 30 次取樣迭代中,只要有一次錯誤出現的問題將經歷一個迭代的難度降低過程。這些問題會返回給生成器,並附上特定的 prompt 以降低複雜性,隨後進行相同的鑑別、討論和評估程式。
在經過三次難度降低迭代後仍未能達到無誤表現的問題將被排除在工作流之外。最終的 S1-Bench 由滿足人類設定的先驗簡單性約束和後驗簡單性驗證的問題組成。
實驗設定
2.1 基線測試模型和設定
本文評估了 22 種不同的 LRMs,這些模型被明確訓練為首先進行思考過程,然後生成最終答案的模式。
這些 LRMs 包括開源模型族,如 DeepSeek(深度求索)、Qwen(阿里)、Nemotron(英偉達)、Light-R1(360)、s1.1(李飛飛等人團隊)、EXAONE(LG)和 Sky-T1(加州伯克利 NovaSky 團隊),以及閉源模型 Hunyuan-T1(騰訊),其引數大小從小型(1.5B)到巨型(671B)不等。
OpenAI 的 o 系列模型未被包括在內,因為它們不向使用者披露思考過程。對於每個模型,考慮了兩組生成配置:Greedy sampling(溫度 t=0);Top-p sampling(溫度 t=0.6,top-p=0.95,取樣大小 k=5)。
2.2 評估指標
格式指標
通常,LRMs 的輸出應透過一個“結束思考標記”(例如,<\/think>)進行分隔,以區分思維過程與最終答案。然而,LRMs 並不總是以正確的格式生成響應。為了評估這一點,本文計算符合所需格式標準的響應百分比,分類如下(對於 top-p sampling,每個指標在5次生成中取平均):
S-Corr(嚴格格式正確率):嚴格遵循格式的響應所佔的百分比,即它們嚴格遵循僅包含一個“結束思考標記”後跟一個非空的最終答案的格式。
L-Corr(寬鬆格式正確率):鬆散遵循格式的回應所佔的百分比,即除了無限重複思考,或沒有任何思考和回覆內容的其他所有情況。
效率指標
本文計算平均響應 token 數(ART),該指標表示滿足寬鬆格式要求的響應中 token 的平均數量。token 計數是透過 Qwen2.5 的 token 分析器獲得的。
準確率指標
本文分別針對嚴格和寬鬆的格式要求計算準確率指標。使用 GPT-4o 作為評估器來評估響應的正確性,評估提示可以參考原文附錄。對於 Greedy sampling,直接計算準確率;對於 top-p sampling,使用兩個指標:
pass@1:遵循 DeepSeek-R1 等研究設定,計算 pass@1 以評估 k=5 個響應中正確響應的百分比,其中  是第  個響應的正確性,具體定義為:
acc@k:具體而言,當所有  個響應均正確時,acc@k=1;否則,acc@k=0。它的定義為:
值得注意的是,S-Corr 代表在嚴格格式要求下 pass@1 和 acc@5 的上限,而 L-Corr 遵循相同的原則。
實驗結果
3.1 主實驗結果
LRMs 在 S1-Bench 上的效率明顯低於 LLMs,並且在 ART 與模型大小之間未觀察到明顯的相關係數。
即使是先進的 LRMs,如 DeepSeek-R1 和 QwQ-32B,並未顯示出在效率上的明顯優勢。相比之下,Sky-T1-32B 經過特定最佳化以利用 SimPO 減輕過度思考,實現了最高效率。L-R1-DS 7B/14B/32B 模型生成的響應比 DS-R1-7B/14B/32B 模型更長,前者是在後者的基礎上進行進一步的後訓練。
這表明,進一步的後訓練可能會提高複雜任務的推理能力,但代價是簡單任務的響應效率降低。最後,s1.1 模型生成的響應明顯長於 DeepSeek-R1-Distilled 模型。
儘管這兩種模型都是僅透過 SFT 訓練以獲得長鏈推理能力,但 DeepSeek-R1-Distilled 模型使用了 80 萬個訓練樣本,而 s1.1 模型僅使用了 1000 個。這一差異表明,較小的訓練集可能導致對長推理模式的表面模仿,從而在簡單問題上產生冗長的思維。
一些 LMRs 在簡單問題上表現出低準確率觀察表明,儘管採用了深度推理,大多數 LRMs 在簡單問題上的準確率仍低於傳統的 LLMs。例如,DS-R1-1.5B 和 EXAONE-2.4B 的準確率僅略高於 50% 的 acc@k。此外,隨著模型大小的減小,準確率也會下降。
最後,許多 LRMs 在 top-p 取樣中的穩健性正確性上存在困難,其中 acc@k 顯著低於 pass@1。這個問題在較小的 LRMs 中尤為明顯。例如,DS-R1-1.5B 的 pass@1 達到了 81.47%,但其 acc@k 僅為54.50%。
3.2  效率實驗 1:不同型別問題的 ART 分析
LRMs 在遵循指令的問題上表現出 ART 的顯著增加,並且在解決方案空間較大時往往會過度探索。
儘管小型 LLMs 在 S1-Bench 的所有主要類別中,遵循指令問題擁有最簡潔的響應,但 LRMs 在中文中的回應長度是其 109.7 倍,在英文中是 62.7 倍,使其成為所有類別中回應長度最長的型別。
本文進一步分析了遵循指令問題的子類別。如熱力圖所示,在長度限制、字元限制和句子限制的子類別中,ART 顯著較長。這三種問題型別有一個共同特徵:它們的正確性是可驗證的,但解決方案空間非常廣泛。
文章發現,儘管模型很快識別出正確答案,但它陷入了搜尋空間,不斷探索替代方案,未能及時停止。這種現象在 ART 較高的家族中更為明顯,如 s1.1 和 EXAONE。
LRMs 在推理任務中的 ART 也顯著增加推理問題的 ART 也顯著提高,熱力圖進一步展示了這一現象在不同推理子類別中的 ART。對此現象的一個可能解釋是,推理問題與 LRMs 的訓練資料分佈密切對齊,從而進一步刺激了 LRMs 的長鏈推理行為。
LRMs 在中文和英文中始終表現出低效率大多數 LRMs 在英文問題上顯示出更高的 ART,而 QwQ32B 和 Hunyuan-T1 在中文和英文中表現出相似的 ART。
3.3 效率實驗 2:思維過程中的解分析
為了理解 LRMs 在 S1-Bench 中低效的原因,本節進一步分析最終答案正確、格式嚴格正確且思維過程非空的樣例。首先將每個思維過程劃分為若干個解決方案,每個解決方案被定義為 LRMs 明確得出直接與正確答案相符的結論的點。
劃分過程由 DeepSeek-v3 執行,prompt 可以參考原文附錄。然後,計算 LRMs 的平均初始思維代價。
對於每個樣本,如果思維過程包含至少一個解決方案,則代價定義為第一個解決方案中的 token 數量。如果沒有提供清晰且正確的解決方案,則代價為思維過程中所有 token 的總數。文章發現:
在初始思維過程中的逐步推理並不是 LRMs 效率低下的主要原因如圖所示,儘管不同 LRMs 的 ART 差異顯著,但它們的初始思維成本相似,僅佔總成本的一小部分。
在得出正確答案後生成不必要的解題輪次是導致 LRMs 效率低下的原因之一本文進一步檢查了 S1-Bench 上各種 LRMs 的解題輪次分佈,發現思維過程較長的模型往往會產生過多的解題輪次,反覆驗證已經解決的簡單問題。這種冗餘的驗證顯著導致了計算效率的低下。
3.4 效率實驗3:思維過程中的冗餘
資訊冗餘隨著推理序列的增加而增加本文進行相似度分析,以分析在推理序列增加時,LRMs 思維過程中的資訊冗餘如何變化。
具體而言,首先將完整的思維過程劃分為 k 個等長段落。然後,使用 all-MiniLM-L6-v2 模型對每個段落進行編碼。對於每個段落,計算其與所有前面的段落的餘弦相似度,並使用最大相似度作為其資訊冗餘的衡量標準。
如圖所示,隨著推理序列的增加,所有四個主要類別中的資訊冗餘均有所增加。Sky-T1-32B 顯示出整體較低的相似度,這源於其較短的思維過程,但仍然表現出上升的趨勢。
3.5 錯誤分析實驗
本節探討了思維過程質量與最終答案准確率之間的關係。本文關注格式嚴格正確且思維過程非空的樣本。對於最終答案正確的樣本,根據思維過程是否在中間步驟中包含顯式錯誤結論進行分類。對於最終答案錯誤的樣本,根據在推理過程中是否至少提到一次正確答案進行分類。
使用 DeepSeek-v3 進行分類,提示見表 13。上圖展示了不同 RLMs 中這四類的分佈。分析得出了以下觀察結果:
1. 準確率較低的 LRMs 在推理中往往包含錯誤的中間結論,即使它們最終得出了正確的最終答案(淺綠色);
2. 儘管 LRMs 在推理過程中有時能得出正確答案,但它們可能會偏離,最終產生錯誤結論(淺紅色)。
3.6 簡單性預判發現
本文發現了一個有趣的現象:LRMs 可以對某些簡單問題進行預判。具體而言,從每個思考過程中提取前 50 個 tokens,並使用 DeepSeek-v3 識別顯示判斷的句子,進一步提取判斷詞。上展示了將問題判斷為簡單的詞語頻率,研究發現:
LRMs 具有預判問題簡單性的能力,特別是在中文裡所有 LRMs 在其思維過程中都表現出部分的預判現象,顯示出直接評估問題難度的能力。此外,14 個 LRMs 在中文中的預判傾向顯著更強,這一現象主要集中在 L-R1、DS-R1、QwQ 和 Hunyuan 模型家族中。
即便存在預判,LRMs 的思維長度並未縮短如圖所示,表現出預判的思維過程的平均 ART 並沒有下降。本文認為進一步探索這一現象是未來研究的方向之一。這些結果表明,LRMs 具備對問題難度的內在理解,這為 LRMs 的雙系統相容性開闢了一條新的路徑。
3.7 格式型別分析
本節提供了一種全面的 LRM 格式分類法,並強調在未來的研究工作中解決這些問題的重要性。與傳統的 LLM 不同,LRMs 經常出現格式錯誤,這種錯誤表現為響應未能遵循生成單一結束思考標記(ETM)的要求。
這種不一致性在區分思維過程和最終答案時造成了重大挑戰。格式錯誤與過度思考和不足準確率現象是不同的類別,但同樣表明對基本推理陷阱的脆弱性。
如表所示,本文識別並分類了 12 種不同的格式型別,每種格式型別都分配了一個唯一的 ID。這些格式型別可以分為嚴格格式和寬鬆格式,其中嚴格格式代表了寬鬆格式的一個專業子集。
鬆散格式(Loose Format)
ID-100 和 ID-101 代表兩種標準解碼模式,並額外歸類為嚴格格式(Strict Format)。兩者僅包含一個 ETM。在這兩者中,ID-100 包含一個思維過程,而 ID-101 僅生成 ETM 和最終答案。
類似於 ID-100 和 ID-101,ID-201 包含一個 ETM,但僅包括思維過程。LRMs 有時會產生多個 ETM,這些 ETM 由 ID-202/203/204 表示。此外,LRMs 可能無法正確生成標準 ETM。
本文將這些情況分類為 ID-204/205/206,本文提供了一組特殊ETM的參考集合: </ think>、</th think>、</ reason>、\nanswer\n、Final Answer 和答案當模型不輸出任何標準或特殊 ETM 時,將其歸類為 ID-207。
誤差格式(Error Format)
LRM 產生兩種型別的不可解碼誤差:ID-300 表示 LRM 僅輸出一個 ETM 而沒有任何額外內容,而 ID-301 則表示 LRM 的思維過程達到了最大長度。
上表展示了在 top-p sample 設定下 12 種格式型別的分佈。分析揭示了三個關鍵見解:
1. 無限思維現象在大多數模型中普遍存在,尤其集中在引數少於 32B 的語言模型中。這表明在訓練過程中應優先考慮輸出格式,以減少格式錯誤,特別是在使用較弱的基礎模型時。
2. Nemotron 和 EXAONE 系列經常產生格式正確的響應,而沒有明顯的推理過程。這種行為可以視為一種減輕過度思考的機制。然而,EXAONE 系列仍然表現出顯著的過度思考傾向,這表明語言模型在沒有明顯推理的情況下響應的能力與其過度思考的傾向可能是正交特徵。
3. 評估的語言模型中沒有表現出被分類為 ID-205/206 的行為,這可能是因為特殊的 ETM 被語言模型視為唯一替代標準 ETM 的選項。此外,沒有觀察到 ID-300,表明高溫度取樣通常會產生語義上有意義的響應。
上表展示了 greedy sample 的格式統計。該現象與 top-p 取樣大致相似。L-R1-32B 產生了 ID-300,這可能是由於訓練方法與低溫度之間的相容性較差。
展望
本文提出的 S1-Bench 可以為後續的思維鏈壓縮工作提供有效的快思考基線。在未來,將 LRM 訓練出可以識別快思考問題、縮短思維過程、甚至不思考的能力,是值得探索的方向。
如何更好利用 LRM 對簡單問題的預先判斷,主動區分簡單和困難的問題,是一個值得探索的方向。在 LRM 時代,如何更好平衡效能和效率,將一直作為基礎任務被研究。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章