REST 團隊 投稿量子位 | 公眾號 QbitAI
給AI一場壓力測試,結果效能暴跌近30%。
來自上海人工智慧實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST (Reasoning Evaluation through Simultaneous Testing)。
該框架在一個prompt裡同時拋給模型多個問題,模擬真實世界中複雜的、多工並行的推理場景。
結果發現,即便是像DeepSeek-R1這樣的頂級模型,在“高壓”之下的表現也大幅縮水,例如,在AIME24測試集上的準確率驟降29.1%。

給大模型來一場“壓力測試”
如今的大模型在各種推理能力測試中動輒拿下接近滿分的成績。
如果讓模型一次做好幾道題,它還會那麼“神”嗎?
團隊認為,當前大模型的評測模式普遍存在三大痛點:
區分度低:在許多基準測試中,頂尖模型的得分已趨於飽和,難以分出高下。例如,7B引數的DeepSeek-R1-Distill-Qwen-7B和671B引數的DeepSeek-R1在MATH500上的準確率分別為93.0%和97.0%,看似相差不大,但推理能力仍有顯著區別。
成本高昂:由於現有的數學題幾乎已經被納入了大模型的訓練資料。為了有效評估,社群不得不持續投入大量人力物力去開發更新、更難的測試題。但設計這樣的測試題需要極高水平的人類專家,一年也出不了幾個題。例如,AIME24和AIME25都只有30道題。
脫離現實:一次只答一道題的模式,無法考察模型在真實世界中處理交叉資訊,完成多重任務的綜合能力。
為了解決這些問題,團隊設計REST框架——改造現有基準,如GSM8K、MATH500、AIME24等7個代表性推理任務,不再逐題測試,而是把多個問題拼接成一個長prompt,一次性讓模型在一次輸出中逐一回答。
研究團隊基於GSM8K、MATH500、AIME24等7個主流推理基準,構建了REST評測集,並對超過30個引數從1.5B到671B的主流推理模型進行了全面測試。
這種“壓力測試”不僅考察模型基礎的推理能力,更深入評估了以往被忽視的幾項關鍵能力
上下文預算分配:模型得聰明地決定怎麼在多個題目中分配思考Token。
跨問題干擾抵抗:避免一道題的錯誤“傳染”到其他題。
動態認知負載管理:在高壓下保持高效推理,別在一道題上陷入“過度思考”的陷阱。

SOTA模型也“扛不住”,REST拉開差距
最強模型,在多題高壓下也頂不住
LRMs可以在單個推理過程中處理多個相對簡單的問題,但在REST下,效能皆下降。
如下圖所示,DeepSeek-R1,在AIME24基準上,單題模式下效果拔群,但“壓力測試”下準確率直降29.1%。其他模型也類似,整體效能大打折扣。

不同引數模型效能差距明顯
傳統單題測試中,不同大小模型得分都接近天花板。而REST揭示了不同尺寸模型之間存在顯著的效能差異。如下圖所示,7B引數的小模型在高壓下崩得更快,而更大的32B引數的模型效能雖有下降但仍保持優勢。如下圖所示,不同壓力水平下,模型效能拉開明顯梯度——這讓REST成為更強的“分辨器”,幫我們精準比較模型。

“過度思考”成大坑,long2short技術救場
為什麼模型在REST下變差?分析顯示,關鍵是陷入了過度思考的陷阱。就像學生考試,在一道難題上思考太久,沒時間做後面的題目了。
但用long2short技術(鼓勵模型縮短推理過程)訓練的模型,就能更好地保留單題效能,在REST下領先。如L1Qwen-1.5B-Exact和L1-Qwen-1.5B-Max,在高壓力水平下表現出顯著的效能優勢。如表6所示,L1-Qwen-1.5B-Max在MATH500上壓力水平s=9時,準確率比R1-1.5B高出44.71%的顯著差距。7B模型中也觀察到類似的趨勢。


動態分配token,有的模型更“聰明”
REST下,一些“聰明”的模型(如Nemotron-nano-7B和DeepSeek-R1)會動態調整推理預算:當壓力增大時,它們為第一道題分配更少的推理token,留力後續。但低效能模型(如DeepSeek-R1-Distill-Qwen-7B)往往在前面的題上用掉太多token,留給後續問題的空間不足,導致整體崩盤。
這一觀察表明,在REST中表現優異的LRM模型在壓力下傾向於對早期問題進行更簡潔的推理,從而為後續問題留出足夠的空間。
團隊將這種能力稱為“自適應推理努力分配”,認為這是在REST下實現穩健效能的關鍵因素。

此外,REST還揭示了一些推理不良行為,如問題遺漏和對推理過程總結錯誤,這些問題在單問題評估中未被發現。
總而言之,REST不是簡單加題,而是給大模型來場“壓力測試”,挑戰了“LLMs是多問題解決者”的普遍假設,揭示了當前評測方法的侷限性,提供了一種更低成本、更貼近真實的評測資料構建新正規化,為未來開發更健壯和強大的LRMs提供了更加深刻的見解。
論文地址:https://arxiv.org/abs/2507.10541專案地址:https://opendatalab.github.io/REST程式碼倉庫:https://github.com/opendatalab/REST
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —

🌟 點亮星標 🌟