AI也怕壓力大？REST多題評測挑戰推理極限，DeepSeek效能暴跌近30％

給 AI 一場壓力測試，結果效能暴跌近 30%。

來自上海人工智慧實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST（Reasoning Evaluation through Simultaneous Testing）。

該框架在一個 prompt 裡同時拋給模型多個問題，模擬真實世界中複雜的、多工並行的推理場景。

結果發現，即便是像 DeepSeek-R1 這樣的頂級模型，在“高壓”之下的表現也大幅縮水，例如，在 AIME24 測試集上的準確率驟降 29.1%。

論文地址：

https://arxiv.org/abs/2507.10541

專案地址：

https://opendatalab.github.io/REST

程式碼倉庫：

https://github.com/opendatalab/REST

給大模型來一場“壓力測試”

如今的大模型在各種推理能力測試中動輒拿下接近滿分的成績。

如果讓模型一次做好幾道題，它還會那麼“神”嗎？

團隊認為，當前大模型的評測模式普遍存在三大痛點：

區分度低：在許多基準測試中，頂尖模型的得分已趨於飽和，難以分出高下。例如，7B 引數的 DeepSeek-R1-Distill-Qwen-7B 和 671B 引數的 DeepSeek-R1 在 MATH500 上的準確率分別為 93.0% 和 97.0%，看似相差不大，但推理能力仍有顯著區別。

成本高昂：由於現有的數學題幾乎已經被納入了大模型的訓練資料。為了有效評估，社群不得不持續投入大量人力物力去開發更新、更難的測試題。但設計這樣的測試題需要極高水平的人類專家，一年也出不了幾個題。例如，AIME24 和 AIME25 都只有 30 道題。

脫離現實：一次只答一道題的模式，無法考察模型在真實世界中處理交叉資訊，完成多重任務的綜合能力。

為了解決這些問題，團隊設計 REST 框架——改造現有基準，如 GSM8K、MATH500、AIME24 等 7 個代表性推理任務，不再逐題測試，而是把多個問題拼接成一個長 prompt，一次性讓模型在一次輸出中逐一回答。

研究團隊基於 GSM8K、MATH500、AIME24 等 7 個主流推理基準，構建了 REST 評測集，並對超過 30 個引數從 1.5B 到 671B 的主流推理模型進行了全面測試。

這種“壓力測試”不僅考察模型基礎的推理能力，更深入評估了以往被忽視的幾項關鍵能力：

上下文預算分配：模型得聰明地決定怎麼在多個題目中分配思考 Token。
跨問題干擾抵抗：避免一道題的錯誤“傳染”到其他題。
動態認知負載管理：在高壓下保持高效推理，別在一道題上陷入“過度思考”的陷阱。

SOTA模型也“扛不住”，REST拉開差距

最強模型，在多題高壓下也頂不住：LRMs 可以在單個推理過程中處理多個相對簡單的問題，但在 REST 下，效能皆下降。比如 DeepSeek-R1，在 AIME24 基準上，單題模式下效果拔群，但“壓力測試”下準確率直降 29.1%！其他模型也類似，整體效能大打折扣。

拉開區分度，撕開“偽高分”面紗：傳統單題測試中，不同大小模型得分都接近天花板，看不出誰更牛。但 REST 一上，差距立現！如下圖所示，7B 引數的小模型在高壓下崩得更快！而更大的 32B 引數的模型效能雖有下降但仍保持優勢。

不同壓力水平下，模型效能拉開明顯梯度——這讓 REST 成為更強的“分辨器”，幫我們精準比較模型。

“過度思考”成大坑，long2short 技術救場：為什麼模型在 REST 下變差？分析顯示，關鍵是陷入了過度思考的陷阱。就像學生考試，在一道難題上思考太久，沒時間做後面的題目了。

但用 “long2short” 技術（鼓勵模型縮短推理過程）訓練的模型，就能更好地保留單題效能，在 REST 下領先！

如 L1Qwen-1.5B-Exact 和 L1-Qwen-1.5B-Max，在高壓力水平下表現出顯著的效能優勢。如表 6 所示，L1-Qwen-1.5B-Max 在 MATH500 上壓力水平 s=9 時，準確率比 R1-1.5B 高出 44.71% 的顯著差距。7B 模型中也觀察到類似的趨勢。

動態分配 token，有的模型更“聰明”：REST 下，一些聰明的模型（如 Nemotron-nano-7B 和 DeepSeek-R1）會動態調整推理預算：當壓力增大時，它們為第一道題分配更少的推理 token，留力後續。

但低效能模型（如 DeepS-eek-R1-Distill-Qwen-7B）往往在前面的題上用掉太多 token，導致整體崩盤。

這一觀察表明，在 REST 中表現優異的 LRM 模型在壓力下傾向於對早期問題進行更簡潔的推理，從而為後續問題留出足夠的空間。團隊將這種能力稱為“自適應推理努力分配”，認為這是在 REST 下實現穩健效能的關鍵因素。

此外，REST 還揭示了一些推理不良行為，如問題遺漏和對推理過程總結錯誤，這些問題在單問題評估中未被發現。

總而言之，REST 不是簡單加題，而是給大模型來場“壓力測試”，挑戰了 “LLMs 是多問題解決者”的普遍假設，揭示了當前評測方法的侷限性，提供了一種更低成本、更貼近真實的評測資料構建新正規化，為未來開發更健壯和強大的 LRMs 提供了更加深刻的見解。

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

AI也怕壓力大？REST多題評測挑戰推理極限，DeepSeek效能暴跌近30％

相關文章

AI“壓力面”，DeepSeek效能暴跌近30％|清華&上海AILab

研究：儘管關係緊張，但中美AI研究合作過去10年仍然活躍而順利

假期為啥越躺越累？研究：沒有正確休息……

REST、GraphQL和tRPC：哪種風格的API架構最好

玩個錘子，兩小時擼完日誌鏈路串連方案

澳洲多個養老金基金遭遇網路攻擊！已有多人個人賬戶被盜，損失金額已達數十萬澳元

特朗普80競選搭檔支援AI開源言論，贏得科技圈好評！網友：如果想讓開發人支援你，就堅持

Sight電影主題曲揭幕！ “餘生不一樣”

外刊裡的高階表達，如何用進英語作文？（2）

華麗觀察|法國/韓國/越南，四家時尚品牌開出中國大陸首店：Sessùn、LSOUL、EMIS、Rest&Recreation