MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

論文標題：

LLMTHINKBENCH: Towards Basic Math Reasoning and Overthinking in Large Language Models

論文連結：

https://arxiv.org/pdf/2507.04023

一句話理解：

本文介紹了一個名為LLMTHINKBENCH的基準測試框架，用於評估大型語言模型（LLMs）在基礎數學推理和“過度思考”（overthinking）方面的表現。以下是文章的核心內容概述：

研究背景

大型語言模型（LLMs）在複雜的數學基準測試（如GSM8K、GSMPlus、HARDMath等）中表現出色，但在簡單的算術任務（如加法、排序等）上卻常常表現不佳。

這種現象引發了對LLMs是否真正理解數學推理的質疑，同時也揭示了LLMs在回答問題時傾向於冗長解釋（即“過度思考”）的問題。

為了解決這些問題，作者提出了LLMTHINKBENCH框架，旨在系統地評估LLMs在基礎數學推理和過度思考方面的表現。

LLMTHINKBENCH框架

LLMTHINKBENCH是一個模組化的基準測試框架，具有以下特點：

1.動態測試生成：提供14種可配置的數學任務，支援隨機生成測試資料，避免模型依賴於記憶化。

2.強大的解析策略：透過任務特定的解析器，結合結構化提示和正則表示式，能夠從模型輸出中準確提取答案。

3.過度思考量化：引入“過度思考分數”（OverthinkingScore）指標，透過準確率與輸出長度的調和平均值來衡量模型的效率。

4.靈活的後端支援：支援vLLM和HuggingFaceTransformers後端，具備多GPU支援和完整的可配置性。

5.擴充套件性和可復現性：使用者可以新增自定義任務，透過種子值復現實驗，並生成詳細的效率報告。

實驗與結果

基礎數學推理能力：作者對53個語言模型進行了評估，發現許多在複雜基準測試中表現良好的模型在基礎數學任務上表現不佳。例如，Qwen3模型在14B引數時準確率為86.52%，但在32B引數時準確率反而下降到84.13%。

過度思考問題：推理增強型模型（如Phi-4-reasoning）在生成答案時平均生成的token數量遠高於標準模型，但準確率卻更低。當限制token數量為1024時，這些模型的效能大幅下降。

量化對推理的影響：在量化分析中，較大的模型（如Qwen2.5-32B）在8位和4位量化下表現較為穩健，而較小的模型（如Qwen2.5-0.5B）在4位量化下效能顯著下降。

模型大小、冗長性與準確率的關係：較大的模型並不總是表現更好，一些較小的模型在效率上表現更優。例如，Llama-3.1-70B模型在效率上表現良好。

結論

LLMTHINKBENCH框架揭示了LLMs在基礎數學推理和過度思考方面的關鍵問題，並提供了一個有效的工具來評估和診斷這些問題。該框架透過動態測試生成、任務特定的解析器和效率量化指標，為研究人員和實踐者提供了一個成本效益高、易於擴充套件的評估工具。

限制與倫理宣告

LLMTHINKBENCH專注於基礎數學操作，可能無法捕捉到更復雜的推理能力。

自動化評估雖然可擴充套件，但可能需要人工研究來驗證指標的可解釋性。

框架的有效性依賴於任務特定的解析器，這些解析器需要隨著模型輸出格式的演變而更新。

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。