DeepSeek-R1、o1都在及格線掙扎！位元組開源全新知識推理測評集，覆蓋285個學科

允中發自凹非寺

量子位 | 公眾號 QbitAI

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜變天？？？

要知道，過去幾年，各種通用評測逐漸同質化，越來越難以評估模型真實能力。GPQA、MMLU-pro、MMLU等流行基準，各家模型出街時人手一份，但侷限性也開始暴露，比如覆蓋範圍狹窄（通常不足 50 個學科），不含長尾知識；缺乏足夠挑戰性和區分度，比如 GPT-4o 在 MMLU-Pro 上準確率飆到 92.3%。

不過別慌，大模型通用知識推理評測“強化版”來了，堪稱大模型評測裡的“黃岡密卷”！

近日，字節跳動豆包大模型團隊聯合 M-A-P 開源社群，推出了全新評測基準 SuperGPQA。

我們翻看論文，細品一番，足足 256 頁。據瞭解，該評測搭建工作耗時半年，近百位學界學者及名校碩博、業界工程師參與標註。

研究團隊構建了迄今為止最全面，覆蓋 285 個研究生級學科、包含 26529 道專業題目的評估體系。

實驗證明，即便最強的 DeepSeek-R1 在 SuperGPQA 上準確率也才 61.82%，在及格線上掙扎，顯著低於其在傳統評估指標上的表現。

SuperGPQA 精準直擊大模型評測的三大痛點：

學科覆蓋不全：傳統基準僅覆蓋 5% 長尾學科，圖書館學、植物學、歷史地理學等眾多學科長期缺席
題目質量存疑：公開題庫存在資料汙染風險，簡單改編無法反映真實學術水平
評測維度單一：多數測試停留在知識記憶層面，缺乏高階推理能力評估

除此之外，SuperGPQA 也公開了嚴格的資料構建過程。整個體系依靠大規模人機協作系統，結合專家標註、眾包註釋和大模型協同驗證三重流程，確保入選題目具有足夠高的質量和區分度。

目前， SuperGPQA 已在 HuggingFace 和 GitHub 開源，直接衝上了 Trending 榜單。

首次「全學科覆蓋」，填補行業空白

研究人員透露，現在大語言模型評估體系主要有兩大“困境”：學科覆蓋嚴重失衡、評測基準挑戰性失效。

以 MMLU 和 GPQA 為代表的傳統基準，儘管在數學、物理等主流學科中建立了標準化測試框架，但其覆蓋的學科數量通常不足 50 個，無法涵蓋人類積累的多樣化和長尾知識。

而且，GPT-4o 和 DeepSeek-R1 在傳統基準上準確率都破 90% 了，導致評測體系失去區分度，無法有效衡量模型在真實複雜場景中的推理上限。

根源就在於傳統基準構建正規化太單一，資料來源、質量篩選都相對粗糙。傳統基準僅依賴教科書例題或線上題庫，例如 GPQA 中 42% 的問題來自維基百科，導致題目缺乏專業深度，且易被模型透過記憶機制“破解”。

資料顯示，GPT-4o 對線上練習網站答案的重複率高達 67.3%，暗示其效能提升可能源於題目資料洩露而非真實推理能力。

此外，眾包標註的專業水平參差和主觀性問題難度評估進一步加劇了基準的不可靠性——早期嘗試中，僅 37% 的眾包標註問題透過專家稽核，導致超過60%的標註資源浪費。

為解決上述困境，豆包大模型團隊聯合 M-A-P 開源社群推出 SuperGPQA，旨在深度挖掘 LLMs 潛力，其特點如下：

全面且具區分性：STEM（科學、工程、醫學）領域問題佔比 77.2%，確保在複雜推理任務中的高效評估。儘管非 STEM 學科（如哲學、文學、歷史）問題較少，但仍能有效區分不同 LLMs 的效能。
難度分佈多樣：各學科問題難度均衡分佈；在工程和科學領域，難題比例較高。42.33% 的問題需要數學計算或嚴謹推理，確保模型在高難度任務中的表現。
語義結構豐富：t-SNE 視覺化顯示跨學科聚類模式，工程和科學類問題語義相似，人文學科知識中心獨特，不同領域語言特色鮮明。
題目設計一致：平均問題長度 58.42 字，選項長度統一，迷惑性和挑戰性拉滿，評測公平又可靠。