如何建立更好的人工智慧基準測試方法?

(來源:MIT Technology Review)
成為矽谷最受青睞的標杆之一併不容易。 
SWE-Bench 於 2024 年 11 月推出,旨在評估 AI 模型的程式設計能力。該基準測試採用了從 12 個不同 Python 專案的 GitHub 公開倉庫中提取的 2000 多個真實程式設計問題作為評測依據。
短短數月,SWE-Bench 迅速成為 AI 領域最熱門的測試基準之一。如今,OpenAI、Anthropic 和谷歌等巨頭髮布大模型時,SWE-Bench 評分已成為標配指標。
而在基礎模型之外,各家 AI 公司的微調團隊更是展開激烈角逐,爭相沖擊排行榜榜首。目前領跑榜單的是 Anthropic 旗下 Claude Sonnet 模型的三個不同微調版本與亞馬遜 Q 智慧體的混戰局面。其中基於 Claude 改進的 Auto Code Rover 在去年 11 月斬獲亞軍,僅三個月後便被收購。
儘管熱潮洶湧,但這並不能真實反映哪個模型更優秀。隨著該基準測試的影響力不斷擴大,“你會發現人們開始不惜代價爭奪榜首”,普林斯頓大學 SWE-Bench 開發團隊成員 John Yang 表示。這種競爭導致參賽者開始鑽營系統漏洞——促使越來越多人思考:是否該建立更科學的 AI 能力評估體系?
這些程式設計智慧體的開發者未必存在赤裸裸的作弊行為,但他們設計的解決方案往往過度擬合了基準測試的特性。最初的 SWE-Bench 測試集僅包含 Python 語言編寫的程式,這意味著開發者只需讓模型專門訓練 Python 程式碼就能獲得優勢。Yang 很快發現,那些高分模型在面對其他程式語言測試時完全失靈——這種應試策略被他形容為“鍍金式”的取巧。
“乍看之下光鮮亮麗,但換種程式語言測試就會原形畢露,”他指出,“這本質上不是在開發軟體工程智慧體,而是在打造 SWE-Bench 專用工具——後者的意義要小得多。”
SWE-Bench 暴露的問題折射出 AI 評估領域一個普遍且複雜的困境:行業用於指導開發的基準測試,與實際能力評估的偏差正越來越大,其根本價值由此遭到質疑。更糟糕的是,FrontierMath 和 Chatbot Arena 等多個知名基準近期因透明度不足引發爭議。儘管如此,基準測試仍在模型開發中佔據核心地位——即便很少有專家會全盤採信其結果。OpenAI 聯合創始人 Andrej Karpathy 近期將這種局面稱為“評估危機”:行業既缺乏可信的能力測量方法,也看不到改進的明確路徑。
斯坦福大學以人為本人工智慧研究所(HAI)研究主任 Vanessa Parli 指出:“基準測試歷來是評估 AI 系統的主要方式。但這是否仍是我們未來想要的方式?如果不是,又該採用什麼方法?”
越來越多的學者和 AI 研究人員主張,答案在於“縮小評估範圍”——放棄宏大目標,轉而採用社會科學的研究方法。具體而言,他們希望更注重測試的“效度”(validity),即定量社會科學中衡量問卷能否準確評估目標指標的標準,更根本的是確認所測量的概念是否具有明確定義。這對評估“推理能力”或“科學知識”等模糊概念的基準測試將構成挑戰,也會衝擊那些追逐通用人工智慧(AGI)熱潮的開發者——但能讓行業在證明單個模型價值時,擁有更堅實的理論基礎。
密歇根大學教授 Abigail Jacobs 是這場“效度運動”的核心人物,她表示:“認真對待效度意味著要求學術界、工業界等各方證明其系統確實具備所宣稱的能力。如果 AI 界迴避這種驗證要求,恰恰暴露了這個領域的弱點。”
傳統測試的侷限性
如果說 AI 公司對基準測試日益顯露的缺陷反應遲緩,部分原因在於這種評分機制曾長期行之有效。
當代 AI 最早的里程碑之一——ImageNet 挑戰賽,堪稱現代基準測試的雛形。2010 年釋出的這個開放研究專案,包含 300 多萬張待分類圖片,要求 AI 系統將其歸入 1000 個不同類別。
關鍵在於,該測試完全相容任何方法體系,任何成功演算法無論運作原理如何都能快速獲得認可。當名為 AlexNet 的演算法在 2012 年突破性地採用當時非主流的 GPU 訓練方法勝出時,這一成果直接奠定了現代 AI 的基礎。此前幾乎無人預料到,AlexNet 採用的卷積神經網路會成為解鎖影像識別的金鑰——但一旦其高分成績得到驗證,質疑聲便煙消雲散。(AlexNet 開發者之一 Ilya Sutskever 後來成為 OpenAI 聯合創始人)
ImageNet 之所以成效卓著,很大程度上在於其物體分類挑戰與真實影像識別任務幾乎不存在實用差異。即便對方法存在爭議,但沒人會懷疑:在測試中表現最優的模型,實際部署時必然具備優勢。
但在此後的 12 年間,AI 研究者將這種“方法論中立”的思路套用到越來越通用的任務上。SWE-Bench 常被用作廣義程式設計能力的替代指標,而其他考試式基準測試則往往代表推理能力。這種寬泛的定位使得人們難以嚴謹界定特定基準測試的測量範疇——進而導致研究成果難以被負責任地運用。
癥結所在
斯坦福大學博士生 Anka Reuel 在研究基準測試問題時發現,評估危機正是盲目追求通用性導致的惡果。“我們已從專用模型轉向通用模型,”她指出,“評估物件不再侷限於單一任務,而是涵蓋龐雜任務集合,難度自然陡增。
與密歇根大學的 Jacobs 不謀而合,Reuel 認為“基準測試的核心缺陷在於效度問題,而非技術實現,這正是多數評估體系崩塌的根源。”以程式設計這種複雜任務為例,幾乎不可能將所有潛在場景納入測試集。因此,我們難以判斷模型得分提升是源於程式設計能力增強,還是對測試集的針對性最佳化。在開發者追逐破紀錄分數的壓力下,走捷徑的誘惑難以抗拒。
開發者寄望於透過多個專項基準的優異表現堆砌出通用能力。但智慧體 AI 技術使得單一系統能整合複雜模型陣列,專項任務的進步是否帶來泛化能力提升變得難以評估。“可調節的引數實在太多了,”普林斯頓大學計算機科學家、AI 行業亂象批評者 Sayash Kapoor 坦言,“對於智慧體,業界已基本放棄了評估的最佳實踐。”
在 2023 年 7 月的論文中,Kapoor 揭露了 AI 模型應對 WebArena 基準時的取巧行為。該基準由卡耐基梅隆大學 2024 年設計,包含 800 多項在模擬網站(如Reddit、維基百科等)上執行的任務。Kapoor 團隊發現奪冠模型 STeP 內建了 Reddit 網址結構的特定指令,使其能直接跳轉使用者主頁(WebArena 常見任務型別)。
這種最佳化雖不構成作弊,但 Kapoor 認為“嚴重誤導了人們對智慧體首次接觸 WebArena 任務時真實表現的判斷”。然而由於該方法奏效,OpenAI 的網頁智慧體 Operator 隨後採用了類似策略。(OpenAI 回應稱其評估設定旨在檢驗智慧體在獲知網站結構後的任務解決能力,與 WebArena 使用慣例一致。STeP 未予置評。)
更嚴峻的是,Kapoor 團隊上月發表論文揭露熱門眾包評估系統 Chatbot Arena 存在嚴重漏洞:多個頂級基礎模型進行未公開的私有測試,並選擇性發布分數。
如今,連基準測試鼻祖 ImageNet 也陷入效度危機。華盛頓大學與谷歌研究院 2023 年研究發現,當 ImageNet 冠軍演算法與 6 個真實資料集對抗時,架構改進“幾乎未帶來任何進步”,暗示該測試的外部效度已達極限。
迴歸細分評估
對於堅信效度才是核心問題的人而言,最佳解決方案是讓基準測試重新聚焦具體任務。正如 Reuel 所言,AI 開發者“不得不依賴這些對終端使用者幾乎無意義的高層基準,因為測試設計者已無法預判下游任務需求”。那麼,能否幫助終端使用者識別這種斷層?
2024 年 11 月,Reuel 發起了名為 BetterBench 的公共評級專案,從程式碼公開性等數十項指標對基準測試進行打分。但效度始終是核心主題,特定標準要求設計者明確說明:測試何種能力?這些能力與測試任務如何關聯?
“必須建立能力結構分解圖,哪些是真正需要關注的技能?又如何將其轉化為可量化指標?”Reuel 強調。
評級結果出人意料:得分最高者之一是 2013 年問世的最古老測試 Arcade Learning Environment(ALE,用於評估模型玩 Atari 2600 遊戲的能力);而評估通用語言能力的 Massive Multitask Language Understanding(MMLU)基準卻位列末位——BetterBench 認為其試題與底層技能的關聯定義過於模糊。
目前 BetterBench 尚未顯著影響具體基準的聲譽(MMLU 仍被廣泛使用,ALE 依舊邊緣化),但成功將效度問題推向了基準測試改革討論的中心。今年 4 月,Reuel 低調加入由 Hugging Face、愛丁堡大學和 EleutherAI 聯合成立的研究組,將與業內專家共同完善其關於效度與 AI 評估的理論。
Hugging Face 全球政策主管 Irene Solaiman 表示,該小組將致力於開發超越簡單能力測量的有效基準:“業界太渴望現成的優質基準了,現有評估往往貪多求全。”
這種理念正獲得越來越多認同。谷歌、微軟、Anthropic 等機構研究人員在 3 月的論文中提出新評估框架,將效度作為首要原則:“AI 評估科學必須摒棄'通用智慧'的粗放斷言,轉向更專注具體任務且貼合現實需求的進步度量。”
 明確測評指標
為推進這一轉變,部分研究者正轉向社會科學工具。2 月的一份立場檔案提出評估生成式 AI 系統本質上是社會科學測量挑戰,重點闡釋如何將社會測量中的效度體系應用於 AI 基準測試。
這份由微軟研究院主導、斯坦福大學和密歇根大學學者參與的報告指出,社會科學家測量意識形態、民主程度和媒體偏見等爭議性概念的標準,同樣適用於 AI 領域“推理能力”、“數學熟練度”等概念的量化——避免陷入模糊的泛化論斷。
社會科學方法特別強調:測量指標必須始於對測試概念的嚴格定義。例如要測量社會民主程度,需先界定"民主社會"的定義,再設計與之相關的問題。
將此方法應用於 SWE-Bench 等基準測試時,設計者需摒棄傳統機器學習思路(即從 GitHub 收集程式設計問題並驗證答案對錯),轉而首先明確定義測量目標(如解決軟體標記問題的能力),將其分解為子技能,最後構建全面覆蓋這些子技能的測試題集。
這與 AI 研究者慣用的基準測試方法截然不同——但正如 2 月論文合著者 Jacobs 所言,這正是關鍵所在:“科技行業的現狀與社會科學工具之間存在脫節,而後者擁有數十年測量人類複雜特質的經驗。”
儘管該理念在學術界影響深遠,卻尚未顯著改變 AI 公司使用基準測試的方式。
過去兩個月,OpenAI、Anthropic、谷歌和 Meta 釋出的新模型仍重度依賴 MMLU 等選擇題知識測試——這正是效度研究者試圖超越的方法。畢竟模型釋出的核心目標仍是展現通用智慧提升,而寬泛的基準測試依然是支撐這類宣告的工具。
沃頓商學院教授 Ethan Mollick 等觀察家認為:“基準測試雖不完美,卻是現有最佳選擇。”他補充道:“與此同時模型確實在進步,快速進展掩蓋了許多缺陷。”
目前,行業對通用人工智慧的長期追求,似乎正擠壓著基於效度的細分評估空間。只要 AI 模型的通用能力持續增長,具體應用場景的精準評估就顯得不那麼緊迫——即便這意味著從業者不得不繼續使用可信度存疑的工具。
Hugging Face 的 Solaiman 坦言,“徹底推翻現有體系並不現實,儘管存在侷限,評估工具對理解模型仍有重要價值。”
原文連結:
https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark/

相關文章