什麼都不做就能得分?智慧體基準測試出現大問題

機器之心報道
編輯:笑寒
都在研究考生,考卷出問題了。
基準測試在評估人工智慧系統的優勢與侷限性方面具有基礎性作用,是引導科研與產業發展的關鍵工具。
隨著 AI 智慧體從研究原型逐步走向關鍵任務的實際應用,研究人員和從業者開始構建用於評估 AI 智慧體能力與侷限性的基準測試。
這和常規模型的評估方式產生了很大不同。由於智慧體的任務通常需要一個真實場景,並且任務缺乏標準答案,針對 AI 智慧體的基準測試在任務設計和評估方式上要遠比傳統 AI 基準測試要複雜。
顯然,現有的智慧體基準測試並沒有達到一個可靠的狀態
舉幾個例子:
  • 在被 OpenAI 等機構用於評估 AI 智慧體網頁互動能力的基準測試 WebArena 中,在某個路徑時長計算任務中,AI 智慧體給出的答案是「45 + 8 分鐘」,而正確答案應為「63 分鐘」,WebArena 竟將其判定為正確答案。
  • τ-bench 是一個評估 AI 智慧體在真實世界環境中可靠性的基準測試。而其將一個「無操作」的智慧體在航班任務中判有 38% 正確率。儘管該智慧體對機票政策毫無理解,結果卻錯誤地評估了其能力。
近期加入英偉達擔任首席研究科學家的 Banghua Zhu 發推評論這一現象,認為一個什麼都不做的智慧體就可以取得高達 38% 分數的現象「非常有趣」。

此外,在目前常用的 10 個 AI 智慧體基準測試中(如 SWE-bench、OSWorld、KernelBench 等),研究在其中 8 個基準中發現了嚴重的問題,有些情況下甚至會導致對 AI 智慧體能力 100% 的誤判
這些資料傳達出一個明確的資訊:
現有智慧體基準測試存在大問題。若要準確理解 AI 智慧體的真實能力,必須以更嚴謹的方式構建基準測試。
在一個來自伊利諾伊大學香檳分校、斯坦福大學、伯克利大學、耶魯大學、普林斯頓大學、麻省理工學院、Transluce、ML Commons、亞馬遜和英國 AISI 的研究者們共同完成的最新工作中, 研究人員系統性地剖析了當前 AI 智慧體基準的常見失效模式,並提出了一套清單,用於最大限度降低基準測試被「投機取巧」的可能性,確保其真正衡量了智慧體的能力。

  • 論文標題:Establishing Best Practices for Building Rigorous Agentic Benchmarks
  • 部落格連結:https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
  • 論文連結:https://arxiv.org/abs/2507.02825
  • 專案連結:https://uiuc-kang-lab.github.io/agentic-benchmarks/
  • Github 連結:https://github.com/uiuc-kang-lab/agentic-benchmarks/
現有的 AI 智慧體基準測試
問題出在哪?
在 AI 智慧體的基準測試中,智慧體通常需要端到端地完成複雜任務,例如修復大型程式碼倉庫中的問題,或制定旅行計劃。
這一廣泛而現實的任務範圍帶來了兩項傳統 AI 基準測試中較少遇到的挑戰:
  • 模擬環境脆弱:任務通常執行在模擬或容器化的網站、計算機或資料庫中。如果這些空間存在漏洞或版本過舊,AI 智慧體可能會利用捷徑繞過任務要求,或因系統問題而根本無法完成任務。
  • 缺乏明確的「標準答案」:任務的解答可能是程式碼、API 呼叫,或是篇幅較長的計劃文字,難以適用統一的答案模板,評估標準主觀性強。
針對上述挑戰,本文提出了兩個對 AI 智慧體基準測試尤為關鍵的有效性判據:
  1. 任務有效性:該任務是否僅在智慧體具備特定能力時才可解?
  2. 結果有效性:評估結果是否真實反映了任務完成情況?

AI智慧體評估的操作流程與概念機制中,任務有效性與結果有效性至關重要,它們共同保障了基準測試結果能真實反映智慧體系統的能力水平。
本文研究:AI智慧體基準測試檢查單
本文整理併發布了 AI 智慧體基準測試檢查清單(ABC),該清單包含 43 項條目,基於來自主流 AI 機構使用的 17 個 AI 智慧體基準測試提煉而成。
ABC 主要由三個部分組成:結果有效性檢查項任務有效性檢查項,以及在理想有效性難以實現的情況下用於補充說明的基準報告指南
完整、適合列印的檢查清單已公開發布,可參閱以下文件。

  • 文件連結:https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf
運用 ABC 的研究發現
本文將 ABC 檢查清單應用於當前主流的十個 AI 智慧體基準測試中,包括 SWE-bench Verified、WebArena、OSWorld 等。

將 ABC 運用在 10 個廣泛應用的智慧體基準測試中的結果
在這 10 個基準中,發現:
  1. 7/10 含有可被 AI 智慧體「投機取巧」的捷徑或根本無法完成的任務;
  2. 7/10 不符合結果有效性標準,即評估結果不能真實反映任務完成情況;
  3. 8/10 未公開其已知問題,缺乏透明度
以下是在當前用於評估前沿 AI 智慧體系統(如 Claude Code 與 OpenAI Operator)的基準測試中識別出的問題:
SWE-bench 與 SWE-bench Verified 藉助手動編寫的單元測試,用於驗證 AI 智慧體生成的程式碼補丁是否正確。然而,這些補丁可能仍然存在未被單元測試覆蓋的錯誤。
對這些基準測試中的單元測試進行擴充後,排行榜結果出現了明顯變化:SWE-bench Lite 中有 41% 的智慧體排名發生變動,SWE-bench Verified 中則有 24% 的智慧體受影響

IBM SWE-1.0 智慧體生成了一個錯誤的解決方案,但該錯誤未被 SWE-bench 檢測出來,因為其單元測試未覆蓋程式碼中的紅色分支路徑。
KernelBench 採用帶有隨機值的張量來評估 AI 智慧體生成的 CUDA 核函式程式碼的正確性。與 SWE-bench Verified 類似,這種基於隨機值張量的測試方法可能無法發現生成程式碼中的某些錯誤,特別是涉及記憶體訪問或張量形狀的缺陷。
τ-bench 則透過子字串匹配與資料庫狀態匹配來評估智慧體的表現,這使得一個「無操作」智慧體竟然能透過 38% 的任務。以下示例展示了其中一類任務,即使智慧體什麼都不做,也能透過評估

τ-bench 中一個示例任務
WebArena 採用嚴格的字串匹配和一個較為原始的 LLM 評判器(LLM-judge)來評估智慧體的行為與輸出是否正確,這導致在絕對指標上對智慧體效能產生了 1.6% 至 5.2% 的誤判。
OSWorld 的智慧體評估部分基於已過時的網站構建,因而在絕對指標上造成了 28% 的效能低估。在下列示例中,智慧體所互動的網站已移除 search-date 這一 CSS 類,但評估器仍依賴過時的選擇器,最終將智慧體本應正確的操作判定為錯誤。

OSWorld 的評估器仍在查詢已過時的類名 search-date 和 search-segment-cities__city,從而導致智慧體失敗。
SWE-Lancer 未能安全地儲存測試檔案,這使得智慧體可以覆蓋測試內容,從而「透過」全部測試。
ABC 的後續方向
本文構建了 ABC,旨在提供一個可操作的評估框架,以幫助:
  1. 基準測試開發者排查潛在問題,或展示其評估工作的嚴謹性;
  2. 智慧體 / 模型開發者深入理解評估基準的本質,而非僅停留在報告「最先進效能數字」層面。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章