
(本文閱讀時間:8分鐘)
隨著人工智慧的快速發展,通用型人工智慧(如大語言模型)在諸多領域都表現出色,包括可以解決複雜的數學問題,但由於其存在不可解釋性以及不可預測性,所以在基礎算術等簡單任務上仍可能出現失誤。這對人工智慧的評估提出了重大挑戰——亟需發展可解釋與可預測的評估方法,以明確系統失敗的原因,並指導進行可靠部署。然而,目前尚無可以同時滿足這兩點要求的評估正規化。
傳統以效能為導向的評估方法在個體任務例項層面均缺乏解釋力與預測力。例如,某一模型在 AIME (American Invitational Mathematics Examination) 等流行的數學基準測試上取得了79.8%的平均效能,但這一資料無法預測或解釋其對單個任務的表現,也難以推測其在其他測試中的能力。相比單純的分數彙總,學術界也曾探索如心理測量學等方法來刻畫人工智慧的能力,但這些方法仍未能兼顧可解釋性和預測性。
由劍橋大學、微軟亞洲研究院、瓦倫西亞理工大學、美國教育考試服務中心、卡內基梅隆大學、普林斯頓大學等機構組成的跨學科研究團隊,近期提出了一種創新性的人工智慧評估正規化:透過制定通用能力量表來詳細刻畫基準和大模型,來實現解釋和預測。該研究突破了傳統評估方法的侷限,為人工智慧的可靠部署奠定了堅實的基礎。
General Scales Unlock AI Evaluation with Explanatory and Predictive Power
論文連結:
https://arxiv.org/abs/2503.06378

圖1:解釋和預測新系統與基準效能的流程。“系統流程”(上圖):評估每個新 AI 系統的步驟——(1) 在標註需求級別(ADeLe)測試集上執行新系統,(2) 繪製所有能力維度的特徵曲線並提取系統的能力概況(可選),(3) 使用標註級別作為輸入訓練簡單評估器,以預測系統在新任務例項上的表現。“任務流程”(下圖):每個新任務或基準的步驟——(A) 使用標準的 LLMs 將需求級別標註(DeLeAn)標準應用於新任務,(B) 獲取需求直方圖和需求概況,解釋任務所需的需求(可選),(C) 為任何在“系統流程”後建立了評估器的系統預測新任務的表現。

研究員們首先構建了18個人類可理解的通用能力量表,其中涵蓋11項基礎認知能力、5類知識領域及2項外部干擾因素(詳見表1)。每個量表定義了從層級0到層級5的遞進式需求標準,層級越高表明任務對該能力的高階要求越強。例如,在"形式科學知識(KNf)"量表中,層級0表示任務無需形式科學知識即可解決,而層級5則要求具備研究生及以上水平的專業知識。

表1:標準集中18個通用能力量表的描述(範圍從0到5)
基於上述框架,研究員們採用 GPT-4o 對來自20個基準測試的63項下游任務共計1.6萬個例項進行全維度需求層級標註,構建了 ADeLe(Annotated-Demand-Levels)v1.0 資料集,其包含所有1.6萬個任務例項和需求標註。ADeLe 資料集巧妙地將大量不同基準的任務例項放置在同一個可比空間中,使科研人員能夠在評估任何大語言模型的能力和侷限性時,解鎖解釋力和預測力。圖2直觀展示了 ADeLe 資料集中五個例項和它們的標註。

圖2:使用 DeLeAn 標準對五個示例的級別標註

基於 ADeLe 測試集,研究團隊開展了三項核心分析,揭示了若干重要發現:
1. 透過任務需求概況揭示AI基準測試的固有缺陷
透過對20個基準測試的需求層級進行分析,研究發現所有基準均存在概念效度缺失問題——既不能有效測量其宣稱的目標能力(特異性不足),也未能在目標能力維度上覆蓋足夠的難度範圍(靈敏度不足)。例如,“公務員考試”基準 (Civil Service Examination)聲稱能夠測量邏輯推理能力,但從任務需求概況(圖3)來看,任務的成功完成同時高度依賴知識儲備、元認知等其他能力。另外一個例子是“時間推理”基準 (TimeQA),其推理能力需求層級分佈過於集中,無法有效區分不同任務需求層級或難度水平。採用 ADeLe 方法論最佳化基準設計,可以透過構建精確的任務需求概況確保基準測試的結構效度,明確界定其測量目標並評估其適用邊界。

圖3:ADeLe 測試套件 v.1.0 所包含的20個基準測試的需求分佈情況
2. 大語言模型能力概況的深度解析
研究員們繪製了15個主流大語言模型在18個能力維度的受試者特徵曲線(SCC),此曲線描述了大模型在不同能力需求層級上的正確率並擬合了邏輯函式。這類曲線可以使15個不同 LLMs 的能力優缺點得到全面描述(圖4)。

圖4:15個 LLMs 在18個需求維度上的特徵曲線
此外,透過計算每個維度的能力得分總結 SCC,再按照心理測量學的傳統,將其定義為 SCC 中成功機率為0.5的 x 值(斜率/資訊量最大的點),就產生了許多見解。這些見解主要有:1. 新的 LLMs 整體能力優於舊的 LLMs,但對於所有能力,這一結論並非總是成立;2. 知識能力主要由模型大小和蒸餾過程的變化決定和限制;3. 推理、學習和抽象以及社交能力在“推理”模型中得到了改善;4. 規模法則(Scaling Law)對非推理類模型的邊際效益呈遞減趨勢。
3. 優於黑箱的例項級效能預測模型
研究員們以需求層級向量為輸入特徵,訓練了隨機森林分類器作為評估員去預測 LLMs 在新任務例項中的表現。實驗表明,該模型在分佈內外資料中均實現了優異的預測效能:在對前沿模型的預測中,AUROC(Area Under the Receiver Operating Characteristic Curve)值最高達0.88,且校準誤差接近完美,顯著優於基於 GloVe 詞向量與微調 LLaMA-3.1-8B 的黑箱基線方法,尤其是在分佈外資料上。這進一步驗證了該新正規化的科學性。
目前,該方法已成功應用於15個主流 LLMs 的評估。研究團隊計劃將其擴充套件至多模態、具身智慧等場景,為人工智慧研發、政策制定與安全審計提供科學化、標準化的評估基礎設施。
此項工作首次實現瞭解釋力與預測力的協同突破,標誌著人工智慧評估科學的一個重要進展。透過構建可擴充套件的協作社群,該方法將持續推動人工智慧系統性能與安全性的可解釋性與可預測性,為應對通用型人工智慧快速發展帶來的評估挑戰提供關鍵的方法論支撐。
你也許還想看:
