


今天,紅杉中國發布了全新的 AI 基準評測體系 xbench(xbench.org),並同步釋出論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》。
這是首個由投資機構發起,聯合國內外十餘家頂尖高校和研究機構的數十位博士研究生,採用雙軌評估體系和長青評估機制的AI基準測試。
也是紅杉在 AI 基礎模型賽道重金佈局後的又一標誌性動作。xbench將在評估和推動AI系統能力提升上限與技術邊界的同時,重點量化AI系統在真實場景的效用價值,並長期捕捉Agent產品的關鍵突破。
當前基礎模型的快速發展和AI Agent進入規模化應用,被廣泛用於評估AI能力的基準測試(Benchmark)卻面臨一個日益尖銳的問題 —— 想要真實反映AI系統的客觀能力正變得越來越困難,這其中最直接的表現——基礎模型“刷爆”了市面上的基準測試題庫,紛紛在各大測試榜單上斬獲高分甚至滿分。

因此,構建一個更加科學、長效和反映AI客觀能力的評測體系,正在成為指引AI技術突破與產品迭代的重要需求。

▍xbench 基準測試特點
xbench採用雙軌評估體系,構建多維度測評資料集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線:
-
評估AI 系統的能力上限與技術邊界;
-
量化AI 系統在真實場景的效用價值(Utility Value)。其中,後者需要動態對齊現實世界的應用需求,基於實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。
xbench 採用長青評估 (Evergreen Evalution)機制,透過持續維護並動態更新測試內容 ,以確保時效性和相關性。xbench將定期測評市場主流Agent產品,跟蹤模型能力演進,捕捉 Agent產品迭代過程中的關鍵突破,進而預測下一個Agent 應用的技術–市場契合點(TMF,Tech-Market Fit)。作為獨立第三方,xbench致力於為每類產品設計公允的評估環境,提供客觀且可復現的評價結果。
首期釋出包含兩個核心評估集:科學問題解答測評集(xbench-ScienceQA)與中文網際網路深度搜索測評集(xbench-DeepSearch),並對該領域主要產品進行了綜合排名。同期提出了垂直領域智慧體的評測方法論,並構建了面向招聘(Recruitment)和營銷(Marketing)領域的垂類 Agent評測框架。
在過去兩年多的時間裡,xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具,今天紅杉將其公開並貢獻給整個AI社群。無論是基礎模型和Agent的開發者, 還是相關領域的專家和企業,或者是對AI評測具有濃厚興趣的研究者,xbench都歡迎加入,成為使用並完善xbench的一份子,一起打造評估AI能力的新正規化。
xbench最早是紅杉中國在2022年ChatGPT推出後,對AGI程序和主流模型進行的內部月評與彙報。在建設和不斷升級“私有題庫”的過程中,紅杉中國發現主流模型“刷爆”題目的速度越來越快,基準測試的有效時間在急劇縮短。正是由於這一顯著變化,紅杉中國對現有評估方式產生了質疑——
“當大家紛紛考滿分的時候,到底是學生變聰明瞭,還是卷子出了問題?”
▍紅杉中國希望解決的問題與思路
因此,紅杉中國開始思考並準備解決兩個核心問題:
1)模型能力和AI實際效用之間的關係?基準測試的題目越出越難,意義是什麼?是否落入了慣性思維?AI落地的實際經濟價值真的會和AI做難題呈正相關嗎?
2) 不同時間維度上的能力比較:在xbench每一次更換題庫之後,就失去了對AI能力的前後可比性追蹤。因為在新的題庫下,模型版本也在迭代,無法比較不同時間維度上單個模型的能力如何變化。
在判斷創業專案的時候,創業者的“成長斜率”是一個重要依據,但在評估AI能力上,題庫的不斷更新卻反而讓判斷失效。
為了解決這兩個問題,xbench給出了新的解題思路:
1) 打破慣性思維,為現實世界的實用性開發新穎的任務設定和評估方式。
當AI進入“下半場”,不僅需要越來越難的AI Search能力的測試基準(AI Capabilities Evals),也需要一套對齊現實世界專家的實用性任務體系(Utility Tasks)。前者考察的是能力邊界,呈現形式是score,而後者考察的實用性任務和環境多樣性,商業KPIs(Conversion Rate, Closing Rate)和直接的經濟產出。
因此,xbench引入了Profession Aligned的基準概念,接下來的評估會使用“雙軌制”,分為AGI Tracking和Profession Aligned,AI將面臨更多複雜環境下效用的考察,從業務中收集的動態題集,而不單是更難的智力題。

2)建立長青評估體系。靜態評估集一旦面世,會出現題目洩露導致過擬合然後迅速失效的問題;如LiveBench與LiveCodeBench評估的出現,利用動態更新的題目擴充評估集,緩解了題目洩露的問題。
針對AI Capacity Evals:學術界提出了很多出色的方法論,但是受限於資源與時間不充分,無法維護成動態擴充的持續評估。xbench希望能延續一系列公開評估集的方法,並提供第三方、黑白盒、Live的評測。
針對Profession Aligned Evals:xbench希望建立從真實業務中Live收集機制,邀請各行業的職業專家共同構建和維護行業的動態評估集。
同時,在動態更新的基礎上,xbench設計可橫向對比的能力指標,用於在時間上觀察到排名之外發展速度與關鍵突破的訊號,幫助判斷某個模型是否達到市場可落地閾值,以及在什麼時間點上,Agent可以接管已有的業務流程,提供規模化服務。
▍評估 Agent 的技術市場匹配(Tech-Market Fit)
在Agent應用的評估任務中仍有新挑戰。利用動態更新的題目擴充評估集來緩解這一現象。
首先,Agent應用的產品版本是具有生命週期的。Agent產品的迭代速度很快,會不斷整合與開發新功能,而舊版本Agent可能會被下線。我們雖然可以在同一時間測試同類Agent不同產品的能力,但是不能比較不同時間的產品能力進步。
同時,Agent接觸的外部環境也是動態變化的。即使是相同的題目,如果解題需要使用網際網路應用等內容快速更新的工具,在不同時間測試效果不同。

成本也是Agent應用落地的決定性因素之一。 Inference Scaling讓模型與Agent可以透過投入更多推理算力來取得更好的效果。這種投入既可以來自於強化學習帶來的更長思維鏈,也可以是在思維鏈的基礎上引入更多次數的推理與彙總進一步提升效果。
然而在現實任務中需要考慮Inference Scaling帶來的投入產出比,找到在花費、延遲與效果上的平衡。
類似於ARC-AGI,我們會追求為每個評估集彙報在效果-成本圖上的需求曲線、人類能力曲線以及現有產品的最優供給曲線。 在Benchmark的得分-成本圖上,我們可以劃分出左上區域的市場接受區與右下的技術可行區。
人力成本應當是市場接受區邊緣的一部分。左圖展示了技術尚未落地的狀態,而中間圖展示了TMF後的狀態,而其中交叉部分是AI帶來的增量價值。
對於具有TMF的AI場景,人力資源應當更多投入在領域的前沿以及不可評估的任務,並且市場會因為人力資源與AI算力的稀缺性不同重新給人類貢獻的價值定價。
認為每個專業領域會經歷3個階段:

1. 未達成TMF:技術可信與市場接受區域沒有交集,此時Agent應用僅是工具或概念,無法交付結果或規模化產生價值;Agent對人的影響較小。
2. Agent與Human共同工作:技術可信與市場接受區域發生交集,交叉區域是AI帶來的價值增量,包括(1)以低於最低人類成本提供可行服務,(2)幫助提升應對重複性、質量要求中等的工作內容。而高水準的工作內容,由於資料稀缺、難度更高、依然需要人來執行,此時由於稀缺性,企業獲取的AI Profit可能會被用於支付高階工作產出。
3. 專業化Agent:領域專家在構建評估體系,並指引Agent迭代。專家的工作從交付結果轉向構建專業評估訓練垂類Agents,並提供規模化服務。
其中從1.向2.的轉變是由AI技術突破、算力與資料的Scaling帶來的,而2.轉向3.的進展依賴於熟悉垂類需求、標準、歷史經驗的專家。
此外,在部分領域中,AI可能帶來新的滿足需求的方式,改變已有的業務流程和生產關係組成方式。
在xbench推出當天,官網xbench.org上線了首期針對主流基礎模型和Agent的測評結果。

紅杉中國表示:xbench歡迎社群共建。對於基礎模型與Agent開發者,可以使用最新版本的xbench評測集來第一時間驗證其產品效果,得到內部黑盒評估集得分;對於垂類Agent開發者、相關領域的專業和企業,歡迎與xbench共建與釋出特定行業垂類標準的Profession Aligned xbench;對於從事AI評測研究,具有明確研究想法的研究者,希望獲取專業標註並長期維護評估更新,xbench可以幫助AI評估研究想法落地併產生長期影響力。
✦ 精選內容 ✦

