
還有一個全新的benchmark
報道 I 投資界PEdaily
紅杉中國,以出乎意料的方式刷屏國內AI圈。
今天,紅杉中國對外宣佈推出一款全新的AI基準測試工具xbench,併發布了一篇解釋其工作原理的論文。這是自2022年ChatGPT點燃AGI賽道之後,第一家由投資機構主導釋出的基準測試(Benchmark),給火爆的AI圈增添了新的話題。

過去兩年多里,AI benchmark漸漸成為評估基礎大模型和AI Agent能力的通用工具,海內外高校、研究機構和AI公司推出了大量不同維度的測試體系,而眾多的基礎大模型和AI Agent就像一個個高三學生,不斷在各種題庫裡刷題,測試能力、提升成績。
然而快速發展的基礎模型和AI Agent畢竟不是普通的高三學生,題庫很快被刷爆,並且頻頻獲得高分甚至滿分的成績。這時候,一個重要的問題就出現了:到底是學生變聰明瞭,還是卷子出了問題?
紅杉中國出品,有何不同?
xbench最早是紅杉中國在2022年ChatGPT推出後,對AGI程序和主流模型進行的內部月評與彙報。在建設和不斷升級“私有題庫”的過程中,發現主流模型“刷爆”題目的速度越來越快,基準測試的有效時間在急劇縮短。

圖片來源:OpenAI研究員姚順雨個人部落格(評估的有效時間在急劇縮短)
在官宣的技術報告中,紅杉中國提出了這個讓AI界頭疼的問題:想要真實地反映AI的客觀能力正變得越來越困難,如何構建更加科學、長效和如實反映AI客觀能力的評價體系,正成為指引AI基數突破與產品迭代的重要需求。
科學、長效和如實反映,切中了當前AI基準測試的痛點。紅杉中國表示,xbench的推出,是在“評估和推動AI系統提升能力上限與技術邊界”的同時,“重點量化AI系統在真實場景的效用價值,並採用長青評估的機制,去捕捉Agent產品的關鍵突破”。
xbench採用雙軌評估體系,構建多維度測評資料集,同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線:第一,評估AI系統的能力上限與技術邊界;第二,量化AI系統在真實場景的效用價值(utility value)。其中,後者需要動態對齊現實世界的應用需求,基於實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。
此外,xbench採用長青評估(Evergreen Evaluation)機制,透過持續維護並動態更新測試內容,以確保時效性和相關性。xbench會定期測評市場主流Agent產品,跟蹤模型能力演進,捕捉Agent產品迭代過程中的關鍵突破,進而預測下一個Agent應用的技術-市場契合點(TMF,Tech-Market Fit)。
實用和長青,成為了xbench最大的兩個亮點:前者讓xbench脫離了市面上很多基準測試中單純的“智力測驗”,後者則形成對AI能力的連續性評估,從而更早更快地判斷出AI技術或產品實現落地的“奇點”將出現在哪裡。
價值在哪裡?
如果僅僅是推出一款基準測試工具,這在形式上並不新鮮,但結合xbench的特點以及紅杉中國的行業地位,此舉的意義和造成的影響可能會超越普通的基準測試本身。
兩年多前,ChatGPT的橫空出世終於讓AI不再是紙上談兵,給大眾看到了實實在在的價值。這就像iPhone的誕生被視為移動網際網路的開端一樣,不少人將其比喻為AI時代的iPhone moment。
10多年前,iPhone等智慧終端的出現和移動通訊技術的進步,給移動網際網路時代夯實了地基,最直接的表現就是智慧手機APP的大爆發。如今,大模型成為了AGI時代的基礎設施,AI應用正在像“全民APP”時代一樣,呈現出雨後春筍的苗頭。
那個“英雄不問出處”的年代似乎又重現了。移動網際網路時代的一切都有望被AGI重構,而且大大降低了創新的成本。未來,一個有劃時代意義的AI Agent,不一定非來自於大廠,它或許是某位計算機專業大學生的課後作業,甚至是某個高中生極客的靈光一現。
在這個新敘事下,TMF(技術-市場契合)正成為AGI創業的新正規化:對大模型的能力和發展有清晰瞭解,並在這個基礎上找到場景,開發出真正有需求的產品。
xbench的出現,就切中了大模型和Agent的TMF上。在技術報告裡,紅杉中國用三張圖詳細解釋了TMF在Agent領域創業的階段:

第一個階段,未達成TMF:技術可信與市場接受區域沒有交集,此時Agent應用僅是工具或概念,無法交付結果或規模化產生價值;Agent對人的影響較小。
第二個階段,Agent與Human共同工作:技術可信與市場接受區域發生交集,交叉區域是AI帶來的價值增量,包括:一,以低於最低人類成本提供可行服務;二,幫助提升應對重複性、質量要求中等的工作內容。而高水準的工作內容,由於資料稀缺、難度更高、依然需要人來執行,此時由於稀缺性,企業獲取的AI收入可能會被用於支付高階工作產出。
第三個階段,專業化Agent:領域專家在構建評估體系,並指引Agent迭代。專家的工作從交付結果轉向構建專業評估訓練垂類Agents,並提供規模化服務。
階段1到階段2的轉變是由於AI技術突破、算力與資料的規模擴張帶來的;階段2到階段3的進展則依賴於熟悉的垂類需求、標準、歷史經驗的專家。
如果說這是AGI時代的價值轉移之路,那xbench就有望成為這條轉移之路上的瞭望塔,第一時間看到和抓到AI技術與產品的突破。
投資機構扎的更深了
在此之前,幾乎很少有投資機構會去發表一篇學術論文。投資人更多還是在商業化的指標裡去評估一個專案的價值,再輔之以一系列感性的、微妙的判斷。
當AGI的大潮洶湧到來之時,傳統的打法正在發生變化。xbench在技術報告最後,發出了社群共建的號召:基礎模型與Agent開發者可以使用最新版本的xbench評測集來第一時間驗證產品效果,得到內部黑盒評估集得分;垂類Agent開發者和相關領域的專家或企業,可以與xbench共建與釋出特定行業垂類標準的Profession-Aligned xbench;以及從事且具有明確想法的AI評測研究者,可以獲取專業標註並長期維護xbench的更新。
成為標準的制定者,打造一個高人才密度的社群,在不斷探求和推動AI技術上限的過程中尋找商業化落地的機會,這或許是紅杉中國在AGI時代給出的投資新正規化。







