General-Level團隊 投稿量子位 | 公眾號 QbitAI
多模態大模型(Multimodal Large Language Models, MLLM)正迅速崛起,從只能理解單一模態,到如今可以同時理解和生成影像、文字、音訊甚至影片等多種模態。
在“如何全面客觀地評測多模態大模型”這一問題的回答上,過去常用的多模態大模型評測方法是堆砌多個任務的成績。但簡單以“更多工上更高分”衡量模型強弱並不可靠,模型在某些任務上表現突出也並不一定意味著它在所有領域都更接近人類智慧水平。
正因如此,在AI競賽進入“下半場”之際(由最近的OpenAI研究員姚順雨所引發的共識觀點),設計科學的評估機制儼然成為決定勝負的核心關鍵。
近期錄用於ICML’25 (Spotlight)的論文《On Path to Multimodal Generalist: General-Level and General-Bench》提出了一套全新的評測框架General-Level和配套的資料集General-Bench,為這一議題帶來了奠基性的解答和突破。

該評測框架已落地於社群:上述論文的專案團隊構建了涵蓋700多個任務、覆蓋5大常見模態、29個領域、多達32萬+測試資料的超大規模評測基準和業界最完善的多模態通才模型排行榜Leaderboard,為公平、公正、全面地比較不同多模態通才大模型提供了基礎設施。
General-Level評估演算法:五級段位體系與協同效應
General-Level評測框架引入了一個五級段位體系,類似“段位晉級”的方式來衡量多模態模型的通才能力。
General-Level評估的核心在於協同泛化效應(Synergy),指的是模型將從一種模態或任務中學到的知識遷移提升到另一種模態或任務中的能力,簡單來說就是1+1 > 2的效果。
模型的段位由低到高依次為:Level-1專業高手,Level-2通才新秀(無協同),Level-3任務協同,Level-4正規化協同,Level-5全模態完全協同。段位越高表示模型展現出的“通用智慧”越強,達到的協同效應層級越高。
General-Level正是透過考察不同層面的協同效應,來決定模型所屬的段位的:

- Level-1 專家型選手(Specialist)
這一級別包括了當前各單項任務的專精模型,通常是針對某個資料集或任務單獨微調到極致的SOTA模型。 - Level-2 入門通才(Generalist,無協同)
達到Level-2意味著模型開始具備“一專多能”的能力,能支援多種模態和任務,但尚未體現出協同增益效應。 - Level-3 任務級協同(Task-level Synergy)
晉升Level-3要求模型出現任務層面的協同提升。這意味著模型透過多工聯合學習,在某些任務上的成績超越了該任務的專精模型SOTA。 - Level-4 正規化級協同(Paradigm-level Synergy)
要邁入Level-4,模型必須展現跨正規化的協同,也就是在“理解與生成”這兩大任務正規化之間形成協同效應。本段位代表模型已開始具備“生成-理解一體化”的推理能力,能夠跨越任務形式的差異進行知識遷移。 - Level-5 全模態完全協同(Cross-modal Total Synergy)
這是General-Level評估的最高段位,標誌著模型在跨模態、跨任務範疇達成了全面協同,也是理想的AGI狀態。
然而截至目前,尚無任何模型達到Level-5段位。
Level-5代表著通往AGI的終極目標,一旦有模型邁入此段位,也許就預示著通才AI朝“通用人工智慧”跨出了關鍵一步。

總的來說,General-Level透過這五級段位體系,將評估視角從單純堆疊任務分數,提升到了考察模型內部知識的遷移融合能力。
這種段位制在保障客觀量化的同時,也為業界描繪出一條從專才到通才再到“全才”的進階路線圖。
General-Bench評測基準:一張多模態通才的超級考卷
General-Bench被譽為當前規模最大、範疇最廣、任務型別最全面的多模態通才AI評測基準。
它不僅是一張考察多模態AI能力的“通才高考卷”,更是一個集廣度、深度、複雜性於一體的全景式評測系統。
在廣度上,General-Bench覆蓋了五大核心模態——影像、影片、音訊、3D以及語言,真正實現了從感知到理解,再到生成的全鏈路模態覆蓋。
在深度維度,General-Bench不僅涵蓋了大量傳統理解類任務(如分類、檢測、問答等),更納入了豐富的生成類任務(如影像生成、影片生成、音訊生成、描述生成等)。
更值得注意的是,所有任務均支援Free-form自由作答,不侷限於選擇題或判斷題,而是依據任務原生的開放指標進行客觀評估,填補了業界長期以來的評測盲區。

從資料規模來看,General-Bench彙集了700餘個任務、325,000+個樣本,並細分為145項具體技能,全面覆蓋視覺、聽覺、語言等模態下的核心能力點。
在這些技能背後,General-Bench跨越了29個跨學科知識領域,囊括自然科學、工程、醫療、社會科學、人文學科等,從影像識別到跨模態推理、從語音識別到音樂生成、從3D模型到影片理解與生成,應有盡有。
此外,General-Bench還特別關注模型在內容識別、常識推理、因果判斷、情感分析、創造與創新等高階能力上的表現,為通才AI模型提供了一個多維度、立體化的評測空間。
可以說,General-Bench是一張挑戰性前所未有的多模態綜合考卷,從模態維度到任務正規化,再到知識領域,全方位檢驗AI模型的廣度、深度與綜合推理能力。
目前,General-Bench的任務樣本總量已達到325,876,並將保持開放動態增長。這一開放性與可持續更新,確保了General-Bench具備長期生命力,能夠持續支撐多模態通才AI的研發與演進。
多Scope Leaderboard設計:全模態通才到子技能通才
有了General-Level評估標準以及資料集,還需要一個公開透明的排行榜來呈現各模型的評測結果和排位。這正是專案的Leaderboard系統。
為了兼顧評測全面性與參與門檻之間的平衡,Leaderboard設計了多層次的榜單Scope分層解耦機制(Scope-A/B/C/D)。
不同Scope相當於不同範圍和難度的子排行榜,允許能力各異的模型各展所長,從“全能冠軍賽”一路覆蓋到“單項能力賽”, 既保證了頂尖通才模型有舞臺角逐全能桂冠,也讓普通模型能選擇合適範圍參與比較,降低了社群參與的門檻。

Scope-A: 全譜英雄榜 :“全模態通才”爭霸。
這是難度最高、覆蓋面最廣的主榜單:參賽模型必須接受General-Bench全集的考驗,也就是涵蓋所有支援的模態、所有範疇任務的完整評估。
Scope-A旨在選拔真正全能型的多模態基礎模型,檢驗它們在全面複雜場景下的綜合實力。
Scope-B: 模態統一英雄榜 :“單一模態通才”競技。
Scope-B包括若干子榜單,每個針對特定模態或限定的模態組合。
具體而言,Scope-B劃分出7個並行榜單:其中4個是單一模態榜(如純視覺、純語音、純影片、純3D),另外3個是模態組合榜(例如影像+文字、影片+文字等跨模態組合)。
參賽模型只需在所選模態範圍內完成多工評測,不涉及其它模態的資料。
Scope-C: 理解/生成英雄榜 :“正規化能力”分組競技。
Scope-C將評測進一步細分為理解類任務和生成類任務兩大正規化,在每種模態下分別設榜。具體來說,在影像、影片、音訊、文字這幾類模態中,各自分出“理解能力榜”和“生成能力榜”兩個榜單,共計8個榜單。
Scope-C評測強調同一模態內跨任務正規化的遷移能力:比如一個模型在視覺理解榜表現優異,說明它在視覺分類、檢測等多種理解任務間具備共享知識的能力;在視覺生成榜得分高則意味著它在各種生成任務(描述、畫圖)上都有通用能力。
由於限制了任務正規化的範圍,Scope-C對資源要求較低(三星難度),非常適合輕量級模型或資源有限的團隊參與。
Scope-D: 技能專長榜:“細分技能”擂臺。
這是粒度最細、參與門檻最低的一類榜單。Scope-D將General-Bench中的任務按具體技能或任務型別進一步聚類,每個小類單獨成榜。
例如:“視覺問答(VQA)榜”“影像字幕生成榜”“語音識別榜”“3D物體檢測榜”等等,每個榜單涵蓋一組密切相關的任務。
參賽模型可以只針對某一類技能提交結果,從而在自己最擅長的狹窄領域與其它模型比較。
這種技能榜機制鼓勵模型循序漸進地發展:先在單點技能上做到極致,再逐步挑戰更廣泛的多工、多模態評測。
Leaderboard連結可見文末。
Leaderboard參賽指南:提交流程與公平評測機制
為了促進社群參與,General-Level專案提供了清晰的Leaderboard參賽流程和嚴格的公平性保障機制。
無論是學術研究團隊還是工業實驗室,都可以按照以下步驟將自己研發的多模態模型提交到Leaderboard打榜:
1.選擇榜單與下載評測資料
首先根據模型能力,選擇適當的Leaderboard範圍(Scope)和具體榜單ID。
選定榜單後,從官方提供的連結下載該榜單對應的封閉測試集(Close-set data)。
這是一份只包含輸入的測試資料,不公開標準答案,用於正式評測。
官方同時提供了開放開發集(Open-set data)用於除錯開發,在打榜前可用於本地測試模型輸出格式等。
2.本地執行模型推理
拿到封閉測試集後,在本地用模型對其進行推理Inference,生成對應的輸出結果。
需要注意的是,每個榜單可能包含多種任務型別,提交的結果檔案應嚴格遵循官方規定的格式和目錄結構。提交前請務必參考官方的詳細提交文件確認格式要求。
一旦輸出結果整理完成,將其命名為“[模型名稱]-[榜單ID].zip”以備上傳。
3.提交結果並填寫資訊
在Leaderboard網站的提交入口,上傳上述結果ZIP檔案。同時需要填寫一些必要的模型資訊(如模型名稱、引數規模、簡介等)以及聯絡郵箱等,以便主辦方後臺正確處理結果。
如果想讓自己的模型得到更多曝光,團隊也可以選擇在結果提交後公開模型的詳細說明或技術報告,方便社群瞭解模型亮點。
4.等待評測與檢視榜單
提交結果後,系統會在後臺對模型輸出進行評分,包括計算各任務指標並彙總成General-Level段位分數。
由於封閉測試集的答案和評分指令碼在後臺保密執行,提交者無法直接得知未公佈資料的答案,從而保證了評測的公正性。
評測完成後,Leaderboard頁面將即時更新:新模型會出現在對應榜單上,展示模型名稱、所屬模態範疇、各模態下的得分以及總分、段位等級和提交日期等資訊。這樣,提交者和公眾都能立即在排行榜上看到模型的名次和段位。
排行榜支援按段位或分數排序,清晰標識哪些模型達到了Level-3、Level-4等協同級別。
為了確保Leaderboard評測的公平性和權威性,專案方還制定了一系列規則和限制:
封閉測試:所有排行榜使用的資料集均為封閉集,模型不得使用這些測試資料進行訓練或調優,這一點透過協議約束和資料監控等方式嚴格執行。
同時,由於是封閉評測,模型開發者在提交結果前也無法得知正確答案,從根本上保證了成績的可信度。
限頻提交:每個使用者24小時內最多提交2次,7天內最多提交4次結果,並且在前一次提交的評測尚未完成時,不允許發起新的提交。
這些措施有效杜絕了利用提交機會反推標準答案或對封閉集過擬合的可能,避免了有人反覆試錯投機,維護了排行榜的嚴肅性。
統一評測環境:所有模型提交均在主辦方統一的評測環境中執行評分,確保不同模型的比較在相同標準下進行。
無論模型使用何種框架或推理加速,最終成績都以相同的指標體系衡量,並根據General-Level演算法轉換成段位分數,從而可直接橫向對比。
透過以上流程與機制,General-Level Leaderboard為研究者提供了一個開放且公平的競技場。
在這裡,新的模型演算法可以得到客觀檢驗,與業界現有的方法同臺比拼;同時封閉評測也保障了結果的可信度,使排行榜成為公認權威的資料點。

排行榜現狀:代表模型段位分佈與社群反饋
截至目前,排行榜收錄了100多個多模態模型的成績,並根據General-Level標準揭示了它們在通才能力上的座次高低。
在首批發布的閉集評測榜單中,各模型整體表現差異懸殊,甚至顛覆大家對常見的多模態大模型的能力排位的認知。
縱觀排行榜,不同段位檔次已經初現梯隊分佈。
Level-2(無協同)

排行榜中佔比最多的就是Level-2段位模型,其中包括GPT4-V等重量級閉源模型,其他大量的常用的開源模型也位列其中。
這些模型勝在支援任務範圍廣,幾乎囊括所有測評任務,但極少在任何任務上超越單項SOTA。因此它們被General-Level評為Level-2通才,只能算是“全科及格”的水平。
值得注意的是,GPT4-V等雖是商業頂尖模型,但由於沒有針對評測任務進行專項最佳化,未能體現協同增益,評分並不出挑。
相反,一些開源模型透過多工訓練,全面開花,也躋身Level-2行列,如SEED-LLaMA、Unified-IO等。這一層級模型主要的能力分佈在圖片模態上,且單模態的平均得分帶大致在10-20分左右,表現尚有巨大提升空間。
當前Level-2的冠亞季軍分別為:Unified-io-2-XXL,AnyGPT以及NExT-GPT-V1.5。
Level-3(任務協同)

許多2024年後的新模型紛紛晉升此列,包括開源的Sa2VA-26B、LLaVA-One-Vision-72B、Qwen2-VL-72B系列。這些模型通常具有數百億引數且經過海量多模態、多工訓練,因而在部分Benchmark上超越了傳統單任務SOTA的成績。
這證明了協同效應的價值:統一的多工訓練可以讓模型學到更通用的表徵,在相關任務上互相促進效能。
反而,一些閉源大模型如OpenAI的GPT4-o、GPT4-V和Anthropic的Claude-3.5等在Level-3上表現不夠靠前。
Level-3模型的整體平均分範圍相比Level-2繼續降低,這表示本Level更加困難的得分情況。
Level-4(正規化協同)

達到此段位的模型目前仍屬鳳毛麟角。
據Leaderboard顯示(截止評測日期24年12月),僅有極個別模型被評為Level-4,如體量巨大的Mini-Gemini、Vitron-V1、Emu2-37B等原型開源模型。
這些模型在跨正規化推理上有所突破,兼具卓越的理解與生成能力,並能將兩者融會貫通。
例如Mini-Gemini模型在影像理解和生成兩方面均取得領先,其在Leaderboard的正規化協同評分上名列前茅。
Level-4段位的出現,意味著離真正的跨模態推理AI又近了一步。不過當前Level-4模型的平均分非常低。這揭示了構建正規化全面協同AI的巨大挑戰:要兼顧多模態的理解與生成並取得雙重突破,非常不易。
Level-5(全模態總協同)
這一段位至今依然是空缺狀態,沒有任何模型能夠達成。
這並不意外,因為要在所有模態和任務上都超越專家並同時提升語言智慧,目前來看超過了現有技術的能力範圍。
General-Level團隊推測,也許下一個里程碑將來自“多模態版”的GPT-5,它們有可能首次展現全模態協同的苗頭,從而改寫Level-5無人問津的局面。
不過在那一天到來之前,Leaderboard上Level-5位置還將繼續空懸,也提醒著我們距離真正的AGI依然有不小的距離。
當前Leaderboard的推出在AI研究社群引發了熱烈反響。許多研究者認為,這樣一個統一的、多維度的評測平臺正是多模態領域所急需的:它不僅規模空前(覆蓋700+任務)、體系完整(有等級有分項),而且公開透明,為業界提供了共同進步的參照。
在社交媒體和論壇上,大家對排行榜上的結果展開討論:有人驚訝於開源模型Qwen2.5-VL-72B竟能擊敗許多閉源巨頭,證明開源社群的潛力;也有人分析GPT-4V在複雜視聽任務上的短板,探討如何彌補。
Leaderboard的資料還被用來指導研究方向:哪些任務是多數模型的薄弱項,哪些模態結合尚未被很好解決,一目瞭然。
可以預見,隨著更多模型加入打榜,排行榜將持續更新,這不僅是一場競賽,更是在不斷積累寶貴的科研洞見。
General-Level評測框架與其Leaderboard排行榜的推出,標誌著多模態通才AI研究進入了一個新階段。正如作者在論文中所期望的那樣,該專案構建的評估體系將成為堅實的基礎設施,幫助業界更科學地度量通用人工智慧的進展。
透過統一標準的段位評測,研究者可以客觀比較不同模型的優劣,找出進一步提升的方向;透過大規模多工的Benchmark,可以全面考察模型在不同領域的能力短板,加速發現問題並迭代改進。這一切對於推動下一個世代的多模態基礎模型、乃至朝真正的AGI邁進,都具有重要意義。
更可貴的是,General-Level專案秉持開放共享的態度,歡迎社群廣泛參與共建。無論您是有新模型方案,還是手頭有獨特的資料集,都可以參與進來:提交模型結果上榜,與全球頂尖模型一決高下;或貢獻新的評測資料,豐富General-Bench的任務多樣性。
每一份資料集的加入,都會在官網主頁獲得鳴謝並在技術報告中被引用。
專案主頁:https://generalist.top/Leaderboard:https://generalist.top/leaderboard論文地址:https://arxiv.org/abs/2505.04620Benchmark:https://huggingface.co/General-Level
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟