3B挑戰70B!月之暗面Kimi-VL新版開源:數學、影片等多項指標超越GPT-4o

月之暗面開源Kimi-VL-A3B-Thinking-2506。
作者 |  李水青
編輯 |  心緣
智東西6月23日報道,月之暗面今日開源多模態模型Kimi-VL-A3B-Thinking-2506,這是其首個開源多模態推理模型Kimi-VL-A3B-Thinking釋出兩個月後的更新版本,可憑藉2.8B啟用引數(16B總引數)在多項測評中超越GPT-4o、Qwen2.5-VL-7B等模型。
▲Hugging Face截圖
開源地址:
https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506
與之前的版本相比,2506版本提供了多項全新或改進的功能:
1、它在消耗更少tokens的同時思考得更聰明:2506版本在多模態推理基準上達到了更好的準確率:MathVision上得分為56.9(+20.1),MathVista上為80.1(+8.4),MMMU-Pro上為46.3(+3.2),MMMU上為64.0(+2.1),而平均需要減少20%的思考長度。
2、思考過程更清楚可見:與之前的思考版本不同,2506版本在一般的視覺感知和理解上也能達到相同甚至更好的能力,例如MMBench-EN-v1.1(84.4)、MMStar(70.4)、RealWorldQA(70.0)、MMVet(78.4),超越或匹配其非思考模型(Kimi-VL-A3B-Instruct)的能力。
3、擴充套件至影片場景:2506版本在影片推理和理解基準方面也有顯著提升。它在VideoMMMU上為開源模型重新整理記錄(65.2),同時在通用影片理解方面也保持了良好的效能,在Video-MME上達到71.9,與Kimi-VL-A3B-Instruct相當。
4、解析度進一步提升:2506版本支援單張影像320萬畫素(1792×1792),比上一版本提升了4倍。這在高解析度感知和OS-agent基準測試中帶來了顯著提升:在V* Benchmark(未使用額外工具)上得分為83.2,在ScreenSpot-Pro上得分為52.8,在OSWorld-G上得分為52.5。
具體來看,與業界頂尖模型和Kimi-VL的兩個先前版本的比較,2506版本測試效能明顯提升:
在通用多模態方面,2506版本在MMBench-EN-v1.1(Acc)、OCRBench(Acc)、MMStar(Acc)、MMVet(Acc)多項測評的得分超過OpenAI的GPT-4o。
在推理能力方面,2506版本在MMMU(val,Pass@1)、MMMU-Pro(Pass@1)上的測試成績超過Qwen2.5-VL-7B、Gemma3-12B-IT,不如GPT-4o,但差距有所縮小。
在數學能力方面,2506版本在MATH-Vision(Pass@1)、MathVista_MINI(Pass@1)中得分大超GPT-4o。
在影片能力方面,2506版本在VideoMMMU(Pass@1)、MMVU(Pass@1)、Video-MME(w/sub.)多項測評中超過Qwen2.5-VL-7B、Gemma3-12B-IT,與GPT-4o的差距縮小。
在Agent落地方面,2506版本在ScreenSpot-Pro(Acc)、ScreenSpot-V2(Acc)、OSWorld-G(Acc)測試中得分都超越Qwen2.5-VL-7B。
在長文字方面,2506版本在MMLongBench-DOC(Acc)測試中超越Qwen2.5-VL-7B,與GPT-4o接近。
如下圖所示,與30-70B的開源模型對比,2506版本的大部分測試已經超越Qwen2.5-VL-32B、Gemma3-27B-IT,看齊Qwen2.5-VL-72B。 
來源:Hugging Face
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)

2025中國AI算力大會預告

相關文章