她來了!如 GPT-4o 般影片語音絲滑互動,驚豔世界!只不過,這次是在端上,僅 8B 引數。
全新一代面壁小鋼炮 MiniCPM-o 2.6,全模態、端到端,宣告著端側 GPT-4o 時代到來!
身形迷你,卻擁有磅礴能量—— 除了近於 GPT-4o 的高超基準成績,新一代小鋼炮還在「真影片、非照片大模型」等多方面達到以端勝雲的水平。而即時流式的音視訊通話,讓她可以持續看、即時聽、自然說,情感細膩、惟妙惟肖,彷彿把科幻電影中的「Her」從雲請到端,成為生活中聊得來的好朋友。
MiniCPM-o 2.6 開源地址:GitHub: https://github.com/OpenBMB/MiniCPM-o
Huggingface: https://huggingface.co/openbmb/MiniCPM-o-2_6
一、GPT-4o 首上端,全模態、全 SOTA
2024 年 5 月,GPT-4o 的“全模態即時流式影片理解 + 高階語音對話”驚豔全球,半年多後, MiniCPM-o 2.6 成功讓「即時全模態 GPT-4o」跑在了端側,繼續捅破端側多模態、全模態能力天花板。
超預期!僅 8B 的端側模型,一舉收穫音、視、聽「鐵人三項」全 SOTA:
MiniCPM-o 2.6 取得即時流式全模態開源模型 SOTA,效能比肩代表全球最高水平的 GPT-4o、Claude-3.5-Sonnet;在語音方面,取得理解、生成開源雙 SOTA,問鼎最強開源語音通用模型;在一貫優勢凸顯的視覺領域,穩坐最強端側視覺通用模型。

在評估全模態模型音影片能力的多個榜單上,MiniCPM-o 2.6 能力全面且優秀
在即時流式影片理解能力的代表榜單 StreamingBench 上,MiniCPM-o 2.6 效能驚豔,比肩 GPT-4o、Claude-3.5-Sonnet。

即時流式影片理解能力比肩 GPT-4o、Claude 3.5 Sonnet。注:GPT-4o API 無法同時輸入語音和影片,目前定量評測輸入文字和影片
在語音理解方面,超越 Qwen2-Audio-7B-Instruct,實現通用模型開源 SOTA(包括 ASR、語音描述等任務);在語音生成方面,MiniCPM-o 2.6 超越 GLM-4-Voice 9B,實現通用模型開源 SOTA。

音訊理解能力 SOTA,超越 Qwen2-Audio 7B 音訊生成能力 SOTA,超越 GLM-4-Voice 9B
自發布以來,小鋼炮多模態系列一直保持著最強端側視覺通用模型的紀錄。光榮再續,MiniCPM-o 2.6 視覺理解能力也達到端側全模態模型最佳水平。

視覺理解能力 SOTA,超越 GPT-4o、Claude-3.5-SonnetOpenCompass 榜單
二、持續看,即時聽,自然說 ,即時流式端到端
為什麼我們常常對 AI 味兒避之不及?因為感覺假、和真實的世界隔著一層,而我們總是在渴求被看見、被傾聽、暢快交流,尋求和世界上的另一位靈魂的同頻共振。
電影中的 Her 滿足了這種「靈魂伴侶」的想象,而新一代小鋼炮 MiniCPM-o 2.6 則憑藉類似 GPT-4o 的全模態即時流式影片理解與高階語音對話, 有望讓她來到端、來到離每個人更近的地方—— 持續看、即時聽、自然說,開啟即時流式、端到端的絲滑交流。
1、真影片,不是照片大模型
就像一陣風,GPT-4o 釋出後,視訊通話也火了。立於端側、卻率先「睜眼看世界」的小鋼炮發現,影片和影片不一樣――
市場上主流「音視訊通話」模型,實際上只能算作靜態的「照片大模型」:僅在使用者提問後才開始對影片進行一幀或極少數幾幀畫面的抽取,無法捕捉使用者提問之前的畫面,缺乏對前文情境的感知。
而真正的影片大模型,則能夠感知使用者提問之前的畫面和聲音,並持續對即時影片和音訊流進行建模,這種方式更貼近人眼的自然視覺互動。
而面壁小鋼炮在上一代 MiniCPM-V 2.6 釋出時,在影片能力上即已達到。
有了全方面的觀察,才能匯出正確的推理思考。在三仙歸洞、記憶卡牌等遊戲中,新一代小鋼炮的觀察力可以說是明察秋毫,點滴細節不錯過,能猜出遊戲中小球藏到了哪個杯子,還能記住翻牌遊戲中相似圖案卡片的細節、位置,神奇極了!
2、即時聽, 真流暢,能聽懂 GPT-o 聽不到的背景聲音
我們的世界存在著各種各樣的萬物聲音,這是我們和大自然互動的樂趣所在。
除了說話的聲音,像翻書、倒水、敲門聲等,向我們訴說著動作與場景,流淌著豐富的生活細節。這些 GPT-4o 一聽就直呼放棄的環境聲音,小鋼炮也能一一明晰。彷彿大模型裡的鑑音師。
3、自然說,帶感情,即時打斷不迷糊
當我們聊天,渴望觸探的不只是語言,還有話語背後的情緒,一些貼近心靈的表達。
“Her” 中能和人類有情感自然對話的 AI 助手令人印象深刻,繼 GPT-4o 的高階情感語音對話模型後,MiniCPM-o 2.6 同樣對此進行了生動的演繹,並且,即使中間打斷也能接著聊—— 相談如此甚歡,甚至會忘記她是 AI。
MiniCPM-o 2.6 在高階情感語音方面,總體有以下特徵:
-
真人質感的語音生成能力,達到開源通用模型最佳水平; -
低延遲、可即時打斷,如真人交談般自然 -
具備情感與語氣表達:支援可控語音生成(情感、音色、風格控制) -
可語音模擬定製:支援語音克隆,以及基於語言描述的聲音建立等
在實際體驗中,MiniCPM-o 2.6 答得機靈、說得動聽,在對話中常有惟妙惟肖的機智表達:時而霸總附體、時而可愛萌新,時而大秀方言:用四川話教你吃火鍋,廣東話給你賀新年,令人忍俊不禁。
此外,她還能聲音克隆,各種情感、音色、風格,信手拈來,如同配音大師!
和她講話,如同和好友聊天,即時打斷也不迷糊:中間插嘴、岔事兒,也不耽誤酣暢淋漓地聊完全程。
此外,MiniCPM-o 2.6 作為更高技術的端到端模型,資訊輸入輸出都原汁原味,避免了傳統“語音轉文字,再轉語音”方案因中間反覆資訊翻譯,而導致的速度慢、資訊流失風險,可以捕捉語氣、情緒等更豐富的資訊。高效能低延遲、更加自然連貫、更強上下文理解、隨時打斷、抗噪能力等,這些端到端模型的傳統優勢,小鋼炮都具備!
四、端側優勢,全力釋放
面壁智慧為何押注端側大模型?
一是因為端側模型具備隱私性好、更可靠、響應快、不懼弱網斷網環境等優勢。
二是因為我們看到了端側大模型更早、更快落地的潛力。
MiniCPM-o 2.6 視、聽、說全模態的諸多特性,即時的影片流、自然語音互動,接近人類的多模態認知、理解、推理能力,在端側具有肉眼可見的巨大潛力。
在智慧座艙場景中,全天候全地域,可以進行艙內控制、艙外識別、智慧巡航,或是化身旅遊嚮導、貼身翻譯,在戈壁山野中勇闖天涯;教育場景中,前所未有的沉浸式學習體驗,特別是跟虛擬現實或增強現實技術結合使用;商務場景中,為國際會議和多語言環境提供即時翻譯服務,個人旅行者能夠與不同語言的本地人無障礙溝通;特殊人群服務,可以為聽障人士提供即時語音到文字的服務,為老年人提供日常陪伴和情感支援,乃至單身人士的高質量虛擬伴侶;客服和營銷,高質量的自然語音互動,客戶服務的響應速度和質量,超級逼真和擬人,機器的人效無限接近真人….這一切居然都將能夠在端側實現。
進入 2025 年,大模型規模定律(Scaling Law )面臨訓練資料和計算資源方面的可持續發展問題,但規模定律並非預測大模型發展的唯一視角。面壁團隊提出大模型密度定律(Densing Law)—— 模型能力密度隨時間呈指數級增長,實現相同能力的模型引數每 3.3 個月(約 100 天)下降一半 ,並且模型推理開銷隨時間指數級下降,以及模型訓練開銷隨時間迅速下降。
根據大模型的密度定律預測,在通往 AGI 的道路上,大模型能力密度不斷提升,大約每 3.3 個月翻一番,模型推理開銷、訓練開銷隨時間快速下降到大規模應用臨界水平。當模型在同一引數量上能釋放更強的智慧,訓練和推理成本持續下降,晶片在同樣的面積/功耗上,算力能支撐更大的模型,雙向驅動下,大模型就能執行在各類終端上。
原來只在雲端的「全能大模型」擴散到裝置端,既是大模型增效挖潛、不斷降低訓練和推理成本,提升同一引數量上的智慧水平,大模型走向科學化、可持續發展的技術趨勢;更是一種自發的市場趨勢,有著深刻的技術普惠,大模型的能力正在迅速傳導到需求端,以精準的技術-產品 PMF 填滿市場窪地。2024 年端側 AI 硬體成為科技創業大風口,AIPC、AIPhone、AI 眼鏡等 AI+ 硬體迅速爆發,即是這一趨勢的最佳驗證。
正如面壁智慧 CEO 李大海在剛剛過去的 2025 CES 所言:「大模型正在走向「無所不能」和「無處不在」。我們篤信大模型將「無處不在」,特別是成本更低、尺寸更小、效率更高的端側模型。 面壁智慧的工作就是聚焦端側模型,我們的願景所有的裝置上都會有端側的智慧,都會部署端側的模型。10 年之後,至少有 1000 億硬體會搭載端側智慧,成為擁有人類成年智慧水平的新型智慧人口。」


