端側GPT-4o來了!面壁釋出全新端側模型,全模態、端到端,支援即時流式音視訊通話!

整理 | 褚杏娟
近日,面壁智慧釋出並開源了全新一代小鋼炮 MiniCPM-o 2.6,這款端到端模型引數規模僅 8B,但在視覺、語音和多模態方面達到了與 GPT-4o-202405 相當的效能。
據悉,MiniCPM-o 2.6 支援雙語即時語音對話,聲音可配置,還可以實現情緒、語速、風格控制、端到端語音克隆、角色扮演等趣味功能,並在 MiniCPM-V 2.6 的視覺能力上進行了提升,如強大的 OCR 能力、可信行為、多語言支援和影片理解。由於優越的 token 密度,MiniCPM-o 2.6 首次可以支援在 iPad 等端側裝置上進行多模態即時流。
MiniCPM-o 2.6 開源地址:
GitHub:https://github.com/OpenBMB/MiniCPM-o
Huggingface:https://huggingface.co/openbmb/MiniCPM-o-2_6
GPT-4o 上端?
全模態、全 SOTA
MiniCPM-o 2.6 採用了端到端全模態架構,不同模態編碼器 / 解碼器以端到端方式連線和訓練,以充分利用豐富的多模態知識;全模態直播流機制,將離線模態編碼器 / 解碼器改為線上編碼器 / 解碼器,用於流式輸入 / 輸出,團隊還設計了一種時分複用 (TDM) 機制,用於 LLM 主幹中的全模態流處理;可配置語音建模設計,團隊設計了一個多模態系統提示,包括傳統的文本系統提示和一個新的音訊系統提示來確定助手語音,這使得在推理時間內可以靈活地配置語音,同時有助於端到端語音克隆和基於描述的語音建立。
根據面壁的評估,MiniCPM-o 2.6 取得即時流式全模態開源模型 SOTA,效能比肩代表全球最高水平的 GPT-4o、Claude-3.5-Sonnet;在語音方面,取得理解、生成開源雙 SOTA,問鼎最強開源語音通用模型;在一貫優勢凸顯的視覺領域,穩坐最強端側視覺通用模型。
在評估全模態模型音影片能力的多個榜單上,MiniCPM-o 2.6 能力全面且優秀
在即時流式影片理解能力的代表榜單 StreamingBench 上,MiniCPM-o 2.6 效能驚豔,比肩 GPT-4o、Claude-3.5-Sonnet。

即時流式影片理解能力比肩 GPT-4o、Claude 3.5 Sonnet。

注:GPT-4o API 無法同時輸入語音和影片,目前定量評測輸入文字和影片
在語音理解方面,超越 Qwen2-Audio-7B-Instruct,實現通用模型開源 SOTA(包括 ASR、語音描述等任務);在語音生成方面,MiniCPM-o 2.6 超越 GLM-4-Voice 9B,實現通用模型開源 SOTA。
音訊理解能力 SOTA,超越 Qwen2-Audio 7B音訊生成能力 SOTA,超越 GLM-4-Voice 9B自發布以來,小鋼炮多模態系列一直保持著最強端側視覺通用模型的紀錄。光榮再續,MiniCPM-o 2.6 視覺理解能力也達到端側全模態模型最佳水平。
視覺理解能力 SOTA,超越 GPT-4o、Claude-3.5-Sonnet。
OpenCompass 榜單
即時流式端到端效果如何?
為什麼我們常常對 AI 味兒避之不及?因為感覺假、和真實的世界隔著一層。MiniCPM-o 2.6 則憑藉類似 GPT-4o 的全模態即時流式影片理解與高階語音對話,支援持續看、即時聽、自然說,開啟即時流式、端到端的絲滑交流。
不是照片大模型
面壁只能表示,市場上主流“音視訊通話”模型,實際上只能算作靜態的“照片大模型”:僅在使用者提問後才開始對影片進行一幀或極少數幾幀畫面的抽取,無法捕捉使用者提問之前的畫面,缺乏對前文情境的感知。
而真正的影片大模型,則能夠感知使用者提問之前的畫面和聲音,並持續對即時影片和音訊流進行建模,這種方式更貼近人眼的自然視覺互動。面壁小鋼炮在上一代 MiniCPM-V 2.6 釋出時,在影片能力上即已達到。
有了全方面的觀察,才能匯出正確的推理思考。在三仙歸洞、記憶卡牌等遊戲中,新一代小鋼炮的觀察力可以說是明察秋毫,點滴細節不錯過,能猜出遊戲中小球藏到了哪個杯子,還能記住翻牌遊戲中相似圖案卡片的細節、位置,神奇極了!
能聽懂 GPT-o 聽不到的背景聲音
MiniCPM-o 2.6 除了聽到說話的聲音,還有像翻書、倒水、敲門聲等生活細節裡的聲音。而 GPT-4o 不會識別這些環境聲音。
即時打斷不迷糊
“Her” 中能和人類有情感自然對話的 AI 助手令人印象深刻,繼 GPT-4o 的高階情感語音對話模型後,MiniCPM-o 2.6 同樣對此進行了演繹,並且即使中間打斷也能接著聊。
據介紹,MiniCPM-o 2.6 在高階情感語音方面,總體有以下特徵:
  • 真人質感的語音生成能力,達到開源通用模型最佳水平;
  • 低延遲、可即時打斷,如真人交談般自然
  • 具備情感與語氣表達:支援可控語音生成(情感、音色、風格控制)
  • 可語音模擬定製:支援語音克隆,以及基於語言描述的聲音建立等
此外,MiniCPM-o 2.6 避免了傳統“語音轉文字,再轉語音”方案因中間反覆資訊翻譯,而導致的速度慢、資訊流失風險,可以捕捉語氣、情緒等更豐富的資訊。高效能低延遲、更加自然連貫、更強上下文理解、隨時打斷、抗噪能力等。
結束語
面壁智慧表示,押注端側大模型的原因主要有兩方面:一是端側模型具備隱私性好、更可靠、響應快、不懼弱網斷網環境等優勢;二是公司看到了端側大模型更早、更快落地的潛力。
MiniCPM-o 2.6 視、聽、說全模態的諸多特性,即時的影片流、自然語音互動,接近人類的多模態認知、理解、推理能力,在端側具有肉眼可見的巨大潛力。比如在智慧座艙場景中,全天候、全地域,可以進行艙內控制、艙外識別、智慧巡航;教育場景中,前所未有的沉浸式學習體驗,特別是跟虛擬現實或增強現實技術結合使用;商務場景中,為國際會議和多語言環境提供即時翻譯服務,個人旅行者能夠與不同語言的本地人無障礙溝通等。
進入 2025 年,大模型規模定律(Scaling Law )面臨訓練資料和計算資源方面的可持續發展問題,但規模定律並非預測大模型發展的唯一視角。面壁團隊提出大模型密度定律(Densing Law)—— 模型能力密度隨時間呈指數級增長,實現相同能力的模型引數每 3.3 個月(約 100 天) 下降一半 ,並且模型推理開銷隨時間指數級下降,以及模型訓練開銷隨時間迅速下降。
根據大模型的密度定律預測,在通往 AGI 的道路上,大模型能力密度不斷提升,大約每 3.3 個月翻一番,模型推理開銷、訓練開銷隨時間快速下降到大規模應用臨界水平。當模型在同一引數量上能釋放更強的智慧,訓練和推理成本持續下降,晶片在同樣的面積 / 功耗上,算力能支撐更大的模型,雙向驅動下,大模型就能執行在各類終端上。
會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章