最強的全模態理解端模型開源,這個輕巧的小模型不僅多基準登頂,推理速度最高還能領先300%

這可能是目前最強的開源全模態理解端模型了。
今天,無問芯穹宣佈正式開源全球首個端側全模態理解模型 Megrez-3B-Omni,同步開源的還有它的純語言版本模型 Megrez-3B-Instruct。Megrez-3B-Omni 是一個為端而生的全模態理解模型,同時具備圖片、音訊、文字三種模態資料的處理能力,並在三個模態的多種測評基準中取得了最優效能,還能支援多輪對話中的不同模態間自由切換。Megrez-3B-Omni 選擇了最適合手機、平板等端側裝置的30 億引數黃金尺寸結構規整,推理速度最大領先同精度模型 300%
Github:https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni

全模態高效能:圖片、文字、音訊

作者團隊表示,Megrez-3B-Omni 沒有犧牲任何模態的精度,在圖片、文字、音訊三個模態中均取得了同尺寸下最優效能。無論是和同樣三模態的 VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ,還是雙模態的 MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,又或是單一模態的 Qwen、Baichuan 等模型相比,Megrez-3B-Omni 在主流基準測試集上的表現都毫不遜色。

圖片理解:3B 體量對標 34B 模型表現

在影像理解方面,Megrez-3B-Omni 作為一個體積僅為 3B 的模型,其綜合性能表現可以全面超過 34B 的龐然大物,超越 LLaVA-NeXT-Yi-34B 等模型,是目前 OpenCompass、MME、MMMU、OCRBench 等多個主流測試集上精度最高的影像理解模型之一。
與此同時,Megrez-3B-Omni 在場景理解、OCR 等任務上也具有良好表現,能夠準確洞察和分析影像中的場景內容,並高效地從中提取文字資訊,且無論是模糊的印刷體還是複雜的手寫字,都能夠輕鬆識別。
Megrez-3B-Omni 螢幕識別
Megrez-3B-Omni 手寫體識別

文字理解:超越上一代 14B 最佳模型

在文字理解方面,作為全模態理解模型,Megrez-3B-Omni 沒有犧牲模型的文字處理能力,將上一代 14B 大模型的優秀能力壓縮至 3B 規模,顯著降低了計算成本、提升了計算效率。在 C-EVAL、MMLU/MMLU Pro、AlignBench 等多個權威測試集上更是取得端上模型最優精度,在文字理解方面取得全球領先地位。
Megrez-3B-Omni 文字理解
Megrez-3B-Omni 程式碼理解

音訊理解:輕鬆以音問圖、以音解文、以音聽音

在語音理解方面,Megrez-3B-Omni 的效果比肩行業主流方案。Megrez-3B-Omni 不僅支援中文和英文的語音輸入,還能夠處理複雜的多輪對話場景,更能支援對輸入圖片或文字的語音提問,實現不同模態間的自由切換。使用者就任意模態內容,發出語音指令,Megrez-3B-Omni 就能根據語音指令直接響應文字,讓使用者可以透過更少動作與模型展開更直觀、自然的互動。
Megrez-3B-Omni 語音理解
Megrez-3B-Omni 多種模態自由切換

令人驚歎的推理效率

模型的規模並不是決定其速度的唯一因素,因此模型小並不一定就意味著速度快。憑藉對硬體特性的深入理解與利用,Megrez-3B-Omni 透過軟硬體協同最佳化策略,確保了各引數與主流硬體高度適配,以實現硬體效能的利用最大化。與上一代及其他端側大語言模型相比,單模態版本的 Megrez-3B-Instruct 在推理速度上取得了顯著提升,最大推理速度可以領先同精度模型 300%。

多場景靈活應用

Megrez-3B-Instruct 這次還特別提供了 WebSearch 功能,這一功能使得模型能夠智慧地判斷何時需要呼叫外部工具進行網頁搜尋,輔助回答使用者的問題。使用者得以構建屬於自己 AI 搜素,透過網路獲取最新資訊,克服小模型的幻覺問題和知識儲備不足的侷限。
有時,模型透過搜尋網頁可以更全面地完成回答,而其他時候,模型自身已具備足夠的知識來獨立解決問題,過多的搜尋呼叫可能會降低推理速度和效果。Megrez-3B-Instruct 透過在搜尋和對話之間智慧切換,避免了過度依賴搜尋或完全不調用搜索的問題。除了可以自動決策工具呼叫時機之外,Megrez-3B-Instruct 還具備上下文理解效能優異、可提供帶參考資訊的結構化輸出等優勢。目前,這些能力都已集成於 Megrez-3B-Instruct 模型中,使用者可以透過 System Prompt 自由切換,同時享受到高精度模型推理能力與智慧 WebSearch 呼叫收益。

端上智慧需要一體化解決方案

相較於雲端大模型,端側模型需要在資源有限的裝置上快速部署、高效執行,對降低模型計算和儲存需求提出更高要求。無問芯穹技術團隊源起於清華大學電子工程系 NICS-EFC 實驗室,在模型壓縮、推理加速及硬體能耗最佳化等領域擁有深入的學術研究和深厚的工程實踐經驗,是模型輕量化、軟硬體協同最佳化領域的頂尖團隊。
無問芯穹表示,Megrez-3B-Omni 是一個能力預覽,接下來還將持續迭代 Megrez 系列,提升自動化水平至“edge device use”效果,讓使用者只需要給出簡單的語音指令,就可完成端裝置的設定或應用操作,並將它作為“端模型 + 端軟體 + 端 IP”端上智慧一體化解決方案的重要構成推向市場。
在這個方案中,除端側全模態理解模型外,還有端上推理軟體和 IP 設計方案,不僅支援 CPU、GPU 和 NPU 的同時推理,更能透過跨越軟硬體層次的系統最佳化,額外帶來最高可達 70% 的效能提升,最大化端側硬體效能的利用。
透過“端模型 + 端軟體 + 端 IP”一體化設計,無問芯穹將持續致力於為端側裝置提供更完整、對硬體利用更高效的智慧方案,促進大模型在端側裝置上實現更高推理速度與更低能耗,推動端側智慧更快迎接 AGI 到來。

相關文章