

作者 | 程茜
編輯 | 漠影
臨近年關,國產大模型的春節大禮包讓人應接不暇!
就在這幾天,從全場景深度推理模型Baichuan-M1-preview到醫療增強開源模型Baichuan-M1-14B,百川智慧大模型頻繁上新。
而今天新鮮出爐的全模態模型Baichuan-Omni-1.5,更稱得上是“大模型通才”。
這一全模態模型不僅能同時支援文字、影像、音影片全模態理解,還支援文字、音訊雙模態生成。與此同時,百川還開源了兩個評測集,助力國內全模態模型研發生態蓬勃發展。
從綜合的測評結果來看,Baichuan-Omni-1.5的多模態能力整體超越了GPT-4o mini。在百川智慧深耕的醫療領域,其醫療圖片評測成績更是大幅領先。
可以看出,百川智慧作為國產大模型的明星玩家,在模型本身的技術探索以及深耕醫療行業落地上正一往無前。
模型權重地址:
Baichuan-Omini-1.5:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omini-1.5-Base:
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base
GitHub地址:
https://github.com/baichuan-inc/Baichuan-Omni-1.5
技術報告:
https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf
01.
文圖音影片“通殺”
多項測評超越GPT-4o mini
Baichuan-Omni-1.5的亮眼表現可以集中概括為“全面且強大”。
首先,該模型最突出的特點就是擁有全面的理解和生成能力,既包括對文字、影像、影片、音訊全模態內容的理解,還支援文字、音訊的雙模態生成。
圖片的理解層面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用圖片評測中領先GPT-4o mini。
值得一提的是,除了通用文字、影像、音影片能力外,百川智慧的全模態模型更是在醫療賽道上一騎絕塵。醫療圖片評測資料集GMAI-MMBench、Openmm-Medical的結果顯示,該模型已經大幅超越GPT-4o mini。

音訊的理解與生成層面,Baichuan-Omni-1.5不僅支援多語言對話,還能基於其端到端音訊合成能力,擁有ASR(自動語音識別)和TTS(文字轉語音)功能,並且在此基礎上支援音影片即時互動。具體的測評指標上,Baichuan-Omni-1.5在lamma question和AlpacaEval資料集上整體表現遠超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o 2.6。

影片理解層面,百川智慧對該模型在編碼器、訓練資料和訓練方法等多個關鍵環節進行了深入最佳化,其整體效能同樣大幅領先GPT-4o-mini。

綜上,Baichuan-Omni-1.5不僅在通用能力上整體超越GPT4o-mini,並且實現了全模態理解、生成的統一。
百川智慧同時還開源了兩個評測集:OpenMM-Medical、OpenAudioBench。
OpenMM-Medical用於評估模型的醫療多模態能力,包含了來自42個公開醫學影像的資料集,如ACRIMA(眼底影像)、BioMediTech(顯微鏡影像)和CoronaHack(X 射線),共計88996張影像。
下載地址:
https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical
OpenAudioBench則用於高效評估模型“智商”,包含5個音訊端到端理解子評測集的平臺,其中4個來自公開評測集(Llama Question、WEB QA、TriviaQA、AlpacaEval),還有1個是百川自建的語音邏輯推理評測集,該自建評測集共有2701條資料。
下載地址:
https://huggingface.co/datasets/baichuan-inc/OpenAudioBench
一直以來,百川智慧在繁榮國內開源生態上都扮演著重要角色。這類開源模型評測資料集為研究人員和開發者提供了統一的標準資料,方便其對不同模型的效能進行客觀、公正的評估,同樣有助於催生一系列新的語言理解演算法和模型架構。
02.
全方位最佳化資料、架構、流程
破解大模型“降智”難題
從單一模態模型到多模態融合,再到全模態模型的進階,這一技術發展歷程為實現模型在千行百業落地應用提供了更多可能性。
然而,隨著AI技術的不斷發展,如何實現理解和生成的統一,已然成為當下多模態領域研究的一大熱點與難點問題。
一方面,理解和生成的統一使得模型能模仿人類互動方式,讓計算機與人類的溝通更加自然、高效,這也是通用人工智慧(AGI)實現的關鍵環節;另一方面,不同模態的資料在特徵表示、資料結構和語義內涵等方面差異巨大,很難做到既能有效地提取多模態特徵,又能實現跨模態的資訊互動和融合,這也被業界公認為訓練全模態模型的最大難題之一。此次Baichuan-Omni-1.5的釋出,意味著百川智慧應該已經找到了解決上述難題的有效路徑。
訓練全模態模型的過程中,為解決全模態模型“降智”難題,其研究團隊從模型結構、訓練策略以及訓練資料等多方面進行了全流程的深度最佳化,真正實現了理解生成統一。
首先是模型結構方面,模型輸入部分支援各種模態透過相應的Encoder/Tokenizer輸入到大型語言模型中;輸出部分則採用了文字-音訊交錯輸出的設計,其中Text Tokenizer和Audio Decoder可以同時生成文字和音訊。
其中,Audio Tokenizer由OpenAI釋出的開源語音識別翻譯模型Whisper增量訓練而來,同時具備高階語義抽取和高保真重建音訊能力。
為了讓模型理解任意解析度圖片,Baichuan-Omni-1.5還引入了能處理最高解析度可達4K且支援多圖推理的NaViT,使得該模型能全面提取圖片資訊,準確理解圖片上的內容。

其次是資料層面,百川智慧構建了包含3.4億條高質量圖片/影片-文字資料和近100萬小時音訊資料的龐大資料庫,並使用1700萬條全模態資料進行了SFT(監督微調)。
與其餘模型的資料不同,全模態模型不僅資料要豐富,還需要更多元化的交錯資料。一般而言,現實生活中的資訊通常以多種模態同時呈現,且不同模態的資料包含互補的資訊,這類多模態資料的融合有助於模型學習到更通用的模式和規律,增強其泛化能力,這也是構建全模態模型的關鍵之一。
為了加強跨模態理解能力,百川智慧還構建了高質量的視覺-音訊-文字交錯資料,使用1600萬圖文、30萬純文字、40萬音訊資料以及跨模態資料對模型進行對齊。並且為了讓模型能夠同時實現ASR、TTS、音色切換和音訊端到端問答,在對齊資料中還專門構建了相應任務的資料。
第三大技術要點就是訓練流程,這是讓高質量資料真正提升模型能力的核心。
百川智慧在預訓練和SFT階段均設計了多階段訓練方案,以整體提升模型效果。
其訓練過程主要分為四個階段,第一階段以圖文訓練為主,第二階段增加音訊預訓練,第三階段加入影片資料,最後一個階段是對齊階段,最終實現模型對於全模態內容的理解。

在此基礎上,Baichuan-Omni-1.5的能力相比於單一的大語言模型或者多模態模型,實現了質的飛躍。
Baichuan-Omni-1.5的釋出標誌著AI正在從模型能力向落地應用方向發展,此前,模型能力多側重於語言理解、影像識別等基礎能力的增強,這一模型強大的多模態融合能力,將會讓技術與實際場景之間結合更為緊密。
百川智慧一方面提升了模型在語言、視覺、音訊等多模態資訊處理上的能力,使其能夠應對更復雜、更多樣的任務;另一方面全模態模型強大的理解、生成能力,在醫療行業可以用於輔助醫生診斷,提高診斷準確性和效率等,對於將AI落地到醫療場景也是非常有益的探索。
或許在不久的將來,百川智慧可以讓我們清晰看到AGI時代醫療應用的雛形。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
