最強全模態模型Ola-7B橫掃影像、影片、音訊主流榜單,騰訊混元Research&清華&NTU聯手打造

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報道。投稿郵箱:[email protected][email protected]
Ola 是騰訊混元 Research、清華大學智慧視覺實驗室(i-Vision Group)和南洋理工大學 S-Lab 的合作專案。本文的共同第一作者為清華大學自動化系博士生劉祖炎和南洋理工大學博士生董宇昊,本文的通訊作者為騰訊高階研究員饒永銘和清華大學自動化系魯繼文教授。
GPT-4o 的問世引發了研究者們對實現全模態模型的濃厚興趣。儘管目前已經出現了一些開源替代方案,但在效能方面,它們與專門的單模態模型相比仍存在明顯差距。在本文中,我們提出了 Ola 模型,這是一款全模態語言模型,與同類的專門模型相比,它在影像、影片和音訊理解等多個方面都展現出了頗具競爭力的效能。
Ola 的核心設計在於其漸進式模態對齊策略,該策略逐步擴充套件語言模型所支援的模態。我們的訓練流程從差異最為顯著的模態開始:影像和文字,隨後藉助連線語言與音訊知識的語音資料,以及連線所有模態的影片資料,逐步拓展模型的技能集。這種漸進式學習流程還使我們能夠將跨模態對齊資料維持在相對較小的規模,從而讓基於現有視覺 – 語言模型開發全模態模型變得更為輕鬆且成本更低。
  • 專案地址:https://ola-omni.github.io/
  • 論文:https://arxiv.org/abs/2502.04328
  • 程式碼:https://github.com/Ola-Omni/Ola
  • 模型:https://huggingface.co/THUdyh/Ola-7b
Ola 模型大幅度推動了全模態模型在影像、影片和音訊理解評測基準中的能力上限。我們在涵蓋影像、影片和音訊等方面的完整全模態基準測試下,Ola 作為一個僅含有 7B 引數的全模態模型,實現了對主流專有模型的超越。
圖 1:Ola 全模態模型超越 Qwen2.5-VL、InternVL2.5 等主流多模態模型。
在影像基準測試方面,在極具挑戰性的 OpenCompass 基準測試中,其在 MMBench-1.1、MMMU 等 8 個數據集上的總體平均準確率達到 72.6%,在市面上所有 30B 引數以內的模型中排名第 1,超越了 GPT-4o、InternVL2.5、Qwen2.5-VL 等主流模型。在綜合影片理解測試 VideoMME 中,Ola 在輸入影片和音訊的情況下,取得了 68.4% 的準確率,超越了 LLaVA-Video、VideoLLaMA3 等知名的影片多模態模型。另一方面,Ola 在諸如語音識別和聊天評估等音訊理解任務方面也表現卓越,達到了接近最好音訊理解模型的水平。
完整的測試結果表明,與現有的全模態大語言模型(如 VITA-1.5、IXC2.5-OmniLive 等)相比,Ola 有巨大的效能提升,甚至超越了最先進的專有多模態模型的效能,包括最新發布的 Qwen2.5-VL、InternVL2.5 等。目前,模型、程式碼、訓練資料已經開源,我們旨在將 Ola 打造成為一個完全開源的全模態理解解決方案,以推動這一新興領域的未來研究。
1. 介紹
訓練全模態大模型的核心挑戰在於對於多種分佈的模態進行建模,並設計有效的訓練流程,從而在所有支援的任務上實現有競爭力且均衡的效能。然而,在以往的研究中,高效能與廣泛的模態覆蓋往往難以兼顧,現有的開源全模態解決方案與最先進的專用大語言模型之間仍存在較大的效能差距,這給全模態概念在現實世界的應用帶來了嚴重障礙。
在本文中,我們提出了 Ola 模型,探索如何訓練出效能可與最先進的專用多模態模型相媲美、具備即時互動能力且在對齊資料上高效的全模態大語言模型。Ola 模型的核心設計是漸進式模態對齊策略。為在語言與視覺之間建立聯絡,我們從影像和文字這兩種基礎且相互獨立的模態入手,為全模態模型構建基礎知識。隨後,我們逐步擴充訓練集,賦予模型更廣泛的能力,包括透過影片幀強化視覺理解能力,藉助語音資料連通語言與音訊知識,以及利用包含音訊的影片全面融合來自語言、影片和音訊的資訊。這種漸進式學習策略將複雜的訓練過程分解為小步驟,使全模態學習變得更容易,從而保持較小規模的跨模態對齊資料,也更容易基於視覺 – 語言模型的現有成果展開研究。
圖 2:漸進式模態學習能夠訓練更好的全模態模型
為配合訓練策略,我們在架構和資料領域也進行了重要改進。
  • Ola 架構支援全模態輸入以及流式文字和語音生成,其架構設計可擴充套件且簡潔。我們為視覺和音訊設計了聯合對齊模組,透過區域性 – 全域性注意力池化層融合視覺輸入,並實現視覺、音訊和文字標記的自由組合。此外,我們集成了逐句流式解碼模組以實現高質量語音合成。
  • 除了在視覺和音訊方面收集的微調資料外,我們深入挖掘影片與其對應音訊之間的關係,以構建視覺與音訊模態之間的橋樑。具體而言,我們從學術及開放式網路資源收集原始影片,設計獨立的清理流程,然後利用視覺 – 語言模型根據字幕和影片內容生成問答對。
2. 方法概覽
圖 3:Ola 模型結構圖
全模態結構設計
全模態輸入編碼:基於先前文字到單模態大語言模型的成功實踐,我們分別對視覺、音訊和文字輸入進行編碼。對於視覺輸入,我們使用任意解析度視覺編碼器 OryxViT 進行編碼,保留每個影像或幀的原始寬高比;對於音訊輸入,我們提出雙編碼器方法,使用 Whisper-v3 作為語音編碼器,BEATs 作為音樂編碼器;對於文字輸入,我們直接使用預訓練大語言模型中的嵌入層來處理文字標記。
視覺與音訊聯合對齊:對齊模組充當從特定模態空間到文字嵌入空間的轉換器,這是全模態大語言模型的關鍵部分。為了提高效率並減少視覺特徵的標記長度,我們進一步提出了 “區域性 – 全域性注意力池化” 層,以在減少資訊損失的情況下獲得更好的下采樣特徵。具體而言,我們採用雙線性插值進行 2 倍下采樣以獲得全域性特徵,將原始特徵和全域性特徵結合用於區域性 – 全域性嵌入,並使用 Softmax 預測每個下采樣空間區域的重要性,此後透過哈達瑪積確定每個先前區域的權重。
我們參照先前的工作,應用兩層非線性 MLP 將特定模態特徵投影到語言空間中。
流式語音生成:我們採用 CosyVoice 作為高質量的語音解碼器進行語音生成。為支援使用者友好的流式解碼,我們即時檢測生成的文字標記,一旦遇到標點符號就截斷句子。隨後,將前一個句子輸入語音解碼器進行音訊合成。因此,Ola 無需等待整個句子完成即可支援流式解碼。
漸進式模態對齊策略
語言、視覺與音訊之間的模態差距:透過探索,我們認識到全模態訓練中的兩個關鍵問題。
  • 模態平衡:直接合並來自所有模態的資料會對基準效能產生負面影響。我們認為,文字和影像是全模態學習中的核心模態,而語音和影片分別是文字和影像的變體。學會識別文字和影像可確保模型具備基本的跨模態能力,所以我們優先處理這些較難的情況。隨後,我們逐步將影片、音訊和語音納入全模態大語言模型的訓練中。
  • 音訊與視覺之間的聯絡:在全模態學習中,聯合學習音訊和視覺資料能夠透過提供跨不同模態的更全面視角,產生令人驚喜的結果。對於 Ola 模型,我們將影片視為音訊與視覺之間的橋樑,因為影片在幀與伴隨音訊之間包含自然、豐富且高度相關的資訊。我們透過最佳化訓練流程和準備有針對性的訓練資料來驗證這一假設。
在訓練流程中,訓練階段 1 為文字 – 影像訓練,包括 MLP 對齊、大規模預訓練以及監督微調;階段 2 為影像與影片的持續訓練,利用影片資料持續擴充套件 Ola 的能力;階段 3 為透過影片連線視覺與音訊,我們遵循視覺 MLP 介面卡的訓練策略,同時透過基本的 ASR 任務初始化音訊 MLP。然後,我們將文字與語音理解、文字與音樂理解、音訊與影片聯合理解以及最重要的文字 – 影像多模態任務混合在一起進行正式訓練。在這個階段,Ola 專注於學習音訊識別以及識別視覺與音訊之間的關係,訓練完成後,便得到一個能夠綜合理解影像、影片和音訊的模型。
全模態訓練資料
影像資料中,在大規模預訓練階段,我們從開源資料和內部資料中收集了約 20M 個文字 – 影像資料對;對於 SFT 資料,我們從 LLaVA-Onevision、Cauldron、Cambrian-1、Mammoth-VL、PixMo 等資料集中混合了約 7.3M 影像訓練資料。影片資料中,我們從 LLaVA-Video-178k、VideoChatGPT-Plus、LLaVA-Hound、Cinepile 中收集了 1.9M 個影片對話資料。音訊資料中,我們設計了 ASR、音訊字幕、音訊問答、音樂字幕、音樂問答等文字 – 語音理解任務,總體音訊訓練資料包含 1.1M 個樣本,相關的文字問答表示則從 SALMONN 資料集中收集。
進一步地,我們構造了一種跨模態影片資料的生成方法,旨在揭示影片與音訊之間的內在關係,引導全模態大語言模型學習跨模態資訊。現有的大多數影片訓練資料僅從幀輸入進行註釋或合成,常常忽略了伴隨音訊中的寶貴資訊。具體而言,我們為跨模態學習開發了兩個任務:影片 – 音訊問答和影片語音識別。我們使用視覺 – 語言模型基於影片和相應字幕生成問題和答案,並要求模型以字幕輸入為重點,同時將影片作為補充資訊生成問答。我們為每個影片建立了 3 個問答對,獲取了 243k 個跨模態影片 – 音訊資料。此外,我們還納入了包含 83k 個訓練資料的原始影片字幕任務,以幫助模型在嘈雜環境中保持其語音識別能力。
3. 實驗結果
全模態理解
與當前最先進的多模態大語言模型和全模態模型相比,Ola 在主要多模態基準測試中表現出極強的競爭力。具體而言,在影像基準測試中,Ola 在 MMBench-1.1 中達到 84.3%,在 MMStar 上達到 70.8%,在 MMMU 上達到 57.0%,超越了所有引數數量相近的相關多模態大語言模型。在影片基準測試中,Ola 在 VideoMME 上取得了 68.4% 的準確率。在音訊基準測試中,Ola 在 LibriSpeech 上的 WER 為 3.1%,在 AIR-Bench 上的平均得分為 6.41,超過了現有的全模態模型。
音訊評測集上的分析
在音訊評測集上的細節結果表明,Ola 相較於現有的全模態模型展現出顯著優勢,甚至接近專門的音訊模型,突顯了其強大的通用性。此外,我們可以觀察到透過跨模態聯合學習,效能仍有穩定提升。儘管影片音訊與語音相關資料集之間存在顯著的分佈差異,但這種提升表明了影片與語音模態之間存在穩固的聯絡。
全模態訓練的影響
透過比較全模態訓練前後的結果,我們發現在 VideoMME 上的效能從 63.8% 提升到了 64.4%。此外,在原始影片中加入音訊模態後,效能顯著提升,在 VideoMME 上的分數從 64.4% 提高到了 68.4%。這些發現表明音訊包含有助於提升整體識別效能的有價值資訊。
值得注意的是,經過全模態訓練並輸入音訊的 Ola 準確率甚至超過了使用原始文字字幕的結果,總體效能達到 68.4%,而使用原始文字字幕的總體效能為 67.1%。結果表明,在某些基準測試中,音訊資料可能包含超出原始文字資訊的更多內容。
漸進式模態對齊的影響
我們評估了每個階段中間模型的基本效能,我們可以觀察到,從影像、影片到音訊的漸進式模態訓練能夠最大程度地保留先前學到的能力。
4. 總結
我們提出了 Ola,這是一款功能全面且強大的全模態語言模型,在影像、影片和音訊理解任務中展現出頗具競爭力的效能。我們基於漸進式模態對齊策略給出的解決方案,為訓練全模態模型提供了一種自然、高效且具競爭力的訓練策略。透過支援全模態輸入和流式解碼的架構設計改進,以及高質量跨模態影片資料的準備,進一步拓展了 Ola 的能力。我們期望這項工作能夠啟發未來對更通用人工智慧模型的研究。
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章