智源BGE-VL拍照提問即可精準搜,1/70資料擊穿多模態檢索天花板!


新智元報道  

編輯:編輯部 HYZ
【新智元導讀】智源聯手多所頂尖高校釋出的多模態向量模型BGE-VL,重塑了AI檢索領域的遊戲規則。它憑藉獨創的MegaPairs合成數據技術,在圖文檢索、組合影像檢索等多項任務中,橫掃各大基準重新整理SOTA。
BGE系列模型自發布以來廣受社群好評。
近日,智源研究院聯合多所高校開發了多模態向量模型BGE-VL,進一步擴充了原有生態體系。BGE-VL在圖文檢索、組合影像檢索等主要多模態檢索任務中均取得了最佳效果。
BGE-VL藉助大規模合成數據MegaPairs訓練而成。這一設計具備以下兩大核心優勢:
  • 優異的可擴充套件性:MegaPairs 結合多模態表徵模型、多模態大模型和大語言模型,在海量圖文語料庫中高效挖掘多模態三元組資料。演算法能夠以極低成本持續生成多樣化且高質量的多模態三元組。本次釋出的版本涵蓋 2600 萬條樣本,為多模態檢索模型的訓練提供了大規模、高價值的資料支援。
  • 卓越的資料質量:相較於傳統多模態資料,MegaPairs 僅需 1/70 的資料量即可實現更優的訓練效果。利用該合成數據,智源訓練了多模態檢索模型 BGE-VL,顯著提升了多個主流多模態檢索基準的效能。
BGE-VL的技術報告已釋出,相關資料、模型及程式碼資源將陸續向社群全面開放。

論文地址:https://arxiv.org/abs/2412.14475

專案主頁:https://github.com/VectorSpaceLab/MegaPairs

模型地址:https://huggingface.co/BAAI/BGE-VL-MLLM-S1

研究背景
在大模型時代,資訊檢索需要滿足人們日益多樣化的需求,這種需求不僅體現在使用者的多模態查詢輸入上,也體現在對多模態資訊的需求上。例如,使用者可能拍攝一張汽車外觀圖,並希望獲取該款汽車的指定資訊。
在這種情況下,多模態檢索器需要綜合理解使用者的影像和文字指令,並從多種模態的資訊中檢索出最相關的內容。
然而,現有的多模態檢索模型通常基於單一形式的跨模態配對資料(如影像-文字對)進行訓練,這使得它們難以處理複雜的組合模態輸入。
近年來,指令微調技術在文字檢索和大語言模型等領域已經證明了其增強多工能力的有效性。然而,以往的多模態檢索指令資料集大多依賴人工標註,限制了大規模多樣化資料的獲取。
為解決這一限制,智源BGE團隊創新性地提出了MegaPairs資料合成方法。該方法透過從現有大規模影像資料集中挖掘多樣的關聯影像對,並利用開源多模態大模型和大語言模型進行自動化指令生成,從而構建出高質量、可擴充套件、泛化性強的多模態檢索指令微調資料集。
團隊基於MegaPairs的高質量資料,訓練並開源多模態向量模型BGE-VL系列,實現了當前最佳的多模態檢索能力。
MegaPairs構造
MegaPairs提出從現有大規模圖文語料庫中挖掘並構造大規模、高質量多模態檢索指令資料集。
具體地,MegaPairs的構造主要分為兩個關鍵步驟:
  1. 使用多種相似度模型從影像資料集中挖掘多樣的影像對;
  2. 使用開源的多模態大模型和大語言模型合成開放域檢索指令。
以下圖為例:
  • 首先,MegaPairs會從大規模影像資料集中取樣一對影像-文字資料作為查詢資料。
  • 然後,利用多種影像和文字相似度模型,挖掘出多組關聯影像對(例如:同款汽車的外飾與內飾、同款汽車不同塗裝、同品牌汽車未來概念圖等)。
  • 接著,針對這些挖掘出的影像對,MegaPairs採用兩階段標註方法:首先使用多模態大語言模型(MLLM)總結兩張圖片之間的關聯關係,然後使用大語言模型(LLM)撰寫最終的開放域檢索指令。
值得注意的是,MegaPairs完全基於開源資料集和開源模型進行自動化構建和標註。透過引入多個相似度模型和兩階段標註方法,MegaPairs能夠在無需人工參與的情況下,擴充套件性地生成大規模、高質量且多樣化的多模態檢索指令資料集。
MegaPairs多模態三元資料構造流程
基於上述流水線,MegaPairs合成了超過2600萬條(查詢影像, 查詢語句, 目標影像)三元資料對。
此外,鑑於「難負例」在訓練檢索模型的重要性,MegaPairs對於每組挖掘的影像對資料都選取了其他相似圖片作為難負例。
BGE-VL模型
基於MegaPairs合成的大規模多模態檢索指令資料集,智源BGE團隊訓練出了3款不同尺寸的多模態檢索模型。包括基於CLIP架構的BGE-VL-Base和BGE-VL-Large,以及基於多模態大模型架構的BGE-VL-MLLM。
團隊發現,僅僅使用MegaPairs三元組資料訓練,模型就在多個任務上實現了遠超以往方法的的領先效能優勢。

綜合多模態嵌入任務效能表現

團隊首先在Massive Multimodal Embedding Benchmark(MMEB)上驗證了BGE-VL模型的效能。
MMEB是一個綜合性基準測試,涵蓋了4大類共計36個不同多模態嵌入評測任務:分類(Classification)、視覺問答(Visual Question Answering)、檢索(Retrieval)和視覺定位(Visual Grounding)。
MMEB評測任務示例圖
在零樣本效能表現方面,BGE-VL在MMEB的多個任務型別和整體評分均實現了最優效能。
更令人興奮的是,MegaPairs並未包含MMEB中的絕大部分任務型別資料(例如Classification、VQA,Grounding),卻能夠實現良好的任務泛化能力。
根據MMEB的設定,團隊進一步在MMEB的分佈內(IND)集合(包含36個評測任務中的20個任務)上對BGE-VL進行了有監督微調。
實驗結果顯示,BGE-VL的平均效能指標相比直接在MMEB上微調的VLM2Vec (LLaVA-1.6) 模型高出9.1個百分點。同時,在分佈外(OOD)資料集上的平均表現也比兩版VLM2Vec分別高出11.6%和7.1%。這些結果證明了MegaPairs資料的高質量和泛化能力。

組合影像檢索效能

傳統影像檢索通常採用「文搜圖」或「圖搜圖」的方式。近年來,組合影像檢索作為一種新興的影像搜尋正規化,允許使用者同時輸入影像和搜尋指令,實現更精準的影像檢索效果。這一方法被谷歌稱為「下一代影像搜尋正規化」。
在當前主流的組合影像檢索評測集CIRCO上,BGE-VL在不同模型尺寸上均顯著重新整理了現有基準。大幅超越包括谷歌的MagicLens系列和英偉達的MM-Embed等對比基線。
具體而言,BGE-VL-MLLM較之前的SOTA模型提升了8.1個百分點。此外,BGE-VL-Base模型以不到1/50的引數量超越瞭如MM-Embed和E5-V等大模型底座的多模態檢索器。這些實驗結果有力展示了MegaPairs資料的有效性。
團隊還對MegaPairs的可擴充套件性和資料質量進行了深入研究。
如圖所示,一方面,隨著MegaPairs資料規模的增加,BGE-VL模型表現出一致的效能增長趨勢,證明了MegaPairs資料構造方法的良好可擴充套件性。
另一方面,與在37M閉源資料上訓練的SOTA模型Google MagicLens相比,MegaPairs僅需1/70的資料規模(0.5M)即可實現顯著的效能優勢,證明了MegaPairs資料的高效性和高質量。
MegaPairs可擴充套件性分析:使用不同規模的MegaPairs資料訓練BGE-VL-base模型在各評測基準上的效能變化趨勢。虛線表示基於CLIP-base並在37M MagicLens資料集上訓練的MagicLens-B模型的效能。

BGE-VL檢索視覺化結果

未來,智源將繼續探索MegaPairs與更豐富的多模態檢索場景結合,進一步打造更全能通用的多模態檢索器。
更多方法和實驗細節請參照論文。
參考資料:
https://arxiv.org/abs/2412.14475
https://github.com/VectorSpaceLab/MegaPairs
https://huggingface.co/BAAI/BGE-VL-MLLM-S1

相關文章