允中 發自 凹非寺量子位 | 公眾號 QbitAI
檢索增強技術在程式碼及多模態場景中的發揮著重要作用,而向量模型是檢索增強體系中的重要組成部分。
針對這一需求,近日,智源研究院聯合多所高校研發了三款向量模型,包括:
-
程式碼向量模型BGE-Code-v1
-
多模態向量模型BGE-VL-v1.5
-
視覺化文件向量模型BGE-VL-Screenshot
這些模型取得了程式碼及多模態檢索的最佳效果,並以較大優勢登頂CoIR、Code-RAG、MMEB、MVRB等領域內主要測試基準。BGE自2023年8月釋出以來,已成為中國首個登頂Hugging Face榜首的國產AI模型以及Hugging Face2023年度模型全球下載冠軍。

目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot三款模型已向社群全面開放,為相關技術研究與產業應用提供助力。

由智源研究院主導研發的通用向量模型系列BGE,旨在為各類資料提供高效一站式向量表徵與語義檢索方案,已推出覆蓋中英文、多語言檢索及重排模型等多個版本,持續重新整理MTEB、C-MTEB、BEIR、MIRACL等主流文字向量評測基準。BGE憑藉高效能與開源特性備受業界關注,已廣泛應用於RAG、神經搜尋等場景,累計下載超6億次,被國內外多家AI企業整合。
目前,檢索增強技術正從傳統的文字場景逐步拓展至涵蓋程式碼與視覺等多模態資料的應用。然而,相較於文字領域,現有向量模型在程式碼和視覺模態中的檢索效果仍有待提升。此次智源研究院釋出的三款新模型,為構建更強大的多模態檢索增強系統提供了有力的支援。
BGE-Code-v1:新一代程式碼最佳化語義向量模型

隨著基礎模型程式碼能力快速發展,Cursor、Copilot等輔助程式設計工具大幅提升生產力。在面對百萬行級程式碼庫時,程式碼塊檢索增強需求凸顯,因此檢索模型的程式碼理解能力至關重要。
BGE-Code-v1是以 Qwen2.5-Coder-1.5B 為基座打造的新一代程式碼向量模型,專為各類程式碼檢索相關任務而設計,同時配備了強大的多語言文字理解能力。模型基於 CoIR 訓練集和大量高質量程式碼-文字的合成數據進行訓練,並使用課程學習,以 BGE-gemma2-multilingual 的retrieval、STS資料為輔助,進一步提升程式碼與文字的理解能力。BGE-Code-v1適用於開發文件搜尋、程式碼庫語義檢索、跨語言資訊獲取等多種實際應用場景,是面向程式碼-文字檢索任務的最優選擇。

CoIR 程式碼檢索基準,收集了覆蓋14種程式語言的4大類8個子任務,能夠有效地評估模型在自然語言和程式碼的各類混合場景中的檢索能力。CodeRAG-Bench 基準評估了程式碼檢索模型在程式碼檢索增強(RACG)中的表現。BGE-Code-v1在兩個基準上均以顯著優勢超越谷歌、Voyage AI、Salesforce、Jina等商業/開源模型,登頂SOTA。
BGE-VL-v1.5:通用多模態檢索模型

△BGE-VL-v1.5 完成多模態檢索任務
BGE-VL-v1.5是基於 LLaVA-1.6(7.57B 引數)訓練的新一代通用多模態檢索模型,全面升級了圖文理解能力並具有更強大的檢索能力。BGE-VL-v1.5在MagePairs 300 萬 (3M) 圖文對齊資料基礎上又收集了共100萬條自然與合成數據(涵蓋image-captioning資料、視覺問答資料、分類任務資料)進行多工訓練,顯著地提升了模型在各類任務上的泛化性與理解能力。基於MegaPairs資料,BGE-VL-v1.5在多模態檢索任務中效能優勢顯著,不僅在影像檢索中表現強勁,更在通用多模態場景中展現高適應性與準確率,適用於圖文匹配、多模態問答、跨模態推薦等場景。

MMEB 是當前使用最廣泛的多模態向量基準,由:分類、視覺問答、檢索、視覺基礎知識,四類任務構成。基於zero-shot設定(未使用MMEB訓練集),BGE-VL-v1.5-zs在MMEB基準中重新整理zero-shot模型最佳表現;在檢索任務上,基於MMEB微調的 BGE-VL-v1.5-MMEB 以72.16分登頂SOTA。
BGE-VL-Screenshot:實用強大的視覺化文件向量模型
實際場景中網頁、文件等多模態任務常由圖文、符號、圖表等多元素混合資料構成,這類任務稱為“視覺化資訊檢索”(Vis-IR),因此,多模態模型不僅需要具備從複雜結構中提取關鍵資訊的視覺能力,還需精準理解文字與視覺語義。目前,現有檢索模型在此類任務中表現欠佳。

△BGE-VL-Sc 基於截圖與文字檢索
BGE-VL-Screenshot模型基於 Qwen2.5-VL-3B-Instruct ,以新聞、商品、論文、文件、專案主頁等七類資料來源進行訓練,收集超過1300萬張截圖和700萬組標註截圖問答樣本。
為了準確評估模型在 Vis-IR 任務上的表現,團隊設計並推出了多模態檢索基準MVRB (Massive Visualized IR Benchmark,榜單鏈接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard),涵蓋截圖檢索、複合截圖檢索、截圖QA和開放分類4項任務共20個數據集。

BGE-VL-Screenshot在4項任務中表現出色,以60.61的綜合得分達到SOTA。在此基礎上,透過少量query2screenshot多語言資料訓練,模型實現了在英文之外的多語言任務上的出色表現。
智源研究院將繼續深耕向量模型與檢索增強技術,進一步提升BGE模型系列的能力與通用性。未來期待與更多科研機構與產業夥伴合作,共同推動檢索與人工智慧發展。歡迎廣大研究者與開發者關注並使用 BGE 系列模型,共建開放繁榮的開源生態。
BGE-Code-v1:
-
模型地址:https://huggingface.co/BAAI/bge-code-v1
-
專案主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
-
論文連結:https://arxiv.org/abs/2505.12697
BGE-VL-v1.5:
-
模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs
-
專案主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL
-
論文連結:https://arxiv.org/abs/2412.14475
BGE-VL-Screenshot:
-
模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot
-
專案主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot
-
論文連結:https://arxiv.org/abs/2502.11431
*本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟