港大最新研究成果:MiniRAG,「迷你版」RAG小模型端側可用

MiniRAG讓僅有1.5B引數的小型模型也能達到接近GPT-4mini的RAG任務效能,大幅降低了算力需求。
傳統RAG系統的高資源需求和部署門檻一直是行業痛點,香港大學黃超教授團隊最新推出的MiniRAG框架為此提供了創新解決方案。透過突破性的架構最佳化設計,MiniRAG讓僅有1.5B引數的小型模型也能達到接近GPT-4mini的RAG任務效能,大幅降低了算力需求。這一突破不僅讓端側RAG系統部署成為可能,更為RAG技術的應用探索新途徑。
專案連結: https://github.com/HKUDS/MiniRAG
論文連結: https://arxiv.org/abs/2501.06713
實驗室主頁: https://github.com/HKUDS
1
為什麼需要 MiniRAG?現有 RAG 系統的侷限性
高資源需求與部署門檻
傳統RAG系統通常依賴於大型語言模型(LLMs),這些模型雖然效能強大,但對計算資源和儲存空間的需求極高,導致其難以在資源受限的端側裝置上部署。此外,大型模型的複雜性和高成本也限制了RAG技術在更廣泛場景中的應用。
小型語言模型的效能瓶頸
現有的RAG框架在設計上主要針對大型語言模型,直接將其應用於小型語言模型(SLMs)時,效能往往大幅下降。特別是在查詢理解、多步推理、語義匹配和資訊合成等關鍵環節,小型模型的表現明顯不足,難以滿足實際應用需求。
資料隱私與端側需求
隨著資料隱私保護意識的增強,端側裝置上的資料處理需求日益增加。然而,傳統RAG系統由於依賴雲端大型模型,難以在端側實現高效且隱私保護的知識檢索與生成。MiniRAG透過輕量級架構設計,成功解決了這一問題,為端側RAG系統的部署提供了可行方案。
2
MiniRAG的核心設計
MiniRAG透過突破性的輕量級架構創新,成功構建了一個高效的檢索增強生成系統。該系統無需依賴龐大的語言模型,不僅顯著降低了部署門檻,更能有效保護在端側RAG系統中使用者的資料隱私。
MiniRAG框架
MiniRAG提出了兩大核心創新元件:語義感知異構圖索引和輕量級圖式知識檢索。這些設計使得系統能夠在保證檢索質量的同時,大幅降低對模型能力的依賴,特別適合在資源受限的端側裝置上執行。
語義感知異構圖索引
MiniRAG透過融合文字塊和命名實體,構建層次化語義網路。這種雙層結構不僅提高了檢索結果的準確度,還巧妙避開了小型語言模型在文字概括方面的短板,最大限度地保持了原始資訊的準確性。
輕量級知識檢索
針對端側裝置的計算資源限制,MiniRAG採用圖式知識檢索機制,結合語義感知異構圖和輕量級文字嵌入,實現了高質量的知識獲取。該機制透過簡化的解析流程和拓撲增強檢索策略,顯著降低了檢索過程對模型效能的要求。
LiHua-World:模擬真實端側場景的評測資料集
LiHua-World資料集,記錄了LiHua一年的通訊資料
為全面評估MiniRAG在實際應用中的效能,研究團隊同步推出了首個專門面向端側環境的評測基準——LiHua-World。這個精心設計的資料集透過模擬真實的個人裝置通訊資料,系統性地覆蓋了端側場景下的多樣化檢索需求和知識增強應用,為輕量級RAG系統的發展提供了重要的評估工具。
資料集特點
  • 問題型別豐富:包含單跳查詢、多跳推理和資訊總結等多種任務型別。
  • 場景多元:涉及社交、健身、娛樂和生活等領域,貼合端側應用特點。
  • 專業標註:配備標準答案和相關文件,確保評估的準確性和可靠性。
3
實驗評估與分析
實驗結果
系統性能對比
  • 現有RAG系統的侷限性:實驗結果表明,現有RAG系統在遷移至小型語言模型(SLMs)時存在嚴重的效能瓶頸。具體而言,LightRAG的整體效能顯著下降(降幅達45.43%),而GraphRAG在小模型場景下甚至無法維持基本的生成能力。這些問題充分暴露了傳統RAG架構對大型語言模型的深度依賴。
  • MiniRAG的創新突破:相比之下,MiniRAG透過雙節點異構圖索引結構和拓撲增強檢索機制,有效降低了對模型能力的依賴。實驗資料顯示,在遷移至小型語言模型時,MiniRAG的效能損失得到顯著控制 – 最大降幅僅為21.26%,最小降幅更是低至0.79%,展現出優異的模型適應性。
不同方法的儲存效率與準確率
  • MiniRAG顯著的儲存最佳化: 實驗評估顯示,MiniRAG在儲存效率最佳化方面取得了突破性進展。與採用gpt-4-mini的LightRAG基線系統相比,MiniRAG僅需25%的儲存空間即可達到相當的效能水平。這種在大幅降低儲存需求(節省75%)的同時還能保持高檢索準確率的特性,不僅展現了MiniRAG在系統架構設計上的創新,更為資源受限場景下的RAG應用開闢了新的可能性。
元件效果分析
消融實驗
為全面評估 MiniRAG 各元件的效能貢獻,研究團隊設計了兩組系統化的消融實驗。第一組實驗 (-$I$) 將 MiniRAG 的異構圖索引替換為傳統的基於描述的索引方法,該方法與 LightRAG 和 GraphRAG 類似,主要依賴模型的語義理解能力來生成實體與關係描述。第二組實驗 (-$R_i$) 透過在圖檢索過程中選擇性停用特定功能模組,以量化分析各模組對系統整體表現的影響。
實驗結果表明:
  • 小語言模型難以支撐傳統RAG方法。消融實驗結果明確顯示,當使用傳統的文字語義驅動索引技術(-$I$)替代MiniRAG的索引方法時,系統性能出現顯著下降。這一發現有力驗證了研究團隊的初始假設:小型語言模型(SLMs)在複雜知識圖譜生成和全面語義理解等方面存在固有侷限。
  • 推理路徑的有效性。結構元件的關鍵性透過實驗得到充分證實。無論是移除邊資訊(-$R_{edge}$)還是塊節點(-$R_{chunk}$),都會導致系統性能明顯下降。這些元件展現出雙重價值:既透過查詢引導的推理路徑發現優化了查詢匹配效果,又在資料索引階段有效彌補了SLMs的能力限制。
實際場景案例研究
案例研究
MiniRAG透過一個複雜的餐廳識別案例,有力展示了其在實際應用中的卓越效能,特別是在處理多約束查詢和克服小型語言模型侷限性方面的優勢。
挑戰:複雜查詢解析的困境
研究團隊選取了一個具有挑戰性的測試案例,查詢內容為:Wolfgang和Li Hua為慶祝Wolfgang升職而共進晚餐的那家義大利餐廳叫什麼名字?這一查詢涉及多重約束條件,要求系統能從線上聊天資料中準確識別特定義大利餐廳及其相關上下文。在這個測試中,兩種RAG方法都使用phi-3.5-mini-instruct小語言模型。受限於小型語言模型的固有侷限性,特別是在提取high-level資訊和處理圖索引噪聲方面的不足,導致LightRAG的檢索效果不夠理想。
MiniRAG的解決方案
創新的知識發現機制,MiniRAG透過其獨特的查詢引導推理路徑發現機制成功應對了上述挑戰。系統利用異構圖索引結構,首先預測答案型別(如"社互動動"或"地點"),然後透過策略性分解查詢要素(專注於"義大利場所"和"餐廳"語境),結合目標實體匹配,實現了精確且具有上下文關聯的知識檢索。這種結構化推理方法使MiniRAG即便使用小型語言模型也能夠精確導航知識空間,最終成功定位目標餐廳——Venedia Grancaffe。
4
未來研究方向
  • 增強小型語言模型的能力:透過模型壓縮和知識蒸餾等技術,進一步提升小型語言模型在RAG任務中的表現。
  • 擴充套件應用場景:探索MiniRAG在更多端側裝置上的應用,如智慧家居、車載系統等。
  • 最佳化隱私保護機制:進一步研究如何在保證效能的同時,增強端側RAG系統的資料隱私保護能力。
5
總結
MiniRAG的提出為端側RAG系統的研究與應用提供了全新的解決方案。透過其輕量級架構設計、創新的異構圖索引和高效的檢索機制,MiniRAG不僅突破了傳統RAG系統的高資源需求瓶頸,還為端側裝置上的知識檢索與生成開闢了新的可能性。隨著LiHua-World評測基準的釋出,MiniRAG有望進一步推動RAG技術在端側裝置上的普及與應用。如需瞭解更多資訊,請訪問專案連結:
https://github.com/HKUDS/MiniRAG。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。


相關文章