MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

轉載自 | 夕小瑤科技說

作者 | 張其來

RAG，可以說是大模型時代最成功的落地模式之一，透過檢索-生成的方式，極大的拓展了大模型的應用邊界，但是，RAG 在落地實踐上卻沒有那麼簡單。相信做過 RAG 系統的小夥伴都碰到過如下的問題：

什麼場景或問題下需要檢索？1+2=？的計算題好像不需要，但為什麼 1+2=3 好像就需要。

檢索到的資訊是否有用？是否正確？

檢索到的資訊怎麼用？直接與使用者的問題拼接還是需要進行資訊壓縮後拼接？

以什麼邏輯進行召回？召回資訊是否需要排序？

……

這些問題沒有“放之四海皆準”的答案，在不同的場景、資料下，解決方案各不相同。

從 23 年 RAG 火爆以來，各類 RAG 框架或解決方案沒有上百也有幾十個了，AnythingLLM、RAGFlow、Ollama 等，每一個都能搭建出一個完整基於 RAG 的知識庫，但是通用 ≠ 好用。每一個場景、甚至每一個人的資料都是獨特的，這對於 RAG 系統的效果帶來了巨大的挑戰。但這也帶來了 RAG 領域研究的百花齊放。

今天，和各位小夥伴，一起看下最近的幾篇關於 RAG 的文章，瞭解下學術界在 RAG 上探索。

簡短總結版

可以看出以下幾個趨勢：

專業化趨勢：許多 RAG 變體都針對特定領域進行了最佳化，如醫療、金融、材料科學等
多模態融合：越來越多的 RAG 技術開始處理多模態資料，如影片、影像、文字的結合
安全性考慮：隨著 RAG 技術的普及，安全性問題（如 RAG-Thief 所研究的）也開始受到關注
效率最佳化：新的 RAG 變體都在嘗試透過各種方式提升處理效率，降低計算成本
可解釋性提升：許多新方法都強調了可解釋性的重要性，試圖讓模型決策過程更透明

基礎架構的創新

你有沒有遇到過這樣的情況，讓 RAG 回答一個問題，它要麼給出一大堆相關但不夠準確的資訊，要麼乾脆答非所問。這就像一個初入職場的新人，雖然知識儲備不錯，但不太懂得“抓重點”。

針對這些基礎問題，研究者們提出了一系列創新性的解決方案。比如中科院提出的 AutoRAG，它不再是簡單地“給什麼找什麼”，而是讓 RAG 系統學會自主判斷。

假設你問“誰是《怪物史萊克》中驢子的配音演員？”，普通的 RAG 系統可能會傻乎乎地去搜索所有包含“驢子”和“配音”的資料。但 AutoRAG 會這樣思考：

看到區別了吧，AutoRAG 就像一個會自主思考的助手，知道該怎麼一步步找到最準確的答案。同時，它還可以用自然語言解釋自己的思考過程，讓你明白它為什麼這樣做。這種透明度在實際應用中特別重要。

CORAG 則從另一個角度提出瞭解決方案。現有的 RAG 系統在選擇文字塊時往往獨立考慮，忽視了文字塊之間的相關性。這就像是在解答一個複雜問題時，只看到了各個零散的知識點，卻沒有將它們有機地聯絡起來。

CORAG 的核心創新在於使用蒙特卡洛樹搜尋（MCTS）來探索文字塊的最優組合順序，同時引入配置代理來動態調整系統引數。它就像是在玩一個高階版的拼圖遊戲：

不過，這種方法也有其侷限性：構建和遍歷策略樹需要較多計算資源，引數的調整也需要仔細權衡。

我們都知道大模型是有上下文長度限制的，過長的上下文內容會顯著的降低大模型的效果。在 RAG 中尤為明顯，為了讓 RAG 能夠“記住”和“理解”知識，研究者們提出了一些非常有意思的解決方案。

FastRAG 制定了一個“兩步走”的策略，先用簡單的關鍵詞匹配快速劃定範圍，再用更復雜的語義分析找出最相關的內容，就像你在找一本書，先看書架的分類標籤找到大致區域，再根據書名和目錄找到具體的那本。這不就是傳統搜尋引擎的召回-粗排-精排的邏輯嘛。

可能 AssistantRAG 的作者出發點是想借鑑 Adapter 的思想，提出了一個很類似的設計：既然一個大模型的記憶能力有限，那麼給主模型配備一個“專業秘書”模型。

秘書模型負責記憶管理和知識管理，它會記錄歷史問答資訊，評估這些記憶對當前問題的幫助程度；還會將複雜問題分解成簡單的子問題，針對每個子問題檢索外部知識庫，主模型負責生成最終的輸出。這種方法的優勢在於靈活性強，在不同的場景，透過更換秘書模型達到快速適配的目的。

MemoryRAG 引入了一個“記憶模組”，就像是一個經驗豐富的圖書管理員，不僅懂得找書，還能理解讀者的潛在需求。就像是你要找一本關於愛情主題的書籍的時候，可能書名根本不包括愛情。

MemoryRAG 採用了雙重架構，一個負責處理長文字形成整體印象，另一個負責最終的回答生成。這種設計特別適合處理需要全域性理解的複雜查詢，比如分析文學作品中的人物關係、總結長篇報告等任務。

為了更好的利用外部的知識，RuAG 透過規則增強的方式來提升模型的理解能力。比如在天氣預測場景中，與其讓模型記住大量天氣資料，不如教會它理解“如果溫度超過 30 度且溼度低於 50%，那麼天氣晴朗”這樣的規則。這種方法更容易理解和記憶，計算成本也較低。

複雜資料的處理

隨著 RAG 應用場景的不斷增多，我們可能會遇到各種各樣的資料，網頁、PDF、文字、時序、音訊、影片等等，每種資料型別都帶來了獨特的挑戰。

在網頁資料處理方面，HtmlRAG 提供了一個很巧妙的解決方案。它不是簡單地把網頁轉換成純文字，而是嘗試保留那些傳達重要含義的 HTML 標籤。它首先會清理掉網頁中的廣告程式碼、樣式表等“干擾資訊”，但會保留那些傳達重要含義的 HTML 標籤。

比如說，“<h1>Windows 安裝教程</h1>”這樣的標籤就會被保留，因為它告訴我們這是一個重要的標題。相比純文字的方式，基於這樣的結構化資訊， HtmlRAG 能夠更加高效的利用網頁資訊。

時間序列預測是個老生常談的問題，比如預測明天的天氣、股票走勢、電力消耗等。傳統方法往往把這些預測看作是獨立的任務。但想想看，如果我們能找到歷史上相似的情況作為參考，預測效果會不會更好呢？

舉個簡單的例子：假設你在預測某個城市明天的溫度。如果你能找到歷史上天氣條件非常相似的那幾天，看看那之後溫度是怎麼變化的，這樣的預測顯然會更準確。

這就是論文提出檢索增強預測（RAF）的核心思想。它會先在歷史資料中找到類似的模式片段，看看那個歷史資料之後模式是怎麼變化的，再將這些歷史經驗作為預測的參考。

除了文字之外，有沒有想過，RAG 的思想也是可以應用到影片理解場景的，但你知道現在的大語言模型處理長影片時會遇到什麼問題嗎？最主要的就是“記不住” – 上下文視窗的限制讓它們難以處理長影片。

有的團隊試圖透過微調來擴充套件模型的處理能力，有的則嘗試使用更大的模型。但這些方法要麼需要大量訓練資料，要麼成本太高。

VideoRAG 提出了一個很獨特的方法。它從不同角度來理解影片：

從多個維度去理解影片確實能夠得到更好的效果，但不同資訊之間的對齊可能是一個需要考慮的問題。

垂直領域的創新

RAG 技術在各個垂直領域都展現出了強大的應用潛力，研究者們針對不同領域的特點，提出了一系列創新性的解決方案。

我們知道，在醫療領域，精確和可靠的診斷資訊處理至關重要。LabRAG 模仿了醫生看片的過程，先識別關鍵的醫學發現，再基於這些發現寫報告。PathRAG 專門針對病理切片影像進行了最佳化，它結合了關鍵區域識別和大語言模型，在準確率上提高了將近 10 個百分點。

MMedRAG 解決了醫療視覺語言模型在生成回答時經常產生幻覺的問題，它引入了領域感知的檢索機制、自適應的上下文選擇方法和基於 RAG 的偏好微調策略，顯著提高了生成內容的原創性和可靠性。

在材料科學領域，G-RAG 提供了一個非常創新的解決方案。它將圖資料庫整合到檢索過程中，透過實體提取與關聯、智慧文件解析、圖譜增強檢索等技術，在準確性評分上遠高於傳統 RAG 系統。這種提升在材料科學這樣需要精確資訊的領域特別重要。

RAGDiffusion 為時尚電商領域提供了一個實用的解決方案。它像一個經驗豐富的攝影師，透過分析輸入的服裝照片，在標準服裝圖片資料庫中尋找相似的參考樣本，再採用多層次的生成對齊策略，確保生成圖片的高質量。

比較讓人意外的是，這個系統的泛化性也非常的好，透過簡單更新檢索資料庫，就能夠處理全新的服裝款式，這種靈活性在快速變化的時尚行業特別重要。

金融分析師每天要閱讀大量的財報、公告、研究報告，而且時效性要求特別高。針對這種情況，研究者們開發了 MultiReranker 系統。它的工作方式如下：

首先，它會對使用者的問題進行多維度的拆解和改寫，比如當你問“Q3 的 ROE 是多少”時，系統會先理解：

然後，它採用了一個“多級篩選”的策略，就像是組建了一個金融分析師團隊：

透過多級的檢索機制實現對資訊對高效利用。特別是，當輸入文字太長時，系統會把文件分成兩半分別處理，然後再把生成的答案合併起來，既保證了準確性，又提高了效率。

RAG 的雙刃劍

沒有絕對安全的系統，也沒有絕對安全的技術。

隨著 RAG 技術在醫療、金融、法律等敏感領域的廣泛應用，安全性問題日益凸顯。RAG-Thief 的研究讓我們清晰地看到了當前 RAG 系統中存在的安全隱患。

很多人可能會覺得疑惑：RAG 系統不是隻會返回相關資訊嗎，怎麼會有安全問題呢？但研究者透過巧妙設計的實驗揭示了其中的風險。

想象一下，如果一家醫院使用 RAG 系統來回答醫療諮詢，當有人問“感冒有什麼症狀”時，系統會正常地返回一般性的醫學知識。

但如果有人用特殊的方式提問，比如巧妙地設計問題來套取原始病例資訊，系統可能就會不經意間洩露病人的隱私資料。論文發現，在沒有特殊防護措施的情況下，攻擊者能夠提取出超過 70% 的知識庫內容。

針對這些問題，也有一些可以探索的措施。例如，在系統層面，需要建立嚴格的訪問控制機制，對檢索內容進行脫敏處理，並建立完善的安全審計系統。在演算法層面，可以引入噪聲擾動和差分隱私技術，降低資訊洩露的風險。在日常運營中，定期的安全評估和及時的漏洞修復也是不可或缺的。

總結

最後，來一個小小的總結吧。RAG 的正規化是簡單可理解的，但真正落地實踐的過程中，會有許許多多的問題和痛點。上面提到的 RAG 方法或框架，也只是給出了最佳化探索的方向，真正在自己的場景中發揮 RAG 的效果，還是有一段路需要摸索。

在實際中應用 RAG 的時候，可以進行綜合的考慮，效果不佳的情況下可以嘗試進行各種組合，在效果不達標的情況下，不要過度的考慮效能，畢竟，拋開效果談效能也是耍流氓！

參考文獻

[1] https://arxiv.org/pdf/2411.02959

[2] https://arxiv.org/pdf/2411.13773

[3] https://arxiv.org/pdf/2411.19443

[4]https://arxiv.org/pdf/2411.00744

[5]https://arxiv.org/pdf/2409.05591

[6]https://arxiv.org/pdf/2411.14110

[7]https://arxiv.org/pdf/2411.06805

[8]https://arxiv.org/pdf/2411.16523

[9]https://arxiv.org/pdf/2411.13093

[10]https://arxiv.org/pdf/2411.08249

[11]https://arxiv.org/pdf/2411.03349

[12]https://arxiv.org/pdf/2410.13085

[13]https://arxiv.org/pdf/2411.17073

[14]https://arxiv.org/pdf/2411.16732

[15]https://arxiv.org/pdf/2411.14592

[16]https://arxiv.org/pdf/2411.19528

技術交流群邀請函

△長按新增小助手

掃描二維碼新增小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名的機器學習與自然語言處理社群，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

dignews.cc

16種新型RAG最新進展

簡短總結版

基礎架構的創新

複雜資料的處理

垂直領域的創新

RAG 的雙刃劍

總結

關於我們

相關文章

回顧LLM領域的一些熱詞，哪些你不知道？

最全梳理：一文搞懂RAG技術的5種正規化！

大模型「記憶斷片」成歷史！AI初創全新Zep系統，知識圖譜破解上下文詛咒

Github趨勢榜第一！開源Agent開發神器，任意文件轉JSON、MD

讓大模型讀懂善用知識庫！清華等團隊推出UltraRAG框架全家桶

微軟推出CoRAG：透過迭代推理提升AI檢索能力

通向AGI之路｜人工智慧史上最重磅的19篇論文，系統展示AI如何從象牙塔走進生活！

醫學可用！推理增強RAG：精準診斷、智慧補問、高效解析|WWW2025

長鏈推理相關論文速覽

“無”中生有：基於知識增強的RAG最佳化實踐