讓DeepSeek更可靠!清華提出Hyper-RAG,用超圖提升知識建模精準度


新智元報道  

編輯:LRST
【新智元導讀】Hyper-RAG利用超圖同時捕捉原始資料中的低階和高階關聯資訊,最大限度地減少知識結構化帶來的資訊丟失,從而減少大型語言模型(LLM)的幻覺。
大語言模型(Large Language Models, LLMs)在面對專業領域知識問題的時候,經常會生成偏離既定事實的回覆,或模糊不清的回答,從而帶來了潛在應用風險。
檢索增強生成(Retrieval-Augmented Generation, RAG)透過構建特定領域知識庫,採用基於向量的檢索技術來提取與給定查詢相關的資訊,從而使LLM能夠生成更準確、更可靠的內容。
然而,現有的基於圖的RAG方法受限於僅能表示實體之間的成對關聯,無法表示那些更復雜的多實體間的群組高階關聯,導致資料結構化過程中這些高階資訊的丟失。
為了解決這一難點,清華大學、西安交通大學等提出Hyper-RAG:一種超圖驅動的檢索增強生成方法。
Hyper-RAG將超圖表徵融入RAG中,透過超圖捕獲原始資料中的成對低階關聯和群組高階關聯,從而最大限度減少領域知識結構化帶來的資訊損失,提高生成響應的準確性和可靠性,可以作為醫療診斷金融分析等高可靠需求應用的有利支撐。
在神經科學任務上對六種LLMs進行的實驗表明,Hyper-RAG相比於直接使用LLM,其準確率平均提升了12.3%,比GraphRAG和LightRAG分別高出6.3%和6.0%。
此外,Hyper-RAG在查詢問題複雜性增加的情況下仍能保持穩定效能,而現有方法的效能則有所下降;其輕量級變體Hyper-RAG-Lite在檢索速度上達到了Light RAG的兩倍,並且效能提升了3.3%。
論文地址:https://arxiv.org/abs/2504.08758
Github倉庫https://github.com/iMoonLab/Hyper-RAG

Hyper-RAG整合系統

超圖驅動的本地檢索增強大模型

超圖本地知識庫視覺化系統

RAG困境
現有基於知識結構化的RAG方法,如Graph RAG和Light RAG,利用圖結構來表示特定領域文字中的關係資訊。
然而,基於圖的方法僅限於成對關係

,限制了其捕捉複雜互連的能力,如下圖所示,在敘事故事中,雖然圖可以有效地模擬人物之間錯綜複雜的相關關係,但卻不足以表示涉及多個人物同時互動的事件。

在敘事故事中,雖然圖可以有效地模擬人物之間錯綜複雜的關聯,但卻不足以表示涉及多個人物同時互動的事件。在構建知識圖譜的過程中,通常會丟失這些超出成對相關的關聯,從而導致資訊的損失。
相比之下,超圖能夠對多個數據點之間的高階關聯(

及以上)進行建模,提供了更全面的領域知識表示。

研究人員探討了基於超圖的RAG技術,以實現關鍵知識的全面覆蓋。透過整合基於超圖的結構,大型語言模型能夠更好地減輕與關鍵資訊相關的幻覺現象,從而增強其在專業領域輸出的可靠性和準確性。

超圖建模索引
下圖舉例說明了如何從原始語料中提取實體、低階關聯和高階關聯。可以看出,加入高階關聯可確保更全面地檢索相關資訊。與此相反,如果使用傳統圖,則僅提取成對相關性,會導致潛在的資訊丟失,從而導致大模型產生幻覺。

方法概述
為了減少LLM的幻覺,Hyper-RAG將超圖建模納入RAG框架,利用超圖來捕捉錯綜複雜的多方面相關性。
具體來說,首先,從原始資料集中提取實體,作為超圖中的節點。隨後,這些實體之間的低階和高階關聯會被識別和整合,從而構建一個基於超圖的知識庫。
在查詢階段,首先從輸入查詢中提取關鍵實體,然後利用超圖結構從知識庫中檢索相關的先驗語料資訊。

知識索引
在Hyper-RAG中,語料庫資料可以包含各種型別的文件,包括書籍、手冊、報告和其他相關文字。首先對原始文件進行預處理,並將其劃分為大小一致的chunk,從而形成語料庫集合:

隨後,使用文件結構函式Φ從語料庫中提取結構資訊,從而得到超圖G。
其中,v表示不同元素實體的集合,

分別表示實體間的低階和高階關聯。

檢索增強
在查詢環節給定一個查詢q,首先提取兩組不同的關鍵詞集合:實體關鍵詞

(基本元件)和關聯關鍵詞

(複雜的相互依賴關係),如下所示:

其中,

是用於從輸入問題中提取關鍵字的提示詞。隨後,基於這兩類提取的關鍵詞,從超圖資料庫中檢索相關資訊。

值得注意的是,實體關鍵字檢索的目標是頂點,而關聯關鍵字檢索的目標是超邊。出現這種區別是因為實體關鍵字主要描述單個實體,使頂點成為合適的檢索物件。
相反,相關性關鍵詞描述的是抽象資訊,通常涉及多個實體之間的關係,因此需要超邊作為檢索目標。
對於實體資訊檢索,透過擴散實體對應的超邊作為補充資訊,對於關聯資訊檢索,透過擴散超邊對應的實體作為補充資訊:
透過超圖知識庫進行一步擴散,獲得與這些實體相關的超邊/超邊相關的節點作為補充資訊。
隨後將頂點相關和超邊相關的資訊合併送給大模型以獲得可靠知識補充,生成LLM對查詢的回答。

實驗結果
研究人員在9個不同領域資料集上(神經科學、病理學、數學、物理學、法律、藝術等),採用了6個不同大模型,2種不同評估策略,多維評價指標進行了實驗驗證。

基於打分的評估
在NeurologyCrop資料集上的實驗結果表明,Hyper-RAG的效能優於直接應用LLM,平均提高了12.3%;此外,與GraphRAG和LightRAG相比,Hyper-RAG的效能分別提高了6.3%和6.0%。
當透過引入巢狀,即一個問題後接另一個問題以增加複雜性,如下表所示。隨著問題難度的增加,現有的LLM和基於RAG的方法的效能顯著下降。相比之下,Hyper-RAG 保持了穩定的效能水平。
具體來說,隨著問題難度的增加,Hyper-RAG與直接使用LLM相比,效能提高了12.7%到15%。這些結果證實了基於超圖的全面資訊表示的優越性。
對於簡單的查詢,直接來自大型語言模型的回答或簡單的成對(即低階)關聯可能已足夠。
然而,隨著查詢變得更加複雜,複雜的高階關聯的可用性對於約束和豐富模型的輸出變得至關重要,這一實驗趨勢強調了開發基於超圖的結構表示和檢索方法,以應對日益複雜的問題所帶來的挑戰的重要性。

基於選擇的評估
為了進一步驗證Hyper-RAG,本文將實驗擴充套件到跨越多個領域的九個不同語料庫資料集。
在這些資料集中,Hyper-RAG的效能始終優於傳統的基於圖的方法Light RAG,在使用基於選擇的評估方法對效能進行評估時,Hyper-RAG的平均效能提高了35.5%。

效率分析
這裡進一步評估了從資料庫本地檢索獲取相關知識和構建先驗知識提示所需的時間。
作者開發了Hyper-RAG的輕量級變體,Hyper-RAG-lite,它保留了實體檢索的基本增強功能。
可以看出,Hyper-RAG和Hyper-RAG-lite都位於圖的左上角附近,這表明這些方法在速度和效能方面都優於其他方法。

總結
Hyper-RAG透過利用超圖對原始資料進行更加全面且結構化的知識表示,最大程度地減少資訊丟失並降低大型語言模型的幻覺現象。
與現有的基於圖的RAG方法相比,Hyper-RAG在多個不同領域的資料集上表現出更優異的效能,能夠有效捕捉複雜的多實體群組高階關係,從而提升生成內容的準確性和可靠性。
研究表明,Hyper-RAG在增強LLM的可靠性和減少不準確輸出方面具有顯著優勢,能夠更好地應對輸出內容不可靠帶來的挑戰。
參考資料:
[1] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565. 
[2] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199. 
[3] Feng Y, Han J, Ying S and Gao Y. Hypergraph Isomorphism Computation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(5): 3880-3896. 
[4] Feng Y, Yang C, Hou X, et al. Beyond Graphs: Can Large Language Models Comprehend Hypergraphs?[C]//Proceedings of the Thirteenth International Conference on Learning Representations. 2025. 
[5] Feng Y, Liu S, Han X, et al. Hypergraph Foundation Model[J]. arXiv preprint arXiv:2503.01203, 2025.


相關文章