
編譯 | Tina、可薇
這是增強大語言模型能力的一大進步,也是一種徹底改變企業私有資料分析的技術。
7 月 2 日,微軟開源了 GraphRAG,一種基於圖的檢索增強生成 (RAG) 方法,可以對私有或以前未見過的資料集進行問答。在 GitHub 上推出後,該專案快速獲得了 2700 顆 star!
開源地址:https://github.com/microsoft/graphrag
透過 LLM 構建知識圖譜結合圖機器學習,GraphRAG 極大增強 LLM 在處理私有資料時的效能,同時具備連點成線的跨大型資料集的複雜語義問題推理能力。普通 RAG 技術在私有資料,如企業的專有研究、商業文件表現非常差,而 GraphRAG 則基於前置的知識圖譜、社群分層和語義總結以及圖機器學習技術可以大幅度提供此類場景的效能。
微軟在其部落格上介紹說,他們在大規模播客以及新聞資料集上進行了測試,在全面性、多樣性、賦權性方面,結果顯示 GraphRAG 都優於樸素 RAG(70~80% 獲勝率)。
與我們傳統的 RAG 不同,GraphRAG 方法可以歸結為:利用大型語言模型 (LLMs) 從您的來源中提取知識圖譜;將此圖譜聚類成不同粒度級別的相關實體社群;對於 RAG 操作,遍歷所有社群以建立“社群答案”,並進行縮減以建立最終答案。


這個方法用微軟高大上的說法是:

微軟研究院於 4 月首次宣佈推出 GraphRAG ,僅看到論文就讓很多人有點等不及上手一試了,如今這項成果終於開源了,開發者們對此表現得超級興奮:



大語言模型最大的挑戰和機遇或許在於如何將其強大的能力,應用到訓練資料以外的問題解決中,利用大語言模型沒有見過的資料取得可對比的結果。這將為資料調查開拓新的可能性,例如根據資料集的上下文和 ground 確定其主題和語義概念。
下面我們將具體介紹下微軟研究院建立的 GraphRAG,這是增強大語言模型能力的一大進步。
檢索增強生成(RAG)是一種根據使用者的查詢語句搜尋資訊,並以搜尋結果為 AI 參考從而生成回答。這項技術是多數基於 LLM 工具的重要組成部分,而多數的 RAG 都採用向量相似性作為搜尋的技術。在文件中複雜資訊的分析時,GraphRAG 利用 LLM 生成的知識圖譜大幅提升了問答的效能,這一點是建立在近期關於私有資料集中執行發現時提示詞增強能力的研究之上。微軟將私有資料集定義為未被 LLM 訓練使用,且 LLM 從未見過的資料,例如某企業的專有研究、商業檔案或通訊。
-
基線 RAG(Baseline RAG)因此而生,但基準 RAG 在某些情況下表現非常差,例如:基線 RAG 很難連點成線。這種情況出現在問題的回答需要透過共用屬性遍歷不同資訊片段以提供新的綜合見解時。
-
基線 RAG 在需要全面地理解大型資料集或單一大型文件的語義概念時,表現會很差。
為解決這一問題,業界正在努力開發擴充套件和增強 RAG 的方法(如 LlamaIndex)。微軟研究院的新方法 GraphRAG 便是基於私有資料集建立知識圖譜,並將圖譜與機器學習一同用於在查詢時執行提示詞的增強。在回答上述兩類問題情況時,GraphRAG 展示了顯著的改進,其智慧或者說精通的程度遠超先前應用私有資料集的其他方法。
為證明 GraphRAG 的有效性,GraphRAG 先以新聞文章中暴力事件資訊(VIINA)資料集為例,該資料集複雜且存在相左的意見和不完整的資訊,是一個現實世界中雜亂的測試示例,又因其出現時間過於近期,所以並未被納入 LLM 基礎模型的訓練中。
在這項研究中,微軟採用了俄羅斯和烏克蘭雙方新聞來源在 2023 年 6 月中的上千篇新聞報道,將其翻譯為英文後建成了這份將被用於基於 LLM 檢索的私有資料集。由於資料集過大無法放入 LLM 上下文的視窗,因此需採用 RAG 方法。
微軟團隊首先向基線 RAG 系統和 GraphRAG 提出一個探索查詢:
查詢語句:“Novorossiya 是什麼?”

透過結果可以看出,兩個系統表現都很好,這是基線 RAG 表現出色的一類查詢。然後他們換成了一段需要連點成線的查詢:
查詢語句:“Novorossiya 做了什麼?”

基線 RAG 沒能回答這一問題,根據圖一中插入上下文視窗的原始檔來看,沒有任何文字片段提及“Novorossiya”,從而導致了這一失敗。

圖一:基線 RAG 檢索到的上下文
相較之下,GraphRAG 方法發現了查詢語句中的實體“Novorossiya”,讓 LLM 能以此為基礎建立圖譜,連線原始支援文字從而生成包含出處的優質答案。舉例來說,圖二中展示了 LLM 在生成語句時所擷取的內容,“Novorossiya 與摧毀自動取款機的計劃有所關聯。”可以從原始文字的片段(翻譯為英文後)中看出,LLM 是透過圖譜中兩個實體之間的關係,斷言 Novorossiya 將某一銀行作為目標的。

圖二:GraphRAG 出處
透過 LLM 生成的知識圖譜,GraphRAG 大幅改善了 RAG 的“檢索”能力;在上下文視窗中填充相關性更高的內容、捕捉出處論據從而提供更為優質的答案。
信任和驗證 LLM 所生成的結果始終是重要的。微軟希望結果總是事實性正確、連貫一致,並且能準確地反映原始材料中的內容。GraphRAG 每次生成回答時總會提供出處或源基礎資訊,表明它的回答時以資料集為基礎的。每個論斷的引用來源都一目瞭然,人類使用者能夠直接對照原始材料,快速且準確地稽核 LLM 的輸出結果。
不過這還不是 GraphRAG 可以實現的全部功能。
基線 RAG 不擅長處理需要彙總全部資料集資訊才能得出答案的查詢。類似“資料中排行前五的主題是什麼?”的查詢表現不佳,是因為基線 RAG 依賴對資料集中語義相似文字內容的向量搜尋,而查詢語句中卻沒有任何能引導它找到正確資訊的關鍵詞。
但 GraphRAG 卻可以回答這類問題。LLM 生成的知識圖譜結構給出了資料集的整體結構和其中主題,讓私有資料集也能被組織成有意義的語義叢集並對其進行預總結。在回應使用者查詢時,LLM 會使用這些聚類對主題進行總結。
透過下面這條語句,可以展示出兩套系統對資料集整體的推理能力:
查詢語句:“資料中排行前五的主題有哪些?”

從基線 RAG 的結果來看,列出的主題中沒有一個提及兩者之間的紛爭。正如預期,向量搜尋檢索到了無關的文字,並將其插入 LLM 的上下文視窗中。生成的結果很可能是根據關鍵詞“主題”進行搜尋,導致了其對資料集內容的評估不夠有用。
再看 GraphRAG 的結果,可以清楚看到其生成的結果與資料集整體內容更為吻合。回答中提供了五大主題及其在資料集中觀察刀的輔助細節。其中參考的報告是由 LLM 為 GraphRAG 根據每個語義集合預先生成,提供了對原始材料出處的對照。
支援 GraphRAG 的基本流程是建立在先前對圖機器學習的研究和程式碼庫上的:LLM 處理全部私有資料集,為源資料中所有實體和關係建立引用,並將其用於建立 LLM 生成的知識圖譜。利用生成的圖譜建立自下而上的聚類,將資料分層並組織成語義聚類(在圖三中由顏色標識)。這種劃分讓預先總結語義概念和主題成為可能,從而更全面地理解資料集。在查詢時,兩種結構均被用於填充 LLM 回答問題時的上下文視窗。
圖三為圖譜視覺化的示例,每個圓圈都代表一個實體(如人物、地點或組織),圓圈大小代表該實體擁有的關係數量,顏色代表相似實體的分組。顏色分割槽時建立在圖結構基礎上的一種從下至上的聚類方法,讓 GraphRAG 能回答不同抽象程度的問題。

圖三:利用 GPT-4 Turbo 和私有資料集建立 LLM 生成的知識圖譜
上述示例中表現了 GraphRAG 在多個跨領域資料集上的持續改進。微軟採用 LLM 的一個評分器給 GraphRAG 和基線 RAG 的表現進行評估和對比,設定了一系列定性指標,其中包括全面性(問題指向背景框架內的完整性)、人性化(提供輔助原始材料或其他背景資訊),以及多樣性(提供問題回答的不同角度或觀點)。初步結果顯示,GraphRAG 在這些指標上始終優於基線 RAG。
除了對比評估,他們還採用 SelfCheckGPT 對 GraphGPT 進行了忠實性的測試,以驗證其基於原始材料的真實且連貫的生成結果。結果顯示,GraphRAG 達到了與基線 RAG 相似的忠實度水平。
透過將 LLM 生成的知識圖譜與圖機器學習相結合,GraphRAG 能回答重要的問題類別,而這些問題是無法單獨使用基線 RAG 完成的。在將這項技術應用於社交媒體、新聞文章、工作中生產力及化學等場景後,微軟已經觀察到了可喜的成果,未來他們將繼續在各類新領域中應用這項技術。
參考連結:

AICon 全球人工智慧開發與應用大會,為資深工程師、產品經理、資料分析師等專業人群搭建深度交流平臺。聚焦大模型訓練與推理、AI Agent、RAG 技術、多模態等前沿議題,匯聚 AI 和大模型超全落地場景與最佳實踐,期望幫助與會者在大模型時代把握先機,實現技術與業務的雙重飛躍。
在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

關鍵詞
大模型
資料集
資訊
問題
方法