(本文閱讀時間:10分鐘)
編者按:大語言模型在教育、醫療、金融等多領域的應用已展現出其不可忽視的價值。如何更好地結合外部資料,如何提升模型處理專業領域問題的可靠性,是大語言模型應用開發中值得不斷思考的問題。針對此,微軟亞洲研究院的研究員們提出了一種基於查詢需求分層的 RAG 任務分類法,從顯式事實、隱式事實、可解釋的推理、隱式推理4個層級出發,直指大模型應用在不同認知處理階段所面臨的難點和定製化的解決手段。該研究可以使大模型更好地整合專有領域知識,保證其在特定領域中發揮最前沿的能力,在微軟亞洲研究院與上海市精神衛生中心針對個性化認知訓練展開的聯合研究中發揮了關鍵作用。
隨著人工智慧的快速發展,結合外部資料的大語言模型(LLMs)在完成真實世界任務時展現出了卓越的效能。這些外部資料既能夠提升 LLMs 的專業性和時效性,還降低了模型產生幻覺的風險,同時增強了其可控性和可解釋性。尤其是當模型結合了無法納入初始訓練語料庫的私有資料或特定場景資料時,這些優勢更加明顯。
然而,要將結合外部資料的 LLMs 有效地應用於不同的專業領域,目前仍面臨重大挑戰。這些挑戰範圍廣泛,不僅包括構建資料管道(如資料處理和索引)以及準確捕捉使用者查詢的真實意圖,還涉及到如何充分挖掘 LLMs 的潛力以實現複雜的智慧推理。
在與領域專家和開發者進行深入討論,並細緻分析當前的挑戰後,微軟亞洲研究院的研究員們認識到,資料增強型 LLM 應用並非是一勞永逸的解決方案。由於實際需求複雜多變,尤其是在專業領域,資料與所需推理難度之間的關係可能存在顯著差異。所以,在實際應用大模型時,表現不佳往往是因為未能準確把握任務的重點,或者任務本身需要多種能力的融合,要拆分處理後才能更有效地解決。
因此,如圖1所示,研究員們提出了一種“RAG 任務分類法”,根據使用者對外部資料查詢的需求型別,將其分為四個級別,並對這四個級別查詢的主要難點以及解決這些難題的技術手段進行了歸納總結。

圖1:四種級別查詢的主要難點
研究員們認為,只要深入理解各個層面的需求以及與之相伴的獨特挑戰,就能順利構建出應用,並透過不斷改進來滿足最終的任務需求。為此,他們精心編制了一份詳盡的調研報告,旨在精確界定不同層次的查詢需求,識別每個層次所面臨的獨特挑戰,並詳述解決這些挑戰的相關工作與努力。該調研報告希望幫助讀者構建對資料增強型 LLM 應用的全面認識,成為開發此類應用的實用指南。

在資料增強型 LLM 應用的框架下,研究員們首先根據複雜性和所需資料的互動深度,對查詢進行了系統化的分層。這種分層方法有助於更深入地理解 LLMs 在生成準確且相關性強的響應時所經歷的不同認知處理階段。從基礎的事實檢索到深層次的隱含知識解釋,每一層都標誌著 LLMs 任務複雜度的逐級提升。
具體的層次劃分如下:
• Level-1 顯性事實:此類查詢涉及直接從資料中提取明確存在的事實,無需進行任何形式的額外推理。這構成了最基礎的查詢型別,其中模型的主要任務是精確定位並提取相關資訊。例如,“2024年夏季奧運會在哪裡舉行?”
• Level-2 隱性事實:這些查詢要求揭示資料中隱含的事實,可能需要一些常識推理或簡單的邏輯推斷。資訊可能分散在不同的資料片段中,或者需要透過簡單的推理過程來獲取。例如,“目前哪個國家正在舉辦堪培拉所在國家的執政黨會議?”這個問題可以透過結合堪培拉位於澳大利亞的事實和當前執政黨的資訊來解答。
• Level-3 可解釋的推理:在這一層級,查詢不僅要求對事實的掌握,還要求模型能夠理解並應用與資料背景密切相關的領域特定推理依據。例如,在製藥領域,LLMs 需要解讀美國食品藥品監督管理局(FDA)的指導檔案,以評估藥品申請是否符合監管要求。在客戶支援場景中,LLMs 必須遵循預定義的工作流程來有效響應使用者查詢。在醫學領域,LLMs 可以開發成一個專門管理胸痛的專家系統,遵循權威的診斷手冊和標準化指南。這種能力確保了 LLMs 的輸出不僅在事實上正確,而且在上下文中也相關,且嚴格遵守監管和操作規範。
• Level-4 隱式推理:這一級別的查詢進入了一個更具挑戰性的領域,其中推理依據並未明確記錄,而是需要透過分析歷史資料中的模式和結果來推斷。例如,在IT運營領域,LLMs 需要從雲運營團隊解決的歷史事件中挖掘隱性知識,識別成功的策略和決策過程。在軟體開發中,LLMs 必須從以往的除錯錯誤記錄中提取出指導性原則。透過整合這些隱含的推理依據,LLMs 提供的回答不僅準確,而且能夠反映出經驗豐富的專業人士的隱性知識和問題解決技巧。
將查詢劃分為不同層次,既體現了 LLMs 需要理解的複雜性和多樣性,也指明瞭各個層次的關注點,如圖2所示。前兩個層級——顯性事實和隱性事實,主要聚焦於事實資訊的檢索,無論是直接呈現的還是需要基本推理得出的。這些層級考驗的是 LLMs 從資料中提取和綜合資訊以形成連貫事實的能力。與此相對,後兩個層級——可解釋的推理和隱式推理,則將重點轉向了 LLMs 學習和應用資料背後邏輯的能力。這些層級要求更高層次的認知介入,LLMs 必須要麼與專家的思維方式保持一致,要麼從非結構化的歷史資料中提煉出洞見。

圖2:資料增強的大語言模型應用中的查詢級別總結
對於顯性事實查詢,準確的回答依賴於在龐大的外部資料庫中精確定位具體的外部資料資訊;而對於隱性事實查詢,答案通常需要從多個相互關聯的事實中綜合得出,因此,全面檢索並整合有效資訊成為了這一類查詢的關鍵挑戰。可解釋的推理查詢任務是將多樣的外部邏輯關係輸入大語言模型,並確保其精確遵循這些邏輯指導來生成回應;而對於隱式推理查詢,從外部示例或知識庫中提煉並識別出解決問題的策略則成為至關重要的任務。

資料增強型大語言模型應用的四個層級各具特點,面臨的挑戰也各有不同,因此,每個層級都需要量身定製解決方案,如圖3所示。對於涉及靜態常識的查詢,採用鏈式推理的通用型大語言模型能夠有效應對。

圖3:資料增強型大語言模型應用中不同查詢層級的主要技術總結
在處理顯性事實查詢時,其關鍵挑戰在於如何在資料庫中精確地定位事實,因此,基礎的 RAG(Retrieval-Augmented Generation,檢索增強生成)方法成為了首選策略。對於隱性事實查詢,這類查詢要求整合多個相關事實,所以採用迭代式的 RAG 方法或基於圖結構、樹結構的 RAG 實現更為適宜,因為它們能夠同時檢索獨立事實並建立資料點之間的聯絡。在需要廣泛資料互聯的情況下,Text-to-SQL 技術則顯得尤為重要,它可以透過資料庫工具來增強外部資料的搜尋能力。
針對可解釋推理查詢,運用提示調優和鏈式推理提示技術可以增強 LLMs 對外部指令的遵循度。而最具挑戰性的隱藏推理查詢,則需要從大量資料中自動提煉出問題解決策略。在這種情況下,離線學習、上下文學習以及模型的微調就成為了解決問題的關鍵手段。
總體而言,研究員們認為,開發者作為領域專家在著手開發特定的大語言模型應用之前深入洞察預期任務,明確相關查詢的複雜性,並選取恰當的技術手段來解決問題十分必要。這些方法主要可以透過以下三種機制向 LLMs 注入知識,如圖4所示:
a) 根據查詢需求,從領域資料中提取部分內容作為 LLMs 的上下文輸入;
b) 訓練一個規模較小的模型,該模型在特定領域資料上訓練後,用於引導外部資訊的整合,並最終輸入至 LLMs;
c) 直接利用外部的領域知識對通用大語言模型進行微調,從而將其轉化為領域專家模型。

圖4:將特定領域資料注入大語言模型的三種方式
這三種策略在資料量、訓練時間和計算資源的需求上各有不同,且需求逐漸增加。透過上下文進行知識注入的方法在解釋性和穩定性方面表現更為優異,但受限於上下文視窗的大小和潛在資訊丟失,尤其是中間資訊的缺失,這一方法也面臨一定的侷限性。因此,該方法更適用於可以透過簡短文字解釋的資料場景,對模型的檢索和知識提取能力提出了較高要求。小型模型方法的優勢在於訓練時間短,且能夠處理大量資料,但效果依賴於模型的能力,對於複雜任務,LLMs 的效能可能會受到限制,且隨著資料量的增加,可能需要額外的訓練成本。微調方法能夠利用大模型處理大量特定領域資料的能力,但對 LLMs 的影響在很大程度上取決於所使用的資料質量。使用領域外的事實資料進行微調可能會無意中導致 LLMs 產生更多錯誤輸出,甚至可能使其喪失原有的領域知識,並在微調過程中忽視未遇到的任務。
因此,在將資料注入 LLMs 時,選擇合適的策略需要對資料來源有深刻的理解,並基於此做出明智的選擇。並且,在實際應用場景中,資料增強的 LLM 應用通常涉及多種型別的查詢,這就要求開發者設計出一個合適的架構,將多種方法融合在一起,以有效地應對這些複雜挑戰。
微軟亞洲研究院的研究員們提出的 RAG 任務分類學方法已經在實際大語言模型應用中體現出其價值。在近期微軟亞洲研究院和上海市精神衛生中心的聯合研究中,研究員們開發了個性化認知訓練框架“憶我“(ReMe),為幫助認知障礙患者進行認知訓練帶來更具便捷性、互動性、直觀性和個性化的工具。該工具的設計正是結合了 RAG 等技術,使多模態大模型更好地整合了相關領域的專業知識,並優化了智慧代理的行為邏輯和效能,展現出了該方法的巨大貢獻。
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely
論文連結:
https://arxiv.org/abs/2409.14924
你也許還想看:
