解碼RAG:智譜RAG技術的探索與實踐

作者 | 柴思遠
智譜 AI 長期專注於大模型技術的研究,從 23 年開始,大模型受到了各行各業的關注,智譜 AI 也深度的參與到各種場景的大模型應用的建設當中,積累了豐富的模型落地應用的實戰經驗,其中 RAG 類應用佔據了較大的比重。
所謂 RAG,簡單來說,包含三件事情。第一,Indexing。即怎麼更好地把知識存起來。第二,Retrieval。即怎麼在大量的知識中,找到一小部分有用的,給到模型參考。第三,Generation。即怎麼結合使用者的提問和檢索到的知識,讓模型生成有用的答案。
這三個步驟雖然看似簡單,但在 RAG 應用從構建到落地實施的整個過程中,涉及較多複雜的工作內容。為此,智譜 AI 組建了一支專業團隊,專注於打造企業服務場景的 RAG 系統,致力於為客戶提供全面的支援與服務。
那麼使用 RAG,有哪些優勢呢?我們總結有以下幾個方面:
1.與直接跟大模型對話的方法相比,RAG 可以更好地解決模型的幻覺、知識更新不及時等問題。
2.與傳統的 FAQ 或者搜尋的方式相比,RAG 可以顯著降低實施成本。例如傳統需要人工整理的 FAQ 的場景,今天我們只需要把手冊資料交給 RAG,就能實現高效準確的問答。
3.相較於大模型直接生成內容的方式,基於 RAG 的生成可以追溯到內容的來源,知道答案具體來源於哪條知識。大模型就像是計算機的 CPU,負責計算答案;而知識庫就像是計算機的硬碟,負責儲存知識,這種計算和儲存分離的架構,便可以對知識回答的範圍進行許可權管理。
4.目前大模型已具備了處理長上下文的能力,然後,如果每次問答都需要把幾十萬字的文件輸入進去,那麼會導致問答的成本成倍增加,特別是在客服場景。實際上我們只需要使用整個文件中一個很小的片段,就可以完成任務。所以在同樣精度的情況下,利用 RAG 技術可以大大地降低整個成本。
智譜 -RAG 解決方案
技術方案
下圖是技術方案的全景圖
整個技術方案包括三個層面:檔案上傳、使用者提問和答案輸出。這三個層面都需要有大量的工程和策略的工作去進行打磨。
以檔案上傳為例。在檔案解析過程中,我們需要將無關的資訊(頁首頁尾等)過濾掉、將圖片改寫成特定識別符號、將表格改寫成模型易於理解的 html 格式等操作。同時,我們會對目錄、標題等進行識別,有效提取文件的結構資訊;也會對檔案中的序列資訊進行識別,以確保知識的連續完整。
此外,Embedding 模型本身因為有視窗限制,文件切片過大會導致檢索資訊不準確。為了解決這個問題,我們採用了 small to big 的策略,即在原始文件切片基礎上,擴充套件了更多粒度更小的文件切片。檢索文件時如果檢索到粒度細緻的切片,會遞迴檢索到其原始大切片,然後再將原始節點做為檢索結果提交給 LLM。
產品方案
下面是產品方案的全景圖
在知識構建過程,我們提供了包括知識型別管理、切片管理、索引管理和資料運營等知識運營和管理的工具,以此來輔助提升企業服務場景的落地效果。
在知識問答過程,我們提供了包括歷史訊息、輸入提示、原文索引、圖文混排、原文檢視等功能,以此來加強使用者對模型回覆答案的信任。
從產品應用層面,一般有三種常見的落地型別,分別為個人使用,企業對內賦能,企業 toC 提供服務等。
智譜 -RAG 在智慧客服的實踐
下面我以「公共事務客服問答場景」為例,介紹我們在 RAG 上的實踐。
這個場景其實大家都比較熟悉。例如 12329 公積金便民熱線。針對這樣的場景,原來的做法主要是兩大技術內容:對話引擎(指令碼編排)和文件引擎(檢索系統)。
但這樣的技術面臨著幾個痛點:
1.知識整理成本高。例如,公積金領域,全國各市有不同政策。啟動專案時,一個城市大約需要 3,000 個 FAQ,運營過程中會增加至 6,000 個,導致高昂的維護成本。
2.知識複用性差。人力專家是能全面解答全國各地的公積金問題,然而原有的智慧系統無法跨城市複用知識,缺乏模型上的通用學習能力。
3.知識更新頻繁。各市每年都會有年度政策版本出臺,每隔幾個月還會有補充性政策,增加維護成本。4、知識晦澀難懂。雖然涉及日常場景,但政策內容複雜,不易為大眾理解。
此外,在互動層面,也同樣存在問題:
1.FAQ 模式的回答範圍有限,無法涵蓋所有問題,容易導致使用者體驗下降。
2.互動方式如電話選單或文字彈窗缺乏擬人化體驗,若無法命中問題,使用者會快速失去對智慧客服的耐心,轉而尋求人工服務。
3.傳統 NLP 技術缺乏對人類對話的理解能力,智譜 ChatGLM 大模型原生的就能夠理解對話的上下文。
4.舊方法只能提供固定答案,無法針對特定情況精準回答,而智譜 ChatGLM 大模型能夠生成有效答案或者推理生成更有針對性的答案。
針對同樣的場景問題,智譜透過“ChatGLM 大模型 +RAG”的方案來解決。整個成本和效果可以有大幅提升如,下圖所示:
此專案面臨如下幾個技術挑戰:
Embedding
第一個挑戰是知識召回。
  1. 切片問題:傳統按長度切片方法效果不佳,因為政策內容知識密度高,每句話都可能包含答案,且條款間關聯性強,需要連續多個條款才能完整回答問題。
  2. Embedding 微調:通用 Embedding 模型不足以應對使用者口語化嚴重的問題,需要針對具體業務場景進行微調,以過濾無關資訊並提高準確度。
針對前者,我們採用文章結構切片以及 small to big 的索引策略可以很好地解決。針對後者,則需要對 Embedding 模型進行微調。我們有四種不同的構造資料的方案,在實踐中都有不錯的表現:
  • Query vs Original:簡單高效,資料結構是直接使用使用者 query 召回知識庫片段;
  • Query vs Query:便於維護,即使用使用者的 query 召回 query,冷啟動的時候可以利用模型自動化從對應的知識片段中抽取 query;
  • Query vs Summary:使用 query 召回知識片段的摘要,構建摘要和知識片段之間的對映關係;
  • F-Answer vs Original:根據使用者 query 生成 fake answer 去召回知識片段。
經過微調後的 Embedding 模型在召回上會有大幅地提升。top 5 召回達到 100%,而且不同 Embedding 模型微調後的召回差異在 1 個點之內,模型的引數規模影響極小。
SFT&DPO
另外一個挑戰是答案生成。在生成環節中,我們面臨以下資料挑戰:
  1. 資料標註難度大:業務人員雖然知道正確答案,但難以標註出滿足一致性和多樣性要求的模型微調資料。因此,我們需要在獲取基礎答案後,透過模型潤色改寫答案或增加 COT 的語言邏輯,以提高資料的多樣性和一致性。
  2. 問答種類多樣:業務需要模型能夠正確回答、拒答不相關問題和反問以獲取完整資訊。這要求我們透過構造特定的資料來訓練提升模型在這些方面的能力。
  3. 知識混淆度高:在問答場景中,召回精度有限,模型需要先從大量相關知識片段中找到有效答案,這個過程在政務等領域難度很大,需要透過增加噪聲資料來強化模型的知識搜尋能力。
  4. 答案專業度高:在公共服務的客服場景,答案往往沒有絕對準確性,資深的客服人員總能給出更有幫助性的答案。使用者問題通常含糊,更加考驗專業人員的回答能力。因此我們需要透過 DPO 方式訓練模型,使模型能夠在眾多答案中找到最好最優的答案。為此,我們需要分別構造資料,並針對模型做 SFT 和 DPO。
在構造資料時,通常情況下,提供更多的高質量訓練資料,微調效果越好。反之,如果訓練資料中存在錯誤、瑕疵,將對微調效果產生一定的負面影響。
當構造了優質的資料後,模型微調上,我們一般會採用分階段微調,即首先用開源通用問答資料進行微調,然後用垂域問答資料微調,最後用人工標註的高質量問答資料進行微調。
DPO 的訓練目標就是讓正樣本機率加大,負樣本機率變低。不僅教會模型什麼是好的,也會告訴模型什麼是差的。對於問答類場景非常有效果,從而讓模型能夠更好地向人類的真實需求進行對齊。
透過以上的方案,我們能夠將原本只有 60% 左右的正確率,提升到 90% 以上。
評測
評測是模型訓練過程中的指南針,好的評測集可以快速的幫助我們找到最佳化的方向,拉齊演算法和業務之間的分歧。構建評測資料集要確保遵循幾個原則:
  • 真實性:評測集要能真實的反應業務實際需求,與實際發生的業務場景一致。例如評測問題應該儘量覆蓋使用者平時會問的問題,保持使用者平時對問題的表述風格。
  • 多樣性:評測集要能夠覆蓋不同的業務內容,包括:不同的使用者輸入型別、期待的輸出型別、以及答案生成的邏輯等。
  • 等比例:評測集各種型別資料的分佈比例應與實際業務場景接近,如果已有線上資料的可以根據線上資料抽樣。
  • 難度區分:生成式模型模擬人腦的思路來推斷答案,題目的難度是一個非常重要的維度。業務人員往往很難系統的梳理這些難度,所以我們的演算法同學需要主動的引導,構造出覆蓋不同難度問題的評測集。
結尾
展望未來,RAG 技術將會在更多領域得到應用,並與其它 AI 技術相結合,例如多模態互動、個性化推薦、使用者長期記憶等。智譜 AI 將繼續致力於 RAG 技術的探索與實踐,為企業在更多的領域落地大模型應用,提供更加智慧、高效的服務體驗。
 嘉賓介紹
柴思遠,智譜企業商業技術中心的總經理,大資料演算法技術專家,組建智譜解決方案團隊,支援過美團、360、金山、小米等重點大模型專案落地;曾歷任大搜車資料中臺負責人、妙計旅行聯合創始人、搜狗搜尋 NLP 研究員等。
內容推薦
新應用時代,融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上,來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段,解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT,關注「AI前線」,回覆關鍵詞「應用開發」免費獲取。
 活動推薦
InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

相關文章