醫學可用!推理增強RAG:精準診斷、智慧補問、高效解析|WWW2025


新智元報道  

編輯:LRST
【新智元導讀】南洋理工大學的研究團隊提出了MedRAG模型,透過結合知識圖譜推理增強大語言模型(LLM)的診斷能力,顯著提升智慧健康助手的診斷精度和個性化建議水平。MedRAG在真實臨床資料集上表現優於現有模型,準確率提升11.32%,並具備良好的泛化能力,可廣泛應用於不同LLM基模型。
近年來,智慧健康助手(Healthcare Copilot)逐漸成為智慧醫療的重要方向,目標是為醫生和患者提供診斷決策支援。
然而,現有的檢索增強生成(Retrieval-Augmented Generation, RAG)模型在醫學領域仍存在多重挑戰:
  • 診斷準確性不足:許多疾病的症狀相似,現有RAG模型容易給出模糊或錯誤的診斷結果,導致誤診風險增加。
  • 缺乏醫學推理能力:傳統RAG主要依賴檢索到的類似病例,而缺乏結合醫學知識的推理能力,難以提供精準、個性化的診斷建議。
  • 患者資訊不完整:在現實診療場景中,患者提供的資訊往往不全面,醫生需要主動詢問關鍵症狀,而現有模型難以自動生成有針對性的補充問題。
  • 資料隱私問題:醫療資料涉及敏感隱私,如何在保證資料安全的前提下利用電子健康記錄(EHR)提升AI診斷效能,是一大挑戰。
為了解決這些問題,南洋理工大學的研究人員提出了一種新型的知識圖譜推理增強的RAG診斷模型MedRAG,結合知識圖譜(Knowledge Graph, KG)和大模型推理能力,顯著提升智慧健康助手的診斷能力,研究成果已被WWW 2025錄用。
論文連結:https://arxiv.org/pdf/2502.04413
程式碼開源:https://github.com/SNOWTEAM2023/MedRAG
中文演示:https://www.bilibili.com/video/BV1urPeemEZd/
英文演示:https://youtu.be/PNIBDMYRfDM
下圖是以MedRAG為基礎架構開發的智慧健康助手的使用者介面(UI)。
圖1:以MedRAG為基礎架構的智慧健康助手
這個智慧健康助手的設計充分結合醫生需求調研(User Interviews with Clinicians)的反饋,滿足醫生在不同診療場景下的實際需求。
根據訪談結果,醫生普遍希望智慧健康助手具備三大核心能力:精準的診斷支援、智慧補充提問、高效的患者資訊解析,以減少誤診、提升問診效率,並最佳化醫療決策流程。
在UI互動設計上,MedRAG支援多模態輸入,包括無打擾問診語音監控、文字輸入以及電子健康記錄上傳,確保醫生能夠快速錄入患者資訊。
系統會即時解析症狀,在本地病例庫檢索相似病例,並結合知識圖譜推理生成精準診斷建議。醫生可以在介面上檢視候選疾病列表、決策解釋、個性化治療用藥方案等。同時,MedRAG還會依據知識圖譜推理生成智慧補充提問,幫助醫生快速獲取關鍵診斷資訊。
MedRAG研究方法
圖2:MedRAG整體架構
MedRAG主要由三個核心模組組成:
1. 構建四層細粒度診斷知識圖譜(Diagnostic Knowledge Graph Construction)
現有醫學知識庫(如 UMLS)往往存在粒度不夠細、缺乏特定疾病的症狀對比資訊的問題。
為了能夠更精準地支援診斷推理,研究人員採用了疾病聚類(Disease Clustering)、層次聚合(Hierarchical Aggregation)、語義嵌入(Semantic Embedding)、醫學專家知識和(Expert Knowledge Augmentation)大語言模型增強(Large Language Model (LLM) Augmentation)、表徵分解(Manifestation Decomposition)等技術構建了四層次醫療診斷知識圖譜。
該醫療診斷知識圖譜保障了疾病分類的精準性、診斷特徵的可區分性,是MedRAG能夠根據疾病表徵間的關鍵差異性進行精準診斷的基礎。具體層次如下:
  • 第一層(L1):疾病大類——如神經系統疾病、肌肉骨骼疾病等。
  • 第二層(L2):疾病子類——如腰椎相關疾病、關節炎等。
  • 第三層(L3):具體疾病——如腰椎管狹窄、坐骨神經痛、頸椎病等。
  • 第四層(L4):疾病表徵——每個疾病都對應一組關鍵表徵,如“椎管狹窄”可能表現為“間歇性跛行”、“坐下通常可以緩解”等。
2. 診斷差異知識圖譜搜尋(Diagnostic Differences KG Searching)
該模組用於匹配患者的症狀與知識圖譜中的診斷特徵,核心流程包括臨床特徵分解(Clinical Feature Decomposition),透過自然語言處理技術將患者提供的描述拆解為多個獨立的症狀表徵;
隨後,透過臨床症狀匹配(Clinical Features Matching),採用語義搜尋演算法計算患者症狀與診斷知識圖譜中特徵的相似度,精準定位最相似的症狀節點;
接著,利用向上遍歷(Upward Traversal)機制,在知識圖譜中找到最相關的疾病類別,並逐步向下匹配具體疾病,最終透過診斷關鍵特徵提取(Diagnostic Differences Extraction)識別對疾病鑑別最重要的表徵,為精準診斷和個性化治療方案提供有力支援。
3. 知識圖譜引導LLM推理(Knowledge Graph-Elicited Reasoning)
傳統 RAG 在診斷生成過程中僅依賴檢索到的病例,而MedRAG透過 知識圖譜增強LLM的推理能力,使得LLM具備更接近醫生的思維邏輯,實現更精準且可解釋的診斷推理。
整個過程首先採用利用FAISS(Facebook AI Similarity Search)構建高效索引,確保在大規模電子健康記錄(EHR)資料庫中精準、高效地定位最具臨床相似性的病例;
隨後,匹配關鍵診斷特徵,基於診斷知識圖譜提取當前患者最具鑑別力的表徵資訊,以增強模型的決策推理依據;接著,推理診斷結果,透過LLMs(如GPT-4o、Llama-3.1等),融合檢索到的病例資訊,診斷差異知識圖和患者資訊聯合推理,生成更加精準、上下文一致的診斷建議;
最後,制定個性化治療方案,包括針對性的治療策略、藥物推薦、康復訓練計劃等,並提供進一步的醫學解釋。
這一推理機制不僅顯著提升了MedRAG在複雜醫療場景下的診斷能力,還增強了診斷過程的透明性和可解釋性,提高醫生的信任度與臨床適用性。
此外,在真實的臨床問診過程中,患者往往難以完整、精準地描述自身病情,而醫生則需透過針對性提問獲取關鍵資訊,以輔助診斷決策。MedRAG的主動診斷提問機制(Proactive Diagnostic Questioning)
藉助知識圖譜推理,自動生成高效、精準的補充問題,幫助醫生快速彌補資訊缺失,從而提升診斷的準確性與可靠性。其核心邏輯包括計算患者症狀的不確定性,識別當前病例中缺失的關鍵資訊;結合知識圖譜推演可能的疾病,篩選需進一步確認的症狀特徵;最終,生成精準的補充提問,例如「您的疼痛是否在坐下時加重?」或「您的疼痛是否會向腿部放射?」,以引導醫生獲取更具鑑別力的臨床資訊,使診斷過程更具針對性和智慧化。
實驗與結果

資料集

MedRAG的驗證實驗採用了兩個具有代表性的資料集,以評估其在醫學診斷任務中的有效性和泛化能力。
公開資料集DDXPlus是一個大規模電子健康記錄(EHR)資料集,涵蓋49種不同的疾病,包含超過130萬名患者病例,用於測試模型在複雜、多樣化病症診斷中的表現。
私有資料集CPDD(Chronic Pain Diagnostic Dataset)由新加坡陳篤生醫院(Tan Tock Seng Hospital)提供,包含551名慢性疼痛患者的真實臨床病歷,涉及33種疾病類別,專注於評估MedRAG在真實臨床環境下的診斷精度和實用性。

定量效能

比較的結果表1顯示,MedRAG在CPDD資料集上的最高粒度(L3)診斷準確率達到66.04%,而DDXPlus資料集上達到了68.01%,相比現有SOTA模型分別提升11.32%和1.23%,證明了其在不同醫療場景下的卓越效能。
表1:定量效能比較的結果

KG引導的推理

研究人員在不同的LLM基模型上評估了KG引導的推理對其效能的影響,包括一系列的開源和閉源模型。表2的結果表明,KG引導推理顯著提升了GPT-4o、Llama-3.1、Mixtral-8x7B、Qwen-2.5等多個主流大模型的診斷準確性,證明了其在不同LLMs上的良好泛化能力和適應性。
表2:KG引導推理在不同LLMs基模型上的效能
總結
MedRAG透過知識圖譜增強LLM的推理能力,實現了更精準更細粒度的醫學診斷。
主動診斷提問機制,幫助醫生高效獲取患者關鍵資訊,減少誤診。在真實臨床資料上,MedRAG相比SOTA模型提升11.32%,且在不同LLM上表現出良好泛化能力。詳細方法流程以及實驗結果請參考原文。
作者介紹
論文的第一作者是新加坡南洋理工大學(NTU)與加拿大英屬哥倫比亞大學(UBC)百合卓越聯合研究中心(LILY Research Centre)的瓦倫堡-南洋理工大學校長博士後研究員趙雪嬌,共同一作是LILY Research Centre的研究助理劉思言。
該論文聯合了新加坡陳篤生醫院(Tan Tock Seng Hospital) 和Woodlands Health的Su-Yin Yang博士共同完成。通訊作者為新加坡南洋理工大學計算機工程系教授,NTU-UBC百合卓越聯合研究中心(LILY)主任。
參考資料:
https://arxiv.org/pdf/2502.04413

相關文章