
近期,上海交通大學與清華大學、上海體育大學等國內外聯合團隊系統性評估了大語言模型在糖尿病專業考試的表現,並驗證了這些模型作為基層醫生和保健護理人員糖尿病培訓輔助工具的潛力。
研究人員選取了 10 種在英語和中文領域具有代表性的模型,包括 GPT-3.5、GPT-4.0、Google Bard、LlaMA-7B、LlaMA2-7B、百度 ERNIE Bot、阿里通義千問、MedGPT、Huatuo GPT 和 Chinese LlaMA2-7B。
他們選擇了中國國家基層糖尿病防治管理指南認證考試(以下簡稱中文考試)和英國皇家內科醫學院會員內分泌及糖尿病英語專科證書考試(以下簡稱英文考試)作為評估標準。
研究結果顯示,在大多數情況下,大模型在提升基層醫生和保健護理人員學習和技能方面表現良好。其中,GPT-4.0 在中英文糖尿病專業考試中表現最優異,顯著提升了初級保健醫生的考試成績。
具體而言,在英文考試中,GPT-4.0 的準確率達到 62.5%,顯著高於 Google Bard、LlaMA-7B 和 LlaMA2-7B 等模型。
根據相關統計資料顯示,在傳統培訓模式下,基層醫生和保健護理人員參加中文考試的透過率在 68.57% 至 81.16% 範圍內。與之對比的是,在本次測試中,GPT-4.0 的中文考試準確率達 84.82%,顯著高於傳統培訓模式的準確率。
此外,阿里通義千問、百度 ERNIE Bot、Google Bard、MedGPT 和 GPT-3.5 也通過了中文考試,而 LlaMA2-7B、HuatuoGPT、Chinese LlaMA2-7B 和 LlaMA-7B 則未能透過。
需要了解的是,由於這項研究始於 2023 年,未涵蓋近期備受關注的國產大模型 DeepSeek。在論文發表後,該課題組迅速對其進行了補充測試。結果顯示,DeepSeek 在中文考試的準確率達到 91.7%,略高於 GPT-4.0 的 84.82%。
糖尿病作為一種複雜的慢性疾病,不僅患者群體龐大,且分型多樣,包括一型、二型及多種特殊型別和亞型,實現精準高效的診療難度極大,尤其是在中低收入國家,基礎醫療條件和醫生培訓水平有待提升。
大模型在糖尿病診療領域的應用前景廣闊,對於提升個性化診療水平具有重要意義。多模態大模型能夠整合多種資料型別(如文字、影像、影片等),為醫生提供更全面的決策支援。
這一研究不僅為大模型在醫療領域的應用提供了科學依據,也為未來糖尿病診療和醫生培訓的技術發展指明瞭方向。其研究結論與當前國際學界對醫療 AI“賦能而不替代”的共識相契合,為平衡技術創新與倫理風險提供了重要參考框架。
該論文共同通訊作者、上海交通大學盛斌教授表示,這項研究首次從全球視角為大模型在糖尿病診療以及基層醫生培訓等醫療場景應用效益提供了前瞻性證據,論證了大模型技術在糖尿病診療及基層醫生培訓等醫療場景的實踐價值。與此同時,也指出了生成式 AI 在醫療場景的應用應避免技術濫用導致的醫療決策失誤風險,並且要警惕過度依賴可能削弱醫生臨床判斷能力的問題。

圖丨盛斌(來源:盛斌)
近日,相關論文以《糖尿病培訓的大語言模型:一項前瞻性研究》(Large language models for diabetes training: a prospective study)為題發表在 Science Bulletin 上 [1]。
上海體育大學博士生李灝萱、清華大學醫學院博士生江澤鏵、上海交通大學博士生管洲榆、上海交通大學醫學院附屬第六人民醫院內分泌代謝科主任包玉倩教授是共同第一作者,上海交通大學的盛斌教授、賈偉平教授、新加坡國立大學覃宇宗助理教授、馬來西亞馬來亞大學 Lee-Ling Lim 教授、上海體育大學毛麗娟教授、上海交通大學蔡淳教授和李華婷教授擔任共同通訊作者。
圖丨相關論文(來源:Science Bulletin)

大模型用於培訓醫生技能可行嗎?
盛斌教授早年博士畢業於香港中文大學計算機科學與工程系,主要研究方向是虛擬現實和人工智慧領域,來到上海交通大學工作後,一直深耕醫工交叉創新實踐。
近年來,針對中國人口老齡化加速與生育率下降的雙重挑戰,他將研究重心轉向探索人工智慧及虛擬現實技術在青少年健康促進、中老年重大慢病管理及眼病診療中的科技創新,並積極推動數字療法等新型醫療解決方案的實踐。
他圍繞糖尿病及糖尿病視網膜病變智慧管理領域不斷探索,成功研發出創新成果——DeepDR、DeepDR Plus 以及 DeepDR-LLM 智慧系統。這三款系統堪稱該領域的 “篩防治三部曲”,各自具備獨特優勢,為糖尿病及相關病變的智慧管理提供了全面且高效的解決方案 [2-4]。
在大模型近年來迅速發展的背景下,2022 年,盛斌團隊創新性地提出“大模型+小模型”協同推理架構,突破傳統深度學習網路在診療一體化中的技術瓶頸,成功實現糖尿病及其視網膜病變的智慧診斷與個性化管理建議的融合生成。
2024 年,他與合作者在 Nature Medicine 釋出了首個面向糖尿病診療的視覺-大模型 DeepDR-LLM[4]。該系統首創融合介面卡與低秩自適應技術,整合 50 萬張眼底影像訓練的 DeepDR-Transformer 模組與 37.2 萬條基層診療資料的大模型模組,實現了從眼底病變檢測、DR 分級診斷到個性化血糖/血壓/血脂管理方案的端到端生成。
經覆蓋亞非歐 7 國多中心驗證,其診斷準確率達專業眼科醫生水平,且能使基層醫生診療建議質量提升 23%。世界衛生組織榮譽總幹事陳馮富珍對該成果評價稱:“不僅為基層糖尿病管理工作帶來了實質性的幫助,還為人工智慧技術賦能慢病診療提供了寶貴的經驗和示範效應。”
這一成果釋出後不久,Nature Medicine 刊發了美國哈佛大學醫學院學者針對該成果的專門述評。作者指出,將 DeepDR-LLM 系統融入基層醫療服務,將有助於提升基層醫生的診療水平與患者的就診體驗;但同時也提到,中國基層醫療存在醫生能力參差不齊、培訓不足等狀況,這在一定程度上制約了相關 AI 技術對基層醫療的促進作用。
這篇述評提到的觀點引發了盛斌深度思索,也讓他把目光關注到如何利用大模型賦能基層醫生培訓和教育,提升基層醫生能力水平的問題上來。為此,盛斌和糖尿病領域的多位國內外專家跨學科討論,然而,這些來自不同國家的專家的觀點存在顯著差異。
盛斌注意到,儘管糖尿病是全球性公共衛生挑戰,但各國醫療體系差異顯著:高收入國家因醫療資源集中且醫生教育水平較高,部分專家擔憂大模型可能削弱醫生臨床決策能力;而中國、印度等新興市場國家基層醫生技能參差、患者群體龐大且老齡化嚴重,亟需透過技術創新提升服務能力。

有效輔助醫生提升糖尿病專業技能
在該研究中,GPT-4.0 在診斷準確性方面超越了初級保健醫生,甚至在某些內科疾病的診斷中,其準確性高於急診科住院醫生。例如,在心血管疾病、內分泌疾病和胃腸道疾病等領域的診斷測試中,GPT-4.0 的診斷準確率顯著優於傳統醫護人員。
盛斌解釋說道:“這種優勢主要源於其強大的知識儲備和推理能力,尤其是在處理規則性知識和經驗型任務時,GPT-4.0 能夠快速準確地生成有效的醫療資訊。”
此外,GPT-4.0 的多模態功能使其能夠處理影像和文字輸入,進一步拓展了其在醫學影像分析等領域的應用。這種能力不僅提高了醫療診斷的效率,還為基層醫生減輕了手工和低層次腦力勞動的負擔。

圖丨大模型在糖尿病診療中的應用前景(來源:Science Bulletin)
儘管 GPT-4.0 在國際醫學領域表現出色,但不可忽視的是,國內的大模型也在某些方面展現出獨特的優勢。這些模型不僅在知識儲備和推理能力上與 GPT-4.0 相當,還在語言表達習慣和本土指南解讀方面更具優勢。其不僅融入了國內的診療習慣和用藥指南,還在中醫領域提供了更具針對性的建議。
然而,必須看到的是,國內外大模型都存在一定的侷限性。例如,GPT-4.0 在處理糖尿病等疾病時,可能會因不同國家指南的差異而出現資訊混亂的現象。由於其資料來源廣泛,也可能會推薦一些在中國不常用的藥物或診療方案。相比之下,國內模型由於更好地結合了本土醫療資料和指南,幻覺現象(即生成錯誤或誤導性資訊)相對較少。
值得關注的是,研究還評估了 GPT-4.0 對初級保健醫生培訓的實際幫助。7 名初級保健醫生在未使用 GPT-4.0 輔助情況下的平均準確率為 74.72%,而在使用 GPT-4.0 輔助後,平均準確率提升至 75.81%,大多數醫生的準確率都有所提高,部分醫生的提升幅度達到了 6.13%。這表明,GPT-4.0 不僅能提供準確的醫學知識,還能有效輔助初級保健醫生提升糖尿病護理能力。

圖丨比較初級保健醫生在沒有 GPT-4.0 輔助和輔助下的中文考試中的表現(來源:Science Bulletin)

有望成為醫療護理培訓的新途徑
儘管大模型在輔助醫生培訓糖尿病專業知識和職業技能提升方面表現出巨大潛力,然而大模型在醫療領域的一些關鍵問題也不容忽視。
例如,大模型在不同國家的應用場景存在顯著差異。具體來說,在醫療資源豐富、醫療水平較高的國家,大模型可以作為輔助工具,幫助醫生解決複雜的罕見病例。而在中低收入國家,大模型的應重點應用在基層醫療,從而讓醫生透過大模型培訓,能夠更好地掌握糖尿病等慢性病的診療標準和常見治療方法。
盛斌表示:“這種差異化表現說明,技術應用需與醫療場景深度適配,尤其在資源匱乏地區,大模型可透過知識賦能彌合專業鴻溝。”
此外,醫療大模型可能因資料汙染產生錯誤或不相關資訊(即“幻覺現象”),這種由訓練資料質量缺陷引發的系統性風險已被多項研究證實,且錯誤資訊會透過知識關聯形成擴散效應。
“以最新發布的 GPT-o3 和 DeepSeek-R1 為例,儘管在糖尿病等重大慢病診療場景中展現出應用潛力,但實測顯示其診斷建議仍存在顯著偏差,這種技術侷限性可能引發嚴重的醫療安全風險,也可能因醫生偏面追求醫療記錄的全面性掩蓋關鍵診療資訊,形成‘資料汙染’,干擾臨床決策。”盛斌教授補充道。
隨著 AI 技術的飛速發展,醫生掌握 AI 技能已經成為新時代的醫療需求。而大模型在醫學領域的應用就像一把“雙刃劍”:既可以作為一種高效的專業能力培訓工具,有效減輕醫生的重複性工作負擔和提升其診療技能水平;也需要防止醫生對其過度依賴而導致技能水平下降。
那麼,大模型是否會取代醫生,尤其是基層初級醫生?該團隊認為,大模型在醫學領域具有巨大的拓展空間。他們的目標是將大模型打造成醫生的助手或伴侶,而非競爭者,透過“雙向賦能”提升醫療效率和質量。
研究人員還關注大模型在醫學教育中的應用潛力。例如,透過虛擬教師或數字孿生 AI 教師進行個性化培訓和教學,以及醫學院學生對新型教學方式的接受度和技能提升情況等。
此外,他們也在研究生成式 AI 技術在糖尿病併發症領域的應用。例如,利用眼底影像,透過深度學習技術探索更多系統性疾病或整體健康狀態變化的可能性。
隨著技術的不斷進步和應用場景的拓展,大模型有望在慢病和基層醫療中發揮更大的作用,為全球公共衛生挑戰提供創新的解決方案。

參考資料:
1.H. Li, Z. Jiang, Z. Guan, Y. Bao, Y. Liu, T. Hu, J. Li, R. Liu, L. Wu, D. Cheng, H. Ji, Y. Wang, Y-X. Wang, C.Y. Cheung, Y. Zheng, J. Wang, Z. Li, W. Wu, C.C. Lim, Y.M. Bee, H.C. Tan, E.I. Ekinci, D.C. Klonoff, J.B. Echouffo-Tcheugui, N. Mathioudakis, L. Corsino, R. Simó, C. Sabanayagam, G.S. Wei Tan, C-Y. Cheng, T.Y. Wong, H. Li, C. Cai, L. Mao, L-L. Lim, Y-C. Tham, B. Sheng, W. Jia, Large language models for diabetes training: a prospective study, Science Bulletin (2025).https://doi.org/10.1016/ j.scib.2025.01.034
2.Dai, L., Wu, L., Li, H. et al. A deep learning system for detecting diabetic retinopathy across the disease spectrum. Nature Communications12, 3242 (2021). https://doi.org/10.1038/s41467-021-23458-5
3.Dai, L., Sheng, B., Chen, T. et al. A deep learning system for predicting time to progression of diabetic retinopathy. Nature Medicine 30, 584–594 (2024). https://doi.org/10.1038/s41591-023-02702-z
4.Li, J., Guan, Z., Wang, J. et al. Integrated image-based deep learning and language models for primary diabetes care. Nature Medicine 30, 2886–2896 (2024). https://doi.org/10.1038/s41591-024-03139-8
運營/排版:何晨龍

