AI助力醫學診斷迎來新突破!研究表明:大型語言模型AMIE的診斷準確率高達59.1%,顯著提升醫生診斷能力!

在《Nature》期刊發表的這篇文章中,來自美國谷歌研究中心的科研團隊探討了一種名為Articulate Medical Intelligence Explorer (AMIE)的大型語言模型,其在醫學診斷推理方面表現出色。研究評估了AMIE在生成鑑別診斷(DDx)方面的能力,無論是獨立生成還是作為臨床醫生的輔助工具。研究中,20位臨床醫生評估了302個來自已發表病例報告的複雜醫學案例。結果顯示,AMIE的獨立表現優於未使用輔助工具的臨床醫生(前十準確率為59.1%,而臨床醫生為33.6%)。在使用AMIE輔助的情況下,臨床醫生的DDx質量評分也顯著提高。研究表明,AMIE有潛力提高臨床醫生在複雜病例中的診斷推理和準確性,值得進一步在真實世界中評估其幫助醫生並擴大患者獲得專家級別診斷的能力。
01
研究背景
在現代醫學中,準確的鑑別診斷是有效醫療護理的關鍵組成部分。然而,傳統的診斷過程通常需要結合臨床歷史、體格檢查、調查和程式,透過反覆的解釋過程來實現。隨著大語言模型(LLMs)的發展,這些模型為輔助和自動化診斷過程的某些方面提供了新的機會。谷歌研究中心的科研團隊開發了一個名為Articulate Medical Intelligence Explorer(AMIE)的大型語言模型,專門最佳化用於診斷推理,並評估其獨立生成鑑別診斷或作為臨床醫生輔助工具的能力。
在這項研究中,20位臨床醫生評估了302個具有挑戰性的真實世界醫學案例,這些案例來源於已發表的病例報告。研究發現,AMIE在獨立生成鑑別診斷時,其表現優於未使用輔助工具的臨床醫生(前10名準確率為59.1%對比33.6%)。在使用AMIE輔助的情況下,臨床醫生的鑑別診斷質量得分也顯著高於未使用AMIE輔助的情況。此外,AMIE還幫助臨床醫生形成了更全面的鑑別診斷列表。這表明AMIE在提高臨床醫生在複雜病例中的診斷推理和準確性方面具有潛力,值得進一步在真實世界中進行評估,以增強醫生的能力並擴大患者獲得專家級別專業知識的機會。
02
研究發現
這篇論文介紹了一種名為Articulate Medical Intelligence Explorer(AMIE)的大型語言模型,該模型專為臨床診斷推理最佳化,旨在生成複雜的鑑別診斷(DDx)。研究中,20名臨床醫生評估了302個真實世界的醫學案例,結果顯示,AMIE在獨立生成DDx時的表現優於未使用輔助工具的臨床醫生(前10名準確率為59.1%對比33.6%)。在使用AMIE輔助的情況下,臨床醫生生成的DDx質量評分也顯著高於僅使用傳統搜尋引擎和標準醫學資源的情況。AMIE不僅提高了診斷的準確性,還幫助臨床醫生生成更全面的DDx列表,顯示出其在複雜病例中增強診斷推理和準確性的潛力。
研究發現AMIE在生成DDx列表的質量、適當性和全面性方面表現出色。AMIE生成的DDx列表在包含正確診斷的情況下,其質量評分顯著高於未使用輔助工具的臨床醫生。此外,使用AMIE輔助的臨床醫生生成的DDx列表在質量、適當性和全面性評分上均高於使用傳統搜尋工具的情況。AMIE的獨立表現和作為輔助工具的表現均優於現有的GPT-4模型,顯示出其在複雜診斷任務中的顯著優勢。研究表明,AMIE有潛力在實際醫療場景中幫助臨床醫生提高診斷準確性和全面性,值得進一步的現實世界評估。
03
臨床意義
獨立診斷能力:  在獨立生成DDx列表方面,AMIE取得了顯著優於未使用輔助工具的臨床醫生的表現。AMIE的前十名準確率為59.1%,而未使用輔助工具的臨床醫生僅為33.6%。 這意味著AMIE在複雜病例中的診斷能力優於人類醫生,尤其是在生成全面和準確的DDx列表方面。 輔助診斷能力:  比較兩組使用不同輔助工具的醫生,使用AMIE的醫生生成的DDx質量得分顯著高於僅使用傳統資訊檢索工具的醫生(AMIE組為51.7%,搜尋引擎組為44.4%)。 使用AMIE輔助的醫生能列出更全面的鑑別診斷列表,顯示出AMIE在提升臨床醫生診斷推理能力和準確性方面的潛力。 臨床實踐中的應用潛力:  AMIE透過改善醫生對複雜病例的診斷能力,有望提高患者獲得專科級別診療的機會。 儘管在特定場景下表現出色,但研究也強調了AMIE仍需進行更廣泛的實際應用評估,以驗證其在不同臨床環境中的有效性和適用性。 對醫療教育的意義:  AMIE可能在醫療教育和培訓中發揮重要作用,透過提高醫生的診斷能力和擴充套件其DDx列表的質量,支援從培訓生到執業醫師的各級醫療人員。 總之,AMIE在提高複雜病例的診斷準確性和全面性方面展現了顯著的潛力,值得在更廣泛的臨床和教育環境中進行進一步的研究和應用探索。
04
實驗策略
1. 研究設計:  研究分為兩個階段,第一階段評估AMIE在生成DDx中的獨立能力,第二階段評估AMIE對臨床醫生生成DDx的輔助效果。 臨床醫生被隨機分為兩組,一組使用傳統的資訊檢索工具(如網際網路搜尋和書籍),另一組在這些工具的基礎上使用AMIE。
2. 資料來源:  使用《新英格蘭醫學雜誌》(NEJM)的臨床病理會議(CPC)案例報告,這些報告被用作測試AMIE生成DDx能力的基準。
3. 評估方法:  使用多種指標評估DDx的質量,包括正確性、適當性和全面性。 評估AMIE能否在獨立使用時生成準確的DDx列表,以及在與臨床醫生互動時能否改善他們的診斷能力。
4. 實驗流程:  每個臨床醫生首先在沒有任何輔助的情況下給出初始的DDx。 然後,臨床醫生在接受不同的輔助條件(AMIE或搜尋工具)後,再次給出DDx。 專家評審對生成的DDx進行評分,並與AMIE的獨立輸出進行比較。
05
資料解讀
圖1:全科醫生鑑別診斷列表質量評估
Figure 1 評估了全科醫生在鑑別診斷(DDx)列表中的表現,主要從質量、全面性和適當性三個方面進行評估。  A. 為了評估鑑別診斷列表的質量,作者提出了一個問題:“鑑別診斷(DDx)與最終診斷的接近程度如何?”結果顯示,使用AMIE(人工智慧醫療助手)和由AMIE輔助的臨床醫生在總體得分中表現最佳。  B. 為了評估鑑別診斷列表的全面性,作者提出了一個問題:“以您的DDx列表為基準/黃金標準,各專家的鑑別列表有多全面?”結果表明,AMIE和由AMIE輔助的臨床醫生的列表在全面性上得分最高。  C. 為了評估鑑別診斷列表的適當性,作者提出了一個問題:“與您剛剛製作的鑑別列表相比,不同醫學專家的DDx列表有多適當?”結果顯示,AMIE和由AMIE輔助的臨床醫生在適當性上得分最高。  結論:AMIE和由AMIE輔助的臨床醫生在鑑別診斷列表的質量、全面性和適當性方面均表現出色,得分最高。
圖2:透過人工和自動評估的DDx列表的Top-n準確率
Figure 2 展示了透過人工和自動評估的DDx(鑑別診斷)列表的Top-n準確率,以比較兩種評估方法的效果。  A. 圖的左側顯示了透過人工評估的DDx列表的準確率。實驗設計中,研究人員對DDx列表進行人工評估,並計算其與最終診斷的一致性。結果顯示,資料點反映了平均值,陰影區域表示10次試驗中平均值的±1個標準差。  B. 圖的右側顯示了透過自動評估的DDx列表的準確率。實驗設計中,研究人員使用自動化工具對DDx列表進行評估,並計算其與最終診斷的一致性。結果同樣以資料點表示平均值,陰影區域表示10次試驗中平均值的±1個標準差。  結論:透過人工和自動評估的DDx列表在Top-n準確率上表現出不同的特徵,圖中展示了兩種評估方法的平均準確率及其變異範圍。
圖3:桑基圖顯示輔助的效果
Figure 3 展示了在不同實驗組中,輔助工具對診斷正確性的影響。  A. 在AMIE組中,作者透過桑基圖分析了輔助工具對診斷正確性的影響。結果顯示,在73例中,最終正確診斷僅在使用輔助工具後才出現在鑑別診斷(DDx)列表中。  B. 在Search組中,作者透過桑基圖分析了輔助工具對診斷正確性的影響。結果顯示,在37例中,最終正確診斷僅在使用輔助工具後才出現在DDx列表中。在兩個實驗組中,少數病例(AMIE組:11例;Search組:12例)在輔助工具使用前,最終診斷已出現在DDx列表中,但在使用後卻不在列表中。  結論:輔助工具在提高診斷正確性方面具有顯著效果,但在少數情況下,輔助工具的使用可能導致診斷正確性下降。
圖4:不同大型語言模型在鑑別診斷列表中的Top-n準確率
Figure 4 比較了不同大型語言模型(LLMs)在鑑別診斷(DDx)列表中包含最終診斷的準確率,重點比較了AMIE與GPT-4在70個病例中的表現。  A. 為了比較不同大型語言模型在鑑別診斷列表中包含最終診斷的準確率,作者使用了Med-PaLM 210、GPT-46和AMIE作為評估者。結果顯示,這些模型在70個病例中的趨勢相似。圖中的點表示平均值,陰影區域表示10次試驗中平均值的±1個標準差。  結論:不同大型語言模型在鑑別診斷列表中包含最終診斷的準確率表現出相似的趨勢,表明這些模型在處理醫學診斷任務時具有相似的能力。
06
主要結論
這篇發表在《Nature》期刊的論文研究了大型語言模型(LLM)在醫學診斷中的應用,特別是如何透過一個名為AMIE的模型提高臨床醫生的鑑別診斷(DDx)能力。研究表明,AMIE在獨立診斷和輔助醫生診斷中都表現出色。與未使用輔助工具的醫生相比,AMIE在生成包含正確診斷的DDx列表方面具有更高的準確性(前10名準確率為59.1%對比33.6%)。此外,當醫生使用AMIE作為輔助工具時,他們的DDx列表在質量、適當性和全面性方面的得分均高於單純使用搜索引擎和標準醫學資源時的得分。研究建議,AMIE有潛力提高醫生在複雜病例中的診斷推理能力,並值得進一步的現實世界評估,以驗證其在提供專業級別診斷支援和擴大患者獲取專家知識方面的能力。
07
討論總結
研究強調了LLM在醫療領域的創新潛力,特別是在支援醫生進行復雜的診斷推理方面。AMIE不僅在獨立診斷中效能優越,還在作為輔助工具時顯著提高了醫生的診斷質量。透過對複雜診斷挑戰的評估,AMIE展示了其在生成更多適當和全面的DDx列表方面的能力,超過了未使用輔助工具的執業醫生。研究指出,儘管AMIE在特定的診斷情境中表現優異,但實際應用中仍需謹慎對待其作為獨立診斷工具的實用性。  論文也討論了AMIE作為醫生助手的潛力,表明其可以增加DDx的適當性和全面性,尤其是在複雜診斷中。研究結果表明,使用AMIE並不增加診斷時間,這表明其介面直觀且易於使用。然而,研究也強調了進一步研究的必要性,以深入瞭解LLM在實際醫療場景中的應用潛力,尤其是在提高診斷準確性和支援醫生決策方面的潛在效益。  論文呼籲更多的研究來探索LLM在醫學中的應用,尤其是在提高診斷準確性和全面性方面的潛力。透過這些研究,LLM可能成為醫生的重要輔助工具,尤其是在複雜和罕見疾病的診斷中。
END

相關文章