


人工智慧還只是支援性工具,不是專業人員的替代品
文|《財經》記者 王莉萍 辛穎
編輯|王小
就在醫療界熱火朝天地討論如何應用DeepSeek時,北京時間2025年2月18日,埃隆·馬斯克的人工智慧公司xAI推出了Grok 3,馬斯克將其描述為“地球上最聰明的人工智慧”。
除了這大膽的說法,Grok 3在推理、程式設計和特定領域理解等方面的進步,確實有可能使其成為一些領域遊戲規則的改變者。
ChatGPT4、DeepSeek- R1和Grok 3的相繼推出,對於那些使用人工智慧的醫生、藥物研發者、影像公司來說,這實際上意味著什麼?這些變得越來越優秀的AI在醫療健康行業終究會扮演什麼角色?

埃隆·馬斯克的Grok 3,得益於神經網路升級、訓練資料擴充套件,以及增強的計算基礎設施,據稱在數學推理、科學邏輯推理和程式碼寫作等能力表現超過或媲美DeepSeek、ChatGPT等對手,尤其是Grok3的推理模式令人稱道。
LabNews Media的一篇文章中指出,在醫學領域Grok 3在一些方面的確表現出了顯著的優勢。
首先對醫療資料的處理,Grok 3可以獨立生成和完善訓練資料,這在敏感的醫療領域尤為重要,它可以提高患者資料分析的準確性,同時減少診斷中的潛在隱患。
其次,在分析大型生物醫學資料集方面, Grok 3表現出特殊優勢。它可以檢測研究資料中的複雜模式,並支援新療法的開發,尤其是它處理不同型別的資料的能力,將使其在藥物研究和臨床試驗有望成為寶貴的工具。
第三,在診斷技能方面,Grok 3的高階影像分析功能允許解釋各種醫學成像程式,如X射線、PET掃描和核磁共振影像。
另外,Grok 3的即時資料處理允許直接分析和解釋醫療資訊,這對於在危急醫療情況下的快速決策特別有價值。
然而,儘管諸多優點加身,試用過的醫生和研究人員還是表示,Grok 3診斷醫療能力有限。
美國一家非營利性科學研究機構研究人員Derya Unutmaz博士,是Grok的測試者之一,就對媒體指出,“必須對Grok的提示進行調整才能得到正確答案。”
對此,馬斯克在X上的一篇文章中稱,這仍處於早期階段,但它已經相當準確,並將變得非常好。
放射科醫生、深度學習研究員Laura Heacock在社交媒體帖子中說,她使用了她以前測試GPT4的相同乳房的X光檢查、超聲波和核磁共振作為基準,“比ChatGPT4稍微好一點,但沒有一個診斷是正確的。”她預計,未來效能會變好。
這些測試暴露出人工智慧的限制性,強調了人工智慧可以被視為支援性工具,而不是專業人員的替代品。

一個德國研究團隊讓DeepSeek-R1先參加了一場美國醫師執照考試(USMLE)。
在這場考試中,DeepSeek-R1不僅通過了USML三個階段的考驗,還順帶著和ChatGPT硬扛了一把。
不出意料,在這場比試中,DeepSeek進一步證明了人工智慧系統在回答醫學問題、模擬臨床推理等方面實現了近乎專家的表現。這個由德國杜伊斯堡-埃森大學醫學人工智慧研究所(IKIM)、德國亞琛工業大學附屬醫院組成的研究團隊,將該研究的預印本於2月6日釋出在medRxiv上。
研究者發現,DeepSeek-R1在基於事實的回憶和臨床知識檢索方面表現出色。
USMLE有三個考試環節,第一階段主要考基礎醫學,如微生物、病理、藥理等;第二階段考臨床知識,含內科、外科、婦產科、小兒科等;第三階段考的是臨床實習後對於醫學知識的進一步應用。
研究人員稱,DeepSeek在第一、二階段中,其精確匹配效能明顯超過ChatGPT。這也表明DeepSeek作為醫學教學工具有很大潛力。
不過在第三階段臨床決策方面,無論是DeepSeek,還是ChatGPT都出現力有不逮的狀況。
該研究顯示,在需要綜合多種臨床因素的複雜患者病例中,例如為慢性疾病重疊的患者選擇最佳管理策略,DeepSeek可能無法考慮患者偏好、症狀演變或非典型表現等細微差別;在高風險場景中,ChatGPT可能給出聽起來合理,但醫學上不合適的治療計劃。
無論是對DeepSeek,還是Grok的測試,都表明目前人類醫生的專業經驗還是至關重要,人工智慧適合扮演最佳助手的角色。
也就是說,將人工智慧作為工具,整合到醫療工作流程中可以讓醫療健康體系更高效,並且人類專業知識和人工智慧支援的結合,對提高診斷準確性和治療效果將是一場幸事。
還需注意的是,眾多人工智慧的集中問世,也讓一些問題更突出,也更緊迫。
Grok的資料來源就引發了隱私問題的討論。2024年10月,馬斯克在他的X社交媒體平臺上公開要求Grok的使用者,上傳他們的醫療影像並生成診斷結果。
透過社交媒體平臺上收集醫療資料的舉動,讓 Grok招來歐洲隱私監管機構的質疑,可能違反歐盟法規《通用資料保護條例》。
在步入一個滿屏都是討論AI的時代,最好的、最壞的可能都會發生。如北京朝陽醫院一位資訊工作人員對《財經》所說:“AI在病歷質控、自動生成等已有探索性的應用。現在都還在探索階段,還需看後面落地的實際應用。”


責編 | 秦李欣


