
新智元報道
新智元報道
編輯:KingHZ
【新智元導讀】十多年,患者求醫無果、束手無策,但將所有病史輸入ChatGPT,病因竟被一眼識破:基因突變!微軟、OpenAI等巨頭的醫療AI已悄然登場,準確率超越專業醫生!未來的醫療,或將徹底改寫!
AI又一次震撼醫療圈!
一名患者被莫名病症折磨十多年,數十位醫生無解。
直到他把報告輸入ChatGPT——AI一語中的:MTHFR A1298C基因突變!
在Reddit上,這則訊息傳瘋了!

⚠️注意:在採納ChatGPT建議前,該患者和主治醫生多次溝通、反覆確認。請一定結合專業醫生意見,切勿完全依賴AI作為醫療依據。
十多年來,患者一直被各種莫名其妙的症狀困擾。脊柱MRI、CT、抽血……能查的都查了,還是一頭霧水。
後來,他還做了功能醫學檢測,意外發現他有一種純合子突變:MTHFR基因A1298C突變。這是一種常見的亞甲基四氫葉酸還原酶MTHFR基因變異,而最常見的變異被稱為MTHFR C677T。

每個人都有兩份MTHFR基因,分別來自母親和父親。上圖展示了MTHFR C677T可能的基因型。而MTHFR A1298C發生在MTHFR基因的第1298位。這種突變在美國人群中影響7-12%
他還見過神經科醫生,檢查過是不是多發性硬化(Multiple sclerosis,MS)。
直到他把這些年所有的檢查報告和病史輸入ChatGPT。
神了。發生了驚人一幕:ChatGPT發現,雖然血清維生素B12水平正常,但卻與持續性的神經痛和慢性疲乏矛盾。
這種反常,指向了一種長期被忽視的可能——甲基化阻滯(methylation block)。
幾個月後,患者的刺痛感減輕了,大腦霧氣消散了。
主任內科醫生審查了治療報告,震驚地發現,基因變異正是全部症狀的病因!
AI工程師、即時追蹤AGI進展的Rohan Paul,聽聞此訊息,大受鼓舞。他認為:「現在時機已成熟,醫療AI模型給出的第二診療意見應該成為醫療實踐規範。」

相關推文,也被OpenAI總裁轉載。

前Forbes撰稿人、作家Derick David則表示這是醫療界的「AlphaGo」時刻:在疾病診斷上,AI現已比人類強。


AI醫療奇蹟,正在一幕幕上演
類似的例子太多了!
Reddit網友crasstyfartman的妹妹被ChatGPT診斷出一種罕見的遺傳性血液疾病——
在此之前,她花了十多年時間看醫生和自然療法師,都被告訴那只是心理問題。他們甚至在她提出做檢測時翻白眼🙄。她堅持要求檢測。結果ChatGPT是對的。

向醫生抱怨了22年,最後網友buyableblah靠ChatGPT協助才得出診斷。
我也是這樣做的,只不過是針對子宮內膜異位症(endometriosis)。終於做了超聲檢查,發現了一個6釐米的子宮內膜異位囊腫(稱為子宮內膜瘤,endometrioma),現在已經長到7.3釐米,我打算今年晚些時候切除。

甚至網友用ChatGPT拯救了被獸醫「誤判死刑」寵物狗。

Reddit網友sometimelater0212則表達了對醫療體系的強烈不滿:
我把ChatGPT提供的發現拿去給醫生看,他們卻全都嗤之以鼻,要麼說:「從沒聽說過類似的診斷建議」,要麼就說「別信ChatGPT」。
這種傲慢真是讓人煩透了。
但不止OpenAI,微軟、谷歌、IBM等早已佈局醫療AI。
在微軟的消費級AI產品中,每天就有超過5000萬次與健康相關的使用情境。
從使用者首次查詢膝蓋疼痛,到深夜緊急搜尋附近診所,搜尋引擎和AI助手正逐漸成為醫療服務的第一道防線。
就在上週,微軟釋出了MAI-DxO。而這個AI系統表現遠超醫生。

研究人員以《新英格蘭醫學雜誌》(New England Journal of Medicine)每週釋出的真實病例記錄作為基準測試。
結果顯示,在診斷NEJM病例時,Microsoft的AI診斷編排器(Microsoft AI Diagnostic Orchestrator,MAI-DxO)的準確率高達85%,這一比例是實驗中經驗豐富的人類醫生的四倍多。
而且,MAI-DxO還比人類醫生的成本低。

微軟:通向醫療ASI之路
NEJM每週會發表「馬薩諸塞總醫院病例記錄」,詳細記錄了患者的整個診療過程。
這類病例通常診斷難度極高,往往需要多位專家和一系列檢測手段,才能做出最終判斷。

NEJM:《新英格蘭醫學雜誌》New England Journal of Medicine,是全球最權威的醫學期刊之一
那麼,AI在這些複雜病例中表現如何?
為探究這一問題,從NEJM案例中,微軟的研究團隊設計出一套互動式診斷挑戰——稱為「順序診斷基準」(Sequential Diagnosis Benchmark,SD Bench)。
304個NEJM案例被轉化為逐步進行的診療模擬:像在真實環境中一樣,讓AI模型或人類醫生可以逐步提問、安排檢測、獲取結果,並即時更新診斷思路,最終給出結論。最後的結論將與NEJM給出的標準答案進行對比。
每一次檢測請求都會產生虛擬費用,用以模擬真實醫療資源消耗。據此,研究人員從兩個關鍵角度評估了模型:診斷的準確性和資源的使用效率。

圖1:AI智慧體推理並解決順序診斷問題的示意
輸入初始病例資訊,如:
29歲女性,因喉嚨痛、咽旁腫脹及出血入院,使用抗菌治療後症狀未改善。
依照「順序診斷」流程,AI開始進行推理:
(1)患者回顧病情
(2)接下來,AI開始問診,範圍涵蓋: 既往病史、用藥史、惡性腫瘤跡象、病毒感染史、牙科史、出血傾向、常規實驗(如血常規、凝血)和影像檢查(如頸部MRI)等。
(3)虛擬醫生專家組內部討論
(4)逐項檢查,更新診斷
(5)AI系統得出診斷結論
(6)與NEJM權威診斷結果對比,專家評審意見
下面的影片,專案負責人介紹了基本的流程。

邁向準確診斷
研究人員對目前最具代表性的生成式AI(Generative AI)模型進行了全面評估,覆蓋了304個《新英格蘭醫學雜誌》(NEJM)的真實病例。參與評測的基礎模型包括GPT、Llama、Claude、Gemini、Grok和DeepSeek等。

論文連結:https://arxiv.org/abs/2506.22405v2
除了對這些模型進行基準效能測試,研究人員還設計了MicrosoftAI診斷編排器(MAI-DxO)——
模擬由多名虛擬醫生組成的協作小組,透過多樣化的診斷思路共同應對複雜病例的系統。

圖5:MAI-DxO編排系統概覽
與單一模型相比,編排器不僅更善於整合不同來源的資料,還能在醫療環境變化時提供更高的安全性、透明度與適應能力。
這種不依賴於特定模型的架構(model-agnostic)也提升了系統的可審計性和韌性,這兩者對於高風險、快速演進的臨床場景而言至關重要。
評測結果顯示,MAI-DxO顯著提升了所有模型的診斷表現。其中表現最優的是MAI-DxO與OpenAI的o3模型組合,其在NEJM案例中的診斷準確率達到85.5%。
作為對比,實驗中也評估了21位來自美英的執業醫生,他們擁有5到20年的臨床經驗。在相同任務中,他們完成的案例平均準確率僅為20%。
MAI-DxO具有可配置性,可以設定成本上限,從而在診斷過程中探索「成本與價值」的權衡。
若不加限制,AI可能會傾向於開出所有可能的檢查專案,而不顧費用、患者感受或診療延誤。研究發現,MAI-DxO不僅比醫生和單一模型更準確,其總體檢測成本也更低。
在「診斷準確率」與「平均檢測成本」兩個維度上,下面的散點圖對比了不同AI模型。圖中MAI-DxO曲線位於表現最優的左上區域,紅色叉號則代表人類醫生的平均水平。


AI+醫生:告別看病貴的第一步
醫生通常在專業知識的廣度或深度之間作出選擇。比如,全科醫生需面對不同年齡層和系統的廣泛問題,而專科醫生則專注於某一病種或系統。
然而,NEJM案例的複雜程度遠超單一醫生所能全面覆蓋。而AI不受這一限制,能夠兼顧廣度與深度。而且在多個方面,AI的臨床推理能力已超越人類醫生。
這種能力有望徹底改變醫療模式——不僅可賦能患者自行處理常規健康問題,也可為醫生提供決策支援。
目前,美國醫療支出佔GDP的近20%,其中高達1/4屬於無效支出。
AI有望成為遏制這一浪費的關鍵力量。
這不是取代醫生,而是開啟一種全新的醫療共治模式:AI+醫生,共同診斷。
參考資料:https://www.reddit.com/r/ChatGPT/comments/1lrmom4/chatgpt_solved_a_10_year_problem_no_doctors_could/
https://x.com/rohanpaul_ai/status/1939800536121057652
https://x.com/rohanpaul_ai/status/1941321376838951320
https://microsoft.ai/new/the-path-to-medical-superintelligence/
https://www.cdc.gov/folic-acid/data-research/mthfr/index.html

