醫療影像大模型,還需“闖三關”

2025年以來,Deepseek透過開放生態加速了演算法研發與臨床場景的深度融合。醫療大模型摒棄了“技術至上”的思維,逐漸進入實用主義階段。作為AI應用最為深入的領域之一,醫學影像在大模型時代迎來了更快速的發展。
如何增強AI模型泛化能力?大模型幻覺問題如何解決?大模型多模態資料整合的難點及解決方案有哪些?動脈網與數坤科技首席技術官鄭超、透徹未來聯創兼首席技術官王書浩這兩位深耕醫療AI多年的專家們聊了聊,供行業參考。
本文主要觀點如下:
1、已覆蓋影像科全工作流程,解決病理三大泛化性挑戰
2、透過多維資料強化與模型迭代,提升AI泛化效能
3、RAG技術、模型最佳化多管齊下,破解幻覺困局
4、憑資料本地化控制特性,一體機成醫院部署主流選擇
5、未來趨勢:效能提升、多模態融合與全科化演變
01
大模型已深入醫生全工作流程
醫學影像人工智慧模型在引數規模未達當前水平時便展現出了廣闊的應用前景,現已在影像科醫生的工作全流程中實現了常態化應用。而在輔助診斷專用模型之後,數坤科技在4月釋出的“數坤坤多模態醫療健康大模型”,便實現了讓AI從輔助工具進化為診療生態的核心驅動力。
數坤科技首席技術官鄭超認為,醫學影像大模型將進一步向多模態精準診斷、個性化治療決策、手術規劃與預後模擬等潛力方向發展。而這也是數坤科技正在探索的方向。
在眾多應用場景中,因病理影像具有非常大的多樣性,病理大模型也被認為是醫療模型“皇冠上的明珠”。為破解病理診斷準確性與效率難題,透徹未來研發了全球首個臨床應用級病理大模型產品——透徹洞察,基於億級引數量和海量高精度病理資料訓練,為病理醫生提供精準穩健、全面快速的病理臨床診斷輔助。
透徹未來聯合創始人兼首席技術官王書浩分享病理大模型的臨床應用價值,在於有效解決了病理領域長期面臨的醫院泛化性、癌種泛化性和病理任務泛化性挑戰。
以任務泛化性為例。病理診斷需同步完成病灶分割、細胞檢測、切片分類等多工,傳統方法需部署數十個小模型,維護成本高。但大模型提出通用特徵底座方案,預訓練病理切片的組織紋理、細胞排列等通用表徵,使下游任務僅需微調即可完成,能夠極大簡化流程並提高診療效率。
02
強化資料與模型迭代,提升AI泛化效能
在臨床應用中,AI模型的泛化能力至關重要,是評估模型可靠性與穩定性、可遷移性的關鍵指標。然而,一些 AI 模型在受控的訓練環境中表現出色,一旦進入實際部署階段,其效能卻大打折扣。鄭超分析認為,影響模型泛化能力的主要原因主要有以下三點:
首先是資料多樣性不足。不同醫院的資料採集標準不同,不同裝置的成像引數不一致,再加上不同人群在年齡、地域分佈上的不均衡,使得模型在跨場景應用時泛化能力較弱,表現波動較大。
其次是模型自身存在侷限性。如架構設計存在缺陷、訓練策略不夠合理等,都會影響模型輸出的穩定性和可靠性。
三是醫學資料本身的長尾性。在實際的臨床場景中,同一部位的不同疾病發病率並不相同,在收集資料時很難採集到足夠多的發病率較低的疾病資料。對於一些像存在掃描偽影等特殊情況的病例,同樣難以收集。因此訓練階段往往缺乏足夠的低質量樣本覆蓋,使得模型在一些真實環境下表現一般。
那麼,我們該如何加強AI模型的泛化能力呢?受訪物件們認為可從以下三維度出發:
擴大資料樣本容量及其多樣性,提升模型在複雜場景下的特徵提取穩定性;同時透過資料增強技術,模擬不同掃描裝置、患者體位、病變階段的影像特徵,來提升模型的泛化能力。 
最佳化訓練模型。第一,提升模型容量,增加引數量以容納複雜多樣的資料特徵,並採用更靈活的架構,提升對異構資料的建模能力;第二,改進訓練策略,設計針對性損失函式,如結合臨床指標的加權損失,同時利用獎勵機制引導模型學習關鍵特徵;其三,防止過擬合,運用正則化、交叉驗證等技術,確保模型在訓練集外的穩定性。 
在實際場景中持續迭代模型。企業可以透過在不同醫療環境(如三級醫院、基層醫院等)多場景部署模型,建立“部署-反饋-迭代”的閉環,提升模型在真實醫療環境中的穩定性。同時,要明確 AI 的能力邊界,由醫生對結果進行把關,確保結果的可靠性和安全性。
03
RAG技術、模型最佳化多管齊下,破解幻覺困局
隨著大模型在醫學領域的深入應用,幻覺問題成為制約其落地的障礙之一。產業界積極求解,提出了多種應對策略。
RAG(外部檢索增強生成)是減輕幻覺的重要技術路徑之一。它在大模型生成過程中引入外部知識庫,為模型提供可靠資訊支援,無需介入模型訓練,即可提升生成內容的準確性和可信度。
但RAG也有其侷限性,因此應用RAG需要特別注意以下三個要點:選擇合適的基座大模型,以確保模型在給定的資源和時間限制下能夠高效執行;動態更新知識庫內容,沒有高質量的場景知識庫,RAG便是無源之水,減輕幻覺便無從談起;選擇合適的檢索技術,更充分地利用場景知識庫,為大模型召回更匹配的語言片段,使得生成所需資訊時更為準確。
生成式+判別式AI優勢互補,協同互動驗證。王書浩提出了生成式與判別式AI協同的解決方案。他指出,生成式AI透過模擬“輸入-輸出”的聯合分佈生成答案,但開放性問題無唯一解,模型可能輸出自相矛盾或脫離現實的內容。
其解決方法在於生成式與判別式 AI 的協同應用。具體而言,對於如醫療診斷等關鍵決策場景,應採用判別式 AI,限定輸出範圍(如從預定義的腫瘤型別標籤中選擇),避免開放性答案帶來的不可控風險。而在需要探索的場景,如科研假設生成,可使用生成式 AI,但宜採用“選擇題+自由發揮”的混合模式,先透過選擇引導方向,再進行自由發揮,以降低幻覺風險。
透過模型改進來增強大模型的推理和驗證能力。鄭超分享到,數坤科技希望探索統一的多模態模型架構,整合影像、文字等多源資料,降低訓練成本與複雜性,使模型能夠基於跨模態的全域性理解生成結果。
同時,採取多層次技術策略應對幻覺問題:一方面透過“輸出對齊”技術,讓模型在低置信度時主動宣告不確定性或請求補充資訊;另一方面引入醫學思維鏈訓練,要求模型分步推理並自我驗證,確保答案有據可依。鄭超也提到,在複雜醫療場景中也可採用“判別式+生成式”模式,先用判別式判斷疾病型別,再用生成式進行個性化說明,為診斷決策提供高效且安全的支援。
可以看到,儘管大模型幻覺問題短期內難以徹底解決,但透過技術迭代與多學科協作,其可靠性正在穩步提升。
04
一體機成為當前醫院部署主流選擇
在人工智慧技術融入醫療場景的關鍵程序中,大模型的部署模式成為釋放技術效能的核心要素。當前,本地部署憑藉在資料隱私保護與合規性方面的天然優勢,成為眾多醫院的首選方案。
王書浩指出,本地部署主要分為兩種型別:純影像大模型和通用大模型。
其中,純影像大模型透過工程最佳化後,可在家用級GPU上執行,展現出強大的適配性和靈活性;而通用大模型則需要利用大量本地資料進行微調,以適應專業診斷需求。一體機作為一種融合性的解決方案,它巧妙結合了通用大模型和專用醫療大模型的優勢,為醫院提供了全方位的技術支援,滿足了多樣化的醫療場景需求。
鄭超補充道,從實際落地情況來看,一體機憑藉其資料本地化控制的特性,成為了當前醫院部署的選擇主流。在院內私有化環境中,一體機將硬體、基礎支撐軟體與大模型整合為一體,有效滿足了國內醫院對資料隱私和合規性的高要求。在單科室或區域級醫院的非核心場景中,部署通用大模型的一體機展現出一定價值,例如自動生成病歷摘要、整理結構化報告等,為醫療流程的最佳化提供了幫助。
然而,在綜合診斷、病理邏輯推演等要求極高的精準醫療任務中,只部署通用大模型的一體機的醫學專業能力短板就非常明顯。此外,一些設計不足的一體機的擴充套件存在瓶頸,也限制了其在更廣泛場景中的應用。因此選擇具備橫向擴充套件能力的一體機,才能夠在更長遠的時間內勝任全院級多模態資料的協同分析,這也是醫療機構在選擇一體機時的一個重要考量因素。
此外,公有云部署方式以其彈性算力供給和跨機構資料協作的優勢,也展現出了獨特的靈活性。在線上問診、遠端會診等場景中,公有云能夠快速調配資源,滿足不同醫療機構的即時需求。然而,其在資料隱私和合規性方面的風險不容忽視。
05
未來趨勢:效能提升、多模態融合與全科化演變
最後,我們來談一下大模型未來的發展趨勢。
當下醫療大模型在效能層面已逐步超越傳統小模型。王書浩提到,以影像領域為例,其在確保敏感度達到 100% 的前提下,能顯著提升特異性,這一優勢使其應用範圍持續拓展。原本僅適用於三四千家醫院的模型,如今已成功推廣至超萬家醫院。隨著模型的應用與資料積累,其效能有望進一步最佳化,為更多患者提供優質醫療服務。
醫學應用正朝著多模態融合的方向發展。鄭超觀察到,過去,影像、文字等大模型各自獨立,如今逐漸走向整合。多模態大模型能夠融合不同型別的醫療資料,為醫生提供更全面的患者病情資訊,不僅提升了診斷的準確性,還為個性化治療方案的制定提供了有力依據。
大模型正朝著全科化的方向演變。鄭超將其比作數字化“全科醫生”,不再侷限於某一專科領域,能夠綜合患者的檢查檢驗結果、影像、病理等多維度診療資訊,提供綜合診斷與治療建議。
同時,他也提到,醫療資料的不斷積累,尤其是完整患者資料的收集,將為大模型的訓練提供更豐富、更全面的素材,進一步提升模型的效能和準確性。儘管資料稀疏性和長尾性等問題會給模型訓練帶來一定的挑戰,但透過不斷最佳化演算法和模型結構,以及對資料進行更深入的挖掘和分析,未來將逐步克服這些困難,實現更廣泛的應用和更完善的解決方案。

*封面圖片來源:123rf
如果您認同文章中的觀點、資訊,或想進一步討論,請與我們聯絡;也可加入動脈網行業社群,結交更多志同道合的好友。

宣告:動脈網所刊載內容之智慧財產權為動脈網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立映象等任何使用。文中如果涉及企業資訊和資料,均由受訪者向分析師提供並確認。
動脈網,未來醫療服務平臺

相關文章