小樣本大能量!MedVLM-R1借力DeepSeek強化學習,重塑醫療AI推理能力

射學影像是現代醫療診斷的關鍵,每年全球約有 80 億次影像檢查。隨著 AI 技術的快速發展,醫學視覺語言模型 (VLM) 在放射學任務中顯示出良好的前景,但大多數現有的 VLM 僅產生最終答案而不展示底層推理。 
然而,醫學推理在臨床應用中扮演著至關重要的角色。一方面,醫生對於 AI 診斷結果的「可理解、可追溯」有著強烈需求;另一方面,監管部門也往往更關注模型輸出的透明度,以確保臨床安全性和合規性。
然而,當前大多數醫學視覺語言模型往往只輸出最終答案或「偽解釋」,缺少完整推理鏈條,難以獲得信任。因此,如何既保持高準確率,又能為醫生和監管部門提供透明可信的推理過程,一直是擺在醫療 AI 面前的重大挑戰。 
為了彌補這一差距,慕尼黑工業大學(Technische Universität München,TUM)、牛津大學(University of Oxford)、帝國理工學院(Imperial College London)、麻省總醫院(Massachusetts General Hospital)、謝菲爾德大學(University of Sheffield)的合作團隊推出了 MedVLM-R1,一款在關注提供高準確率的同時,具備明確自然語言推理能力的醫學視覺語言模型。
透過採用 DeepSeek 的強化學習框架,激勵模型在不使用任何推理參考的情況下發現人類可解釋的推理路徑。它在僅有 600 個視覺問答(VQA)樣本、2B 引數規模的輕量級條件下,在 MRI、CT 和 X 射線基準測試中的準確率從 55.11% 提高到了 78.22% 準確率,遠超在大規模資料上訓練的同類大模型,為可解釋的醫學影像分析開闢了新思路。
透過將醫學影像分析與顯式推理相結合,MedVLM-R1 標誌著邁向臨床實踐中值得信賴和可解釋的 AI 的關鍵一步。 
該研究以「MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning」為題,於 2025 年 2 月 26 日釋出在 arXiv 預印平臺。推理模型已開源在 huggingface 平臺。
論文標題:
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
論文地址:
https://arxiv.org/abs/2502.19634
模型地址:
https://huggingface.co/JZPeterPan/MedVLM-R1
引言
放射學影像在現代醫療中至關重要,每年會進行超過 80 億次掃描。隨著診斷需求增長,AI 驅動的影像解讀需求日益迫切。
醫學視覺語言模型(VLMs)在 MRICT 和 射線影像的視覺問答(VQA)中展現出潛力,可輔助醫生和患者,但現有模型多依賴監督微調(SFT),存在過擬合、捷徑學習以及對分佈外資料(OOD)表現不佳的問題,且僅提供最終答案或「偽解釋」,缺乏逐步推理能力,難以滿足臨床對可解釋性和可信度的需求。
強化學習(RL)透過獎勵模型自主發現邏輯步驟,顯示出優於 SFT 的泛化能力,但傳統RL依賴神經獎勵模型,資源消耗大。近日,DeepSeek 推出的相對策略最佳化(GRPO)透過規則化策略減少計算需求,在資源有限的醫療領域具有潛力,但尚未得到充分探索和應用。
在最新的研究中,研究人員提出了 MedVLM-R1,這是第一個能夠透過使用 DeepSeek GRPO 技術進行訓練來生成具有明確推理的答案的醫學視覺語言模型,可用於放射學 VQA 任務。
主要貢獻如下:
具有明確推理的醫學 VLM他們推出了 MedVLM-R1,這是第一個輕量級醫學 VLM,能夠在最終答案的同時生成明確推理,而不僅僅是提供最終答案。
無需明確監督的新興推理:與需要具有複雜推理步驟的資料的傳統 SFT 方法不同,MedVLM R1 使用 GRPO 和僅包含最終答案的資料集進行訓練,展示了無需明確監督的新興推理能力。
卓越的泛化能力和效率:MedVLM-R1 實現了對分佈外資料(例如 MRI → CT/X 射線)的穩健泛化,並且儘管是一個僅在 600 個樣本上訓練的緊湊型 2B 引數模型,但它的表現優於 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。
▲ 圖示:團隊使用的提示的模板,模型響應和獎勵標準的一個例子。(來源:論文)
總體表現
下表總結了各種 VLM 的域內 (ID) 和域外(OOD)效能。ID/OOD 專門指在 MRI 資料上微調的模型。
比較結果顯示,使用 GRPO 和 SFT 微調的 VLM 在域內任務上的表現明顯優於零樣本通用 VLM。團隊的 GRPO 訓練模型表現出非常強大的 OOD 效能,與 SFT 同類模型相比,CT 影像提高了 16%,X 射線影像提高了 35%,凸顯了 GRPO 卓越的通用性。 
此外,儘管 MedVLM-R1 是一個僅使用 600 個樣本進行訓練的緊湊型 2B 引數模型,但它的表現優於 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型,後者專門針對大規模醫療資料進行訓練。這凸顯了基於 RL 的訓練方法在高效且可擴充套件的醫療 VLM 開發方面的巨大潛力。
推理能力和可解釋性
除了強大的泛化能力之外,MedVLM-R1 的核心優勢在於它能夠產生明確的推理能力——這是所有基線所不具備的能力。如下圖所示,MedVLM-R1 在標籤內呈現了一個邏輯思維過程,最終決策包含在標籤中。
▲ 圖示:MedVLM-R1 在 X 射線(1、2)、MRI(3)和 CT(4)上的醫學 VQA 示例。(來源:論文)
值得注意的是,對於相對較簡單的問題(問題 1 和 2),推理似乎很有說服力,並且與醫學知識相符。然而,更復雜的查詢有時會顯示啟發式或只是部分推理。 
例如,在第三個樣本中,模型透過排除法而不是詳細的醫學分析得出了正確答案,這表明它利用了基於線索的推理,而不是領域專業知識。 
同樣,在某些情況下(例如問題 4),推理和結論之間的因果關係仍然不清楚,這引發了一個問題:模型是否只是在預測正確答案後編造了相對應的解釋。儘管存在這些缺陷,但 MedVLM-R1 代表了放射學決策可解釋性方面邁出的顯著一步。
侷限性
儘管 MedVLM-R1 在 MRI、CT 和 X 射線資料集中表現出色,但仍存在一些侷限性: 
1. 模式差距:在其他醫學模式(例如病理學或 OCT 影像)上進行測試時,該模型無法收斂。研究人員假設這是由於基礎模型在預訓練期間對這些模式的接觸不足造成的。 
2. 封閉集依賴性:當前方法適用於多項選擇(封閉集)VQA。在沒有提供預定義選項的開放式問題設定中,模型的效能會大幅下降。這也是許多 VLM 面臨的共同挑戰。 
3. 膚淺/幻覺推理:在難度較大的任務推理任務中,MedVLM-R1有時仍能 提供正確答案,但僅僅會提供膚淺的推理過程(例如,“思考:讓我們來看一下這張核磁共振圖片。 答案:A。”)。
此外在這些難度較大的任務中,模型推理得出的結論可能會與最終給出的答案自相矛盾。這種現象說明,即使是為可解釋性而設計的模型有時也會出現膚淺/幻覺的論證,凸顯了在生成始終透明且合乎邏輯的合理性方面仍然存在挑戰。 
關於所有這些問題,團隊認為他們基礎模型的當前 2B 引數規模構成了潛在的瓶頸,接下來計劃在更大的 VLM 主幹上評估 MedVLM-R1 以解決這些問題。
總結
總之,團隊提出了 MedVLM-R1,一種集成了基於DeepSeek GRPO 的強化學習的醫學 VLM,用於彌合放射學 VQA 中準確性、可解釋性和穩健效能之間的差距。透過專注於顯式推理,該模型提高了透明度和可信度——這些能力在高風險臨床環境中必不可少。 
他們的結果表明,基於 強化學習的方法比純 SFT 方法具有更好的泛化能力,尤其是在 OOD 設定下。雖然基於 視覺語言模型 的醫學推理仍處於起步階段並面臨相當大的挑戰,但研究人員相信,它在提供更安全、更透明的醫療解決方案的潛力會受到行業的重視並應受行業的到鼓勵。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章