

導讀
隨著人工智慧的迅猛發展,統一理解與生成的大模型技術已廣泛應用於多個領域,為解決複雜問題提供了全新的視角與工具。在眾多應用場景中,醫學領域對人工智慧的需求尤為迫切,將先進的 AI 技術與醫學深度結合,能夠顯著提高診斷準確性與醫療效率,為患者提供更優質的醫療服務。
為滿足這一重要需求,浙江大學與阿里巴巴等多家頂尖機構合作推出了 HealthGPT —— 一款專為醫學設計的視覺語言模型(Med-LVLM)。HealthGPT 自發布以來已在醫療 AI 領域備受關注。

專案連結:
https://llsuzy.github.io/HealthGPT.github.io/
論文連結:
https://arxiv.org/abs/2502.09838
程式碼連結:
https://github.com/DCDmllm/HealthGPT

專案概述

當前,將大模型統一理解生成技術成功應用到醫學領域面臨兩大挑戰:
-
醫療資料規模與質量不足:醫療資料不僅規模有限且專業性極高,難以達到傳統大模型數十億級別的預訓練要求,開發統一的醫學視覺模型難度較大。
-
視覺理解與生成的模式衝突:理解任務傾向於提取抽象資訊,而生成任務則需保留大量細節,兩類任務之間存在固有的矛盾,傳統聯合訓練方式難以兼顧。
為了解決以上問題,HealthGPT 提出一種統一框架,致力於打破醫學視覺理解任務和生成任務之間的隔閡,實現兩者的深度融合。

核心技術方案

為有效解決理解與生成任務之間的矛盾,避免大規模資料依賴,HealthGPT 創新性地提出了四大核心方案:
1. 異構低秩適應(H-LoRA)
-
任務解耦:將理解任務和生成任務的訓練過程分離,使模型能夠儲存兩種任務的異構知識在獨立的“外掛”中,避免了因任務衝突而導致的聯合最佳化問題。
-
LoRA 專家機制:採用專家混合(MoE)機制,動態呼叫專家知識,防止災難性遺忘。
-
矩陣合併最佳化:利用創新的矩陣塊乘法最佳化,防止潛在的縮放因子退化,訓練效率提升明顯。
2. 層次視覺感知(HVP)
將視覺 Transformer(ViT)的淺層與深層特徵分離,分別用於理解(深層抽象)和生成(淺層細節)任務,有效降低任務干擾,加快模型收斂。
3. 三階段學習策略(TLS)
-
階段一:多模態對齊:針對理解任務和生成任務的異構性,分別訓練 H-LoRA 外掛,使 LLMs 具備視覺-語言對齊和視覺到視覺重建的能力。
-
階段二:異構外掛適應:融合不同 H-LoRA 子模組會出現偏差和尺度不一致等問題,因此在這一階段對詞嵌入層和輸出頭進行微調,以確保多個 H-LoRA 外掛能夠與 LLMs 無縫對接,構建統一的視覺語言基礎模型。
-
階段三:視覺指令微調:引入額外的指令資料增強模型對下游任務的適應性。此時,詞嵌入層和輸出頭已經經過微調,只需訓練 H-LoRA 模組和視覺介面卡,從而顯著提高模型的任務靈活性。
VL-Health 醫療資料集:精心設計了綜合醫學資料集 VL-Health,用於訓練統一的醫療 LVLMs。該資料集涵蓋了七種理解任務和五種生成任務,透過在多模態任務上的定量分析和驗證,表明 HealthGPT 能夠在資料受限的情況下統一醫療多模態能力,並在多個指標上實現與現有最先進的模型相當或更好的效能。

效能表現與實驗分析
4.1 醫學視覺理解任務
實驗採用了多個維度的視覺理解任務評估,針對僅理解模型和統一模型進行了測試:
-
僅理解模型:HealthGPT-M3 以 3.8B 的引數優於前沿醫學專用模型(如 HuatuoGPT-Vision)和強大預訓練通用模型(如 Llama-3.2),而更大引數規模的 HealthGPT-L14 進一步提升了效能表現。
-
統一模型:儘管經過了數十億資料訓練,統一模型仍無法在醫學場景保持足夠的泛化能力,普遍弱於理解模型,而 HealthGPT 具備生成能力,仍保留了強大的醫學知識。

4.2 醫學視覺生成任務
在醫學場景常見的超解析度和模態轉換任務中,HealthGPT 表現突出。
4.2.1 模態轉換
HealthGPT 統一訓練不同部位 CT 和 MRI 的模態轉換,較其他模型(針對單一任務訓練)展現出了足夠的潛力。

4.2.2 超解析度
相較於缺乏醫學先驗知識的超分模型,HealthGPT 充分還原了醫學影像在 4× 任務下的區域性細節,獲取了最好的效能。

4.3 消融實驗
4.3.1 層次視覺感知
為深入探索層次視覺感知模組,實驗透過為理解任務和生成任務分配不同粒度的視覺特徵,驗證了層次視覺感知的必要性:為理解/生成任務指派 ViT 深層/淺層特徵更能充分利用輸入圖片的視覺特性,從而提升整體效能。

4.3.2 異構低秩適應
相比傳統的 MoELoRA 方案將多個 LoRA 模組簡單堆疊為專家,HealthGPT 提出的 H-LoRA 有效地優化了專家模組的結構,在效率和收斂速度上取得了進一步提升。

4.3.3 三階段學習策略
HealthGPT 提出的三階段學習策略有效緩解了視覺理解與生成任務之間的模式衝突,實驗結果表明,相較於傳統的混合訓練方法,該策略實現了明顯的效能提升。


關鍵結論
HealthGPT 透過其創新的 H-LoRA 技術、層次化視覺感知方法和三階段學習策略,在醫療視覺理解和生成任務中展現出了卓越的效能和可擴充套件性。它不僅在多個醫療視覺任務中優於現有的模型,還表現出良好的可擴充套件性和適應性。
此外,HealthGPT 在處理複雜的醫療任務時,能夠有效地緩解理解與生成任務之間的衝突,為醫療領域的多模態應用提供了新的可能性。
更多閱讀




#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
