TIP2025|從噪聲影像到精準報告:CMCRL兩階段因果框架重構醫療多模態學習

論文地址:
https://ieeexplore.ieee.org/document/11005686
Arxiv地址:
https://arxiv.org/abs/2303.09117
CMCRL 倉庫:
https://github.com/WissingChen/CMCRL
因果框架倉庫:
https://github.com/HCPLab-SYSU/CausalVLR
放射學報告生成任務(RRG)相比傳統影像描述任務存在諸多挑戰,包括:
  • 長序列文字生成:報告往往需生成 60 至 100 個詞的長文字,而且文字中的語義和結構複雜度遠超常規影像描述任務。
  • 關鍵病灶的定位要求高:如何精確捕捉影像中的病灶和異常部位,對模型的細粒度特徵提取能力提出了極高要求。
  • 視覺-語言偏倚問題:由於訓練資料普遍存在的視覺與語言偏倚(如文中圖 1 所示,“Normal Heart” 與 “No Effusion” 的偽關聯),如果不加以干預容易導致誤診或遺漏異常描述。
▲ 圖1. RRG 任務中的跨模態偽關聯
CMCRL:兩階段跨模態因果表示學習框架
為解決上述挑戰,論文提出了 CMCRL 框架,其核心思想基於因果乾預,透過兩階段設計有效地捕捉並校正跨模態資料中的偏倚:
▲ 圖2. baseline 模型與 CMCRL 框架的流程
1.RadCARE 預訓練階段
針對放射影像的低解析度、噪聲干擾以及資料缺失問題,團隊設計了專門的 Radiological Cross-modal Alignment and Reconstruction Enhanced(RadCARE)模組,如圖 2 所示。
  • 退化感知的掩碼影像修復策略:利用低質量影像與文字報告作為輸入,重建出高解析度影像片段,顯著緩解影像噪聲和細節損失問題;
  • 字尾文字生成任務:結合影像以及字首資訊生成文字字尾,實現跨模態資訊的高效對齊;
  • 同時採用包括完整文字、退化影像、多種資料輸入方案在內的四種靈活的訓練策略,有效利用單模態或未配對資料,為後續因果乾預打下堅實基礎。
▲ 圖3. RadCARE 訓練策略
2. VLCI 微調階段
為進一步消除跨模態的偽關聯問題,論文在微調階段引入了 Visual-Linguistic Causal Intervention(VLCI),如圖 4 所示,即:
  • 利用視覺去混淆模組(VDM),透過區域性與全域性特徵取樣提取關鍵病灶資訊,消除因訓練資料中類似 “Normal Heart” 等實體帶來的偽關聯;
  • 同時透過語言去混淆模組(LDM)調節詞向量在語義空間的偏差,打破影像和文字之間潛在的混淆關係;
  • 整體採用因果前門干預方法,將中介變數引入掃除視覺和語言偏差,形成真正基於病灶特徵的生成決策。
▲ 圖4. VLCI 中的因果乾預機制
這種自內而外、無需額外標註輔助的因果乾預機制,不僅顯著提高了報告生成的準確率,還使得模型在異常檢測(例如 “Edema”、“Enlarge Cardiomediastinum”)上表現出更高的臨床可信度。
多組實驗驗證——超越現有方法的效能突破
在 IU-Xray 和 MIMIC-CXR 兩大權威資料集上,CMCRL 展示了明顯的效能優勢。論文中透過 BLEU、ROUGE、METEOR、CIDEr 等自然語言生成指標,以及基於 CheXpert 提取的臨床效用(CE)指標,全面驗證了該方法在生成長文字報告、消除視覺與語義偏差方面的卓越能力。尤其在表 1 中,CMCRL 在關鍵評價指標上均取得了領先成績,表明其在捕捉細微影像特徵和準確描述病變資訊方面具備顯著優勢。
▲ 表1. 與主流方法的效能比較
此外,臨床有效性評價中,對於關鍵異常(如 “Edema” 和 “Enlarge Cardiomediastinum”),模型的檢測準確率分別大幅提升,例如 “Edema” 從 0.509 提升至 0.840,這表明 CMCRL 能夠產生更精準符合臨床需求的診斷報告。
▲ 圖5. 模型在異常檢查上的準確性,以及由臨床醫生評估的視覺-文字一致性
為驗證各模組的有效性,論文進行了大量消融實驗和引數敏感性分析:
  • RadCARE 部分:如表 2 所示,透過比較不同遮蓋比例的效果(例如 75%、85% 與 95%),發現 85% 的遮蓋率能有效平衡資訊損失與資訊補全,而過高的遮蓋率反而導致資訊過度缺失。
  • VLCI 部分:如表 3 所示,在消融實驗中,單獨啟用或停用視覺去混淆模組(VDM)和語言去混淆模組(LDM)的情況下,均能觀察到 BLEU、CIDEr 等指標的顯著變化,驗證了各模組對消除資料偏差,改善生成質量的關鍵作用。
  • 骨幹網路的選擇:如表 4 所示,論文還對 ResNet101 與 DenseNet121 兩種骨幹網路進行了對比實驗,結果證明 ResNet101 能夠更好地捕捉放射影像中的關鍵細節,為後續的因果乾預提供更高質量的特徵支援。
▲ 表2. RadCARE 中不同掩位元速率的效能
▲ 表3. 各模組的消融實驗
▲ 表4. 在不同 backbone 模型下的效能
臨床應用前景——智慧醫療的可信推理之路
放射學報告生成作為緩解醫生工作負擔的重要方向,其核心在於“既要語言表達流暢,又要臨床診斷準確”。CMCRL 的出現,不僅在技術上突破了對資料中偽關聯的依賴,更在生成報告時注重真實病灶資訊的捕捉。例如,論文中透過 Fig.10 展示的案例,清晰地說明了相比傳統方法,CMCRL 在識別肺部病變、心臟異常等複雜病症時,能更好地利用影像區域性及全域性資訊,生成符合臨床邏輯的報告文字。未來,該團隊計劃將該方法進一步擴充套件到 CT、MRI 及數字病理切片等其他醫學影像領域,並探索與大語言模型(LLMs)融合,構建更為完善的因果推理與檢索增強生成系統,助推智慧醫療應用的臨床普及。
總結
這項工作以創新性的跨模態因果表示學習方法,成功構建了一個從預訓練到因果乾預全鏈路的報告生成系統,有效消除了視覺與語言之間的偽相關性,提升了放射學報告生成的精度和可靠性。這一突破性的進展為未來智慧醫療提供了更具解釋性和可信性的技術支援,也為後續研究在多模態融合和因果推理方向拓展了新的思路。透過這項研究,我們看到了在醫療影像分析領域跨模態學習和因果推理的巨大潛力,也為放射學智慧診斷系統的實際應用提供了堅實的理論與實踐基礎。
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·


相關文章