該工作是崔鵬團隊所提出的stable learning (穩定學習) 的理論和方法在生存分析領域的最新力作。

清華大學的崔鵬團隊與國家蛋白質科學中心（北京）常乘團隊聯合在全球頂級期刊Nature Machine Intelligence上發表了“Stable Cox
Regression for Survival Analysis under Distribution Shifts”研究長文。該論文提出了一種發現穩定標誌物（Biomarker）的Stable Cox模型，在多種癌症的組學以及臨床預後資料上證明了Stable Cox可以發現在多個測試中心資料上穩定的預後標誌物，該標誌物可以用於對病人進行亞型分層以及生存曲線預測。

該工作是崔鵬團隊所提出的stable learning (穩定學習) 的理論和方法在生存分析領域的最新力作。受因果推理方法啟發，穩定學習方法專注於學習協變數和輸出之間的穩定因果關係，而非易變的相關性 [2]。受益於因果分析方法提供的理論保證，穩定學習方法在分佈偏移場景下通常具有很強的泛化性、可解釋性和公平性 [3]。然而，穩定學習方法還無法用於複雜的"time-to-event"資料。本工作從方法到理論介紹如何將穩定學習用於提高生存分析模型的泛化性。

生存分析中多中心異質資料的泛化難題

生存分析是一個重要的統計研究方向，評估協變數對感興趣事件發生時間的影響，廣泛應用於醫學、公共衛生、工程、金融等關鍵領域，以幫助決策和預測生存結果，識別影響生存的關鍵因素。Cox風險比例模型（Cox Proportional Hazards Model）[1]，又稱Cox迴歸模型，由英國統計學家David
Cox於1972年提出。該模型以生存結局和生存時間為因變數，可同時分析眾多因素對生存期的影響，能分析帶有截尾生存時間的資料，且不要求估計資料的生存分佈型別。因上述優點，Cox迴歸模型迅速成為生存分析中最常用和最重要的工具之一，廣泛應用於醫學、公共衛生、流行病學、臨床試驗等多個領域。以Cox模型為主流的大多數現有生存分析方法假設訓練和測試資料具有相似的分佈，而在現實中，由於不同中心或人群佇列的異質性、不同儀器甚至不同分析方法等因素，這一假設常常並不成立。這對現有生存分析方法的泛化性和可靠性提出了嚴峻的挑戰，尤其是在個性化醫療和藥物研發等高風險應用中，這些模型的可靠性超越了簡單的統計考量，成為生死攸關的重要問題。

應對多中心異質資料分佈偏移的主要挑戰是如何找到穩定的生物標誌物，由於生存分析資料是複雜的“time-to-event”資料並且其本質是相關性驅動的學習機制，因此導致現有方法會盲目的學習到訓練集中存在的虛假相關性（比如，病人某個基因的表達和他所在地點高度相關，然後該地點的醫療水平又會影響該病人的預後）。然而，這種虛假相關性是不穩定的，是容易在測試中心資料上發生改變的，導致我們訓練好的生存模型在用到新的測試中心時有顯著的風險。如何找到生存分析的穩定變數是困擾學界多年來的問題，也是將該類方法用到生命科學等關鍵領域的重要瓶頸。

（生存分析的分佈外泛化場景）

Stable Cox:穩定生存分析方法

為了使得生存分析方法不受虛假相關影響識別穩定標誌物，該研究提出發現穩定的預後標誌物的關鍵是在於消除不穩定協變數與生存結果之間的虛假相關性，從而使得學習到的相關性可以代表協變數對生存機率的因果影響，這個因果影響在不同測試中心是穩定的。具體而言，該模型由兩階段組成：獨立性驅動的樣本加權和加權Cox迴歸。在獨立性驅動的樣本加權階段，我們學習一套樣本權重對樣本進行重加權使得協變數之間相互獨立。在加權的Cox迴歸階段，Cox模型損失中的樣本被我們之前學到的樣本權重進行重加權。這個加權後的樣本損失可以有效地分離每個變數對於生存輸出的效應。從理論上，我們可以證明即使在有模型錯估的情況下，Stable Cox模型可以識別穩定變數進行預測，也就是模型在不穩定變數上的係數為0。

(Stable Cox模型框架)

(Stable Cox理論結果)

研究團隊在三類癌症組學資料集（肝癌、乳腺癌、黑色素瘤）和兩類癌症臨床生存資料（肺癌、乳腺癌）上進行了廣泛實驗，採用多個獨立測試群體和子群體，展示了此方法的強大泛化能力（平均提升6.5%-13.9%）。此外，Stable Cox學習得出的權重係數可用於發現潛在的組合標誌物，並區分生存風險顯著不同的亞型，這對於指導治療決策和靶向藥物研發具有重要意義。

(在肝癌、乳腺癌、⿊⾊素瘤上Stable
Cox與其他方法在多個獨立測試集上的C-index比較)

(Stable Cox的預後亞型人群分組結果，以及標誌物在不同中心預後一致性統計）

(在肺癌、乳腺癌臨床指標上Stable
Cox與其他方法在多個人群、獨立測試集上的C-index比較，以及預後亞型人群分組結果和top10標誌物分析）

結論

從佇列的回顧性研究中發現穩定的標誌物用於前瞻性研究是機器學習方法用於實際醫療場景中的關鍵和難題。然而，現有標誌物識別技術的泛化能力較差，僅在與訓練資料相似的患者樣本中有效，無法應用於多樣化的開放環境樣本。這些問題使得傳統技術發現的標誌物難以透過前瞻性測試，不僅導致研發資源的巨大浪費，還阻礙了醫藥領域的進一步發展。迫切需要開發能夠在異質性資料中精確識別並具有高泛化能力的生物標誌物的新技術，以實現疾病的早期準確診斷，滿足社會對健康保障的需求。本研究提出的穩定生存分析方法旨在透過變數獨立使得發現穩定預後標誌物成為可能，同時該研究也將呼喚研究界重視機器學習方法在醫療等關鍵領域應用的穩定性和可靠性。

本文共同第一作者分別是清華範少華博士，徐韌喆博士（目前是上海財經大學助理教授），國家蛋白質科學中心（北京）博士研究生董乾。

參考文獻：

[1]Cox, David R (1972). "Regression Models and Life-Tables".
Journal of the Royal Statistical Society, Series B. 34 (2): 187–220.

[2] Peng Cui, Susan Athey. Stable Learning
Establishes Some Common Ground Between Causal Inference and Machine Learning.
Nature Machine Intelligence, 2022.

[3] Renzhe Xu, Zheyan Shen, Xingxuan Zhang,
Tong Zhang, Peng Cui. A Theoretical Analysis on Independence-driven Importance
Weighting for Covariate-shift Generalization. ICML, 2022.

更多內容，點選下方關注：