聯邦學習模型在醫學影像處理領域中的應用例項分析

摘要
近年來,在大資料的迅速積累和硬體裝置的飛速發展下,人工智慧在許多應用領域取得令人矚目的成績。但是,現行的基於神經網路結構的監督學習模型無法擺脫對大量資料和優質標籤的依賴。在現實生活中,特別是物聯網日益發展壯大的當下,可用於收集資料的硬體終端數量增加,但是對於每一個個體使用者端,能夠訪問的資料規模小,且資料分佈不均衡、資訊含量少,因此不足以訓練出魯棒性和泛化能力充足的模型,這大大限制了AI技術在真實場景中的部署。為了能更好地利用這些資料,聯邦學習技術作為人工智慧物聯網、分散式處理等場景下的解決方案受到了越來越多的關注,已經成為學術熱點。本文首先介紹聯邦學習技術提出的背景及基本概念,再討論聯邦學習模型在醫學影像處理領域中的四個應用例項。
背景介紹
近年來,在大資料的迅速積累和硬體裝置的飛速發展下,人工智慧(Artificial Intelligence, AI)在許多應用領域取得廣泛成績。但是,現行的基於神經網路結構的監督學習模型無法擺脫對大量資料和優質標籤的依賴。在現實生活中,特別是物聯網日益發展的當下,收集資料的硬體終端數量增加,但是對於每一個個體使用者端,能夠訪問的資料規模小,且資料分佈不均衡、資訊含量少,因此不足以訓練出魯棒性和泛化能力充足的模型,這大大限制了AI技術在真實場景中的部署。
雖然透過資料終端之間資料的共享可以解決上述困境,但是受到實際部署和隱私性的限制,資料共享通常是比較困難的。特別是在醫學影像處理領域中,上述困難更為普遍和嚴重,原因如下:由於醫療資料隱私條例,機構往往不能夠公開病人的資料。即使隱私限制可以放寬,醫學資料本身也是醫療機構和研究組織的智慧財產權的一部分,要求醫院共享資料難度大。在這種包含資料私密性需求下,2016年,谷歌提出了一種分散式訓練機器學習模型的框架——聯邦學習(Federated Learning, FL)。該架構實現的本質上是一種加密的分散式機器學習技術,各個參與方可在不披露底層資料和其加密形態的前提下共建模型。在該框架下不需要共享資料,僅需共享各自模型的引數,透過在中央伺服器進行引數加聚,可以訓練出穩定、準確的模型。聯邦學習框架能夠在保證資料隱私安全性的基礎上,幫助使用者實現共同建模,提升AI模型的效果。
聯邦學習技術作為人工智慧物聯網、分散式處理等場景下的解決方案受到了越來越多的關注,已經成為學術熱點。2021年3月,IEEE標準協會正式釋出了聯邦學習國際標準。聯邦機器學習是一種分散式系統學習,其主要優勢在於資料能夠保留在其所有者那裡,同時仍然能夠對資料進行演算法訓練。並且不需要持續的線上可用性,因為訓練可以在離線狀態下進行,完成後返回結果到中央伺服器。因此,無論是在工業還是醫療AI應用中,聯邦學習方法可以說已經成為最廣泛應用的下一代隱私保護技術。
圖1 Google AI聯邦學習線上漫畫[1]
作為一個新的熱門研究課題,聯邦學習在醫療保健領域得到了廣泛探索。許多報告已經證明了將聯邦學習應用於現實世界醫學成像的可行性。2018年,英特爾與賓夕法尼亞大學生物醫學影像計算和分析中心合作,評估聯邦學習在腦影像分割中的應用[2]。2018年腦瘤分割挑戰的公開資料集也在幾項研究中得到了應用[3-6],這些資料是來自膠質瘤患者的多機構、多模式磁共振成像(MRI)腦掃描的集合。系統環境中部署了server-client聯邦學習演算法來訓練和執行模型驗證。同時,建立了多個虛擬機器構來模擬獨立的客戶。BraTS實驗表明,聯邦語義分割模型在腦磁共振掃描上的效能得分與在完整資料集上訓練的模型的效能得分相似。NVIDIA與倫敦國王學院合作,在MICCAI 2019會議上介紹了相關工作。聯邦學習在英偉達Clara Train SDK上進行訓練。在BraTS 2018資料集下,他們嘗試在聯邦學習設定下應用差異隱私技術來保護患者資料。在與其他客戶共享資訊之前,這項技術先對每個患者的資料進行編碼,使用複雜的數學演算法來防止原始資料集的逆向工程和恢復。最終,英偉達能夠在不直接共享機構資料的情況下,使用聯邦學習模式實現效能相當的分割任務。
聯邦學習模型在醫學影像處理領域中的應用例項
1.Style normalization in histology with federated learning
組織病理學(histopathology)是指病理專家(pathologist)在顯微鏡下觀察研究組織切片的科學,被認為是臨床上腫瘤診斷的金標準,對早期篩查和治療預後有著決定性的作用。病理影像尺寸龐大、資訊豐富、診斷困難。通常情況下每位患者的送檢標本可能包含數張到數十張的切片,而單張切片就需要病理醫師在顯微鏡下仔細檢查一小時甚至更久才能得出病理診斷報告。由於其診斷複雜性,近年來成為深度學習在醫學影像上的研究熱點。區別於其他醫學影像,染色是組織病理影像不可缺少的預處理階段,其中蘇木精和依紅(H&E)是最常見的染色方法。但是,不同機構的資料極有可能採用不同的染色方法,這種染色風格的差異可能會降低深度學習模型的效能。因此,染色歸一化是非常必要的,事實上之前的研究表明,在沒有顏色歸一化的預處理下,不同資料中心收集的資料訓練出的分類器準確性比進行歸一化後的準確性最高下降約20% 以上[7]。在聚合學習(Collaborative Learning,非聯邦學習,不同的資料集被統一的收集後一同訓練模型)設定下的顏色歸一化已經被大量文獻進行探討[8],但是在聯邦學習(Federated Learning)[9] 設定下的顏色歸一化還處於欠缺空白狀態,限制了癌症影像在多機構中心的廣泛應用。
由上海交通大學和壁仞研究院的Jing Ke,Yiqing Shen和Yizhou Lu發表於International Symposium on Biomedical Imaging (ISBI) 2021的一篇論文Style Normalization in Histology with Federated Learning中首先提出了一個全新的聯邦學習框架,用以解決染色風格差異和資料隱私安全的問題[10]。傳統的染色轉移技術嚴重依賴於專家選定的染色模板。與之不同的是,該篇文章採用了條件對抗生成網路(conditional Generative Adversarial Network, cGAN)[11]模型,使其動態地從資料分佈中生成一個自適應的染色風格,以用於染色歸一化。
圖2 帶有染色風格轉移cGAN的聯邦學習框架的工作流程[5]
在該工作提出的聯邦學習框架中,中央伺服器配備一個全域性的生成器,以組織學影像作為輸入保持結構的歸一化後的組織學影像,每位使用者配備一個分散式的判別器。每個使用者都會訓練一個本地判別器,計算出模型的更新資訊並將其上傳至中央伺服器,而中央伺服器則對每位使用者進行彙總,並更新全域性生成器。具體的工作流程如下:
每位使用者從中央伺服器下載全域性生成器的引數至本地;
②每位使用者在本地訓練,更新本地的判別器和生成器;
③每位使用者將本地生成器的引數上傳至中央伺服器;
④中央伺服器對每位使用者上傳的引數進行彙總,並更新全域性生成器。
該方法與傳統cGAN的不同之處在於,該模型不針對資料叢集中的任何現有風格。在作者創新性的設計中,模型自適應地針對

個數據集中染色風格分佈,使得位於中央伺服器的生成器產生的染色風格分佈能夠自適應產生基於不同資料中心染色分佈的“插值”歸一化染色。一個重要的創新點在於,這種染色歸一化風格是不需要染色模板影像(template image)的,保證了歸一化後的風格是去中心化的。模型的訓練是透過最佳化加權平均的對抗性損失函式進行的,對生成器

和分別位於

資料中心的

個判別器進行聯邦學習訓練,模板函式如下:

彙總了各使用者的本地更新以後,模型採用生成器

(

是其所有可訓練的引數)來生成目標自適應染色風格插值。每個使用者擁有一個獨立的判別器

,其中

是其對應的引數,

。然後,對於任意組織病理學輸入

,作者將染色歸一化問題轉化為風格遷移問題。每個判別器

在特定染色風格s上訓練,以判別從真實世界影像中生成的目標。使用者s透過標準對抗性損失函式在本地訓練

。每一個數據中心最佳化的損失函式與cGAN中的定義的損失一致,具體形式為:

作者在公開資料集TCGA(資料集地址:https://portal.gdc.cancer.gov)提供的結直腸癌的子資料集上進行了模型的驗證。該資料集包含100,000張224×224大小的影像,其中80%的資料按照比例分成8個獨立使用者端,並且在每個使用者端進行顏色歸一化,端與端之間模擬聯邦學習;剩餘的20%的資料則用於測試聯邦學習的中央模型的效能。相比於其他三種傳統演算法[12-14],本文提出的演算法在資料集分佈並且保持無互動的設定下(即聯邦學習的設定下)達到了與非聯邦學習相近的SSIM(Structural Similarity Index),意味著可以在實際應用中推薦組織學影像處理的聯邦學習演算法。

圖3 利用聯邦學習實現不同機構的染色歸一化方法得到的影像示例:(a) 原圖;(b) Reinhard等提出的color correction演算法[12];(c) Macenko等提出的stain quantization演算法[13];(d) Vahadane等提出的SPCN演算法[14];(e) 文中提出的演算法。該文提出的演算法在SSIM效能上優於現有的演算法。
2.Privacy-preserving federated brain tumour segmentation
在現有的聯邦學習的FedAvg框架下,使用者們將各自模型的引數更新量

上傳至中央伺服器,由中央伺服器將各使用者的模型引數更新資訊進行彙總、融合,便可訓練出一個穩定、準確的模型。但是,由於存在模型逆向攻擊(model inversion attack)等方法[15],訓練樣本有可能被重構,導致資料面臨著洩露的風險。

圖4 第一行為MNIST資料集中的訓練集樣本,第二行為被重構的資料樣本[9]
Li W, Milletarì F, Xu D等人在International Workshop on Machine Learning in Medical Imaging中發表論文Privacy-preserving Federated Brain Tumour Segmentation構建了一個腦腫瘤分割聯邦學習系統[16]。針對基於動量的最佳化設計和不平衡的訓練節點問題,作者比較了各個層面的聯邦平均演算法。為了提供強力的隱私保護,作者研究了稀疏向量技術(SVT)在隱私保護上的應用。
為了防止模型逆向攻擊從

中提取到病人資料等敏感資訊,作者採用選擇性引數更新方法和SVT方法,以保護隱私、對抗資料洩露。選擇性引數更新方法能夠限制使用者分享的資訊量,包括:(1) 只上傳本地模型的引數更新量

的一部分:

的值超過閾值

時才會被共享,否則置零;(2) 將

對映到固定區間

內;(3) 梯度裁剪(gradientclipping),以預防過擬合。為了進一步改進選擇性引數更新方法,作者設計了一個差分隱私模組(differential privacy module)。在該模組中,作者使用SVT方法,對每個共享的權重加以一個拉普拉斯分佈下的噪聲,再對其進行對映。

作者在BraTS 2018資料集上進行了實驗。該資料集包含285名腦腫瘤受試者的術前MRI掃描,每個樣本都有 "整個腫瘤"、"腫瘤核心"和 "增強腫瘤"的體素級標註。作者將訓練集分成13份,以模擬聯邦學習及現實生活中資料分佈不均衡的情況。

圖5 左圖為聯邦學習與非聯邦學習訓練的效能比較;右圖為部分模型共享引數之間的效能比較[15]
實驗結果如圖5,與資料集中式訓練相比,聯邦學習的分散式訓練的收斂速度更慢,但最終效果可以與聚合訓練媲美。差別化隱私模組在保護資料的同時,也對訓練結果產生了一定的負面影響,即減緩了模型收斂速度以及降低了模型的準確率,需要使用者在資料隱私和模型效果中作出權衡。
3.Secure, privacy-preserving and federated machine learning in medical imaging
目前,由於缺乏標準化的電子病歷,以及嚴格的法律和倫理來保護患者隱私,用於訓練和測試神經網路模型的資料集數量受限,人工智慧技術在醫學領域的廣泛應用受到阻礙。在醫學影像方面,如數字影像、醫學通訊等的統一資料交換格式和電子資料儲存是標準,這部分解決了第一個問題,但資料隱私保護的問題尚未得到解決。為了防止患者隱私洩露、促進科學研究發展,同時解決資料保護和利用的問題是十分必要的。在慕尼黑工業大學於Nature Machine Intelligence期刊上發表的一文[17],以醫學影像作為應用重點,概述了當前和下一代聯邦、安全和隱私保護的人工智慧方法,同時介紹了醫學影像及其他領域的潛在攻擊載體和未來前景。依靠著大量精心準備的資料集,AI在許多領域展現出了驚豔的效能。但是,在醫學影像領域,難以獲取及利用資料等問題正在阻礙AI應用的發展,原因如下:(1) 缺乏標準化的電子病歷;(2) 對患者資料的嚴格規範及對其保護的要求。安全和隱私保護的AI領域為幫助跨越個人資料保護和資料利用之間的障礙而提供了相應的技術,用於研究和臨床常規。本文中,作者概述了當前新興的隱私保護技術,重點介紹了它們在醫學影像中的應用,討論了它們的優點、缺點和技術實現,以及潛在的弱點和旨在破壞隱私的攻擊點。

圖6 安全和隱私AI領域中,資料、演算法、行為者和技術之間的關係和相互作用 [17]
文中同時提出了匿名化和假名化兩種醫療資料集中最常用的隱私保護技術,其最主要的優點在於方便、簡單。匿名化,指刪減記錄中的私人資料;假名化,指用人工生成的內容替換含敏感資訊的內容。目前,大部分臨床資料歸檔系統都自帶匿名化軟體。假名化則更復雜些,因為它需要系統保管查詢表,以透過假名逆向還原真名。因此,若假名化的儲存不安全,它就承擔著資料失竊的風險。此外,技術上的錯誤會使保護失效,並有可能使整個資料集被識別。去身份識別技術通常被用作資料傳輸或共享的準備方法。對去身份識別過程的要求因影像資料集的型別而異:腿部的X光片比頭部的CT掃描更難與個人聯絡起來,因為後者的面部輪廓可以直接從影像中重建。這樣的重新識別攻擊在表格資料和醫療影像資料上都取得了很高的成功率[18],因此,更容易被識別的資料集必須被更嚴格地處理。例如從影像中去除臉部或頭骨區域這樣的關鍵操作。據報道,大規模的重新識別攻擊和出售重新識別的醫療記錄已經成為資料探勘公司的一種商業模式[19]。因此,僅靠簡單匿名化或假名化的去身份識別,在技術上已不足以防止身份推斷。
儘管聯邦學習很靈活,解決了資料管理和所有權問題,但它本身並不能保證安全和隱私,除非與下面描述的其他方法相結合。缺乏加密可以讓攻擊者直接從節點上竊取個人身份資料或干擾通訊過程。這種通訊要求對於大型機器學習模型或資料量來說可能是個負擔。如果本地演算法沒有被加密,或者更新沒有被安全地彙總,資料就會洩露,或者演算法會被篡改、重構或偷竊,從智慧財產權、專利限制或資產保護的角度來看,這是不可接受的。此外,神經網路代表了一種記憶機制,其權重中儲存著訓練資料的壓縮表示。因此,僅憑一個分散的節點也有可能從演算法權重本身重構部分訓練資料。這種模型逆向或重構攻擊會造成災難性的資料洩漏:有研究表明,原始訓練影像已經能夠以極高的準確率進行重構,即使是微小的細節也能透過視覺化展現出來[20]。
4.Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data
2020年,Intel 公司加州部門的Micah J. Sheller等研究人員聯合美國多家大學和癌症影像機構,在Scientific Report-Nature上發表論文[21],探討在聯邦學習下跨協作機構的資料分佈對模型質量和學習模式的影響。透過對10家不同醫療機構的資料分析得出,透過多機構協作增加私有資料訪問的形式,可達到中心化資料處理模型效能的99%。聯邦學習的臨床應用有望產生在規模空前的資料集上訓練的模型,從而對精確/個性化醫學產生積極推動作用。
實驗得出,聯邦學習FL的方式與資料共享CDS的模式效能表現相當。具體來說,對於LOO(Leave-one-out)結果,協作方法是與一個不參與訓練的機構一起進行的,不經過訓練的資料將用作結果模型的測試集。全域性驗證Dice圖表明FL訓練相對較快地收斂到與CDS訓練相同的效能。一個CDS epoch是指在共享資料上完整訓練的過程,而一個FL epoch指所有機構對其自身資料並行訓練的過程。平均而言,對單個機構訓練更新(即FL)的epoch效率不如CDS將機構的資料集混合在一起的訓練過程高,但兩種方法最終會收斂到相同的效能。測量結果顯示,FL最終模型平均需要訓練迭代數量為CDS所需迭代數量的2.26倍。

圖7 聯邦學習與資料共享模式在訓練分割任務中的Dice指標的比較[21]
結語
現行的基於神經網路結構的監督學習模型依賴於大量資料和優質標籤。雖然透過資料終端之間資料的共享可以解決上述困境,但是受到實際部署和隱私性的限制,資料共享通常是比較困難的。特別是在醫學影像處理領域中,由於醫療資料隱私條例,上述困難更為普遍和嚴重聯邦分散式學習可以在隱私保護的前提下,使用來自多個機構的真實的患者資料進行模型訓練,增強模型效能,這項技術的應用將在醫療領域發揮越來越重要的作用。
參考文獻
1.https://federated.withgoogle.com
2.Bakas S, Akbari H, Sotiras A, et al. Segmentation labels and radiomic features for the pre-operative scans of the TCGA-GBM collection[J]. The Cancer Imaging Archive. DOI:  10.7937/K9/TCIA.2017.KLXWJJ1Q
3.Bakas S, Akbari H, Sotiras A, et al. Segmentation labels and radiomic features for the pre-operative scans of the TCGA-LGG collection[J]. The Cancer Imaging Archive. DOI:  10.7937/K9/TCIA.2017.GJQ7R0EF
4.Li W, Milletarì F, Xu D, Rieke N, Hancox J, Zhu W. Privacy-preserving federated brain tumour segmentation. International Workshop on Machine Learning in Medical Imaging. Springer, 2019.
5.Konečný J, McMahan H B, Yu F X, et al. Federated learning: Strategies for improving communication efficiency[J]. arXiv preprint arXiv:1610.05492, 2016. 
6.Li X, Zhang S, Zhang Q, et al. Diagnosis of thyroid cancer using deep convolutional neural network models applied to sonographic images: a retrospective, multicohort, diagnostic study[J]. The Lancet Oncology, 2019, 20(2): 193-201.
7.Ciompi F, Geessink O, Bejnordi B E, et al. The importance of stain normalization in colorectal tissue classification with convolutional networks[C]//2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017). IEEE, 2017: 160-163. 
8.Onder D, Zengin S, Sarioglu S. A review on color normalization and color deconvolution methods in histopathology[J]. Applied Immunohistochemistry & Molecular Morphology, 2014, 22(10): 713-719.
9.McMahan H B, Moore E, Ramage D, et al. Federated learning of deep networks using model averaging[J]. arXiv preprint arXiv:1602.05629, 2016.
10.Ke J, Shen Y, Lu Y. Style Normalization In Histology With Federated Learning[C]//2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI). IEEE, 2021: 953-956.
11.Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint arXiv:1411.1784, 2014.
12.Reinhard E, Adhikhmin M, Gooch B, et al. Color transfer between images[J]. IEEE Computer graphics and applications, 2001, 21(5): 34-41.
13.Macenko M, Niethammer M, Marron J S, et al. A method for normalizing histology slides for quantitative analysis[C]//2009 IEEE International Symposium on Biomedical Imaging: From Nano to Macro. IEEE, 2009: 1107-1110.
14.Vahadane A, Peng T, Sethi A, et al. Structure-preserving color normalization and sparse stain separation for histological images[J]. IEEE transactions on medical imaging, 2016, 35(8): 1962-1971.
15.Hitaj B, Ateniese G, Perez-Cruz F. Deep models under the GAN: information leakage from collaborative deep learning[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017: 603-618. 
16.Li W, Milletarì F, Xu D, et al. Privacy-preserving federated brain tumour segmentation[C]//International Workshop on Machine Learning in Medical Imaging. Springer, Cham, 2019: 133-141.
17.Kaissis G A, Makowski M R, Rückert D, et al. Secure, privacy-preserving and federated machine learning in medical imaging[J]. Nature Machine Intelligence, 2020, 2(6): 305-311.
18.Schwarz C G, Kremers W K, Therneau T M, et al. Identification of anonymous MRI research participants with face-recognition software[J]. New England Journal of Medicine, 2019, 381(17): 1684-1686.
19.Tanner A. Our bodies, our data: how companies make billions selling our medical records[M]. Beacon Press, 2017.
20.Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. 2015: 1322-1333.
21.Sheller M J, Edwards B, Reina G A, et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data[J]. Scientific reports, 2020, 10(1): 1-12.
關於壁仞科技研究院
壁仞科技研究院作為壁仞科技的前沿研究部門,旨在研究新型智慧計算系統的關鍵技術,重點關注新型架構,先進編譯技術和設計方法學,並將逐漸拓展研究方向,探索未來智慧系統的各種可能。壁仞科技研究院秉持開放的原則,將積極投入各類產學研合作並參與開源社群的建設,為相關領域的技術進步做出自己的貢獻。
掃碼關注我們

相關文章