AI「癌症神探」降臨:準確度近100%,醫生也自嘆不如!


新智元報道  

編輯:英智
【新智元導讀】醫學變革風暴來襲!ECgMPL模型如同醫學領域的超級偵探,從細胞和組織微觀影像裡精準揪出癌症蹤跡,診斷子宮內膜癌準確率近100%,遠超醫生平均水平。
逆天!新型AI識別癌症,近100%精準度碾壓醫生。
AI在醫學領域越來越厲害啦!有一種新研發的AI,診斷癌症的本事比專業醫生還牛。
在不久的將來,用AI識別癌症或許會成為常見的事。
包括澳大利亞Charles Darwin大學(CDU)在內的國際科研團隊,搞出一個叫ECgMPL的模型。
論文連結:https://www.sciencedirect.com/science/article/pii/S2666990025000059?via%3Dihub
ECgMPL專門分析細胞和組織的微觀影像,用來查子宮內膜癌。子宮內膜癌是常見的生殖系統腫瘤之一,而這個AI模型的準確率高達99.26%!
研究人員還發現,這個模型經過調整,還能診斷很多其他疾病,如結直腸癌、口腔癌。
CDU的Asif Karim博士參與了這項研究,他表示,ECgMLP模型的準確率高達99.26%,比現在用的那些診斷方法都強,計算速度還特別快。
透過消融研究、自注意力機制,再加上高效的訓練,這個模型在很多組織病理學資料集上都能很好地發揮作用,是臨床診斷子宮內膜癌的得力助手。
這個經過大量資料訓練的AI模型,在檢視微觀掃描影像(也就是組織病理學影像)的時候,能把影像變得更清晰,這樣就能發現癌症早期的症狀。
有些微小變化醫生用眼睛很難發現,但AI模型一下子就能找到。
現在,醫生診斷的準確率大概在78.91%到80.93%之間。
子宮內膜癌如果能早點發現,是可以治療的,患者的五年預後效果也不錯。但要是癌細胞擴散到子宮外面,治療起來就麻煩了。所以,及時診斷對挽救患者生命特別重要。
訓練所用資料集的樣本影像,展示了正常子宮內膜(NE)、子宮內膜息肉(EP)、子宮內膜增生(EH)和子宮內膜腺癌(EA)
現在,美國已經有超過60萬人得過子宮內膜癌。科學家發現,ECgMLP的用途可不只是診斷子宮內膜癌。
澳大利亞ACU的副教授Niusha Shafiabady表示,用同樣的辦法,還能又快又準地查其他病,這樣病人就能得到更好的治療。
他們用這個模型測試了好多不同的組織病理學影像資料,發現它查結直腸癌的準確率能達到98.57%,查乳腺癌的準確率是98.20%,查口腔癌的準確率也有97.34%。
不過,這個AI模型可不是要搶醫生的「飯碗」。
它是和癌症專家一起合作,幫醫生更準確地診斷病情,還能看看治療的效果好不好。
用這個模型診斷癌症,速度更快、容易實現,成本也更低。
Shafiabady補充道,這項研究的AI模型可以作為軟體系統的大腦,協助醫生進行癌症診斷的決策。
研究人員強調:「早點發現、準確診斷子宮內膜癌,對治療和控制病情非常關鍵。用深度學習演算法分析組織病理學影像,在診斷子宮內膜癌方面,不管是準確率還是處理速度,表現都特別好。」
構建ECgMLP
ECgMLP模型的構建離不開高質量的資料集。
研究團隊收集了新鮮的子宮內膜標本,由三位具有十多年病理學實踐經驗的病理學家在光學顯微鏡下仔細檢查組織學切片,一致選擇具有診斷結果的代表性蘇木精-伊紅(H&E)切片。
這些切片透過Mixotic掃描器數字化,以10倍或20倍放大倍數捕獲為高解析度影像,再用Olympus ImageView從原始全切片影像中提取病變或健康組織的組織病理學區域。
最終形成的資料集包含3302張jpeg格式的影像,分為子宮內膜腺癌、子宮內膜增生、子宮內膜息肉和正常子宮內膜4類,每類又包含不同數量的影像和亞型。
這個資料集為模型的訓練和最佳化提供了堅實的基礎。

影像預處理

影像預處理是 ECgMLP 模型的重要環節,它直接影響到後續分析的準確性。
研究採用了多種預處理技術,包括歸一化、α-β變換和非區域性均值(NLM)去噪演算法。
歸一化透過將影像的畫素值縮放到0到1之間,使不同影像具有可比性,便於從不同光照條件下捕獲的影像中一致地提取特徵。
其公式為
,這種標準化為後續的分析提供了的基礎。
α-β技術則透過調整畫素值來最佳化視覺對比度。α引數控制影像的對比度,β引數控制亮度。
在本研究中,α值設為1.0,β值設為2,這一設定顯著增強了組織和細胞結構邊界的可見性,同時保持了可接受的訊號質量,PSNR值始終高於33dB。
NLM去噪技術透過比較影像中的小畫素塊並找到相似塊,用相似塊的平均值替換噪聲塊,有效地去除了噪聲,同時保留了關鍵的邊緣資訊和組織紋理。
其公式為
,這一技術為後續的準確分析提供了清晰的影像資料。

影像分割

影像分割是從影像中提取感興趣區域(ROI)的關鍵技術,ECgMLP模型採用了基於分水嶺演算法的多步驟分割方法。
該過程從二值閾值化開始,透過最小化前景和背景兩類的類內方差確定閾值,將畫素分為前景和背景。
接著進行形態學閉運算,使用2×2核心去除前景區域中的小孔和間隙;然後進行距離變換,獲得每個畫素到最近背景畫素的距離圖;再進行膨脹操作,擴充套件前景區域。
應用閾值處理,確定前景區域;透過從確定背景中減去確定前景得到未知區域;將原始影像和標記與分水嶺演算法結合,實現影像的精準分割。

光度增強

為了提高模型的泛化能力,研究對訓練集和驗證集應用了光度增強技術。
透過對影像進行亮度、對比度、色調、飽和度的變化以及模糊處理等多種修改,建立了具有不同視覺特徵的原始影像的新版本。
總共應用了10種光度增強技術,例如調整亮度水平、改變對比度、利用CLAHE增強影像特徵、調整色調和飽和度以及應用高斯模糊等。
這樣增加了訓練資料的多樣性,提高了模型的泛化能力。
創新的ECgMLP架構
ECgMLP模型基於gMLP架構構建,gMLP架構結合了MLP和Transformer的優勢。
每一層由一個MLP塊和一個門控機制組成,門控機制調節資訊流,使模型能夠選擇關注不同的輸入元件,MLP塊則負責提取高階特徵。
ECgMLP模型在此基礎上進行了針對性的最佳化。
形狀為[64×64×3]的影像首先輸入到輸入層,經過資料增強層增加訓練樣本數量並減少過擬合,增強後的資料由形狀為[128×128×3]的補丁組成。
補丁透過補丁層重塑為[256×192],再經過全連線層提取特徵。
模型包含多個順序的gMLP 層,gMLP層由多個子層組成,子層混合使用MLP和門控機制生成有資訊的表示。
每個gMLP層的輸出作為下一層的輸入,經過層歸一化和全域性平均池化1D層處理後,最後透過具有4個輸出單元的全連線層進行最終預測,對應子宮內膜癌的四個類別。
在訓練過程中,使用AdamW最佳化器,包括權重衰減正則化,並採用稀疏分類交叉熵損失和準確率指標進行評估,還使用了學習率排程來提高收斂性。
此外,在gMLP層中使用ELU啟用函式代替ReLU,提高了模型的穩定性。
ECgMLP的卓越效能

消融研究

透過改變網路的層架構、訓練引數和超引數,如影像大小、權重衰減、批次大小、隨機失活率等,深入研究不同因素對模型準確率的影響。
研究發現,6個ECgMLP模組實現了98.61%的最佳準確率,但出於實際原因選擇4個模組,此時準確率為98.52%。全域性最大池化的準確率達到98.74%,高於全域性平均池化的98.52%。
AdamW作為最佳化器表現最為準確,準確率為98.52%;啟用函式中ELU的準確率最高,達到99.26%;學習率為 0.003時選擇準確率最高。

多指標評估

使用多種指標對ECgMLP模型的效能進行評估,結果顯示該模型表現卓越。
學習曲線展示了模型訓練過程中的良好表現,隨著訓練的進行,損失下降且準確率上升,表明模型有效地從資料中學習,沒有過擬合的跡象,預測效能不斷增強。
Confusion Matrix顯示整個資料集中只有少數影像被誤分類,這意味著模型能夠很好地對影像進行正確分類,準確識別不同類別的子宮內膜組織。
ROC曲線下面積(AUC)為完美的1.00,表明模型區分不同類別的能力極強,在不同的分類標準下都表現出色。
透過10折交叉驗證,模型的準確率在不同的資料分割中保持在98.99%至99.26%之間,證明了模型的穩定性和泛化能力,在不同型別的資料上都能表現出持續的高效能。

泛化能力驗證

為了評估ECgMLP模型的泛化能力,研究團隊在多個涵蓋不同癌症型別的外部組織病理學影像資料集上進行測試。
結果顯示,模型在這些資料集上都實現了較高的準確率(>97%),證明了其對不同組織學影像分佈具有可靠的泛化能力。
即使在原始領域之外,ECgMLP模型也具有先進的效能,這為其在更廣泛的醫學領域應用奠定了堅實的基礎。
參考資料:
https://newatlas.com/cancer/ai-cancer-diagnostic/

相關文章