海歸學者發起的公益學術平臺
分享資訊,整合資源
交流學術,偶爾風月

針對這些挑戰,同濟大學物理科學與工程學院/上海自主智慧無人系統科學中心任捷教授團隊提出了一種層級增強的漏斗學習(HiBoFL)新正規化(如圖1),創新地整合了無監督學習、高通量計算和可解釋監督學習,併成功應用於篩選具有超低晶格熱導率的半導體。透過從數十萬種材料中結合無監督學習篩選,僅對少量(數百個)目標材料進行訓練,實現了對超低晶格熱導率材料的高效且可解釋的有監督預測,從而避免了在缺乏明確目標下進行大規模的暴力從頭計算。最終,不僅篩選出一批具有潛在熱電應用價值的超低晶格熱導率的候選材料,還發現了一個對晶格非簡諧性具有顯著影響的新物理因子。

Figure 1. Hierarchy-boosted funnel learning (HiBoFL) framework for accelerating the discovery of functional materials.
本文所提出的HiBoFL框架,主要有四個部分:
一、資料準備:初步高通量篩選
從Materials Project獲取超過十萬種材料,透過多級篩選,考慮熱力學穩定性(凸包能量)、半導體特性(帶隙)、計算可行性(原子數)、排除無關元素等,獲得2675種三維結構的穩定半導體材料,構成一級資料集(如圖2a)。
二、無監督學習:識別相似熱導率材料
針對一級資料集中的材料,產生基於化學組分描述符:元素電負性、熔點等,以及晶體結構描述符:原子區域性環境體積、配位數等,標準化後透過PCA降維,進一步結合K-means演算法,依據“肘部法則”和輪廓係數確定最佳聚類(如圖2b),將這些材料聚成七類(如圖3)。類C1和 C2包含了已知低熱導率材料(如Tl₃AsSe₃的κL = 0.23 W/mK),而 C7包含已知高熱導率材料(如SiC的κL = 490 W/mK)。因此,搜尋空間從2675種材料縮小至704種材料(C1+C2),效率大大提升了73%。

Figure 2. Dataset preparation and unsupervised learning optimization.

Figure 3. Unsupervised learning result in the first-level dataset.
三、資料標註:低成本高通量計算構建本地資料庫
基於彈性性質與晶格熱導率的經驗公式,進一步低成本高通量計算了704種材料的熱導率,建立了本地資料庫。其中,將近70%材料的熱導率低於2 W/mK(如圖4),硫族化合物(S/Se/Te)佔比最高。Cs₂SnSe₃與Cs₂GeSe₃被進一步進行聲子熱輸運機制分析(如圖5),結果表明,聲子譜軟化、Cs原子的rattling效應是導致超低熱導的原因,而Ge-Se鍵的強共價性(COHP顯示反鍵態更少)增強了非諧性,使Cs₂GeSe₃的κL比Cs₂SnSe₃具有更低的熱導率,這也在後續可解釋監督學習中得到論證。

Figure 4. HTC-based data annotation for statistical analysis and material discovery in the second-level dataset.

Figure 5. Mechanisms of phonon thermal transport properties based on first principles calculations.
四、有監督學習:超低熱導的高效可解釋預測
為了進一步修正無監督學習結果,基於本地資料庫構建了直接預測超低熱導率材料的有監督學習模型。對比了決策樹、隨機森林、XGBoost等幾種常用演算法,其中CatBoost表現出最優結果並被用於後續建模。進一步結合SHAP值分析了影響超低熱導率的關鍵描述符,如最小原子質量、結構填充率、最小相對鍵長等。其中,最小相對鍵長被用於量化鍵長分佈,作為關聯結構非諧性的新物理因子。該因子揭示了其主導Cs₂GeSe₃的超低κL優勢,即更小的最小相對鍵長,增強了結構的非諧性,縮短了聲子壽命,從而降低晶格熱導率。

Figure 6. Supervised learning in the local database and interpretable analysis.
本研究所提出的HiBoFL框架為不僅創新了複雜熱輸運材料發現的新方法,也也為材料科學中的小樣本挑戰提供了有潛力的解決方案。

論文連結:
https://www.nature.com/articles/s41524-025-01583-9
點選下方知社人才廣場,檢視最新學術招聘
擴充套件閱讀
媒體轉載聯絡授權請看下方
