AI化學科研最新進展⦿DigitalDiscovery2025.1月號

Digital Discovery是英國皇家化學會 2021 年推出的新刊,開領域之先河,乘自動化與數字化科研技術之東風,致力於成為資料驅動型科研成果的高質量發表平臺。
根據 2024 年 6 月釋出的最新《期刊引證報告 (JCR)》,Digital Discovery期刊收穫了 6.2 的首個影響因子,並且同時處於“計算機科學-跨學科應用”和“化學-跨學科”這兩大學科類別中的 Q1 區。

2025 年 1 月號 ⦿ 現已上線

該期收錄論文的中國作者包括 🇨🇳 南方科技大學/深圳 Grubbs 研究院 餘沛源、🇨🇳 武漢大學 劉惠軍、武漢大學 方穎 等。歡迎下滑檢視該期各篇精彩工作介紹。

該研究提出了一種🉑高效設計定製化效能聚合物的計算框架,其由三個核心模組——條件生成模型、計算評估模組和反饋機制——構成整合後構成,可實現對輸出結果的持續迭代最佳化。該框架成功篩選出 14 種具有獨特重複單元的聚合物,它們的離子導電性計算值均超越了傳統的聚氧化乙烯/聚環氧乙烷 (PEO) 材料,充分證明了該計算平臺在功能聚合物發現領域的突破性潛力。
A materials discovery framework based on conditional generative models applied to the design of polymer electrolytes
Arash Khajeh‡* (🇺🇸 豐田研究院), Xiangyun Lei‡, Weike Ye‡, Zhenze Yang, Linda Hung, Daniel Schweigert and Ha-Kyung Kwon
Digital Discovery, 2025, 4, 11-20 
https://doi.org/10.1039/D4DD00293H(⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
對於特定化合物的吸收和熒光光譜以及摩爾吸光係數 (ε) 和熒光量子產率 (Φf) 等指標,即使利用最先進的搜尋方法也往往難以獲取。
為了判斷聊天機器人是否可被用於可靠地搜尋文獻,作者們使用 ChatGPT 3.5、ChatGPT 4o、微軟 Copilot、谷歌 Gemini、Gemini advanced 和 Meta AI 對 16 種常用染料和熒光團的吸收和熒光光譜以及定量引數 (ε 和 Φf) 進行了搜尋在大多數情況下,聊天機器人返回的 ε 和 Φf值與已知資源中的數值準確一致,而對光譜的檢索結果則較為勉強。
作者們還試圖讓聊天機器人完成檢索虛構化合物(例如羅丹明 7G)的挑戰任務。每種聊天機器人的結果被歸類:“捏造 [fabricated]”(給出了查詢結果上下文中不存在的資料)、“被騙 [fooled]”(錯誤識別化合物但不返回任何資料)、“偽裝 [feigned]”(假裝虛構化合物是真實的但不提供任何資料)或“可靠 [faithful]”(回答該化合物未知或不存在)。
總體而言,現存的不足不應掩蓋這樣的觀點:對於尋找精細資料這一具有挑戰性的科學任務,聊天機器人(如果使用得當)能稱為寶貴的資源——它們在已知化合物的粒度資料方面已經表現不錯,對光譜資料也能提供一定的指引。
Acquisition of absorption and fluorescence spectral data using chatbots
Masahiko Taniguchi and Jonathan S. Lindsey* (🇺🇸 北卡州立大學)
Digital Discovery, 2025, 4, 21-34 
https://doi.org/10.1039/D4DD00255E (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
目前往往僅是少數擁有自動化儀器和控制軟體的實驗室在開展 AI 驅動的材料研發,大部份的其它實驗室仍然依靠人力。能實現科學儀器自動化的 AI 控制程式碼無疑將加速材料研發,但此類 AI 應用的報道卻很少。
該文作者們透過與 ChatGPT-4 的互動獲得了基於 Python 程式語言的科學測量儀器控制程式碼,過程中幾乎無需對程式碼的人工修改。透過一系列測試和校正,他們實現了對 Keithley 2400 源測量單元這一款常用儀器的成功操控,還建立了一套使用者友好的圖形操作介面 (GUI)。
作者們將這款 AI 完成的儀器控制軟體與高效能隨機最佳化演算法相結合,從 Pt/Cr₂O₃:Mg/β-Ga₂O₃ 異質結二極體材料的電流-電壓 (I-V) 測量資料中快速且自動地提取出與半導體電荷傳輸機制相關的電子裝置引數,展示出大語言模型 (LLM) 與科學探究工具之間可以形成的強大協同效應,是進一步加速材料合成與性質研究的有效途徑。
From text to test: AI-generated control software for materials science instruments
Davi Fébba (🇺🇸 美國國家可再生能源實驗室), Kingsley Egbo, William A. Callahan and Andriy Zakutayev* (🇺🇸 美國國家可再生能源實驗室)
Digital Discovery, 2024, 4, 35-45 
https://doi.org/10.1039/D4DD00143E (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
將 AI 預測的合成路線與實際實驗的結果進行比較以對預測路線進行準確度排名的做法非常適合在大型資料集(>10⁶ 條路線)上的逆合成演算法評價,但無法評估路線之間的相似度,因此不太能滿足小型資料集(<10² 條路線)的需求。
該文作者們提出了一種簡單的方法來計算特定分子的任意兩條合成路線之間的相似度得分。這一分值基於兩項概念:合成過程中形成了哪些鍵,以及最終產物物種的原子在整個合成過程中是如何組合到一起的。相似度得分很符合化學家們的直覺感受,還是更精細的預測準確性評價指標。
A simple similarity metric for comparing synthetic routes
Samuel Genheden* (🇸🇪 阿斯利瑞典康哥德堡研發中心) and Jason D. Shields* (🇺🇸 阿斯利康美國沃爾瑟姆研發中心)
Digital Discovery, 2025, 4, 46-53
https://doi.org/10.1039/D4DD00292J (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
不同於傳統的勢能表面表示,機器學習原子間勢 (machine-learning interatomic potential, MLIP) 克服了傳統的計算擴充套件 (computational scaling) 限制,顯著改善了材料、介面、化學反應等大規模分子模擬的結果。然而,訓練資料集的構建(MLIP 準確性的重要保障之一)並未得到相應的關注,尤其是在化學反應性的背景下。
為了解決這一問題,該文作者們引入了 ArcaNN——旨在反應性 MLIP 生成訓練資料集的一套完整框架。ArcaNN 採用併發學習方法並整合了先進的取樣技術,集成了迭代訓練、探索、新構型選擇以及能量和受力標記的自動化流程,同時確保了可重複性和文件記錄。
作者們透過親核取代和狄爾斯-阿爾德反應這兩種典型反應展示了 ArcaNN 的優勢——沿化學反應座標獲得的 MLIP 誤差均較低——以及其在分子反應動力學中的廣闊應用潛力。
PaperArcaNN: automated enhanced sampling generation of training sets for chemically reactive machine learning interatomic potentials
Rolf David* (🇫🇷 巴黎高等師範學院), Miguel de la Puente, Axel Gomez, Olaia Anton, Guillaume Stirnemann* (🇫🇷 巴黎高等師範學院) and Damien Laage* (🇫🇷 巴黎高等師範學院)
Digital Discovery, 2025, 4, 54-72
https://doi.org/10.1039/D4DD00209A
(⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
實驗獲得的粉末 X 射線衍射 (PXRD) 圖譜解析較為困難,常阻礙對材料、藥物和地質化合物的完整表徵。
該研究提出一種基於多目標進化搜尋的新方法;這一方法同時利用晶體結構的焓值以及與參考 PXRD 圖譜(包含峰位置及峰高度資訊)的相似性,以方便對無機物體系的結構解析。這一相似性指數是透過對區域性最佳化後的晶胞進行後續畸變計算得出的,從而突破了計算層面(如理論方法選擇、零溫 [0 K] 近似)和實驗層面(如外部刺激、亞穩態)的雙重限制。
作者們透過無機礦物、元素被迅速壓縮至極端壓力條件和分子晶體等一系列測試案例展示了該方法的有效性。結果表明:該方法不僅提升了結構預測精度,還顯著縮短獲得可靠解的時間,因而為材料科學及相關領域提供了一種強有力的研究工具。
Powder X-ray diffraction assisted evolutionary algorithm for crystal structure prediction
Stefano Racioppi, Alberto Otero-de-la-Roza, Samad Hajinazar and Eva Zurek* (🇺🇸 紐約州立大學水牛城分校)
Digital Discovery, 2025, 4, 73-83https://doi.org/10.1039/4DD00269E(⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
2023 年的一篇預印本研究提出:使用 k 近鄰分類器(k-nearest neighbour classifier) 並以壓縮文字作為輸入和標準化壓縮距離 (normalised compression distance, NCD) 作為相似性度量時,其效能表現可超越大型語言模型。化學和生化分子就通常以字串形式表示(如小分子的 SMILES 符號或蛋白質的單字母氨基酸序列)。
本研究在原有方法基礎上進行了擴充套件,新增了對迴歸和多工分類的支援,並將其應用於對分子性質的預測和對蛋白-配體結合親和力的預測。作者們還提出將數值描述符轉化為字串表示,實現文字輸入與領域知識賦能的數值描述符的整合。結果表明該方法整體效能與基於化學指紋和圖神經網路 (GNN) 的方法相當,且在量子化學性質預測和蛋白-配體結合親和力預測等任務中表現更為優秀。
Learning on compressed molecular representations
Jan Weinreich and Daniel Probst* (🇨🇭 洛桑聯邦理工學院)
Digital Discovery, 2025, 4, 84-92 
https://doi.org/10.1039/D4DD00162A (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
為了深入理解如何控制金奈米粒子 (AuNPs) 的形貌與尺寸,構建一套完整的合成數據集具有重要價值。
該項研究利用搜尋演算法微調後的 Llama-2 大語言模型,從文獻中提取了 492 個多來源的晶種輔助 (seed mediated) 金奈米粒子合成方法,並公開共享了該合成方法資料集
分析結果表明,晶種封端劑 (seed capping agent) 的型別(如 CTAB 或檸檬酸鹽)對金奈米粒子形貌具有決定性作用,這與領域內已有研究結論一致。此外,研究觀察到最終金奈米棒 (AuNRs) 的長徑比與銀離子濃度存在弱相關性(雖然較大的資料方差削弱了這種關係的顯著性)。
總體而言,該工作證明了基於文獻的資料集有希望推動奈米材料合成領域的知識進步,從而有助於開展後續研究和實現更好的可重複性。
Data-driven analysis of text-mined seed-mediated syntheses of gold nanoparticles
Sanghoon Lee, Kevin Cruse, Samuel P. Gleason, A. Paul Alivisatos, Gerbrand Ceder and Anubhav Jain* (🇺🇸美國勞倫斯伯克利國家實驗室)
Digital Discovery, 2025, 3, 93-104
https://doi.org/10.1039/D4DD00158C (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
藉助高對比度光學顯微鏡和熒光鈣離子探針,鈣離子 (Ca²⁺) 成像技術可被用於揭示神經元內(包括樹突幹或樹突棘等亞細胞結構)的區域性 Ca²⁺ 訊號波動。儘管 Ca²⁺ 探針技術不斷進步,但對形態多變、信噪比低的微型突觸鈣瞬變 (miniature Synaptic Calcium Transients, mSCTs) 的分析仍存在挑戰。
傳統的閾值方法難以有效檢測和分割這些微小動態事件。深度學習方法具有潛力,但受限於需要大量標註資料。正樣本-無標籤 (Positive Unlabeled, PU) 學習🉑利用未標註樣本擴大資料集並提升模型效能,能有效緩解這一限制。這一策略尤其適用於 mSCTs 分析,這是因為其訊號稀疏,僅佔影像前景的極小比例。PU 學習顯著增加了訓練資料集的有效規模,從而改善了模型表現。
本文報道的 CoDBench 工具是一個詳盡的基準測試套件,包含 12 個用於求解微分方程的最新資料驅動模型。具體而言,作者們根據 10 種廣泛適用的基準資料集全面評估了 4 個不同類別的模型,涵蓋了流體和固體力學中的挑戰性問題。作者們希望這一資源能夠有助於動態系統建模的加速進步。
Quantitative analysis of miniature synaptic calcium transients using positive unlabeled deep learning
Frédéric Beaupré‡, Anthony Bilodeau‡, Theresa Wiesner, Gabriel Leclerc, Mado Lemieux, Gabriel Nadeau, Katrine Castonguay, Bolin Fan, Simon Labrecque, Renée Hložek, Paul De Koninck, Christian Gagné and Flavie Lavoie-Cardinal* (🇨🇦 CERVO 腦科學研究中心/拉瓦爾大學)
Digital Discovery, 2025, 4, 105-119 
https://doi.org/10.1039/D4DD00197D (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
隨著計算分子建模和高效結構搜尋方法的進步,系統篩選小分子有機物的晶體結構已成為可能。
該項研究開發出一套 Python 軟體包——即“高通量有機晶體結構預測工具 (High-Throughput Organic Crystal Structure Prediction, HTOCSP)”,可在自動化、高通量模式下實現小分子有機物晶體堆積方式的預測與篩選。作者們詳細描述了其工作流程:該工具在使用者自定義約束條件下,整合分子分析、力場生成、晶體生成與取樣等核心模組。在一個例子中,作者們使用了不同的取樣策略和力場引數對 100個分子進行了系統篩選,展示了 HTOCSP 的實際應用價值。基於基準測試結果,作者們深入解析了影響晶體能量情況複雜性的潛在因素。最後,作者們還討論了該軟體包的當前侷限性及未來可能的擴充套件方向。
Automated high-throughput organic crystal structure prediction via population-based sampling
Qiang Zhu(🇺🇸北卡羅來納大學夏洛特分校) and Shinnosuke Hattori* (🇯🇵 索尼公司)
Digital Discovery, 2025, 4, 120-134
https://doi.org/10.1039/D4DD00264D (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
主動學習與設計-構建-測試-學習策略正被廣泛用於加速材料發現與表徵。許多資料驅動的材料設計要求材料具備可合成性、穩定性、可溶性、可回收性或無毒特性,但若推薦材料不滿足這些約束條件將導致資源浪費。在設計過程中獲取這些知識效率較低,且許多材料約束條件具有跨設計目標的普適性。然而,對於大部分的資料高效性約束條件分類演算法,學界還尚未達成共識。
鑑於此,該文作者們系統地比較了 100 種化學與材料行為分類策略的效能,評估範圍涵蓋化學與材料科學文獻中的 31 個分類任務。基於結果,作者們提出構建資料高效分類器的最佳實踐,證明基於神經網路和隨機森林的主動學習演算法在各類任務中表現最優。研究還發現,可透過任務元特徵(尤其是噪聲訊號比)對分類任務的複雜度進行量化;這些元特徵 (metafeature) 被進一步用於闡釋不同分子表徵的資料效率差異以及域的規模對任務複雜度的影響。
總體而言,該研究系統評估了資料高效性分類策略,明確了高效能策略的關鍵屬性,併為後續研究指明瞭方向。
Data efficiency of classification strategies for chemical and materials design
Quinn M. Gallagher and Michael A. Webb* (🇺🇸 普林斯頓大學)
Digital Discovery, 2025, 4, 135-148
https://doi.org/10.1039/D4DD00298A (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
建立聚合物表示符 (polymer representation) 與其性質之間的關聯,對於透過機器學習實現聚合物的計算設計與高效篩選至關重要,而表示符的質量將直接影響這些計算方法的有效性。
為此,該文作者們提出了一種無需標籤的自監督對比學習正規化 PolyCL,用於學習高魯棒性和高質量的聚合物表示符。該模型結合顯式和隱式增強策略以提升學習效能。結果表明,即使不採用複雜的訓練策略或超引數最佳化,該模型作為特徵提取器在遷移學習任務中仍能取得更為優異或非常令人滿意的結果。為增強模型效能,作者們系統分析了對比學習中多種增強策略的組合效果,從而確定了能使 PolyCL 效能最最佳化的最有效組合。
PolyCL: contrastive learning for polymer representation learning via explicit and implicit augmentations
Jiajun Zhou, Yijie Yang, Austin M. Mroz and Kim E. Jelfs* (🇬🇧 倫敦帝國理工學院)
Digital Discovery, 2024, 3, 149-160
https://doi.org/10.1039/D4DD00236A (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
準確確定分子的可獲得構象是成功研究其性質的關鍵。分子動力學模擬等傳統計算方法需要巨量的計算資源和時間耗費。近年來,深度生成模型在複雜資料分佈學習方面取得顯著進展,使其在分子構象生成領域具有高適用性。
該項研究發展了一款基於條件式生成對抗網路 (generative adversarial network, GAN) 的分子構象生成模型 ConfGAN。作者們設計了一種高效的分子基序 (molecular motif) 圖示方法,將分子視為功能基團的組合,捕捉基團間的相互作用,為構象生成提供豐富的化學先驗知識。對抗訓練過程中,生成器網路以分子圖作為輸入,試圖生成具有最小勢能的穩定構象;判別器則根據能量差異提供反饋,引導生成符合化學規則的構象。
該模型明確遵循對分子的已有認知,確保生成構象的物理合理性。透過廣泛評估,ConfGAN 在效能上明顯優於現有深度學習模型。此外,其生成的構象在分子對接、電子性質計算等領域展現出應用潛力。
Generation of molecular conformations using generative adversarial neural networks
Congsheng Xu, Xiaomei Deng, Yi Lu and Peiyuan Yu* (餘沛源 🇨🇳 南方科技大學/深圳 Grubbs 研究院)
Digital Discovery, 2025, 4, 161-171 
https://doi.org/10.1039/D4DD00179F  (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
科學文獻中的有機合成步驟通常以非結構化文字形式呈現,這不利於資料驅動的研究應用。化學描述語言 (chemical description language, χDL) 為此類過程提供了結構化表達方式。儘管已有基於規則方法或生成式大語言模型 (generative large language model, GLLM) 的文字到 χDL 自動轉換技術,但其輸出仍存在錯誤可能。因此,自動轉換後得到的 χDL 還是需要透過人工稽核來保證準確性。
該項研究旨在對含有結構化格式的原始文字中的嵌入資訊進行視覺化處理,以輔助人工稽核者的理解。作者們提出一種新型框架,支援透過標註文字對文獻自動轉換得到的 χDL 進行編輯。此外還引入了新的基於規則的轉換方法。為提高轉換質量,提出聯合使用兩種特性不同的候選 χDL:一種由本研究提出的規則方法生成,另一種由現有 GLLM 方法生成。在包含六步有機合成步驟的實驗中,證實同時向用戶展示兩個系統的輸出結果,相比單一系統能顯著提升合成產率。
A framework for reviewing the results of automated conversion of structured organic synthesis procedures from the literature
Kojiro Machi, Seiji Akiyama, Yuuya Nagata and Masaharu Yoshioka* (🇯🇵 北海道大學)
Digital Discovery, 2025, 4, 172-180 
https://doi.org/10.1039/D4DD00335G (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
多主元合金 (Multi-Principal Element Alloys, MPEAs) 是透過多種元素的組合得到具有獨特定製效能的合金,已成為 21 世紀 20 年代材料科學領域備受關注的研究方向。然而,由於 MPEAs 的化學複雜性,難以在高維設計空間中實現“組分-效能”關係的視覺化。有效視覺化技術的缺乏使複雜合金的設計難以實現 。
本文提出了一套視覺化技術工具,其為 MPEAs 的組分空間和效能空間提供的視覺化方案能幫助觀察者獲得有效資訊與洞察。其核心貢獻是實現了合金設計所需的全組分空間投影 。
該視覺化工具集已成功應用於以下案例研究:(1) 滿足約束條件的合金設計方案;(2) 貝葉斯最佳化的合金設計流程;(3) 論文補充材料 (ESI) 中給出的多種場景。研究還表明,該方法可被推廣至任意重心設計空間 (barycentric design space)。
Visualizing high entropy alloy spaces: methods and best practices
Brent Vela, Trevor Hastings, Marshall Allen and Raymundo Arróyave* (🇺🇸 得克薩斯A&M大學)
Digital Discovery, 2025, 4, 181-194 
https://doi.org/10.1039/D4DD00262H (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
聚合物資訊學是一門新興學科,透過資料驅動科學方法研究聚合物,近年來吸引了眾多研究者的關注。然而,為聚合物(尤其是共聚物)開發有效的描述符以支援有限資料集下的機器學習模型仍面臨挑戰。
為解決這一問題,該文作者們計算了來自 50 種商用單體的 2500 對自由基-單體組合在自由基聚合過程初期的基元反應中的反應能和活化勢壘引數集,並構建了一個名為"Copolymer Descriptor Database(共聚物描述符資料庫)"的開放資料庫。基於此資料庫,作者·們以這些引數作為解釋變數,以物理性質(如反應速率常數、單體轉化率、單體組成比、分子量)為預測目標,建立了機器學習模型。實驗表明,這些模型實現了高預測精度,驗證了所構建描述符在推動聚合物資訊學領域進展中的潛力。
CopDDB: a descriptor database for copolymers and its applications to machine learning
Takayoshi Yoshimura, Hiromoto Kato, Shunto Oikawa, Taichi Inagaki, Shigehito Asano, Tetsunori Sugawara, Tomoyuki Miyao, Takamitsu Matsubara, Hiroharu Ajiro, Mikiya Fujii, Yu-ya Ohnishi and Miho Hatanaka* (🇯🇵 慶應義塾大學)
Digital Discovery, 2025, 4, 195-203 
https://doi.org/10.1039/D4DD00266K (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
對晶格熱導率 (κL) 的有效評估對熱管理和能量轉換等諸多應用至關重要
該項研究提出了一種神經網路 (neural network, NN) 模型,能夠便捷且準確地預測晶體材料在任意溫度下的 κL值。研究發現,該資料驅動模型在 κL 的真實值與預測值之間展現出較高的決定係數。除了初始資料集外,透過隨機選取先前第一性原理研究中的多個體系進行驗證,進一步證明了該神經網路模型強大的預測能力。最重要的是,該模型能夠對現有資料庫內外的無數體系進行高通量篩選,這對於加速發現或設計具有特定 κL 要求的新材料極為有益。
Machine learning for accelerated prediction of lattice thermal conductivity at arbitrary temperature
Zihe Li, Mengke Li, Yufeng Luo, Haibin Cao, Huijun Liu(劉惠軍🇨🇳 武漢大學物理科學與技術學院) and Ying Fang* (方穎🇨🇳 武漢大學計算機學院)
Digital Discovery, 2025, 4, 204-210 
https://doi.org/10.1039/D4DD00286E (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
分子動力學模擬可解析原子運動細節,但面臨時間尺度限制。增強取樣方法雖能緩解該問題,但即便結合機器學習技術,通常仍依賴預先選擇的專家特徵。
該項研究提出一種圖神經網路-狀態預測資訊瓶頸 (Graph Neural Network-State Predictive Information Bottleneck, GNN-SPIB) 框架,透過結合圖神經網路與狀態預測資訊瓶頸方法,直接從原子座標自動學習低維表徵。透過對三個基準體系的測試,該方法成功預測慢速過程的關鍵結構、熱力學及動力學資訊,展現出跨體系的魯棒性。該方法在複雜體系中具有應用潛力,無需預定義反應座標或輸入特徵即可實現有效的增強取樣
A graph neural network-state predictive information bottleneck (GNN-SPIB) approach for learning molecular thermodynamics and kinetics
Ziyue Zou, Dedi Wang and Pratyush Tiwary* (🇺🇸 馬里蘭大學)
Digital Discovery, 2025, 4, 211-221 
https://doi.org/10.1039/D4DD00315B (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
資料驅動的化學反應發現與開發是一個快速發展的領域,其核心依賴於分子描述符來捕獲底物、配體和靶標的關鍵資訊。然而,該策略的廣泛應用受到描述符計算成本的限制,尤其在涉及構象靈活性的複雜體系中。雖然預先構建與具體應用無關的描述符庫可降低計算負擔,但由於這些模型常被用於對新的假設結構進行評價,因此對描述符的即時預測更具實用性。
為此,該項研究建立了包含 8528 種羧酸和 8172 種烷基胺構象集合的 DFT(密度泛函理論)級描述符庫。基於此庫訓練了二維和三維圖神經網路模型,實現了對分子整體的描述符預測,並針對反應位點(羧酸或氨基)的鍵級和原子級描述符進行了精準建模。該模型在包含藥物相關羧酸與烷基胺的外部驗證集中表現出強魯棒性。此外,透過對醯胺偶聯反應速率的回顧性研究,驗證了這些 DFT 級預測描述符在下游應用(如反應效能分析)中的有效性。
總體而言,該模型能夠實現對海量潛在底物的高保真預測,顯著提升了資料驅動反應開發的可及性。
Rapid prediction of conformationally-dependent DFT-level descriptors using graph neural networks for carboxylic acids and alkyl amines
Brittany C. Haas‡, Melissa A. Hardy‡, Shree Sowndarya S. V.‡, Keir Adams‡, Connor W. Coley(🇺🇸 麻省理工學院)Robert S. Paton(🇺🇸 科羅拉多州立大學) and Matthew S. Sigman* (🇺🇸 猶他大學)
Digital Discovery, 2025, 4, 222-233 
https://doi.org/10.1039/D4DD00284A (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
對高覆蓋率構型進行取樣並對錶面吸附物與吸附物間的相互作用進行預測,對理解多相催化的真實介面至關重要。然而,不同位點環境下吸附構型數量的組合爆炸式增長,為這些相互作用的準確評估帶來巨大挑戰。
該項研究提出結合高通量模擬流程與基於 MACE 架構的神經網路模型策略,顯著提升取樣效率與速度。透過利用單點 DFT 計算快速獲取的未鬆弛結構及能量資料訓練模型,該策略在域內/域外預測(包括對不同晶面、覆蓋範圍及低能量構型的泛化)中均展現優異效能。基於對模型魯棒性的系統認知,作者們在未經主動學習的情況下就對催化體系的構型相空間進行了窮盡式取樣:藉助神經網路模型和模擬退火方法預測出超過1400萬個結構的結合能,成功獲得 CO 在六個銅晶面 (111, 100, 211, 331, 410, 711) 的覆蓋率依賴性吸附能,以及 CO 與 CHOH 在 Rh(111) 面上的共吸附能。經目標性的後取樣弛豫驗證,CO 在銅面的計算結果精準復現文獻報道的實驗相互作用能,並揭示六個晶面各覆蓋範圍內臺階與平臺位點佔據的原子尺度機制。此外,Rh(111) 表面上 CO 的排布方式顯著影響 CHOH 鍵斷裂的活化能壘,凸顯全面取樣對反應動力學研究的重要性。
該項研究表明簡化的資料生成流程與神經網路泛化能力評估可被規模化地應用於對錶面橫向相互作用的解析,為多相催化過程的真實建模開闢了新途徑。
A strain-reinforcing elastomer adhesive with superior adhesive strength and toughness
Daniel Schwalbe-Koda* (🇺🇸 加州大學洛杉磯分校)Nitish Govindarajan* (🇸🇬 新加坡國立大學and Joel B. Varley
Digital Discovery, 2025, 4, 234-251 
https://doi.org/10.1039/D4DD00328D (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
透過主動機器學習實現顯微鏡自動化是一項變革性進展,能顯著提升實驗效率與可重複性,並支援複雜實驗的開展。作者們在前期研究中利用深度核學習 (deep kernel learning, DKL) 構建主動學習框架,實現了掃描探針顯微鏡 (scanning probe microscopy, SPM) 自主實驗開展對結構-性質關係的探索。
該項研究進一步將該框架擴充套件為多階段決策流程,將先驗知識與人類關注點融入基於 DKL 的工作流,並在 SPM 中實現其操作化。透過整合結構庫或光譜特徵的預期獎勵機制,顯著提升了自主顯微鏡的探索效率,展示了更具目標性的自主探測能力。
該方法可無縫拓展至其它顯微與成像技術。此外,該框架還可適配於材料發現中通用的貝葉斯最佳化方法,適用於廣泛的自主實驗領域。
Scientific exploration with expert knowledge (SEEK) in autonomous scanning probe microscopy with active learning
Utkarsh Pratiush, Hiroshi Funakubo, Rama Vasudevan, Sergei V. Kalinin* (🇺🇸 田納西大學) and Yongtao Liu* (🇺🇸 美國橡樹嶺國家實驗室)
Digital Discovery, 2025, 4, 252-263 
https://doi.org/10.1039/D4DD00277F (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
高熵碳化物 (High-entropy carbides, HECs) 因其獨特的機械效能引起了廣泛關注,但新型 HECs 的設計一直受限於試錯策略以及對構效關係認識和計算能力的不足。
該項研究利用高通量密度泛函理論計算和兩種機器學習模型,揭示了高維成分空間中元素間的內在關聯性,僅憑化學式即可預測楊氏模量、硬度和耐磨性。這些模型對彈性模量的預測均方根誤差為 11.5 GPa,平均絕對誤差為 9.0 GPa,展現出對任意非等原子比例 HECs 的高精度預測能力 。此外,該研究構建了包含 566,370 種 HECs 的資料庫,並從中篩選出 15 種機械效能最優的新材料。透過描述符-性質間的相關性分析,這些模型能夠快速探索 HECs 的力學效能,為加速設計具有目標效能的非等原子比高熵材料提供了高效方法 。
Predicting mechanical properties of non-equimolar high-entropy carbides using machine learning
Xi Zhao* (趙曦🇨🇳 西北大學), Shu-guang Cheng, Sen Yu, Jiming Zheng, Rui-Zhi Zhang and Meng Guo
Digital Discovery, 2025, 4, 264-274 
https://doi.org/10.1039/D4DD00243A (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載
沸石(如 MFI 型)是一類多用途的微孔鋁矽酸鹽材料,廣泛應用於催化和吸附過程。鋁元素在沸石骨架中的位置和特性是影響其工業應用效能的關鍵因素,通常透過 ²⁷Al 核磁共振 (NMR) 譜進行表徵。然而,²⁷Al NMR 譜圖的解析存在挑戰,因為傳統的第一性原理計算難以給出符合時間尺度和模型複雜度要求的可靠譜峰歸屬。
該項研究採用基於機器學習的先進方法,透過兩個步驟彌合理論與實驗的差距:首先利用神經網路原子間勢實現結構取樣的加速(相比傳統密度泛函理論方法效率顯著提升),然後是訓練迴歸模型以開展對 ²⁷Al 化學位移的低成本預測。
以 H-MFI 沸石為案例,作者們利用這一方法系統地研究了催化相關條件(如水負載量、溫度和鋁濃度)對 ²⁷Al 化學位移的影響。結果表明,水含量和溫度對化學位移影響顯著且呈現非線性特徵,這種效應高度依賴於鋁所在的 T 位點,凸顯了構建符合實際條件的特異性模型的重要性。
此外,該方法在複雜 MFI 沸石體系中的預測結果與實驗資料接近定量一致,初步實現了實驗 NMR 峰與特定 T 位點的對應歸屬。
這些發現驗證了機器學習方法在真實條件下對複雜工業材料重要光譜性質(如 NMR 化學位移)進行可靠預測的能力。
²⁷Al NMR chemical shifts in zeolite MFI via machine learning acceleration of structure sampling and shift prediction
Daniel Willimetz, Andreas Erlebach, Christopher J. Heard* (🇨🇿 布拉格查理大學) and Lukáš Grajciar* (🇨🇿 布拉格查理大學)
Digital Discovery, 2025, 4, 275-288 
https://doi.org/10.1039/D4DD00306C (⬆️ 瀏覽器中複製開啟)
掃碼閱讀
免費全文下載

期刊介紹

Digital technologies that bring the future closer
rsc.li/digitaldiscovery

Digital Discovery

2-年影響因子* 6.2
5-年影響因子* 6.2
JCR 分割槽* Q1 計算機科學 – 跨學科應用Q1化學-跨學科
CiteScore 分 2.8分(
中位一審週期 55
Digital Discovery 以數字化技術和自動化工具與基礎科學的相互結合為重點,將囊括人工智慧、實驗自動化、機器人技術、資料庫和先進 資料分析等領域的創新成果。本刊發表的研究工作範圍廣闊,但需有堅實的化學基礎,具體包括:
  • 用於分子、材料和配方設計的人工智慧與其它高通量計算方法;
  • 先進的資料工作流;
  • 創新的實驗自動化;
  • “定向/加速進化”、“化學文庫”、“加密化學”、“區塊鏈加持的科學研究”等化學與其它學科的交叉領域。
作為一本金色開放獲取的期刊,讀者可免費獲取論文的全文。
Editor-in-Chief
  • Alán Aspuru-Guzik🇨🇦 多倫多大學
Associate editors
  • Jason E Hein🇨🇦 不列顛哥倫比亞大學
  • Kedar Hippalgaonkar🇸🇬 南洋理工大學
  • Linda Hung🇺🇸 豐田研究所
  • Joshua Schrier🇺🇸 福特漢姆大學
  • Cesar de la Fuente🇺🇸 賓夕法尼亞大學
  • Matthias Degroote🇧🇪 柏勃林格殷格翰 布魯塞爾
Editorial board members
  • Yousung Jung🇰🇷 首爾國立大學
  • Anat Milo🇮🇱 內蓋夫本-古裡安大學
  • Ekaterina Skorb🇷🇺 聖彼得堡國立資訊科技機械與光學大學
  • Lilo D. Pozzo🇺🇸 華盛頓大學(西雅圖)
* 2023 Journal Citation Reports (Clarivate, 2024)
 CiteScore 2023 by Elsevier
 中位數,僅統計進入同行評審階段的稿件
歡迎聯絡我們釋出論文報道📧 [email protected]
點選下方「閱讀原文」檢視官網
↓↓↓


相關文章