
(本文閱讀時間:10分鐘)
自然科學作為人類探索自然現象與開發利用自然資源的基石,構建了一個龐大而複雜的知識體系,其研究範疇橫跨物理、化學、生物以及材料科學等多個重要領域。在長期的發展程序中,各領域逐漸形成了自身獨特的資料表達方式、研究方法和理論體系。然而,相對獨立的知識體系雖然在一定程度上便於學科內部的理解與交流,但在無形中成為了阻礙學科間交叉研究的壁壘。
從基因功能的深入探究到新材料的創新設計,前沿的創新成果往往依賴於不同學科知識與技術的有機整合。由於業界目前缺乏一個能夠有效連線各學科的統一框架,科研人員的視野常常侷限於自身的專業領域,導致跨領域間的溝通與協作存在諸多障礙,也限制了科研人員從多領域汲取靈感並促成突破性發現的可能性,從而在一定程度上制約了科學整體發展的程序。
為此,微軟研究院科學智慧中心 (Microsoft Research AI for Science) 開發了 Nature Language Model (NatureLM),致力於整合多個自然科學領域的建模工作,以打破學科壁壘,激發跨學科的協同創新。NatureLM 是一種基於序列的自然科學基礎語言模型,在涵蓋了小分子、蛋白質、材料、DNA 以及 RNA 等諸多自然科學的關鍵領域的同時,開創性地深度融合了自然的語言和人類語言,為科學發現與創新提供了一種全新、高效、跨學科的 AI 工具,極大地拓展了科學研究的邊界和可能性。
Nature Language Model: Deciphering the Language of Nature for Scientific Discovery
論文連結:
https://arxiv.org/abs/2502.07527
專案網站及更多應用:
https://NatureLM.github.io/

NatureLM 是基於 GPT 形式的生成式 AI 而構建的,它透過多領域(包括生物、化學和材料科學等)數千億條精心挑選的無標記資料進行預訓練,擴充套件了現有大語言模型的能力,並保留了原始模型的語言能力。然後,該模型還在數百萬對科學問答上進行了指令集微調,優化了其理解文字提示並生成語境匹配回應的能力。最終,科研人員可透過強化學習或領域定製微調等技術,進一步將 NatureLM 定製為特定任務的最佳化版本,以實現更出色的效能。
NatureLM 提供了三種不同規模的版本——1B、8B和46.7B(一個8x7B專家混合模型)引數,可以為不同計算資源和專案範圍提供靈活選擇。在22種測試任務中,大版本模型通常表現出更強的效能,為小型實驗室和大型研究團隊提供了可擴充套件的解決方案。

圖1:NatureLM 的訓練資料來源、模型架構設計以及應用場景

根據輸入的蛋白質序資訊(比如蛋白質名稱或者氨基酸序列)設計小分子化合物是藥物研發領域充滿巨大應用潛力的一項挑戰,尤其是在缺乏結構資訊或結構資料不完整的情況下。對此,NatureLM 可透過輸入蛋白質序列,生成完整分子或分子片段。圖2展示了利用 NatureLM 進行分子和分子片段設計的示例。使用者可以透過輸入對應的文字、蛋白序列或小分子片段生成目標分子。

圖2:為靶點蛋白生成小分子配體的示例。<protein>、<mol>、<fragA> 和 <fragB> 是分別表示蛋白質、小分子和分子片段的特殊標籤。[*:數字] 表示分子片段的連線點,其中 fragA 和 fragB 的分子片段可以組合成完整的小分子。
AutoDock Vina 是被用於分子對接評估的程式,可以估算生成化合物(配體)與蛋白質的結合親和力,其中評分越低意味著結合親和力越強。於 AutoDock Vina 上進行的實驗結果表明,NatureLM 在生成化合物方面的表現優於現有演算法。

圖3:Autodock Vina 評估上的對接分數展示
進一步的分析顯示,大規模引數版本的 NatureLM 能夠穩定生成具有更優結合親和力的化合物,同時保持較高的合成可行性(如影片1所示)。
影片1:生成和磷酸二酯酶(PDB id: 5shf)結合的小分子配體
對於分子片段生成,研究員們在實驗中選取了2024年5月之後釋出的三篇論文中的案例,並確認它們未包含在 NatureLM 的訓練資料中。透過整合靶標蛋白序列與預定義功能片段,NatureLM 實現了分子片段的定向生成。如圖4所示,大引數架構的 NatureLM (8x7B)在生成效能上展現出了顯著的優勢。

圖4:小分子片段生成的對接分數對比

血紅素是一種十分重要的輔因子,在氧氣運輸、電子傳遞以及酶活性調控中發揮著關鍵作用。研究員們使用 NatureLM 進行了血紅素結合蛋白質的設計,並探索了兩種設計方式:
1. 基於文字:透過輸入文字描述直接生成能夠結合血紅素的蛋白質序列。
2. 基於血紅素的 SMILES 表示式:以血紅素的 SMILES 表示式作為輸入,代替其名稱,設計能夠與其結合的蛋白質。
這兩種方法為血紅素結合蛋白的設計提供了不同的視角,體現了 NatureLM 在蛋白設計領域的靈活性與實用性,並且驗證了 NatureLM 對語義的充分理解。此外,生成序列後可使用 NatureLM 的蛋白質描述功能對生成的序列進行註釋。根據註釋結果,僅保留包含與血紅素相關關鍵詞的序列做進一步分析,再利用 Protenix 預測生成蛋白質與血紅素基團的複合結構,然後對剩餘的候選蛋白質進行評估。

圖5:蛋白質設計的提示詞
上述兩種生成方法能夠分別發現不同潛力的蛋白質,以第一個生成的蛋白質為例(詳見影片2)。生成的蛋白質序列與 NR 資料庫(Non-redundant protein sequences)的相似性為0.55。儘管該序列的相似性處於中等水平,但其預測的三維結構卻與現有相關蛋白質的結構高度相似。具體而言,其中間和右側結構的均方根偏差(RMSD, 使用 ChimeraX 軟體的 matchmaker 命令計算得到)僅為 1.068 Å,表明結構預測的準確性較高。值得注意的是,該蛋白中有兩個組氨酸殘基位於血紅素中心鐵原子的附近。這一結構特徵可以保障蛋白形成關鍵的配位鍵,從而賦予蛋白質潛在的功能活性。
影片2:基於文字指令設計的血紅素結合蛋白
影片3:基於包含 SMILES 表示式的小分子指令設計的血紅素結合蛋白

具有超高體積模量(bulk modulus)的材料因其卓越的剛性和不可壓縮性而備受重視,並在極端環境、工業工具和先進工程中起到關鍵作用。為了測試 NatureLM 生成此類材料的能力,實驗要求其設計一種目標體積模量為 400 GPa 的材料,這一數值與鑽石的剛性相當。
NatureLM 的輸出包含材料組分及其空間群(space group),而材料的 3D 結構至關重要。為了將 NatureLM 的輸出轉化為具體的材料 3D 結構,研究員們對 NatureLM 做了進一步微調,開發了 NatureLM-Mat3D 模型。該模型能夠自迴歸地生成材料晶胞的晶格引數和相對原子座標。隨後,研究員們使用 MatterSim 對生成的材料進行評估,包括計算其 energy above hull (e_hull)和體積模量。
密度泛函理論(DFT)計算結果顯示,上述材料體積模量值分別為 390 GPa 和 394 GPa,與目標值 400 GPa 非常接近。除了實現體積模量目標外,生成的兩個結構與 Materials Project 資料庫中可用的結構相比也是新的。這種新穎性突顯了 NatureLM 在發現具有卓越機械效能的新材料方面的潛力,擴大了材料設計與創新的範圍。

圖6:NatureLM 設計的兩款材料
儘管 NatureLM 在生成材料成分以及預測效能方面表現出極大的潛力,但其空間群預測的準確性仍有提升的空間,這一技術瓶頸可能會影響生成的 3D 結構與效能評估的精度。即便如此,該方法依然具有極高的研究與應用價值,因為它顯著縮短了探索和識別新材料成分所需的時間,並降低了計算成本。
在越來越複雜的科學研究環境中,跨學科協作愈加重要。NatureLM 的出現為打破學科壁壘帶來了新的機遇,也給科研人員提供了強大的工具,可以有效推動創新,助力未來科學發現。隨著人工智慧與自然科學研究的深度融合,未來科學突破必將更加迅速,創新也將更加無界。微軟研究院期待與全球科學家、工程師和創新者攜手合作,共同開啟充滿潛力與挑戰的科技未來。
你也許還想看:
