AI2BMD登上Nature,以量子級精度推進蛋白質動力學

(本文閱讀時間:10分鐘)
編者按:隨著人工智慧在蛋白質研究中的重要性日益提升,預測靜態的蛋白質晶體結構已不再是難題。然而,如何在原子級別精確刻畫蛋白質動態變化仍是一項亟需解決的挑戰。微軟研究院科學智慧中心王童研究員及其團隊,歷時四年研究推出的基於 AI 的分子動力學模擬系統 AI2BMD,對蛋白質等生物大分子進行量子級精度的全原子模擬,實現了比經典模擬更高的精度,和比密度泛函理論更快的速度,為包括生物分子建模等在內的生物研究提供了新的可能性。
“所有生物體的行為都可以透過原子的顫動和擺動來理解。”正如諾貝爾物理學獎得主 Richard Feynman 的名言所說,生物世界的本質是原子永不停歇的運動過程。探索生物分子的運動過程以及分子之間的相互作用,對於破譯生命活動背後的機理以及設計和發現新的藥物、疫苗以及生物材料都至關重要。
近年來,隨著深度學習技術的發展和 GPU 算力的飛速提升,人工智慧在蛋白質研究領域扮演著越來越重要的角色。2024年的諾貝爾化學獎就授予了蛋白質結構預測和蛋白質設計的研究。儘管透過計算手段預測靜態的蛋白質晶體結構已經接近或達到生物學實驗解析的精度,但如何利用 AI 在原子級別精確地刻畫蛋白質動態變化的行為是一項仍需解決且更為困難的挑戰。
日前,微軟研究院科學智慧中心(Microsoft Research AI for Science)王童研究員及其團隊,歷時四年在人工智慧驅動的分子動力學模擬研究中取得了重要進展,其成果已透過長文(Article)的形式在世界頂級科學雜誌《自然》(《Nature》)正刊線上發表。
長文連結:
https://www.nature.com/articles/s41586-024-08127-z
GitHub 連結:
https://github.com/microsoft/AI2BMD
AI驅動的分子動力學模擬
分子動力學(Molecular Dynamics,簡稱 MD)是模擬分子和原子在真實生物細胞中運動的技術手段。動力學模擬一般以1飛秒(10-15秒)為一步模擬,透過數億以至數千億步的模擬,反映細胞中蛋白質分子的時空運動過程。歷經半個多世紀的發展,分子動力學模擬可以分為兩類:經典模擬(Classic MD Simulation)和量子模擬(Quantum Simulation)。
經典模擬以牛頓力學作為力場來驅動原子和分子的運動,具有速度快、適用性廣等特點。半個多世紀以來,經典模擬被廣泛應用於蛋白質等生物大分子的動態研究中,並於2013年獲得諾貝爾化學獎。然而,採用牛頓力場的經典模擬,力場的準確性欠缺,且無法模擬分子成鍵斷鍵等電子遷移的行為,在高精度的自由能計算、藥物虛擬篩選、生物化學反應等方面捉襟見肘。
與經典模擬相對的是以密度泛函理論(Density Functional Theory,簡稱 DFT)為代表的量子模擬方法,該方法採用量子力學力場,對原子的運動描述可達到從頭計算的精度。憑藉其完備的理論基礎和在計算化學領域的廣泛應用,1998年密度泛函理論獲得了諾貝爾獎。但由於極高的計算代價,量子模擬既無法直接應用於蛋白質等生物大分子的研究,又無法進行長時間的模擬模擬。
如何打破經典模擬和量子模擬之間的技術瓶頸,實現對蛋白質等生物大分子量子級精度的全原子模擬,是該領域半個多世紀以來的一大挑戰。
為了解決這一重大挑戰,微軟研究院科學智慧中心的研究員們設計了基於 AI 的分子動力學模擬系統 AI2BMD (AI powered ab initio biomolecular dynamics)。該系統以從頭計算的精度(即量子級的精度)高效地對各類蛋白質進行了全原子模擬模擬。這一創新在生物分子模擬中實現了一種此前標準模擬技術無法達成的權衡——比經典模擬具有更高的準確性,其計算成本雖然高於經典模擬,但計算速度領先 DFT 和其他量子力學方法數個數量級。AI2BMD 有望在生物分子建模中解鎖更多新的能力,特別是在如蛋白質與藥物相互作用這種需要進行高精度計算的研究過程中。
AI 驅動的分子動力學模擬動畫演示
深入AI2BMD技術創新
分子動力學模擬最重要的元件之一是力場的構建。在模擬的每一步中,力場計算分子的能量和每個原子所受的力,從而驅動整個分子的運動。經典模擬採用牛頓力場,量子模擬採用量子力學力場。要構建 AI 驅動的分子動力學模擬,最大挑戰是深度學習模型的泛化性,即在已知分子上訓練的模型對各類未知蛋白質分子的能量和力的預測準確性。為此,研究團隊設計了一種基於蛋白片段的、可泛化的分割技術,將各類蛋白質分子分割成21種通用的蛋白質片段。資料集的構建和模型的訓練全都基於通用蛋白質片段進行,從而實現對各類蛋白質分子的通用解決方案(如圖1)。
圖1:AI2BMD 技術流程圖
基於蛋白質通用分割方案,研究團隊進一步構建了包含二千多萬條資料、目前世界上最大的量子級精度蛋白質片段資料集 Protein Unit Dataset(https://github.com/microsoft/AI2BMD)。研究員們選取了此前研發的通用分子幾何結構建模的網路模型 ViSNet,並在 Protein Unit Dataset 上對其進行訓練,來作為 AI2BMD 的力場。考慮到分子模擬的效率問題,研究團隊提出了一種全新的主從式架構(client-server),透過對 CPU 和 GPU 的動態排程,該架構可以將每步模擬時間壓縮至數十毫秒量級。研究員們利用 AI2BMD 對各類蛋白的動力學和熱力學進行了分析,分析結果展現了比經典模擬在蛋白質摺疊自由能計算、構象空間探索等多個方面更好的結果。
生物分子模擬的技術創新
AI2BMD 在如下幾個方面展示了與此前蛋白質分子經典模擬不同的創新性變化:
量子級精度AI2BMD 透過可泛化“機器學習力場”——一種透過機器學習模型構建的原子和分子之間相互作用的模型,實現了量子級精度的全原子蛋白質動力學模擬。
圖2:AI2BMD 和經典動力學模擬對不同蛋白質能量計算的誤差對比
泛化性:AI2BMD 首次解決了機器學習力場在模擬蛋白質動力學方面的泛化挑戰,展示了對各種蛋白質全原子模擬的魯棒性。
全原子模擬的相容性:相比於結合量子模擬和經典模擬的混合模擬技術,AI2BMD 將量子級精度的計算拓展到了整個蛋白質分子上,且不需要任何關於蛋白質的先驗知識。這消除了蛋白質的量子模擬和經典模擬計算之間潛在的不相容性,並將量子模擬區域的計算速度提高了幾個數量級,使全原子蛋白質的近從頭計算更接近現實。因此,AI2BMD 為許多下游應用鋪平了道路,併為表徵複雜生物分子動力學提供了新的視角。
高效性:AI2BMD 比 DFT 和其他量子模擬的速度快幾個數量級。AI2BMD 支援超過1萬個原子的蛋白質的量子級精度計算,使其成為眾多學科領域中最快的 AI 驅動的分子動力學模擬程式之一。
圖3:AI2BMD 與 DFT 以及其他 AI 驅動的動力學模擬軟體速度的比較
構象探索的多元性:不同於經典模擬,AI2BMD 不會對鍵長、鍵角、二面角等施加任何約束。如圖4,在用 AI2BMD 和經典模擬分別模擬蛋白質摺疊和去摺疊的過程中,AI2BMD 探索了經典模擬無法檢測到的更多可能的構象空間。因此,AI2BMD 為研究藥物靶標結合過程中蛋白質的柔性運動、酶催化、變構調節、內在無序蛋白等提供了更多的機會和可能。
圖4:AI2BMD 與經典模擬在蛋白 Chignolin 摺疊過程的模擬表現
生物實驗的一致性:與經典模擬和混合模擬相比,AI2BMD 在J-耦合、焓變、熱容、摺疊自由能、熔化溫度和 pKa 等指標上都展現出了與生物學實驗更高的一致性。
應用與展望
在生物分子模擬中實現量子級精度是極具挑戰性的,但它在揭示生物系統的奧秘以及設計新型生物材料和藥物方面具有巨大潛力。這一突破證明了 AI for Science 的遠見,即利用人工智慧的能力革新科學探索。AI2BMD 實現了機器學習力場在分子動力學模擬應用中準確性、穩定性和泛化性等方面的平衡,在提升能量和原子受力計算精度的同時,AI2BMD 也帶來對蛋白質各類性質更為準確的計算和估計。
2022年,微軟研究院還與全球健康藥物研發中心( Global Health Drug Discovery Institute, 簡稱 GHDDI)展開合作,將人工智慧技術應用於藥物設計。GHDDI 是蓋茨基金會、北京市政府和清華大學聯合成立的非營利機構,旨在研發用於治療對中低收入國家(LMIC)造成嚴重影響的結核病和瘧疾等疾病的藥物。微軟研究院正在與 GHDDI 密切合作,希望透過 AI2BMD 和其他人工智慧技術加速藥物發現過程。
AI2BMD 不僅推進了對科學問題的研究,還促進了藥物發現、蛋白質設計和酶工程等領域的新的生物醫學研究。利用 AI2BMD 準確、高效地表徵蛋白質的動態特性正在推動科學技術創新發展,激發科學界對生物機理探索的廣泛興趣。
AI2BMD 研究團隊主要成員
你也許還想看:

相關文章