對話《Nature》論文作者,揭秘AI2BMD背後的故事

(本文閱讀時間:10分鐘)
Q:微軟研究院是最早開始利用人工智慧進行生物大分子模擬研究的機構之一。當時你們為什麼會選擇這個方向,最初期望解決什麼問題?
王童:一切生物體的行為都可以透過原子的顫動和擺動來理解。為了研究生物過程背後的機制並開發生物材料和藥物,我們需要一種能夠準確表徵生物分子動態運動的計算方法。
當我們回顧生物分子結構計算研究的發展過程時,可以得到兩個關鍵資訊。首先,利用人工智慧預測靜態蛋白質結構近年來取得了巨大成功,並在上個月獲得了諾貝爾化學獎。但表徵蛋白質的動態結構對生物學、藥物和醫學領域更有意義,也更具挑戰性。其次,分子動力學模擬是研究蛋白質動態最廣泛使用的方法之一,可以大致分為經典動力學模擬和量子模擬兩大類相互作用的描述。這兩種方法都歷經了半個多世紀的發展,並各自獲得了諾貝爾獎。其中,經典動力學模擬採用的是牛頓力學,計算速度快但精度低,量子模擬採用的量子力學非常精確但計算成本高。然而,對於生物機制的檢測需要同時具備高精度和高效率兩大效能。因此,將人工智慧應用於生物分子模擬是實現高精度和高效率的第三種方法。
在2020年冬天,我們充分意識到了人工智慧也可以在生物分子模擬中發揮作用,自此就選擇了這個方向,並開啟了四年的研究之旅。
Q:與之前的研究相比,AI2BMD 有何不同?從構想到釋出,這四年的研究旅程中,有哪些關鍵時刻?你們面臨了怎樣的挑戰?
王童:將人工智慧應用於生物分子模擬是一個十分新穎的研究領域。對於大分子 AI 驅動的分子動力學模擬,沒有現成的資料集,沒有設計優良的機器學習力場,沒有明確的技術路線圖,也沒有成熟的 AI 模擬系統。我們每天都在面臨各種全新的挑戰。
與其他探索這個領域的工作相比,AI2BMD 的特點在於它無需為每種新蛋白質生成新的資料並訓練深度學習模型,所以 AI2BMD 是一種蛋白質特定的解決方案,而且是一種適用於廣泛蛋白質的通用解決方案。
為了實現這一目標,我們首先提出了通用的蛋白質分段描述方法,將蛋白質分為常用的20種二肽作為基本單元。這樣我們就不需要為各種蛋白質生成資料,而只需對這些二肽的構象空間進行取樣即可。因此,我們建立了包含約2000萬個樣本的蛋白質單元資料集,使其具有量子力學計算的精度。
然後我們又提出了可用於分子幾何建模的圖神經網路 ViSNet,以此來作為 AI2BMD 的機器學習力場。此外,透過同時高效利用 CPU 和 GPU,我們還設計了 AI2BMD 的模擬系統,實現了比一年前提速百倍的模擬速度,並將 AI 驅動的模擬加速至每步僅需十到一百毫秒。
最終我們將 AI2BMD 在能量、力、自由能、J-耦合和多種性質計算中,對數十種蛋白質進行了驗證,並在藥物開發競賽中應用了 AI2BMD,均獲得了理想的結果
Q:進行這項研究的方法論是什麼?
王童:不同專業知識的融合協作是 AI2BMD 研究成功的關鍵。我們的團隊由具有生物學、化學、物理學、數學、計算機科學和工程學背景的科研人員組成。此外,我們還與許多分子動力學模擬領域的資深專家進行了交流與合作,他們提供了很多非常有建設性的建議。
另外一個我想強調的關鍵是,要從非預期的結果中不斷學習。在科學研究的過程中,失敗是不可避免的。對此我們要做的是積極面對,不斷分析失敗原因,並相應地調整我們的演算法和模型。對於一個研究課題來說,沒有完美的解決方案,我們總是在路上。
微軟研究院首席研究員劉海廣(右一)、高階工程師畢然(中)、高階研究員王童(左一)
Q:從去年的預印本到今年發表在《自然》雜誌上,我們看到 AI2BMD 的技術設計和實驗結果有了很多的升級,請大概介紹一下最新版的功能特點以及創新之處。
王童:2023年夏天我們在預印本平臺 bioRxiv 上釋出了 AI2BMD 手稿的初步版本。在近一年半的時間中 AI2BMD 取得了兩個重要的升級。第一個是 AI2BMD 的模擬速度提升了數百倍,成為目前最快的 AI 驅動分子動力學模擬系統之一,並能夠進行比以前更長時間的模擬。第二個是 AI2BMD 被應用於許多蛋白質性質的計算,如焓、熱容量、摺疊自由能、pKa 等指標上。
Q:AI2BMD 是如何實現如此顯著的加速效果的?在系統設計上有哪些獨特之處?
畢然:AI2BMD 的模擬系統有多個模組。除了最佳化程式碼來提升各個模組的運算速度,我們還需要考慮如何在滿足各個模組依賴關係的前提下,把有限的計算資源合理分配給各個模組,從而使得整體模擬速度在不同蛋白大小、計算單元配比下都能夠再次得到提升。
Q:作為一個基於人工智慧的生物分子量子級精度動力學模擬系統,AI2BMD 對生物學和 AI 研究有何意義?它又將對現實世界帶來哪些影響?
王童:對於生物學,AI2BMD 提供了一種比過去幾十年使用的方法都更加準確的方法,來模擬蛋白質動態運動,並研究生物活性。對於人工智慧,AI2BMD 證明了 AI 可以在動態蛋白質結構研究中發揮重大作用,這甚至超越了 AI 在蛋白質靜態結構預測中的應用。
這將為藥物和靶蛋白複合物提供具有量子級模擬精度的結合自由能計算,檢測經典力學模擬無法達到的更靈活的生物分子構象變化,併為酶工程、疫苗和抗體設計創造更多機會。
Q:與 GHDDI 的合作可以說是在實際應用中的一種嘗試,那麼雙方的契機以及合作願景是什麼?
劉海廣:藥物通常作用在生物大分子上,也就是常說的靶點。蛋白質分子是目前最重要的藥物靶點,AI2BMD 對此有兩個方面的主要應用:一個是,對蛋白質的結構有動態描述,尤其是發現更多有價值的結構,從而可以更全面地認識靶點;另外一個就是更加準確地計算靶點蛋白與藥物分子(或者備選分子)的物理化學相互作用。在與 GHDDI 的交流過程中,大家都對這個方法寄予厚望。我們希望能夠透過計算的方法對靶點與藥物分子的相互作用獲得更準確的定量資訊,從而加速藥物研發。
Q:在整個研究過程中,大家有哪些感悟?對於 AI for Science 領域或者從事跨學科研究的科研人員來說,最想要分享的經驗是什麼?
王童:我想從三個方面分享一點研究過程中的體會。首先是目標高遠。探索一個顛覆性的研究主題雖然困難重重,但它的意義比做十個漸進的工作都更大。在多年的研究中,微軟研究院始終鼓勵我們做有影響力的“大事”。
其次是堅持。我記得一位計算機科學家曾說過,研究過程中約90%的時間是經歷失敗與挫折。當對一個全新的方向進行研究時,這個比例甚至更高。在 AI2BMD 研究中,當我們遇到無法解決的研究瓶頸數月之久,當我們收到審稿人的批評意見,當有團隊成員想要放棄時,我總是鼓勵大家再堅持一下,我們會成功的。當然,堅持的基礎是要確保你的研究方向有意義,並且能夠不斷從失敗和批評反饋中調整你的方法。
第三是現實世界的應用。我們的目標是利用人工智慧推動科學進步。提出科學問題是第一步,然後開發 AI 工具並在基準上進行評估,更重要的是,檢驗其在實際應用中的有用性,並進一步開發你的 AI 演算法。透過這種方式,你就完成了 AI 科學研究的閉環。
劉海廣:如今人工智慧已經開始改變我們日常生活的方方面面。大家也意識到,在科學研究領域,AI 也有巨大的潛力,能夠幫助我們加速科學發現和拓展科學前沿。AI for Science 這個命題已經不是口號,而是真實的應用,而且其範圍正在擴大,以更快的速度擴大。作為一個新的研究正規化,AI for Science 也面臨很多不確定和挑戰。其中一個就是如何進行跨學科合作,這也是我們團隊積極探索、學習的一個重要課題。
Q:在這個領域還有哪些未解的問題?AI2BMD 團隊接下來的研究計劃是什麼?
王童:我認為 AI2BMD 是 AI 驅動生物分子動力學時代的起點。在這個新領域中有許多新的科學問題和挑戰。例如,如何將模擬的分子從蛋白質擴充套件到其他型別的生物分子;如何在模擬過程中描述生化反應;如何進一步提高模擬效率和魯棒性;以及如何將其應用於更多的現實世界場景。我們期待與更多學術界和工業界的同仁合作,共同推動這個新領域的前沿發展。
你也許還想看:

相關文章