從預測風暴到設計分子:人工智慧基礎模型如何加速科學發現

(本文閱讀時間:16分鐘)
編者按:人工智慧基礎模型正在加速科學發現的程序,尤其,經過多領域資料訓練的基礎模型,更能在跨領域的任務中展現出色的效能。微軟研究院科學智慧中心已利用基礎模型打造了一系列強大的科學發現模型,包括:革新天氣與汙染預測的 Aurora 模型、專注於新材料發現與設計的 MatterGen、可預測新材料行為和屬性的 MatterSim,以及可自動設計候選藥物的 TamGen 模型等。基礎模型的應用不僅提高了科學發現的效率,降低了成本,還極大地促進了科學研究的普及,讓其觸手可及。
本文翻譯自微軟部落格:From forecasting storms to designing molecules: How new AI foundation models can speed up scientific discovery
人類一直在尋找能夠解釋宇宙現象並預測未來的模式(pattern)。“晚霞行千里,朝霞不出門。”就是一句用於預測天氣的諺語。
人工智慧的一個強大能力就是發現數據中的規律與模式,並做出預測。現在,微軟的研究員們正在努力將利用了前沿人工智慧技術的“基礎模型”應用於科學發現。與那些專門針對特定任務設計的模型不同,基礎模型經過了多領域資料的訓練,能夠在眾多工中展現出卓越的效能。相比傳統方法,它們不僅能夠大幅提升生成答案的效率,還能幫助解決更復雜的科學問題。
正因為此,人工智慧在材料科學、氣候科學以及醫療健康和生命科學等領域具有廣闊的應用前景。專家表示,針對這些領域定製的基礎模型將極大加速科學發現的程序,促進領域科學家更快地實現創新成果,例如藥物研發、新材料發現和提高天氣預報的準確性,同時基礎模型還能加深人們對原子、人體或者地球的認識。目前,微軟研究院正在開發這些模型,其中第一個天氣預測模型 Aurora 已經發布
“作為工具箱中的工具之一,人工智慧能夠為你提供更智慧的支援。”微軟研究院科學智慧中心(AI for Science)副總監 Bonnie Kruft 說,“我們希望開發專門針對科學領域的模型,而不是針對語言的模型。這一重大機遇,將會把傳統基於人類語言的大模型推向全新的正規化,利用數學和分子模擬打造更強大的科學發現模型。”
微軟研究院科學智慧中心副總監 Bonnie Kruft
近年來人工智慧的進步使人們能夠透過簡單的對話提示就可以策劃派對、生成圖形簡報,或者獲取錯過會議的即時摘要。這些功能的實現都得益於大語言模型(LLMs)。基於海量文字資料進行訓練,這類基礎模型能夠執行多種與語言相關的任務。如今,微軟的研究員們正在探索如何利用類似的人工智慧架構和方法來推動科學發現的進一步發展。
“大語言模型有兩個非常有用的特性。首先,它能夠生成並理解人類的語言,這為複雜的技術提供了一個良好的人機互動介面。其次,大語言模型可以作為一個有效的推理引擎,我想這對許多人來說都是一個驚喜,因為它將可以在科學發現中發揮巨大作用。微軟技術院士、微軟研究院科學智慧中心負責人 Chris Bishop 在今年的 Microsoft Research Forum 主題演講中說道
曾經,人工智慧的科研人員認為,那些專為特定任務訓練的模型會比像大語言模型這樣更大的通用模型表現更好,例如那些能夠在國際象棋或雙陸棋中獲勝(但不能兩者兼顧)的模型,或者那些能夠翻譯語言或轉錄語音(但不能兩者兼顧)的模型。然而,結果卻恰恰相反,人們沒有必要為處理法律問題、進行物理研究或研究莎士比亞作品分別訓練模型,因為一個大型通用模型就能在不同學科和任務中獲得出色的表現。現在,研究員們正在研究基礎模型是否也能在科學領域實現類似的結果。
通常,科學發現的過程包括提出假設、進行測試,然後多次調整直至找到解決方案或重新開始,這是一個不斷排除無效選項的過程。相比之下,基礎模型則透過構建而非排除改變了這一傳統模式。科學家們可以為這些基礎模型設定引數,例如他們期望的特性,然後模型就可以預測出可能有效的分子組合。與其大海撈針,不如讓模型直接指導如何製造出“針”來。
另外,這些基礎模型還能夠理解自然語言,便於科學家們撰寫提示詞。例如,在尋找一種新材料時,科學家可以具體說明他們需要的分子必須是穩定的(不會分解的)、非磁性的、不導電的,以及非稀有或非成本高昂的。
儘管大語言模型通常是在文字資料(單詞)上進行訓練,但微軟的研究員們開發的基礎模型則是在科學的“語言”上訓練的,旨在推動科學發現。這不僅包括科學相關的書籍和研究論文,還有大量求解物理或化學方程所產生的資料。
將天氣和汙染預測提升到新水平的 Aurora 模型,是透過學習地球大氣語言來訓練的。MatterGen 模型能夠根據給定條件生成新材料,MatterSim 模型則可以預測這些新材料的行為,它們都是基於分子語言進行訓練的。由微軟研究院與全球健康藥物研發中心(GHDDI)合作開發的 TamGen 模型,可用於設計治療結核病和新冠等疾病的新藥和蛋白質抑制劑。
正如不同的食物適合不同的烹飪方法——有的適合油炸,有的適合蒸煮,還有的適合烘焙,不同的科學問題也需要不同的人工智慧技術。許多近期開發的人工智慧模型屬於生成式模型,它們能夠根據自然語言生成答案和影像。而另一些模型則是模擬器,可以預測物體的屬性或行為。
然而,這些基礎模型中的每一個都具有廣泛的應用範圍,材料模型不只是試圖發現一種材料,而是會發現多種多樣的材料;大氣模型不是隻預測降雨,還能預測汙染等其他現象。這種多功能性是將一個人工智慧模型定義為基礎模型的關鍵特徵。最終目標是將多個模型整合在一起,建立更通用的模型,因為在其他領域,更通用且更多樣化的模型已經超越了單一功能的模型。
MatterGen:探索新材料
發現新材料看似是一個細分的專業領域,但實際上它是囊括了廣泛子領域的研發的重點之一,因為材料的種類繁多,包括合金、陶瓷、聚合物、複合材料、半導體等,而且原子組合成新分子的可能方式數以十億計。新材料的開發對於減少碳排放、尋找對環境或健康無害的替代材料至關重要。
微軟研究院的 MatterGen 基礎模型“能夠直接生成符合你設計條件的材料。”微軟劍橋研究院的首席研究員謝天表示。科學家們不僅可以告訴 MatterGen 他們想要創造的材料型別,還能指定所需的機械、電氣、磁性和其他屬性。“它給材料科學家們提供了一種方法,為他們想要設計的材料提出更好的假設。”謝天說。
微軟劍橋研究院首席研究員謝天
“相比以往的方法,這取得了重大進步,因為人工智慧在生成材料方面的效率,比篩選數百萬種潛在組合以滿足科學家標準的方法高出三到五個數量級。”謝天說,“MatterGen 基於科學家設定的標準直接構建解決方案,而不是從所有可能性出發,透過反覆篩選直到找到少數符合科學家標準的組合。這遠比在實驗室中透過反覆試驗來創造新材料要高效和經濟,當然合成新材料候選物所需的實驗室工作仍是必不可少的。”
MatterGen 屬於擴散模型,這是一種用於影像創作工具的人工智慧架構。不同的是,MatterGen 用於生成新材料。然而,要訓練一個基礎模型,人類數十年甚至幾個世紀以來積累的實驗資料都遠遠不夠,但由於物理和化學等科學領域遵循既定的數學方程,所以透過多次計算這些方程就可以產生所需的大量高質量訓練資料。研究團隊利用密度泛函理論這一量子力學方法透過高效能計算,為 MatterGen 生成了約60萬個結構的訓練資料。
現在,微軟的 MatterGen 研究團隊正與合作伙伴攜手驗證其生成的一些材料。下一步,團隊還計劃探索聚合物的回收利用,以及開發可用於碳捕獲的金屬-有機框架。“目前,我們主要聚焦於無機材料,但我們期望未來能夠將研究擴充套件到更加複雜的材料領域。”謝天表示。
MatterSim:預測新材料的行為
儘管有人工智慧的幫助,但創造新材料的過程依然充滿挑戰。與 MatterGen 常常配套使用的 MatterSim 能夠模擬並預測新材料分子的行為屬性。如果模擬結果未能達到科學家的預期,那麼他們可以透過 MatterGen 進行迭代調整,就像微調 Microsoft Copilot 提示詞一樣不斷最佳化輸入,直至滿足科學家的需求。然而,與 MatterGen 不同的是,MatterSim 並不是生成式人工智慧而是一個模擬器,它能夠確定分子在不同溫度和壓力條件下的屬性和行為。
MatterSim 採用了 Graphormer 架構,該架構基於 Transformers 理念,類似於大語言模型透過拆分單詞或句子來學習預測句子中的下一個單詞,只不過 MatterSim 是微軟研究院專為材料行為和屬性預測而開發的模型。“MatterSim 是基於原子語言訓練而成的。”微軟研究院科學智慧中心首席研究員陸子恆說,“預測材料的行為對化學家至關重要。更重要的是,模型從整個元素週期表中學習,掌握了原子的語言。分子在嵌入空間中呈現怎樣的形態?如何將分子的結構轉換為機器可理解的向量?這是 MatterSim 除了預測材料屬效能力之外最重要的事情。”
微軟研究院科學智慧中心首席研究員陸子恆
MatterSim 還採用了主動學習的方法,這與學生備考的學習方式相似。當模型接收到新資料時,它會自己判斷對資料的掌握程度。如果掌握程度較低,那麼這些資料就會進入模擬中重新訓練模型,就像學生學習他們尚未掌握的知識點一樣,而不是學習那些已經熟悉的內容。
由於關於分子行為的資料非常有限,所以研究團隊採用了量子力學的計算方法來生成合成資料,這與 MatterGen 的處理方式相似。其結果的準確性是之前模型的十倍,“因為我們能夠生成資料來覆蓋前所未有的材料空間,這使得模型非常精確。”陸子恆說。
目前,MatterSim 專注於無機材料,但未來會擴充套件至其他型別。“MatterSim 是一個特定領域的基礎模型。人工智慧科學領域的科研人員正向一個統一的大型基礎模型邁進,這個模型能夠理解整個科學語言,包括分子、生物分子、DNA、材料、蛋白質,所有這些以後都將統一,但就目前的 MatterSim 而言,我們統一的是整個元素週期表。”陸子恆說。
Aurora:革新大氣預測
長期以來,計算機對天氣預報至關重要,它透過解析物理或流體動力學方程來模擬大氣系統。“如今,人工智慧和基礎模型帶來了前所未有的新機遇。”微軟研究院科學智慧中心首席研究員 Paris Perdikaris 表示,“我們應該走出去,儘可能地觀察世界、收集資料,然後訓練一個人工智慧系統來處理這些資料,從中提取模式,並幫助人們預測天氣等。”
右邊的球體顯示的是 Aurora 的天氣預報,左邊的球體顯示的是測量到的實際情況
“人工智慧的顯著優勢在於一旦訓練完成,它就無需依賴龐大的計算資源。目前,使用超級計算機全天候執行來生成10天的天氣預報大約需要兩個小時。”Perdikaris 說,“相比之下,微軟的大氣基礎模型 Aurora 能在幾秒鐘內完成同樣的任務,卻僅需一臺配備 GPU 的臺式電腦。人工智慧方法帶來了計算效率的提升和預測成本的降低。”
Aurora 還提高了準確性,因為它不僅使用了基於物理模型的資料,還融合了來自衛星、氣象站和其他來源的真實世界資料,“這些資料能更真實地反映現實情況。” Perdikaris 說,“由於能夠接觸到更多樣化的資訊源,Aurora 可以將它們融合起來,從而產生比現有的傳統模擬工具更為精準的預測。”
Aurora 是一個大型神經網路,一種視覺 Transformer,它經過了1.2PB資料的訓練——這大約是網際網路上所有文字資訊總量的十倍。“然而,與描述整個地球系統所需的資料量相比,這只是冰山一角。”Perdikaris 指出。
微軟研究院科學智慧中心首席研究員 Paris Perdikaris
針對三大常見天氣問題:未來十分鐘內這裡是否會下雨?未來10天內全球天氣將如何變化?未來數月甚至數年的天氣情況是怎樣的?這在過去通常需要依賴不同的預測模型來解答。而 Aurora 及其未來的擴充套件模型將會使用同一個模型來回答所有這些問題。
Aurora 最初是基於天氣資料進行訓練的,但透過結合大氣化學資料進一步微調後,該模型還能夠預測汙染水平。“我們最初的假設是利用模型從天氣中學到知識,並嘗試將其遷移到由不同物理定律支配的新任務中,例如大氣化學,然後觀察其效果。”Perdikaris 說,“令人驚訝的是,這種方法不僅可行,而且初步結果讓人相當驚喜。”人工智慧的優勢在汙染預測中更加明顯,因為汙染預測的成本是天氣預測的十倍。
讓科學發現觸手可及
陸子恒指出,這些人工智慧基礎模型能夠極大地激發學生對科學的興趣。在他求學時,他需要在白板上寫出方程來理解抽象的科學概念,“但現在有了這些模擬工具,我們用電腦就可以進行統計分析。你可以直接在螢幕上即時觀察分子和材料的反應與行為,對實際發生的現象有一個直觀的感受,而不僅僅是看著紙上的方程。”
微軟的科學基礎模型全部是在微軟 Azure 雲平臺上從零開始構建的。微軟計劃提供這些模型的早期版本,以推動科學發現的普及,並從社群收集反饋。“這些反饋將用於識別實際應用場景,以進一步指導和完善模型的未來版本。”Kruft 說。
基礎模型有望徹底改變人們的日常生活並給行業帶來變革。透過加快科學發現的步伐,基礎模型不僅有潛力推動醫學和材料等領域的快速發展,而且還提供了對原子、分子和蛋白質等複雜系統的更深入洞察,Kruft 說,這些深刻的洞察將為眾多行業開闢廣闊的商業機遇。
相關連結:
Aurora:
https://microsoft.github.io/aurora/intro.html
MatterGen:
https://www.microsoft.com/en-us/research/blog/mattergen-property-guided-materials-design/
MatterSim:
https://www.microsoft.com/en-us/research/blog/mattersim-a-deep-learning-model-for-materials-under-real-world-conditions/
TamGen:
https://www.microsoft.com/en-us/research/publication/target-aware-molecule-generation-for-drug-design-using-a-chemical-language-model/
Graphormer:
https://www.microsoft.com/en-us/research/project/graphormer/
你也許還想看:

相關文章