
2024年10月的第二個星期,諾貝爾獎的歸屬陸續揭曉。其中,諾貝爾物理學獎和化學獎相繼頒發給了在人工智慧與基礎科學交叉領域取得重大突破的科學家們。
一時間,網際網路上段子齊飛——
“物理學真的不存在了嗎?”
“Physics應該寫成PhysiCS!”
……
但很快,最初的驚訝便平息下來,大眾漸漸意識到,包括物理學、數學在內的基礎學科一直在為AI的發展提供理論基礎與方法論支援,而AI強大的資料處理能力和模式識別能力也在越來越深入地應用於科研中。當低垂的果實都被採摘殆盡,AI正幫助科學家解決更具挑戰性的難題。
AI for Science(簡稱AI4S)已成為常態,而諾獎更像是一個明確的訊號——人類再一次站到了科研正規化的轉折點上。
在本文中,我們將主要探討以下幾個話題:
-
人類的科研正規化經歷了哪些變遷?
-
GPT目前仍是會出錯的猜測機器,用來輔助科學研究靠譜嗎?
-
什麼是AI4S,為什麼是現在?
-
科研全流程主要分幾步,AI如何被嵌入其中?
-
為什麼說AI4S已經驅動AI製藥進入2.0時代了?AI製藥1.0時代和2.0時代有什麼不同?
-
AI4S的應用前景如何?以化學、生物、材料等領域為例。

互動福利
你如何看待AI for science?歡迎在評論區和我們聊聊。我們將隨機挑選5位讀者,分別送出峰瑞行研手冊一份。

/ 01 /
為什麼AI能極大地助力科學研究?
▎科研的第五正規化
人類科研正規化的發展是一個螺旋式上升的過程——最初是基於觀測資料歸納的經驗正規化,以開普勒為代表,他透過觀察和簡單的數學計算,發現了行星運動的定律;接著是第一性原理驅動的理論正規化,代表人物是牛頓,即從事物的本質出發,發現事物的規律,並用方程來描述;隨著資料量越來越大,再回到計算正規化、資料驅動正規化。
資料驅動的方法儘管可以有效地透過資料發現事實,但是不能很好地幫助人們找到事實背後的原因。基於第一性原理列出的數學方程,則往往不好解。AI4S這種融合第一性原理驅動和資料驅動的第五正規化應運而生。

一個簡單的方程可以幫助你理解第五正規化。
𝑋=𝑋(𝜃) + 𝜖
藍色的𝑋(𝜃)是某個描述物理世界的理論方程,但基於實驗觀測列出的理論方程必然存在能力邊界,無法完全精準地還原物理世界(即綠色的X),所以會存在一個𝜖,代表理論和實際間的殘差。
這就到了AI大放異彩的地方。簡單來說,AI不僅可以幫助計算殘差,還能幫助求解理論方程𝑋(𝜃)。
可能有人會說,我用過ChatGPT,有時它說出來的話很不靠譜 ,AI誠然有強大的生成和輸出能力,但它本質還是一個猜測機器。ChatGPT的語言生成都是按照一定的機率計算出來,猜測機器往往會出錯,用於科研難道沒問題麼?
沒錯,但問題也能解決。我們在使用AI工具增強科學研究能力的同時,只要結合科學驗證,就能把“垃圾”過濾掉,留下有用的部分。
事實上,當前AI已經被廣泛應用於科學的各個領域。基於AI的演算法,可以極大地提高第一性原理進行建模的效率和準確性。透過提供新的實驗設計、更準確和高效的實驗表徵演算法,甚至新的實驗裝置,AI還可以改進我們做實驗的方式。
比如在數學領域,數學家會利用計算機輔助計算、提出猜想和進行數學證明;比如在物理領域,AI可以在量子力學和經典的粗粒度模型之間架起一座橋樑,將不同尺度的物理模型有效連線起來;比如在化學領域,AI被用於設計化學分子或化學反應;又比如在生物領域,AI被用於設計生物分子或藥物;在材料領域,對AI的使用加速了新材料的探索、設計、合成與最佳化……
可以說,AI4S正成為推動科技革命和新質生產力發展的核心之一。
▎下一次科技革命,將是數字和原子世界的深度融合
如果我們回看人類此前經歷的工業革命和電氣革命,二者的創新進展大都是隨牛頓力學體系、熱力學理論、麥克斯韋電磁場理論等宏觀物理定律的建立而催生的。
然而進入微觀世界後,一切都不一樣了,宏觀物理定律或許不再好用。於是,專門用於解釋微觀世界物理規律的量子力學應運而生,開啟了第三次科技革命。可以說,量子力學誕生後,人類正式進入了微觀正規化。此後,半導體技術飛速發展,計算機越來越普及,網際網路和移動網際網路技術日新月異,AI技術不斷突破,科技創新從物理世界逐漸轉向到數字世界。
然而,按照康波週期,或者螺旋式上升的發展規律,下一次科技革命可能會從數字世界回到物理世界,當然最有可能的,還是數字世界和物理世界的深度融合。一旦要在物理世界實現創新,對微觀粒子(電子、原子、分子)的測量、計算、調控和製造就變得至關重要。
這正是AI可以大顯身手的領域,從狹義角度來看,AI4S可以研究微觀粒子和其之間的相互作用,也就是研究微觀世界的底層規律,這也是物理世界的重要基礎。AI4S將推動下一次科技革命。

何謂微觀世界?
微觀與宏觀相對,一般指肉眼看不到的尺度。物理學裡的微觀,是指原子尺度小於零點幾奈米;生命科學裡的微觀,一般是匹配生物大分子的尺度,例如幾個奈米到幾十個奈米;材料科學裡的微觀,則是指材料直徑小於10個奈米(1奈米等於一百萬分之一毫米)。

舉個例子。
如果碳原子按照蜂巢晶格的片狀結構排列,就是石墨烯。如果按照呈正四面體連線成無限的三維骨架,就是金剛石。同樣是碳原子,但因為排列和相互作用方式不同,就會有不同的效能。而在碳的基礎上,繼續加上氫、氧、氮,並以一定形式排列,就組成了雙螺旋結構的DNA,即整個生物學的構成基礎。
所以我們會說,研究微觀就是在研究不同物質的分子組成(或者是序列)。我們關心分子的結構、動態,以及由結構和動態形成的功能。
如果用傳統物理計算的方式來算分子模擬,會面臨“維度災難”,即隨著變數的增加,問題的複雜度會呈指數級增長。特別是面對大系統和長時間尺度的模擬,不僅耗時高、模擬成本高,也很難算準。
在量子力學建立之時,英國物理學家狄拉克就曾樂觀地預言,尋求基本原理的任務已大體完成,但因為其數學問題太複雜,變數函式太多,當變數個數增加時,計算量呈指數級增加,故而用基本原理來解決實際問題會非常困難。
例如各類多體問題,藥物和材料設計、蛋白質摺疊、湍流、塑性力學和非牛頓流體力學等,即便用上超級計算機也非常難以精確求解。所以,很長一段時間,人們會認為科學裡有些問題就是沒法算的,因為維度真的會高到爆炸。
AI特別擅長解決高維的數學問題。就像鄂維南院士2022年5月在《再談AI for Science》報告中提到的,解決高維的數學問題,恰恰是深度學習或者說AI擅長的,深度神經網路對高維函式提供了有效的逼近方法。因為當利用神經網路逼近函式時,模型需要的引數和維度無關。
舉個簡單的例子。AI擅長影像識別,影像識別就是一個高維的問題。比如一個解析度為32×32的影像,它的維度就是32×32畫素,每個畫素有三種顏色,那就大概是一個32×32×3=3072的維度。與之形成對比的是,人類能解的經典方程式是波爾茲曼方程,它在形式上是一個維度為7的微分積分方程,其涉及到七個獨立變數:三個空間座標、三個速度座標以及時間。
/ 02 /
AI的突破性發展,驅動AI4S
為什麼我們最近越來越感覺到AI4S的重要性?這主要得益於近幾年AI的突破和溢位效應。
▎基礎設施(infra)革命
作為AI基礎設施的領導者,這些年英偉達GPU的迭代速度逐漸突破摩爾定律的限制,推動了計算的蓬勃發展。2024年6月,英偉達CEO黃仁勳在computex 大會上講到,過去八年來,AI的運算速度增長了1000倍,能耗降至原來的1/350。AI的發展,極大地拓寬了科技創新的邊界。
▎演算法革命
-
自監督學習:自監督學習標誌著AI學習方式的一個重要進步。上一代的AI在進行許多學習任務時,是需要做資料標註的,但也正是受限於此,無法真正處理大資料,得到大模型。相比之下,自監督學習無需人類專家提供標籤或答案,可以自主學習海量的未標註資料。透過利用資料自身的結構和屬性,自監督學習可以提取資料特徵,作為監督訊號來訓練模型。
-
Transformer: Transformer是一種廣泛應用於自然語言處理中的特徵提取器,透過引入注意力機制,能夠並行地處理序列資料。作為效能最佳的特徵提取器,Transformer已經成為深度學習模型的首選架構。
-
大模型/預訓練:利用大量未標註資料進行預訓練,然後根據不同的任務和場景,在有標註的資料上進行有監督的學習,根據特定任務和場景調整和最佳化。
-
生成式AI:分析現有資料的分佈,基於此生成多樣性的設計,例如可以被用於生成小分子或者蛋白。
-
幾何深度學習:特別適用於處理帶有幾何形狀的圖(graph)或者流形(manifold),例如原子和分子。這類深度學習方法在特徵提取過程中,能夠保持物件的拓撲特徵(即幾何不變性),從而更好地捕捉資料的幾何結構。
-
強化學習:在獎勵函式的驅動下,agent(智慧體)透過與環境的互動來學習最優的行為策略,以實現獎勵最大化。
-
基於物理的AI:將物理模型作為先驗知識,代入到AI演算法中。這是一種深度融合物理模型與AI演算法的方法。
-
主動學習:主動學習是指對需要標記的資料進行優先排序,對於需要優先探索的點,會升高優先順序的一種策略。這樣可以確定哪些資料對訓練監督模型會產生最大的影響。
綜上,在當下這個時間點,AI4S能發展起來的重要前提是演算法和算力都實現了巨大的突破。在此基礎上,越來越多的科研人員開始將AI用於科研的各個環節。
/ 03 /
AI怎樣被嵌入科研全流程?

一般情況下,科研的全流程主要包括幾步:首先,提出一個科學假設;接著,透過實驗獲取資料,對資料進行分析,看是否符合此前提出的假設。如不符,就修改科學假設,繼續實驗、分析、調整,直到完成對假設的驗證。

這個過程中的每一步,AI都能發揮重要作用。AI已經被廣泛用於學習實驗資料中的表徵、精修測量結果、生成科學假設、指導實驗和利用agent(智慧體)實現自動化、探索理論空間等。
AI4S可以解決不少領域的問題。它可以用於天氣預報、電池設計、製藥領域的高通量虛擬篩選等等,既可以解決極其宏觀的問題,也可以解決非常微觀的問題,例子見下圖。

AI4S大概可以分為三種類型。
▎資料驅動為主 (AI+資料)
代表案例是DeepMind公司開發的蛋白質結構預測演算法AlphaFold2。AlphaFold2完全是資料驅動的,沒有用到任何物理模型,輸入蛋白的序列(更準確的說是Multiple Sequence Alignment,簡稱MSA,多序列比對),就能得到蛋白的結構。
當今年諾貝爾物理獎頒給研究人工智慧的科學家時,在峰瑞內部,我們開玩笑地猜,AlphaFold2會得諾貝爾化學獎。
為什麼?一方面,因為結構決定功能,結構極其重要,而蛋白的結構預測是結構生物學、藥物研發等領域的聖盃。
另一方面,因為這是第一次透過計算方法達到了實驗的精度。此外,過去60年間,人類透過實驗手段測得了20萬個蛋白的結構,AlphaFold2在不到3年時間裡就成功預測了數億個蛋白質結構,這意味著實現了萬倍以上的效率提升。

AlphaFold2之所以能夠成功並準確預測,原因之一是引入了多序列比對(MSA)的資料。過去數十年間,隨著生物技術的不斷發展,人類已經積累了巨量的宏基因組資料。這使得我們可以對某個蛋白去做蛋白質序列的多序列比對,即分析和比較同一蛋白在不同物種(人、豬、雞、魚、真菌、細菌等)中序列的異同。也就是說,結構比序列更保守,序列的變化模式也提示了結構資訊。
某種程度上可以說,AlphaFold2是一個完全基於資料的、以多序列比對為條件約束的蛋白結構生成模型。具體而言,使用者只需輸入蛋白質序列的資料,AlphaFold2就能透過其強大的演算法和模型,計算出高度準確的三維結構,就如同藉助了先進的統計機器來高效地完成蛋白質結構預測。
此前,大家經常有個疑問:AI驅動的各種模型到底能不能精準地解決問題。在我看來,AlphaFold2給了我們很大的信心,因為它就是一個用AI把蛋白質結構預測做得特別好的例子。
▎模型驅動為主 (AI+物理模型)
模型驅動為主的AI4S,是用AI來連線、處理各種尺度的物理模型或者基本原理。
這些物理模型和基本原理透過常規方法往往難以求解,或者說當前的資料量不足以來實現有效觀測和計算的,例如薛定諤方程、波爾茲曼方程、密度泛函、分子動力學、量子力學等等。

我們在上面提到過,資料驅動的AlphaFold2能夠成功的一個前提,是有相關的海量資料。然而在很多領域,一個典型的難題恰恰在於資料的匱乏。此時,AI4S的任務是,幫助求解物理模型,從而解決問題。
以深勢科技的深度勢能面計算來舉例:

利用密度泛函或者量化計算來計算勢能,是一個複雜度為O(N³)的問題,其計算量和複雜度隨著粒子數量的增加迅速變得無法承受。深勢科技利用AI對高維勢能面進行高效取樣,AI結合量化計算,把複雜度降到了O(N)。
具體而言,上圖左下三個藍色的球,代表勢能面上的3個點,可以用物理基本原理的方法分別較為準確地算出勢能面上3個點的能量,然後讓神經網路去學習精準物理計算的結果,得到一個深度勢能的神經網路。那麼下一次如果還需要計算勢能面上某個點的能量時,就無需再呼叫量化計算,AI已經可以自行完成計算並直接輸出答案,實現量化計算的精度+經驗力場的速度,既準又快。
▎模型和資料深度融合 (AI+物理模型+資料)
第三種類型是將觀測、測量的資料和(物理+AI)模型深度融合,常被用於藥物設計、天氣預報、受控熱核反應等領域。
以我們峰瑞投資的創新企業劑泰醫藥為例。
劑泰醫藥利用AI設計LNP(即脂質奈米顆粒)。LNP是一種具有均勻脂質核心的脂質囊泡,用於遞送核酸藥物,避免其在遞送過程中的降解和提前釋放。新冠的mRNA疫苗就是採用LNP遞送的。
LNP將活性分子以適當的濃度,在適當的時間,遞送到正確的位置。這是一個跨尺度的複雜過程。這個過程涉及多個不同的尺度範圍:分子和奈米尺度、細胞尺度、器官尺度。
在分子和奈米尺度,要考慮陽離子脂質的成分,以及數以萬計的分子如何組裝成LNP顆粒;在細胞尺度,要考慮LNP如何進入細胞,以及在胞內是否會發生內涵體逃逸,避免藥物發生降解而失效;在器官尺度,需要對LNP和血漿蛋白的相互作用進行模擬,預測血管外滲和器官靶向性質等。
在對這個過程進行研究和分析時,AI可以快速生成分子設計用的百萬量級的脂質庫;AI也可以預測遞送效果,為實驗設計提供指導;而物理模型可以提供微觀層面的物理機制解釋,例如,預測某種LNP能否發生內涵體逃逸;真實的實驗資料成為模型最終的判據和迭代的根據,來不斷完善和最佳化模型。AI+物理模型+資料共同推動LNP遞送技術的發展。

/ 04/
AI4S在化學、生物、材料領域的具體應用
在數學和物理學領域,AI4S主要適用於解決基礎問題;在化學、生物和材料領域,利用AI來發現新藥、發明新材料、生成新分子,則有著強大的產業前景和商業潛力。
▎AI製藥,已進入2.0階段
AI製藥是AI4S的重要應用領域與分支。它是指利用AI技術對藥物研發、藥物設計、藥物篩選、臨床試驗和藥物生產等各個環節進行創新和最佳化。我們認為,經過近十年的發展,AI製藥已經邁進了2.0時代。
2016年起,“IT+BT(生物計算)”就是峰瑞資本的投資主題之一,我們也因此完整地參與了國內AI製藥1.0時代的投資熱潮與行業發展。
AI製藥1.0時代和2.0時代有什麼區別?
主要還是以演算法的變革來劃分。AI1.0是判別式AI,AI2.0則是生成式AI。對照到AI製藥領域,我們可以不太嚴謹地劃一條線,2022年以前成立的AI製藥公司主要基於判別式AI,屬於AI製藥1.0時代的公司;2022年後成立的AI製藥公司,則主要基於生成式AI,屬於AI製藥2.0時代的企業。
1.0時代的公司大多瞄準藥物研發的臨床前階段,並集中在小分子藥物發現領域。在生物醫學領域,小分子通常指的是分子量小於500道爾頓的有機化合物,例如由苯環、羧基和乙醯基等部分組成的阿司匹林分子;而大分子通常指的是分子量超過1000道爾頓的生物分子,包括蛋白質、核酸、多糖等。
其實,用AI做小分子藥物研發算是挑了一個極具挑戰的題。在10的-10次方米的尺度下,要精準刻畫小分子和蛋白的相互作用是非常困難的。既沒有足夠多高質量的資料,AI還屬於初代的判別式AI,很多團隊其實是用“物理+AI”的方法來彌補相對薄弱的技術底層。
不成熟的工具,加上最難的命題,確實是“Hard”模式。
從“Hard”模式起步,不止發生在AI製藥領域。類似的,AI在醫療影像領域的應用一開始是奔著直接替代醫生去的,初代自動駕駛目標也都定在L4級別(汽車能夠實現完全自動駕駛)……但做著做著,經過非常多年的發展,期間也會經歷泡沫破裂,在技術越來越成熟的同時,大家設定的目標反而會越來越收斂。
回到AI製藥。1.0時代的公司的主流商業變現路徑包括軟體服務、CRO、藥物管線開發。整個AI製藥行業在2022年達到融資高峰後開始遇冷。不過,頭部公司仍然活得不錯。除了企業家精神與團隊能力,這些頭部公司還受益於上一輪資本週期中流動性相對充足,鉅額的資金集中流向了它們,比如晶泰科技在IPO前累計融資額高達7.32億美元,英矽智慧融資額超過4億美元。
如果資本退潮延續下去,80%的公司可能都會因融不到足夠的資金而倒下。可就在大家覺得行業正在面臨價值重估的時候,新的技術突破可能會再一次帶領我們殺出了重圍。
過去兩年內,技術發展日新月異:
-
先是2020年12月,AlphaFold2在CASP14(蛋白質結構預測關鍵評估)中表現出了足以媲美實驗室水平的蛋白質結構預測能力;
-
2022年11月,ChatGPT橫空出世;
-
2023 年7月,David Baker團隊公佈了RF diffusion,蛋白設計從物理計算轉向AI,在成功率與設計效率上有了顯著提升;
-
2024年5月,AlphaFold3釋出,不同於AlphaFold2只能預測蛋白質結構,AlphaFold 3能以前所未有的準確度預測包括蛋白、多肽、核酸等所有生命分子的結構和相互作用;
-
2024年6月,可以實現新型蛋白質生成的ESM3釋出,這是由初創公司 Evolutionary Scale開發的生命科學領域的大模型……
我們有一個有意思的觀察,過去幾年AI製藥公司的PMF(product-market-fit)按照小分子-大分子-小分子的方向在發生變化,
這也是一個螺旋式上升的過程。
1.0時代的公司很多是在研究小分子,而上述我們提到的這些技術進步主要發生在大分子。以人類能夠利用AI預測單體蛋白結構和進行從頭蛋白設計為標誌,AlphaFold3的誕生,利用diffusion在全原子尺度去學習生物分子間的相互作用,特別是小分子和蛋白的結合,又讓關注點重新回到小分子。
此外,技術的進展也從研究分子的結構,延展到研究生物分子之間是如何相互作用、組成分子機器,併產生功能。這也正是結構生物學關注的核心。

如今,AI製藥企業可及中的工具顯然比1.0時代要更多和更好了。做個粗略和激進的估計,1.0時代的底層技術可能也就相當於當下的1/5至1/10?且技術還在快速迭代中,這怎能讓人不對未來十年充滿期待?
據不完全統計,目前國內大概有一百來家AI製藥企業,估計最後能夠上市或者有機會走向市場的是極少數。其中,峰瑞早期參與投資的晶泰科技於2024年6月在港交所上市,是港股18C,也是AI製藥第一股。晶泰科技還被納入香港恒生指數成份股。
假若這批公司裡最終能有5-10家企業成功上市,那麼,按照當前技術發展日新月異的程度,未來十年應該會有更多誕生於AI2.0時代的AI製藥公司能上市,或許會是一個三到五倍的數量。
這也是峰瑞一直在持續關注這個領域的原因。因為技術的大變化,往往會帶來商業機會。我們看好AI製藥1.0時代的公司把最新的模型用到其有積累、有優勢的應用場景裡,也看好乘著AI2.0浪潮而起的製藥公司們依託更前沿的技術來做創新。
▎AI 在生物領域的應用機遇
整體而言,AI在Biotech中的應用,可以分為三個層次:
一是GPT驅動的自然語言處理的進步,直接應用於生物醫療知識的提取。我們有大量生物和藥物研發相關的知識,BioGPT、BioLLM這類擅長理解生物學概念的大語言模型,可以非常有效地從科學資料和文獻中提取出知識和關鍵點。比如我們可以讓大語言模型閱讀3000萬篇文獻的摘要,然後從中發現一些此前未被發現的知識連線。
二是聚焦於計算生物大分子本身,沿著DNA-RNA-Protein的路徑,來預測和設計這些生物分子的序列-結構-功能。
三是生物分子相互作用的計算,包括蛋白和蛋白的相互作用,蛋白和小分子的相互作用,或者蛋白的摺疊過程。這也正是AF3在解決的問題。
在明確了要解決的問題之後,再來看AI for bio的三個主要技術前沿——以David Baker為代表的蛋白設計RF diffusion、Deepmind的AlphaFold2與AlphaFold3、多模態生成大模型ESM3。整體而言,這三條技術路線都是從只能做結構預測,到最後能夠設計生物分子。

接下來,我們來逐一解釋。
-
以美國生物化學家、2024年諾貝爾化學獎得主David Baker為代表:基於擴散模型的蛋白質設計工具RoseTTAFold Diffusion(下簡稱 RF diffusion)
簡單來講,RF diffusion是使用去噪擴散機率模型,透過逐步降噪的方式來設計蛋白質。
去噪擴散機率模型最初是用於音訊或圖片的生成。如下圖,透過在貓的影像上不斷新增高斯噪聲,使得影像最終變成一個高斯分佈的純噪聲。訓練AI去預測降噪的結果,當AI學會了逐步降噪,你就可以輸入一個純噪音,利用逐步降噪,生成類似影像的資料分佈。

有趣的是,去噪擴散機率模型是受非平衡熱力學的啟發。
舉個例子,將一滴墨水滴入水中,墨水會在水中形成一個斑點,漸漸散開。想要直接模擬墨水剛滴到水裡未擴散前的初始狀態的機率密度分佈,是十分困難的。但隨著墨水逐漸在水中完全擴散開來,分佈變得均勻,其機率密度分佈是好算的。非平衡熱力學的作用在於,它能將墨水擴散過程中每一步的機率分佈都描述出來。
由於擴散過程的每一步都可逆,所以只要“步子”足夠小,就可以從簡單的分佈倒著推斷出最初複雜的分佈。
去噪擴散機率模型非常適合蛋白設計。David Baker團隊將原有的摺疊演算法RoseTTAFold,巧妙地用擴散模型的方式進行訓練微調,透過蛋白資料庫(PDB)中大量真實的蛋白質結構資料加以訓練。最初,RFdiffusion會產生許多“噪聲”,接著透過反向的漸進式“去噪”,可以生成多種類似於已有,實則全新的蛋白質。
這就是AI4S奇妙的地方:物理學中的熱擴散原理啟發了AI中的Diffusion model,然後這個演算法又被用於做蛋白分子的設計。AI和科學互為上升的引擎。

蛋白設計的工作流程,包括主鏈設計-序列設計-計算篩選-實驗驗證等,每一步都有不同的計算工具。
David Baker組做出了一系列突破,除了上述的用RF diffusion進行主鏈設計外,還發明瞭利用MPNN進行序列設計的演算法,利用AlphaFold2或者RoseTTAfold進行計算過濾後再來進行實驗篩選。經過AlphaFold2篩選的設計,透過實驗驗證的機率大增,這極大地提高了蛋白設計的效率。
下圖都是RF diffusion和RoseTTAFold設計出來的一些在癌症免疫和病毒等領域非常重要的靶點。如果不使用這樣的工具,可能費很大功夫還無法找到這些能夠執行特定任務的蛋白質,而這些蛋白質都是潛在的成藥分子。

正是憑著RF diffusion和ProteinMPNN,David Baker在2023年啟動了創業公司Xaira Therapeutics,還請來了有著“生物產業科技起點”之稱的基因泰克公司的首席科學官、斯坦福大學前校長Marc Tessier-Lavigne擔任CEO。Xaira在種子輪就拿到10億美元的融資,也是整個生物技術領域有史以來最大的融資之一。
-
Deepmind的AlphaFold2與AlphaFold3:從只能計算蛋白,到可以預測所有生命分子的結構和相互作用,AlphaFold3很大程度上擴充套件了AlphaFold2的能力,向商業化應用邁出了一大步。

AlphaFold2的架構: MSA + Transformer
在大語言模型中,我們會用到RAG(檢索增強生成)技術。它是一個為大模型提供外部知識源的概念,使大語言模型(LLM)能夠生成準確且符合上下文的答案,同時能夠減少模型幻覺。當我們向模型提出一個問題時,雖然檢索的是這句話,但模型會從資料來源中檢索相關資訊,得到一系列跟這句話相關的資訊,然後把這些全部作為給大語言模型的提示,相當於給模型餵了更多的知識,幫助它更好地輸出答案。
MSA(多序列比對)與RAG類似,模型會把同源蛋白的序列比對,作為模型的附加輸入。
此外,Alphafold2還利用這一波AI裡最大的創新,即transformer架構,實現了端到端的預測,並能更好地處理長序列中隱含的序列和結構的關聯。
AlphaFold3: AlphaFold2 + diffusion
AlphaFold3在AlphaFold2的基礎上,增加了Diffusion模組,取代AlphaFold2中的結構模組。
所以,我們可以說AlphaFold3就是一個以序列(MSA)為條件的結構生成模型,同時使用了Transformer、RAG和diffusion。

AlphaFold3的出現之所以讓大家特別激動,是因為人們發現在預測蛋白-小分子複合物結構的效能上,可能比基於物理的分子對接的方法更準。
在AI製藥1.0時代,大家通常認為AI是不靠譜的,用物理的方法更準確。即便到現在,找與某個靶點結合的小分子的主流的做法是分子對接。但AlphaFold3可能會改變這種狀況。當你輸入蛋白的序列和小分子的SMILES檔案後,模型可以在幾秒的時間裡給出共摺疊的結構。
也正因為如此,AlphaFold3表現出了非常強大的商業潛力。2024年初,Isomorphic Labs(Deepmind孵化的以製藥為目標的新公司)宣佈與禮來和諾華簽署了兩筆總價值近30億美元的大額訂單。
-
多模態生成大模型:從只能做預測,到能做設計和生成。
第三個前沿是直接用多模態的生成大模型“暴力”地進行計算。代表是EvolutionaryScale公司推出的蛋白質語言模型ESM3。
ESM3能夠靈活地選擇在序列、結構、功能上做提示(prompt),從而實現蛋白分子的生成。ESM3的訓練資料集非常龐大,包含超過27.8億種天然蛋白質,並透過合成數據增強到31.5億個序列,還包含2.36億個結構(實驗測定再加上AlphaFold2預測),以及5.39億個帶有功能註釋的蛋白質,token總數達到7710億。
開發團隊在三個規模上訓練了ESM3模型:分別為14億、70億和980億引數。他們發現,隨著模型引數規模的增大,模型的效能越好,證明了scaling law的有效性。
這也說明了資料化是至關重要的。其實AlphaFold能做成,一個前提是因為測序技術的進步,我們積累了巨量的測序資料來做多序列比對,補足了我們在結構資訊上的不足。此外,AI輸出的結果,也需要透過實驗來驗證。
綜上,這三種技術路線每條都在快速迭代中,三者都是在互相競爭中互相啟發,共同進步。RF diffusion是在AlphaFold2(Rosettafold)的基礎上,用擴散訓練的方式微調而來,AlphaFold3是在AlphaFold2的基礎上,加入了diffusion的模組,減少了對MSA的依賴。最終,它們可能都會收斂到一條相似的路徑,一個生物大模型。
峰瑞在生物醫藥+生成式AI領域也有投資佈局。其中,衡昱生物就致力於利用生成式AI來設計RNA分子。2024年6月,衡昱生物公佈了其開發的全球首個生成式AI設計mRNA藥物的技術平臺GEMORNA。相關文章在Science審稿中。衡昱生物也是國內首個在Nature正刊上發表mRNA文章的公司。
▎AI在材料領域的應用
材料是物理世界的基礎。每次大的科技革命,都離不開材料的革新。過去,重要的材料包括鐵、銅、水泥、和鋼;現在的支柱材料則包括矽、C-H、N等元素組成的各種半導體和高分子材料,以及生物分子。未來,奈米、生物基高分子、量子材料也有機會成為重要的材料。
新材料的發現和模擬,離不開AI。以GNoME為例。
2023年底,谷歌DeepMind的AI工具GNoME結合圖神經網路和主動學習,成功預測了220萬種晶體結構。其中38萬個穩定的晶體結構有望成為實驗合成的候選材料,為超導體、超級計算機供電等一系列未來技術的革新和發展助力。
和生物分子由序列表徵不同,材料或晶體適合用圖來表徵。GNoME採用了一種先進的圖神經網路(GNN)模型。在對材料進行了有效的表徵後,利用DFT+主動學習的方式來進行篩選。與此同時,使用密度泛函理論(DFT)來量化計算晶體的能量,在這個過程中,AI可以幫忙簡化計算,最終顯著提高發現速度和效率。
得益於GNoME的強大能力,人類已知穩定材料的數量增長了近10倍,達到42.1萬種。

DeepMind還稱,GNoME已發現了528 種有應用前景的鋰離子導體,其中一些可能有助於提高電動車電池的效率。
從新能源汽車電池到太陽能電池,再到計算機晶片等眾多領域,新材料的發現將極大地加速技術層面的突破。
新材料自主發現合成系統(無人實驗室)是材料領域當前發展的重要方向。無人實驗室致力於達到科學工作流程自動化的效果。它將機器人技術與從頭計算的資料庫、機器學習驅動的資料解讀、從文字挖掘的文獻資料中學習得到的合成啟發式方法,以及主動學習相結合,以最佳化粉末形態新型無機材料的合成。
比如美國勞倫斯伯克利國家實驗室與谷歌DeepMind團隊合作開發自主實驗室系統A-Lab,由人工智慧指導機器人制造新材料,在17天裡連續開展355次實驗,合成了58個目標化合物中的41個,成功率達到71%,遠高於人工實驗的成功率。
▎AI在化學領域的應用
代表案例是ChemCrow。
此前我們提到過大語言模型本身缺乏外部知識來源,所以RAG(檢索增強生成)技術能發揮價值,當我們向模型提出一個問題時,雖然檢索的是這句話,但模型會從資料來源檢索相關資訊,得到一堆跟這句話相關的話,然後把這些話全部作為給大語言模型的提示,相當於給模型餵了更多的知識,幫助它更好地輸出。
基於類似的邏輯,來自洛桑聯邦理工學院(EPFL)和美國羅切斯特大學的研究團隊開發了一款能夠完成有機合成、藥物發現和材料設計等多種化學任務的語言模型代理ChemCrow。
ChemCrow在大型語言模型GPT4的基礎上,集成了13種專家設計的工具,有的是做合成的,有的是做規劃的,有的是做測量的……。從結果看,GPT4+專家工具的組合拳,不僅增強了大語言模型在化學方面的表現,還可以自主執行化學合成任務,極大加快了化學和材料科學領域的研究進展。該團隊也獲得了Google前CEO Eric Schmidt的資助。
我們可以看到,AI正如火如荼地運用於生物、材料、化學等諸多領域,但總體來看,AI在生物領域的應用步伐是遙遙領先的——已經有第一代商業公司完成了上市,後起之秀也在前赴後繼。
最後,當人類再次站在科研正規化的轉折點,新浪潮洶湧而至,這背後挑戰將與機會並存。擁抱變化、融入變化、推動變化、定義變化,未來可期,吾輩努力。
互動福利
你如何看待AI for science?歡迎在評論區和我們聊聊。我們將隨機挑選5位讀者,分別送出峰瑞行研手冊一份。

▲ 從1980年以來的矽谷PC創新,看AI硬體的時代機遇
▲ 科技消費品如何出海?
▲ 中國醫療衛生體系40年:從過去到未來的探索之路 | 峰瑞報告
▲ 18張圖,讀懂全球供應鏈之變 | 峰瑞研究所
▲ 私有云時代來臨:AI NAS如何重塑你的數字生活?| 峰瑞研究所
星標峰瑞資本微信公眾號
一手商業思考及時送達
