ChaiDiscovery:OpenAI投資的AI4Sci公司,AlphaFold最快追趕者

作者:Xeriano、Cage
AlphaFold 3 獲得諾貝爾獎是 AI 智慧重要的里程碑,讓我們有信心類似 AlphaFold 的模型能為接下來十年的科學和生物結構發現起到關鍵作用。這個問題已經困擾了學界 50 餘年,如果我們用計算機軟體類比藥物設計,蛋白質序列是一串程式碼,預測蛋白質的摺疊結構則是把程式碼編譯為一個可執行的程式碼檔案,AI 模型在這個高維空間有著比人類專家更高的上限。
Chai Discovery 這家公司正是在 AlphaFold 方向上覆現開源最快的公司,獲得了 Thrive 和 OpenAI 3000 萬美金的種子輪投資,估值達到 1.5 億美金他們的模型 Chai-1 選擇的技術路線是用 Diffusion 模型做結構預測,和 AlphaFold 路線接近。
這是一個競爭激烈的領域,正在上演 Scaling Law 的驗證和落地。競爭對手 EvolutionaryScale 的 Transformer 模型已經達到了 98B,把文字模態對結構功能的解讀也融入了更大的生物模型中。但是在結構預測上,不到 1B 的 Chai-1 相比於 98B 的 ESM-3 仍然能夠在結構預測上取得領先我們認為短期內沿著 Diffusion 路線的 scaling 是在領域落地上更可行的,長期我們期待 scaling law 的全方位智慧提升。而 Chai 的創始人是 ESM 模型的早期貢獻者,在 Scaling Law 成立時也有能力切換到 Transformer 模型路線。

💡 目錄 💡
01 Why now?
02 藥物研發的市場分析
03 Chai 的產品
04 技術路線
05 收費模式
06 競爭對手
07 團隊及融資

01.
Why now?
Alphafold 3 作為諾獎級的成果,標誌著基於深度學習的蛋白質結構預測方法的快速進步,大幅超過了傳統的計算機輔助藥物設計 (Computer-Aided Drug Design,CADD)方法。而 Chai Discovery 是第一家迅速復現 AlphaFold 3 並開源釋出的公司。
以靶標-配體結構預測為例,這個任務是藥物有效性的重要判斷依據,需要預測靶點(目標蛋白質)和配體(藥物分子)之間的結合程度。透過預測蛋白質的三維結構,來找到靶標-配體結構預測等任務的解法,是測算候選藥物效果的關鍵因素,貫穿了藥物研發的整個週期,對於推進新藥研發至關重要。
傳統演算法中依賴 Autodock Vina 等基於力場的演算法,透過模擬與搜尋分子在受限空間內的最佳結合模式,從而預測配體與靶標的結合親和力。Alphafold 3 在該任務上表現超過傳統的 Autodock Vina 方法至少 50%。
值得注意的是,AI for Drug Discovery 並不是一個新鮮的概念,上一波 AI 製藥問題在於篩選出的藥物經過驗證仍然存在質量上的問題,長週期的臨床實驗對於藥物的實際落地還是頗有難度。18-21 年有一批 AI 製藥初創公司都獲得了大量融資,但是如今進展卻不是很樂觀,比如英國 AI 製藥獨角獸 Benevolent AI 由於主要候選藥物在臨床 2a 期試驗失敗,裁員近 50 %。
我們對於 AIDD 的樂觀在於智慧的大幅提升:類似 Alphafold 3 的專用模型相比 5 年前的技術又有了巨大的提升,有希望將人工智慧在藥物篩選和最佳化過程中的實際落地,同時 reasoning model 作為通用智慧能為科學家的探索和試錯提供很高的提效。這些進展都有望推動藥物設計進入全新的計算驅動時代。
02.
藥物研發的市場分析
2025 年全球新藥研發市場預計超過 3000 億美金,複合增長率超過 9% [1]。一款新藥平均的研發費用已經高達 23 億美金,歷時約為 10-15 年[2]。這個流程基於 AI 技術的加速,尤其是透過預測蛋白質的三維結構,來幫助進行潛在藥物的篩選。
如下圖所示,藥物研發通常歷經藥物發現、臨床前研究、臨床研究和新藥上市四個階段。以小分子藥物為例,在每個階段都有一些 milestone 和任務需要完成:
 藥物發現階段:在特定疾病相關的靶點得到確認之後,科學家需要從分子庫中尋找先導化合物(即能夠對靶點產生作用的物質)。之後再基於先導化合物進一步篩選,再對化合物進行化學修飾來提高對靶點的親和力,合成出數百個候選藥物進入臨床前研究階段。
 臨床前研究:在臨床前研究階段還需要對候選藥物的合成工藝、毒理等進行進一步的最佳化,只有在藥理學、毒理學和大規模開發上都符合要求的化合物才能入選。因此只會有一個或者數個分子能進入到臨床實驗階段,臨床實驗取得成功後藥物才能進入批准上市環節。
基於人工智慧的蛋白質結構預測主要作用在藥物發現與臨床前研究階段,因為在這些過程中需要不斷的篩選、最佳化潛在的藥物,藥物與靶點的結合程度是篩選時的一個重要判據。為了知道結合程度,就需要知道蛋白質的三維結構,也為人工智慧預測蛋白質結構提供了廣泛的應用機會。
在傳統的工作流中我們需要數月甚至數年的時間才能瞭解一個蛋白質的結構。其具體實現方式是從各種不同角度用顯微鏡去看蛋白質的投影,來還原出一個好的三維結構。這個經典的蛋白質摺疊問題在生物學中已經存在了 50 多年,直到最近才可以用計算方式做到高精度的預測。
藥物發現與臨床前研究大約佔據了藥物研發全週期 40% 的投入,耗時約 4-7 年,我們期待人工智慧技術能夠大大降低這一環節的成本並加速研發週期 [3,4]。加速生物醫藥發現的平臺型公司,有可能成為新時代的 Shrodinger/ Illumina,這是我們研究 Chai Discovery 的初衷。
03.
Chai的產品
Chai Discovery 目前的唯一產品是 Chai-1,一個結構預測 foundation model。其核心功能和 AlphaFold 比較類似。可以根據使用者給定的物質(包括蛋白質、小分子、DNA、RNA 以及它們的組合)的序列檔案,預測其三維構型並以 Pdb 檔案的形式返回。類比計算機語言,氨基酸的序列可以認為是一段程式碼,而預測三維結構就是要把程式碼編譯成可執行的檔案。
在產品形態層面,Chai-1 與競爭對手 EvolutionaryScale 或是 Isomorphic Labs 並沒有本質的區別:均是作為軟體平臺,透過模型雲上部署+提供網頁/API 介面來提供服務,在這一領域產品形態是收斂的因而模型本身的能力可能更為重要。Chai-1 可以進行藥靶結構的預測,即根據靶標(蛋白質)+ 配體(小分子藥物)的序列預測該聚合物在三維空間結合的構型,從而得知其結合程度,而藥靶的結合程度決定了該藥物具有的藥效。實際的製藥流程中使用 Chai-1 通常按照如下的流程:
 根據特定靶點,從分子庫中利用 Chai-1 測得不同分子下藥靶結合時的三維結構,根據物理方法計算結合能從而選擇結合程度較好的藥物分子。
 進行親和力實驗、細胞實驗等驗證候選藥物的有效性。
 若前序步驟篩選出的候選藥物分子不能滿足要求,則藥化專家可以基於當前的分子進一步最佳化設計新的分子,再利用 Chai-1 不斷的計算結合程度,以確認經過最佳化的藥物是否滿足要求。
上述過程會在藥物研發過程中不斷迭代。
此外,Chai-1 的一大特性是使用者可以指定一些待預測物質的結構限制(比如某蛋白測得在某些位點與特定分子的距離小於 XX 距離),這些結構限制一般可以從文獻或實驗中獲得,從而使得預測結果可以在溼實驗的幫助下更加準確。
Chai-1 有兩種訪問方式,第一種方式是透過 Chai 官方的網頁端,以藥靶結構預測為例,使用者可以分別輸入蛋白質的氨基酸序列和小分子的 SMILES 序列,即可提交到 Chai-1 的伺服器上進行結構預測,待一段時間後(通常需要數小時)使用者便可檢視結果,預測出來的結構以視覺化的形式呈現並且可以直接下載結構檔案。
Chai-1 的網頁介面
另一種方式是透過 API 進行訪問,Chai 與一系列雲計算平臺公司比如 Tamarind、LatchBio 和 Seqera(Tamarind 與 LatchBio 均是專注於與生物有關的計算技術的雲服務商,Seqera 是一家通用的雲服務商)達成合作,在其上部署模型並提供給使用者透過API的方式進行呼叫。類似於 OpenAI 的 GPT API,使用者可以透過 Python 程式碼批次的提交待測的物質序列,等待伺服器返回結果後,可以下載預測結果檔案。
04.
技術路線
目前實現蛋白質結構預測的技術路徑主要有兩條:
1)基於 Diffusion Model 構建一個專用於結構預測的模型,
2) 基於 Transformer 構建一個通用的端到端生物大模型,結構預測作為其中一個可以用來完成的任務。
Chai 所採用的技術路線是第一條,與 Alphafold 3 的結構接近並在其基礎上進行部分改進以進一步提高效能,其在2024年9月公佈了 Chai-1 模型,實現了略微超過 Alphafold 3 效能,值得注意的是此時 Alphafold 3 尚未開源權重,因而 Chai Discovery 的技術團隊展現出了不俗的技術能力,下面以 Chai-1 / Alphafold 3 和 ESM3 分別作為這兩條路徑的代表性工作,對這兩條路徑進行分析:
根據 Deepmind 公開的模型檔案大小 1GB 估算,
† 以 FP32 精度下 A100 的峰值 FLOPs 估算
 Diffusion:AF3/Chai-1 路線
推理時 Alphafold 3 的輸入是待測物質的序列,根據該序列會進行模版搜尋和基因搜尋(即所謂多序列比對(MSA)來尋找與待測物質類似且結構已知的物質來幫助進行結構預測),同時會生成待測物質的多個可能的構象, 這些檢索與生成結果均會經過特定的編碼器進行編碼,隨後經由一個 Pairformer 模組來建模分子間的互動作用,最後這些資訊都會輸入 Diffusion Model 去預測分子的三維座標。
相較於上一代 Alphafold 2,Alphafold 3 的核心最佳化在於引入了 Diffusion Model,簡化了多序列比對(MSA)的處理,減少了計算複雜度。也刪去了一些編碼的模組,使得模型可接受的物質範圍得到拓展,包括蛋白質、核酸、小分子或離子序列以及他們的複合體作為輸入,而 Alphafold 2 只能接受蛋白質序列作為輸入)。Alphafold 3 的訓練資料主要採用 Protein Data Bank (PDB) 中公開的蛋白質結構。此外為了增強蛋白質序列的處理能力,以及為了能夠處理核酸、小分子或離子序列,除了使用 PDB 資料,採用了部分合成資料。
Alphafold 3 的模型結構
 Transformer:ESM-3 路線
ESM3 是一個多模態蛋白質模型,主要結構基於雙向 Transformer(不同於 LLM 的單向 decoder-only) ,擁有序列、結構和功能三個模態的輸入和輸出,在進入 Transformer Blocks 前三個模態會融合到一起,從 Transformer Block 輸出後會分別解碼成三個模態。這樣的結構設計使得 ESM3 在推理時支援對於任意模態排列組合的預測,比如根據序列預測結構。下面依次介紹三種模態的輸入與輸出:
1)序列:形式為物質的序列,比如蛋白質的氨基酸序列。
2)結構:透過將三維原子結構編碼為離散標記作為輸入,以蛋白質序列為例,每個氨基酸附近的三維結構資訊會被 autoencoder 編碼為一個離散 token,輸出時再經過 decoder 生成完整的原子結構。
3)功能:文字形式的關鍵詞用以來描述特定結構的功能。
ESM3 的模型結構
ESM3 目前有 1.4B/7B/98B 三個版本,與 GPT 等語言模型類似,ESM3 存在明顯的 scaling 現象,即不改變模型結構,僅僅提高訓練的資料量和模型的引數尺寸,效能就會得到提升。例如在 tertiary coordination 任務上(一種結構預測任務)上三種尺寸模型的準確率分別為從 9.5%、19.0%、26.8%,隨著模型引數增加效果增長明顯。此外,ESM3 還進行了類似於語言模型中 RLHF 的偏好微調,進一步增強模型的指令跟隨能力,上述任務在三種尺寸的模型上效能升到 8.8%、37.4%、65.5%,有一個非常明顯的提升。
此外,Evolutionaryscale 於 2024 年 12 月推出了專注於表徵學習的蛋白質語言模型 ESM Cambrian (ESM C),同樣是基於 Transformer 的結構,有 300M/600M/6B 三個尺寸。在表徵學習的效能上,Evolutionaryscale 官方公佈的結果顯示 ESM C 6B 大幅領先 ESM2 15B。而表徵學習的能力與結構預測都屬於對於序列的理解能力。
ESM C 呈現出明顯的 scaling 特性
儘管目前的 ESM C 最大隻有 6B,但是 ESM C 同樣展現出了很明顯的 scaling 特性,實驗表明其效能符合冪律的 scaling law,在未來 Evolutionaryscale 也有可能會推出更大版本的(有可能是~100B 引數規模的)ESM C,也有可能在結構預測領域推出專有模型從而對 Chai-1 在結構預測上的效能優勢構成威脅。
對比分析
基於擴散模型的 Chai-1、Alphafold 3 相比與最大的 ESM3 98B 在結構預測單一任務上目前存在較大的領先,在 ESM3 的技術報告中對比了 ESM3 98B 與 Alphafold 2 在蛋白質結構預測資料集 CASP14 上的效能(0.763 vs 0.846),考慮到 Alphafold 3 相比於上一代又有明顯的提升(比如 AlphaFold 3 在另一個常見的蛋白質結構預測資料集 PoseBusters V1 大幅超過基於 AlphaFold 2 改進的蛋白質結構預測模型 AlphaFold-Multimer 2.3),可以推斷即使是最強的 ESM3 模型在蛋白質結構預測任務上仍然與基於擴散模型相差甚遠不過值得注意的是, ESM3 的優勢在於採用了一種通用的結構能夠進行多種預測或者可控生成,並且展現出了良好的 scaling 特性,在持續投入資料與算力的情況下模型能力有望進一步提升。 
但是,目前引數量最大的 ESM3 也有 98B(與 GPT-3 的 175B 為一個數量級),已經是一個很大的尺寸,繼續投入計算資源擴大模型的引數規模所能帶來的 scaling law 收益究竟有多少存在疑問。因而我們認為,在現階段 Chai-1 基於擴散模型這一技術路線,能夠在蛋白結構預測這一單一任務上取得效能的領先,在通用生物模型取得更好效能前擁有足夠多的時間搭建一個完整可用的產品推向市場。
05.
收費模式
截至目前,包括 Chai Discovery、Isomorphic Labs 和 Evolutionaryscale 均未公佈自己的收費模式。不過據分析其官網的相關說明,收費模式大機率是按使用量收費 (Usage-Based Pricing),即按照呼叫的次數或者 token 數量計費,比如 Chai Discovery 目前每天可免費使用 25 次,Isomorphic Labs 和 Evolutionaryscale 的網頁端均提及了 token 的計算方式。
在與 Chai 達成合作的雲計算平臺 LatchBio 上,可以按照所需服務的 GPU 時間進行購買,事實上等價於根據 token 和模型大小收費。以 LatchBio 上 Alphafold 為例,一個包含 235 個氨基酸的蛋白質序列在 Latch 上執行需要 32 分鐘,包含 64 個 CPU、256 GiB RAM 和 1 個 GPU,需要大約8.946176 (美金),計算方式為:32分鐘的執行時間 * (64個CPU * 0.003498 / 核心 / 分鐘 + 256 GiB RAM * 0.000166 / GB / 分鐘 + 1 個 GPU * 0.0132 / GPU / 分鐘)。此外,Chai Discovery 在 Tamarind 上,可以採分層訂閱制 (Tiered Pricing) 購買,每月有固定數量的API呼叫次數。
06.
競爭對手
自第一代 AlphaFold 釋出以來,人們就意識到了透過人工智慧的方法預測蛋白質結構是完全可行的,這一領域也湧入了相當多的玩家。
在此我們主要分析 Chai Discovery 的幾大競爭對手,包括 Isomorphic Labs,Google 在2021年專為人工智慧製藥成立的子公司,提出了 Alphafold 系列模型;Evolutionaryscale 基於 Transformer 的生物大模型 ESM 3 的提出者;Xaira Therapeutics,由 2024 年諾貝爾獎得主 David Baker 團隊作為主要技術團隊;Inceptive,創始人是 Transformer 的發明者 Jakob Uszkoreit。
• Isomorphic Labs
Isomorphic Labs 團隊由 Google DeepMind 分拆出來進行獨立研發,據報道目前團隊人數超過 70 人,CEO 是 2024 年的諾貝爾化學獎獲得者 Demis Hassabis 。成員過往參與了 Alphafold 系列模型的研發,Chai-1 所採用的技術也主要參考了 Alphafold 3 的技術路徑,因而該公司在技術實力上毋庸置疑。2024 年 5 月 Isomorphic Labs 聯合 DeepMind 推出了 AlphaFold Server,使用者可以基於網頁端訪問遠端部署 Alphafold 3 模型,對蛋白質、小分子、DNA、RNA 以及它們的組合透過序列進行結構預測,在產品形態上 Chai 與之也很類似。
此外,Isomorphic Labs 已經與一些製藥公司包括 Eli Lilly(禮來)和 Novartis(諾華)簽訂了商業合同,在與 Eli Lilly 的合作中,Isomorphic Labs 將從 Eli Lilly 獲得 4100 萬歐元的預付款。該合作包括潛在的基於績效的里程碑付款,總額可達 15.5 億歐元。該合作旨在發現針對多種疾病相關蛋白質和通路的小分子治療藥物,是Isomorphic Labs 的首個製藥夥伴關係;與 Novartis 的合作中 Isomorphic Labs 將獲得 3400 萬歐元的預付款,潛在的里程碑付款可達 11 億歐元。
 Evolutionaryscale
Evolutionaryscale 成立於 2023 年 4 月,其聯合創始人兼執行長 Alex Rives 曾在 Meta AI 領導了 ESM 系列模型的開發,在 Meta AI 解散其蛋白質 AI 團隊後成立了該公司。2024 年 6 月,EvolutionaryScale 在推出 ESM3 的同時,獲得了來自 Nvidia、Amazon 等投資者的 1.42 億美元的種子資金。
在技術路徑方面,相比於 Chai Discovery 聚焦於藥物結構預測,Evolutionaryscale 試圖打造一個通用的、類似於OpenAI GPT 的通用生物模型,能夠實現包括結構預測、藥物生成、藥物性質預測等在內的各種與製藥相關的任務。目前其所提供的服務的方式與 Chai 類似,即透過網頁端提供軟體服務,不過目前產品還處於內測中,使用者需要申請許可權並等待一段時間。值得注意的是,即使是 ESM3 98B 在藥物結構預測這一特定任務上,仍與 Chai-1 這種基於 Diffusion 的模型有較大的差距。
 Xaira Therapeutics
Xaira Therapeutics 成立於2023年5月,致力於利用 AI 技術系統性變革製藥產業,其聯合創始人 Nelsen 曾表示 “Xaira 不想改變一個小小的垂直領域,而是橫向思考整個系統”。Xaira 目前尚未推出任何產品,不過相較於 Chai 等構建一個軟體平臺供客戶使用,Xaira 試圖打造蛋白質靶向藥物軟體平臺、資料生產和自有管線三者結合的系統。
Xaira 早期處於保密狀態,直到 2024 年 4 月一次性從包括 ARCH Venture 和 Foresite Capital 等投資者處拿到了 10 億美金的 A輪融資,也是目前唯一一次融資。其團隊成員堪稱豪華,CEO 是前斯坦福大學校長與 Genentech 執行長 Marc Tessier-Lavigne,技術上除了有諾貝爾獎得主 David Baker 領導的人工智慧輔助蛋白質設計團隊,還有眾多在製藥行業有豐富經驗的藥化專家作為聯合創始人,比如首席醫學官 Paulo Fontoura曾在羅氏製藥工作超16年,首席科學官 Debbie Law 也曾在包括Bristol Myers Squibb 在內的多家藥企工作超過25年。目前 Xaira 整個團隊超過了百人。
• Inceptive
Inceptive 成立於  2021 年,專注於利用 AI 技術設計 mRNA 藥物,目前正將設計出的藥物分子授權制藥公司進行製造,他們的路線是從 RNA 開始打造給所有藥廠使用的“生物軟體”。其 CEO 是谷歌前研究員、神經網路結構 transformer 結構的 8 個提出者之一 Jakob Uszkoreit,團隊規模超過了 60 人。Inceptive 先後於 2022 年 1 月與 2023 年 9 月融資了 2 千萬美金與 1 億美金,我們曾經編譯過 CEO 的訪談
07.
團隊及融資
Chai Discovery 成立於 2024 年 3 月,目前團隊成員在 10 人左右,均具有人工智慧相關的技術研發工作經歷,超過半數在加入 Chai Discovery 之前就在從事人工智慧輔助的藥物設計。
CEO Joshua Meier 擁有哈佛大學的計算機碩士學位和計算機+化學雙學士學位,曾在AI製藥公司 Absci 工作過兩年的時間,並擔任其首席人工智慧官。Absci 主要透過 AI 以及自建的溼實驗室進行先導化合物最佳化和從頭抗體設計,並於 2021 年成功上市,因此 Joshua 對於生物領域的軟體平臺有足夠的領域經驗。
加入 Absci 之前 Joshua Meier 曾在 Facebook AI 工作過逾三年,在 OpenAI 短暫的工作過。值得注意的是,在 Facebook AI 期間其是 ESM-1b、ESM-1v 等 ESM 系列早期模型的主要開發者(是 ESM-1b 論文<Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences> 的第二作者),因此 Chai Discovery 應該非常熟悉 ESM 這一條基於transformer 構建通用生物大模型的技術路徑,但是卻選擇了基於 Diffusion Model 希望首先在結構預測這一領域先取得突破。
CTO Jack Dent 曾在 Stripe 從事六年的產品工程研發。另外兩位聯合創始人 Jacques Boitreaud 和 Matthew McPartion 也都之前在 AQEMIA、VantAI 和 Absci 工作過數年時間,負責人工智慧輔助小分子或蛋白質藥物設計的相關工作。
2024年9月,Chai Discovery 獲得了來自 Thrive Capital、OpenAI 的約 3000 萬美元種子輪融資,估值為 1.5 億美元。Thrive Capital 先前對 OpenAI 進行了多輪投資,包括最近的一筆約 10 億美金的投資。
我們把他們的融資情況與行業競爭對手放在一起對比,會發現即使 Chai 團隊的背景已經很優秀,他們的募資規模也不算很大。這是一個資本密集的領域,代表行業期待他們的突破能讓醫藥行業的發現生產流程發生根本性的變化,有更多疫病得到預防和治癒。
Reference
[1] https://www.statista.com/statistics/309466/global-r-and-d-expenditure-for-pharmaceuticals/
[2] https://www.genengnews.com/gen-edge/the-unbearable-cost-of-drug-development-deloitte-report-shows-15-jump-in-rd-to-2-3-billion/
[3] https://www.cbo.gov/publication/57126?utm_source=chatgpt.com
[4] https://www.knowledgeportalia.org/costs-r-d
排版:Doro
延伸閱讀

Codeium:企業原生 AI Coding 產品,能開創 Agentic IDE 新正規化嗎?

對 DeepSeek 和智慧下半場的幾條判斷

扛住 DeepSeek 黑天鵝,AGIX 如何實現 3 倍納指回報

86 條 DeepSeek 的關鍵思考 |Best Ideas 開源

Decagon:用 AI Agent 解放客服團隊,能否成為下一個獨角獸

相關文章