加速藥物發現:基於生成式AI的靶點感知分子生成器TamGen

(本文閱讀時間:8分鐘)
全球健康藥物研發中心 (GHDDI) 和 微軟研究院科學智慧中心(Microsoft Research AI for Science)團隊透過開發 TamGen 在研究結核病方面取得了重要突破。TamGen 是一款基於 Transformer 模型的開源化學語言模型,用於開發特定靶點的藥物化合物。聯合團隊透過密切合作成功確定了幾種有前景的結核病蛋白酶抑制劑,其中最有效的化合物表現出顯著的生物活性。研究表明,TamGen 還可以透過設計靶標感知片段來最佳化現有分子,從而發現基於已知分子核心結構的新型化合物。該項研究已在《自然-通訊》(Nature Communications)雜誌上發表。
TamGen
論文連結:
https://www.nature.com/articles/s41467-024-53632-4
開源連結:
https://github.com/microsoft/TamGen
生成式AI助力突破藥物發現的侷限性
生成式 AI 透過讓計算機自主學習並生成創新內容,為科學探索開闢了新的道路。TamGen 利用生成式 AI 建立新的分子化合物,為藥物發現提供了一種全新的方法。與傳統依賴實證、系統篩選已知化合物的方法不同,生成式 AI 能夠更高效地探索更廣泛的新型化合物(圖1),克服了傳統方法在龐大化學庫篩選過程中所面臨的耗時長、複雜度高且成本昂貴的問題。
圖1:與傳統基於篩選的藥物發現方法相比,基於生成式 AI 的方法能夠探索新型化合物。
TamGen工作流程
利用生成式 AI,TamGen 設計了特定靶點的化學化合物。基於大語言模型(LLMs)的成功,研究員們採用了類似的技術來生成化合物。首先,將分子轉換為簡化分子輸入線性表達系統(Simplified Molecular Input Line-entry System, SMILES),這是一種將分子結構表示為符號序列的標記法,類似於文字。
為了生成特定靶點的化合物,研究員們開發了一個編碼器來處理有關蛋白質的資訊,包括 3D 結構資訊。另外,一個結合了醫學專家見解的上下文編碼器,整合了有關蛋白質靶標以及經驗證有效或被確定為有前景的化合物資訊。透過整合專業資訊和計算分析,該編碼器可指導化合物生成器生成更有可能與蛋白質結合的新分子。工作流程如圖2所示。
圖2:TamGen 的工作流程
透過計算效能評估TamGen
為了評估 TamGen 的效能,研究員們將其與其他五種常見的方法進行了比較,這些方法均用於建立與特定蛋白質結合的 3D 結構分子。利用 CrossDocked 基準資料集,研究員們評估了這些方法,該資料集用於評估在 AI 研究中以靶蛋白為條件的分子生成質量。
評估指標包括:
  • Docking score:評估分子與目標蛋白的結合程度。
  • 藥物相似性定量估計 (Quantitative Estimate of Drug-likeness, QED):評估分子的候選藥物質量。
  • 合成可及性分數 (Synthesis Accessibility Score, SAS):測量在實驗室中合成特定化合物的難易程度。
  • 類藥五原則(Lipinski's rule of five, Ro5):判定化合物開發成口服藥物的可能性。
  • LogP:測試化合物在水和脂肪之間分配的能力。
  • 多樣性:測量化合物集合中不同分子結構和性質的範圍。
圖3展示了 TamGen 整體效能的表現。雖然其他方法也可以產生具有強結合能力的化合物,但它們通常包括多個互連的環狀結構。研究表明,這些結構的增加會降低合成可及性(SAS)並增加細胞毒性,使這些化合物更難開發。研究員們認為,預訓練策略有助於提高 TamGen 生成的化合物的整體有效性。
圖3:TamGen 計算效能驗證結果
TamGen實驗驗證
為了確保研究的實際應用,研究員們還在溼實驗環境中進行了驗證。在溼實驗中,研究員們選擇了結核分枝桿菌中的 ClpP 蛋白酶作為靶標,該蛋白酶對細菌在壓力條件下的存活起著重要作用。透過設計、最佳化和測試三個階段,TamGen 可有效識別用於結核病藥物發現的分子化合物(如圖4所示
設計階段:首先使用 TamGen 分析蛋白酶的結合口袋,其他分子可以由此附著在蛋白酶上並影響其功能。TamGen 生成了大約2,600種可以放入這個口袋的潛在化合物,根據它們與蛋白酶的結合程度及其預測的生物學效應,研究員們對這些化合物進行了評估,並將範圍縮小到了4個目標候選化合物。
最佳化階段:接下來,研究員們將設計階段鑑定的4種化合物以及之前在實驗室實驗中驗證的3個分子片段輸入到 TamGen 中,這一過程總共生成了8,600種新化合物。使用相同的標準,研究員們再次篩選了這些化合物,最終將選擇範圍縮小到了296種化合物。
測試階段:由於合成所有296種化合物並不現實,所以研究員們從商業化學庫中篩選了類似的化合物,並測試了它們對結核病的初始活性。其中5種化合物顯示出了有前景的結果。隨後,研究員們合成了其中一種原始化合物以及另一種化合物的兩個變體。此外,研究員們還將生成的化合物分為了若干簇,並根據對接評分從每簇中選出前10%,經過人工稽核,又合成了8種化合物。
微軟研究院的團隊使用 TamGen 生成了候選化合物之後,GHDDI 團隊對此進行了結合分析、結構-活性關係研究以及實驗室實驗,以驗證這些化合物對 ClpP 蛋白酶的抑制效果,並確定了其 IC50 值——這一指標衡量了抑制50%酶活性所需的化合物濃度,IC50 值越低,效能越強。在測試的16種化合物中,有14種表現出很強的抑制活性,IC50 值均低於40 μM,顯示出良好的潛力。其中最有效的化合物 IC50 值為1.88 μM。
圖4:TamGen 溼實驗室驗證過程
從分子到片段生成
除了生成全新的分子,TamGen 還能夠透過設計分子化合物的較小部分來最佳化現有化合物。在片段生成過程中,若給定一個蛋白質靶標和一個需保留的特定分子結構,TamGen 就可以圍繞該結構設計全新的化合物。TamGen 並非從現有的化合物庫中選擇片段,而是設計了可識別靶標的片段,這意味著它們包含與靶蛋白相關的資訊。這種方法超越了傳統依賴於預先存在的資料庫的方式,打破了傳統方式對新穎性和有效性的限制。
此外,研究員們還調整了 TamGen 化合物生成器的輸入,設計了目標感知片段。透過重寫 SMILES 字串,來確定保留的片段和進一步增長的特定連線點,從而確保其在所需的增長站點終止。然後,再將修改後的 SMILES 字串輸入TamGen 的化合物生成器進行擴充套件。
為了評估這種方法,微軟研究院與 GHDDI 合作,針對結核病 的 ClpP 蛋白酶進行了溼實驗,發現與原始化合物相比,TamGen 生成的分子化合物的結合親和力提高了十倍以上。而且,TamGen 設計的部分化合物還表現出慢結合(slow binding,表明它們具有持久作用的潛力,並可以提高對目標靶蛋白的選擇性。
人工智慧在藥物發現中的潛能
透過將先進的分子建模系統與科研人員和 AI 系統的協作相結合,TamGen 充分展示了生成式 AI 在現實藥物設計中的巨大潛力。在傳統方法中需要數年才能完成的工作,現在可在很短的時間內實現。這項研究突顯了人工智慧在藥物發現中日益重要的作用,並有望為結核病等持續性傳染病提供有效的解決方案。
展望未來,微軟研究院計劃將更先進的技術整合到 TamGen 中,包括用於生成 3D 結構的擴散模型、應用物理約束的強化學習,以及捕獲蛋白質形態變化的分子動力學模擬。這些增強功能將有助於改善生成的分子化合物與靶蛋白的結合程度,提高合成可行性並增強其他關鍵藥物特性。
你也許還想看:

相關文章