點選藍字 關注我們
SUBSCRIBE to US

Henry R. Kilgore et al./Science
現在,一種新的深度學習模型能夠預測蛋白質在細胞內是如何自行分類的。該模型揭示了塑造生物組織的隱藏分子密碼層,這增加了我們對生命理解的複雜程度,為藥物設計和研發提供了一個強有力的生物技術工具。
生物學領域以前的人工智慧系統,例如獲得諾貝爾獎的AlphaFold,側重於預測蛋白質結構。但這個被稱為ProtGPS的新系統,讓科學家不僅能夠預測蛋白質是如何構建的,還能預測它在細胞內的位置(https://spectrum.ieee.org/ai-hallucinates-novel-proteins)。它還使科學家能夠改造具有特定分佈的蛋白質,像外科手術般精準地將它們導向細胞內的特定位置。
“瞭解蛋白質的去向與瞭解它如何摺疊是完全互補的,”馬薩諸塞州劍橋市懷特黑德生物醫學研究所的化學生物學家Henry Kilgore說道,他是這項研究的共同負責人。這些特性共同塑造了蛋白質在細胞內的功能及其相互作用。他說,這些見解——以及使之成為可能的機器學習工具——“將對藥物開發專案產生重大影響”。
Kilgore及其同事在2月6日發表於《科學》雜誌的一篇論文中介紹了這個新工具(http://doi.org/10.1126/science.adq2634)。
將蛋白質置於細胞圖譜之上
在過去幾年裡,像AlphaFold這樣的人工智慧工具透過預測蛋白質形狀給結構生物學帶來了革命性的變化——這很像宜家傢俱附帶的說明書,展示如何組裝椅子或床。但事實證明,僅知道蛋白質的結構並不足以理解其功能。ProtGPS透過確定每個“傢俱”(分子部件)在細胞開放式內部結構中的所屬位置,填補了這一缺失的部分。
一些蛋白質有明確的目的地。幾十年來,研究人員已經知道,前往細胞核或線粒體(被膜包圍、與細胞其他部分隔開的結構)等地的蛋白質帶有短的訊號標籤來引導它們。
但細胞的大部分是開放環境,在其中蛋白質依靠更微妙的線索將自身分類為所謂的生物分子凝聚體——動態的、類似液體的簇,有助於調節基因活性、應對細胞應激並與疾病相關(https://www.nature.com/articles/d41586-018-03070-2)。就像舒適的扶手椅可能自然地適合放在閱讀角一樣,蛋白質遵循內在的分子定位規則,這些規則引導它們進入適合特定功能的特殊凝聚體。
ProtGPS現在已經開始解碼這些規則,揭示形成所有蛋白質骨架的氨基酸序列中的隱藏特徵——內在的分類線索,這些線索決定了一個蛋白質是否會在細胞內不同凝聚體中定位以及定位在哪裡。
“我們的模型正在學習這些定位特徵,”該研究的共同作者、麻省理工學院的機器學習科學家Itamar Chinn說道,“而且我們可以利用這些特徵製造出具有我們想要的定位的新蛋白質。”
教人工智慧識別蛋白質的語言
ProtGPS是一種所謂的蛋白質語言模型。它的工作原理很像大型語言模型(LLMs),如OpenAI的ChatGPT或Anthropic的Claude,基於習得的模式預測序列。但ProtGPS分析的不是文字或語音,而是將蛋白質(表示為字母串,每個字母對應20種氨基酸構建單元中的一種,例如L代表亮氨酸,S代表絲氨酸,等等)作為分析物件。
Kilgore,Chinn及其同事使用一個名為ESM(進化尺度建模)的深度學習框架構建了這個模型,該框架最初由Meta開發,用於預測蛋白質的結構、功能和特性(https://www.science.org/doi/10.1126/science.ade2574)。
進化尺度建模(Evolutionary Scale Modeling)的縮寫為ESM,它和AlphaFold一樣,也能從蛋白質序列中提取有意義的模式。但是,Meta公司的這個模型不像AlphaFold那樣利用物理學來預測精確的原子級結構,而是依靠基於序列的學習,無需複雜的三維計算,這使其在分析大型資料集時速度更快、可擴充套件性更強。(上個月釋出了功能改進後的ESM升級版:https://www.science.org/doi/10.1126/science.ads0018。)
Kilgore和Chinn的團隊利用ESM的架構來解碼氨基酸序列中隱藏的訊號。研究人員對該工具進行了調整和最佳化,使其既能預測蛋白質的組裝位置,又能設計新型蛋白質——這些蛋白質在自然界中不存在,但可以被改造成具有精確的凝聚體靶向特性。
於是,ProtGPS誕生了。研究人員用將近5000種已知定位於12個不同凝聚體區室之一的人類蛋白質對該模型進行訓練。然後,他們在一個獨立的資料集中對ProtGPS進行測試,發現它能準確地將蛋白質定位到細胞中的正確位置。
一個難以捉摸的分隔程式碼
某些物理和化學特性,如蛋白質的電荷和疏水性,似乎對蛋白質在細胞中的最終定位起作用。但是,就像機器學習模型中常見的情況一樣,ProtGPS預測背後的確切推理——進而延伸到選擇性分佈背後的生物學原理——在很大程度上仍然是個謎。
這並不是說研究人員沒有試圖去剖析它。他們仔細研究了模型的預測結果,尋找可能解釋其分類規則的明確序列模式或生化特性。“並沒有什麼明顯的東西浮現出來,”該研究的共同作者、麻省理工學院的計算生物學家Peter Mikhael說道。
這種黑箱(不透明性)是人工智慧領域一個常見的挑戰。語言模型就其本質而言,擅長整合許多不同特徵和上下文訊號的作用,從而能夠發現人類一時難以察覺的模式。“所以,ProtGPS能夠提取出就連經驗豐富的生物學家都難以定義的定位線索,這並不那麼令人驚訝,”曾在麻省理工學院工作、參與開發該模型的機器學習科學家Ilan Mitnikov說道。
“如果規則很簡單,人們早就弄明白了,”Mitnikov說。
蛋白質工程,疾病預測
即便尚未完全理解是什麼因素決定蛋白質在細胞中的去向,研究人員已表明ProtGPS可用於建立具有精心調整定位特性的蛋白質。該工具還被證明能夠預測與疾病相關的突變可能如何破壞蛋白質的區室化,從而有助於揭示癌症和發育障礙等病症背後的分子機制。
據首席科學官Isaac Klein稱,Dewpoint Therapeutics(一家由該研究的作者之一、Whitehead生物學家Richard Young共同創立的生物技術公司)現在計劃將ProtGPS納入其藥物研發工作中,他稱該工具為識別藥物靶點和設計新療法的“變革者”。( Young、Kilgore以及同樣協助領導這項研究的麻省理工學院計算機科學家Regina Barzilay都在Dewpoint擔任顧問或諮詢角色。)
其他科學家也看到了該工具的潛力,其中包括劍橋大學的生物物理學家Tuomas Knowles,他是Transition Bio(另一家專注於針對凝聚體靶點進行藥物研發的公司)的首席技術官。“特別令人興奮的是,這篇論文進一步證明,存在非常特定的序列特徵,這些特徵控制著活細胞中蛋白質的定位以及向凝聚體的分配,”未參與這項研究的Knowles說道。“此外,這為影響和控制蛋白質定位提供了新的機會——並且有可能糾正錯誤定位,而錯誤定位是許多疾病的根源,”他補充道
但除了其應用價值之外,ProtGPS還突顯了生物學中一個新興的範例,即細胞內分子的物理排列對其功能的重要性就如同分子結構一樣,氨基酸序列中蘊含的編碼對蛋白質摺疊和細胞區室化均有影響。
正如精心設計的住宅不僅僅是傢俱的集合——它依靠巧妙的佈局來實現功能最大化——細胞也需要精確的分子組織才能實現最佳功能。透過揭示蛋白質序列中的隱藏模式,ProtGPS可能成為這種細胞活動的構建者,解讀大自然有關細胞內部設計的藍圖。

微訊號|IEEE電氣電子工程師學會
新浪微博|IEEE中國
· IEEE電氣電子工程師學會 ·
往
期
推
薦