MIT團隊開發蛋白質語言模型ProtGPS,可預測和定位致病蛋白行蹤

(來源:MIT News)
蛋白質是維持人類細胞正常運轉的“主力軍”,細胞中存在著數千種蛋白質,每種都承擔著特定功能。
傳統觀點認為,蛋白質的三維結構決定其生物學功能,而近年來科學家們逐漸發現,蛋白質在細胞內的空間定位同樣對其功能發揮至關重要。
事實上,細胞內部存在眾多隔間,就像是精密的分隔工廠用於組織各種物質。除了常見的細胞器,細胞中還包含大量動態無膜區室,這些特殊區域透過富集特定分子來協同完成特定功能。
因此,明確蛋白質的定位及其共定位分子有助於深入瞭解蛋白質在健康或病變細胞中的作用。然而長期以來,研究人員一直缺乏系統預測這些資訊的方法和工具。
蛋白質結構研究已持續半個多世紀,隨著 AlphaFold 的問世,科學家已能根據氨基酸序列(蛋白質內部摺疊形成結構的線性構建模組)預測蛋白質三維結構。如今,這類工具早已成為生物醫學研究的常規利器。
但需要注意的是,蛋白質序列中還存在不參與摺疊的無序區域,這些區域在引導蛋白質進入特定動態區室中起關鍵作用。
麻省理工學院教授、懷特海德生物研究所研究員 Richard Young 和團隊由此產生創新設想:是否可以透過解析這些區域的序列特徵,像預測蛋白質結構那樣預測蛋白質定位?
雖然此前已有研究發現了部分與定位相關的蛋白質序列片段,並開始開發預測蛋白質定位的模型,但科學界仍存在兩大空白:一是能否根據序列預測蛋白質在所有動態區室的定位規律;二是缺乏類似 AlphaFold 的通用型定位預測工具。
目前,由 Richard Young 和他實驗室的博士後 Henry Kilgore、麻省理工學院電氣工程與計算機科學系 Regina Barzilay 及其同事組成的跨學科研究團隊,共同構建出一款名為 ProtGPS 的模型。目前這項研究成果已經發表在 Science 上。
研究人員表示,ProtGPS 模型不僅能預測蛋白質在 12 類已知細胞區室的定位,還可判斷致病突變是否會改變定位模式。此外,研究團隊開發出一種生成演算法,可設計出定位於特定區室的新型蛋白質。
“我們的願景是將這個模型打造成開放平臺,助力蛋白質研究者深入探索生命奧秘。”Richard Young 說道,“它不僅能幫助我們理解人類複雜生命系統的構建原理,更能揭示致病突變如何破壞細胞機制,為藥物研發提供創新思路。”
研究團隊還透過細胞實驗驗證了模型的預測準確性。“從演算法設計到實驗室驗證的完整閉環令人振奮。”Regina Barzilay 表示,“當前大多數圍繞 AI 的研究停留在理論階段,透過與 Richard Young 教授實驗室的合作,我們真正驗證了演算法的可靠性。”這項突破標誌著計算生物學與實驗科學的深度融合,為精準醫學開闢了新路徑。
模型的構建
研究團隊透過兩個已知定位資訊的蛋白質資料集對 ProtGPS 模型進行訓練和驗證。測試結果顯示,該模型能高精度預測蛋白質的最終定位。
緊接著,他們還測試了 ProtGPS 根據蛋白質內疾病相關突變預測蛋白質定位變化的能力。關聯研究顯示,許多突變(基因及其相應蛋白質序列的改變)會引發疾病,但突變導致疾病症狀的具體機制尚不明確。
探索致病機制對藥物研發至關重要,畢竟只有明確病理過程才有可能設計出精準預防或治療方案。Richard Young 團隊推測,許多致病突變可能透過改變蛋白質定位引發疾病。例如,某個突變可能導致蛋白質無法進入含有必需功能分子的細胞區室。
為了驗證這一假設,他們向 ProtGPS 輸入超 20 萬個攜帶致病突變的蛋白質資料,讓模型預測這些突變蛋白質的定位,並計算突變前後預測結果的偏移程度。預測偏移值越大,表明該突變引發蛋白質定位改變的可能性越高。
研究人員發現,大量致病突變確實會導致蛋白質“定位錯誤”。他們選取了 20 個典型案例進行細胞實驗,透過熒游標記技術對比正常蛋白與突變蛋白的實際定位。
實驗結果與 ProtGPS 模型預測高度吻合。這些發現不僅證實了“蛋白質定位異常是重要致病機制”的科學假說,更展示了 ProtGPS 在疾病機理研究和治療靶點發現中的獨特價值。
“細胞是一個極其複雜的系統,包含眾多組成部分和複雜的相互作用網路。”參與這項研究的 Ilan Mitnikov 表示,“透過這種人工智慧驅動的模擬實驗,我們能夠系統性擾動生物系統、觀察動態變化,從而揭示隱藏的細胞執行規律,甚至基於此開發創新療法。”
研究人員希望 ProtGPS 能像 AlphaFold 預測蛋白質結構那樣,成為科研界的一種有用工具,推動蛋白質功能研究、病理機制解析和疾病治療研發等領域的進展。
從“預測已知”到“生成未知”
研究人員對 ProtGPS 模型的潛在用途充滿期待,同時希望該模型不止能預測現有蛋白質的定位,還能設計全新的蛋白質,即讓 ProtGPS 從“預測已知”到“設計未知”。
他們的目標是讓模型生成全新的氨基酸序列,這些序列在細胞中形成蛋白質後,能定位到預期位置。而設計一種真正具有特定功能(在此指定位到特定細胞區室)的新型蛋白質極具挑戰性,其技術難度遠超傳統預測任務。
為提高成功率,研究人員引入仿生設計理念:限定演算法僅模仿天然蛋白質的結構特徵。從邏輯上講,這是藥物設計中常用的方法,畢竟大自然歷經數十億年篩選出了效果優良的蛋白質序列。
透過與 Richard Young 實驗室的合作,機器學習團隊得以測試蛋白質生成器的有效性,且該模型取得了不錯的表現。
在實驗中,模型生成了 10 種旨在定位於核仁的蛋白質,研究人員在細胞中測試時發現,其中 4 種蛋白質展現出明確的核仁定位特徵,其餘幾種也表現出一定的定位傾向。
“跨學科碰撞總能激發創新火花。”參與該研究專案的 Peter Mikhael 分享道,“我們不僅掌握了細胞運作的深層邏輯,更透過反覆的實驗驗證不斷最佳化模型。這種‘設計-驗證-迭代’的閉環研發模式,讓技術真正落地生根。”
以這種方式生成功能性蛋白質,有助於提升研究人員開發創新精準療法的能力。以靶向特定區室的藥物設計為例,研究人員可藉助模型設計能精準定位病灶區域的藥物分子,既能大幅提升療效,又可避免“誤傷”健康組織引發的副作用。
機器學習團隊正將這一成功經驗拓展至更廣闊領域。“許多論文表明能夠設計出可在細胞中表達的蛋白質,但並未提及該蛋白質具有特定功能。”專案組成員 Itamar Chinn 表示,“我們設計的蛋白質確實具有功能,與其他生成模型相比成功率相對較高。這讓我們備受鼓舞,希望在此基礎上取得更多成果。”
研究團隊將 ProtGPS 視為智慧生物設計的起點。他們預計該工具將助力人們深入瞭解蛋白質定位在蛋白質功能和疾病中的作用,同時也有興趣擴充套件模型的定位預測範圍,納入更多型別的細胞區室,測試更多治療假設,併為治療或其他應用設計功能更強的蛋白質等等。
正如 Henry Kilgore 所說的那樣,“蛋白質定位密碼的破譯只是開始,當機器學習不僅能解讀自然密碼,還能依據其邏輯建立功能性蛋白質,這為眾多潛在研究和應用開闢了道路,並開啟一個充滿可能的智慧生物時代。”
原文連結:
https://news.mit.edu/2025/ai-model-deciphers-code-proteins-tells-them-where-to-go-0213

相關文章