

在生命科學研究中,DNA 序列承載著從最簡單的細菌到最複雜的人類所有生命形式的遺傳資訊。然而,預測和理解這些序列的功能一直是生物學家面臨的重大挑戰。比如,判斷一個基因突變是否會導致疾病,或者設計一個能在特定細胞中精確表達的基因序列,往往需要耗費大量的時間和資源進行實驗驗證。
2 月 19 日,Arc 研究所聯合美國斯坦福大學、美國加州大學伯克利分校、美國加州大學舊金山分校以及英偉達,釋出了一個突破性的 AI 模型 Evo 2。這個被稱為“生物基礎模型”的系統,首次實現了對生命三大領域(原核生物、古細菌和真核生物)的 DNA 序列進行統一建模。更重要的是,它能夠“讀寫思考”DNA 語言,不僅可以預測序列的功能,還能設計具有特定功能的新序列。

圖丨相關論文(來源:Arc)
Evo 2 最大的突破在於它的訓練資料規模。研究團隊構建了名為 OpenGenome2 的資料集,收錄了 9.3 萬億個核苷酸序列,幾乎囊括了地球上所有已知的生命形式。資料來自 12.8 萬個物種的基因組,不僅包含簡單的細菌和古細菌,還首次加入了人類、植物等複雜生物的基因組資訊。正是這種前所未有的資料覆蓋面,讓 Evo 2 獲得了類似人類生物學家的“通識理解能力”。
研究團隊使用 StripedHyena 2 作為模型架構,這是首個基於卷積多混合模型的架構,它巧妙地將多種不同型別的運算子組合在一起,形成了一種條紋狀的排列模式。這種設計顯著提高了模型在處理短序列和長序列時的效率。值得一提的是,OpenAI 聯合創始人 Greg Brockman 在休假期間參與了這一技術難題的攻克。
透過這一創新架構,Evo 2 可以一次處理長達 100 萬個核苷酸的序列,是上一代模型處理能力的 8 倍。這意味著模型可以捕捉到基因組中遠距離元件之間的關係,這對於理解真核生物的基因調控特別重要。

圖丨 Evo 2 的模型架構、訓練過程、資料集和評估概覽(來源:Arc)
模型的訓練有兩個階段。第一階段是在 8,192 個標記的上下文長度下進行預訓練,這個階段重點關注功能遺傳元件,如基因編碼區、調控序列等。第二階段則是中期訓練,將上下文長度逐步擴充套件到 100 萬個標記,使模型能夠學習基因組中遠距離元件之間的複雜關係。
研究人員還開發了創新的資料增強和權重分配方法,在預訓練階段優先處理資訊密度較高的功能區域,在中期訓練階段則注重長序列的整體構成。
最重要的是,該專案完全開源。團隊不僅開源了 Evo 2 的模型引數、訓練程式碼和推理程式碼,還發布了完整的 OpenGenome2 訓練資料集(專案地址:https://github.com/arcinstitute/evo2)。這使其成為目前規模最大的完全開放 AI 模型之一。
為了方便研究人員使用,團隊還開發了名為 Evo Designer 的使用者友好介面,以及一個可以揭示模型內部機制的視覺化工具,這讓研究人員能夠更好地理解模型是如何“思考”生物學問題的。

圖丨 Evo Designer(來源:Arc)
值得一提的是,為了確保安全使用,研究團隊特意在訓練資料中排除了所有可能感染高等生物的病毒序列。他們透過嚴格的測試驗證,確保模型在這類序列上的分析和生成能力都很有限。
在幾十年的生物學研究中,我們積累了海量的生物資料,但要真正“讀懂”這些資料卻並不容易。Evo 2 的出現,讓我們對生物資訊的理解和預測達到了新的高度。
在基礎預測任務上,Evo 2 表現出了相當突出的準確性。比如說,它能在沒有任何專門訓練的情況下,準確判斷 DNA 突變是否會影響蛋白質功能。更令人驚訝的是,它對於複雜的真核生物也有很好的理解——這在以前的模型中是很難實現的。

圖丨 Evo 2 預測所有生命領域蛋白質、RNA 和有機體適合度的突變效應(來源:Arc)
這種能力在醫學領域相當有用。舉個例子,在分析與乳腺癌相關的 BRCA1 基因時,Evo 2 能以超過 90% 的準確率區分出哪些基因變異可能致病,哪些是良性的。這意味著,在進行昂貴的細胞實驗或動物實驗之前,研究人員可以先用 Evo 2 篩選出最值得關注的突變。
不僅能讀懂 DNA,Evo 2 還會“寫”DNA。研究團隊用 Evo 2 成功生成了完整的線粒體基因組、簡單細菌基因組,以及酵母染色體。這些生成的序列不僅在數量上龐大,質量上也保持了高度的自然性和連貫性。更令人驚喜的是,模型生成的序列中包含了正確數量的編碼序列、tRNA 基因和 rRNA 基因,並保持了適當的基因組結構。
此外,研究人員還發現 Evo 2 不是在簡單地記憶資料,而是真正理解了生物學原理。透過特殊的分析技術,他們發現模型自主學會了識別外顯子和內含子的界限、尋找蛋白質結合位點,甚至能發現細菌基因組中潛藏的病毒序列。這些都是生物學家特別關心的特徵。

圖丨 Evo 2 的機制可解釋性揭示了 DNA、RNA、蛋白質和生物體水平的特徵。(來源:Arc)
研究團隊還展示了一種創新的應用:用 Evo 2 設計具有特定表觀遺傳特徵的 DNA 序列。他們甚至成功地將莫爾斯密碼資訊編碼到了表觀基因組中,這是首次在生物學語言建模中實現推理時縮放的案例。
Evo 2 的出現標誌著“生成生物學”領域的重要里程碑。這個模型為理解和設計生物系統提供了前所未有的能力。在醫療領域,它可以幫助預測基因突變的致病性,加速罕見病的診斷和治療方案的制定。在合成生物學領域,模型可以輔助設計新的基因治療工具或生物感測器。
作為一個完全開源的專案,Evo 2 為整個生命科學研究社群提供了強大的工具。研究人員可以基於這個基礎模型開發更多專門的應用。Arc 研究所的研究員表示,未來他們計劃將這種表示方法與表觀基因組學和轉錄組學資訊整合,朝著構建可以有效模擬複雜細胞表型的“虛擬細胞模型”邁進。
這項研究再次證明,人工智慧正在從根本上改變我們理解和操控生命的方式。透過將進化銘刻在 DNA 中的資訊轉化為機器可理解的模式,Evo 2 或將為生命科學研究開闢一種新的正規化。
參考資料:
1.https://arcinstitute.org/manuscripts/Evo2
2.https://arcinstitute.org/news/blog/evo2
運營/排版:何晨龍


