Evo2與津渡生科GeneLLM™共啟生物科學的大模型時刻

2025 年 2 月 19 日,基礎生物學模型 Evo 2 正式釋出後便在生物科學界引發強烈反響,成為當前規模最大的生物學 AI 模型。該模型基於超過 12.8 萬個基因組資料、9.3 萬億核苷酸序列進行訓練,由非營利性 Arc 研究所與斯坦福大學牽頭,與 UC Berkeley、UCSF、Liquid AI 以及 Goodfire 等單位攜手,在 NVIDIA 超算叢集上協同開發,共同推動生物科學底層研究正規化的重構。

Evo 2 概念圖,圖源:Github/Evo 2

Evo 2 的開源與應用標誌著生成式生物學邁入一個嶄新的科學革命性階段,實現了“用核苷酸語言來讀、寫和思考”的目標,使研究者無需任務特定微調,僅依靠“零樣本預測”便可獲得類似 DeepSeek 的前沿分析能力。與此同時,作為國內首家專注於生物科學 AI 底層大模型的企業,津渡生科也正站在這場科學革命的風暴眼,同樣手握開啟萬億級市場的創新金鑰。
01
Evo 2 與 GeneLLM™:不同生物資料層次的模型
Evo 2 和 GeneLLM™ 雖然都屬於生物科學大模型,但兩者在本質上存在顯著差異。Evo 2 的訓練資料是按物種分類的基因組資訊,而 GeneLLM™ 則專注於個體原始資料(如測序資料、質譜資料等)的直接訓練與分析。從資料特性來看,人類參考基因組僅有一套,每個物種的基因組也相對固定,而測序資料則具有高度的多樣性和個體特異性。例如,每個人的測序資料可以生成大量個體差異資訊,這使得GeneLLM™ 能夠深入解析人與人之間的差異,如疾病易感性、表型特徵等,並精準識別“疾病相關標誌物”。我們還能夠在同一物種內部挖掘性狀特異性的特徵,例如水稻抗倒伏基因的鑑定。這種差異決定了 GeneLLM™ 與 Evo 2 在應用場景上的獨立性。

 GeneLLM™ 和 Evo 2 對比圖

截至目前,市場上尚未出現與GeneLLM™ 類似的、直接基於原始資料訓練的模型,因為原始資料的規模更加龐大、複雜度更高,訓練難度也顯著更大。這種技術路徑的選擇使津渡生科相對於 Evo 2 在生物科學的基礎研究應用,比如疾病風險評估、動植物植物性狀解析等領域具備了獨特的優勢。
02
Evo 2 —— 生成式生物學 AI 的 DeepSeek 時刻
中心法則與進化論構成了從基因到種群的生物學統一理論,透過 DNA 所傳遞的基礎資訊揭示了自然選擇的功能效應。Evo 系列模型正是在這一理論框架下誕生,旨在以統一的多尺度表徵整合生物多樣性,從分子到系統層面構建堅實的建模與設計基礎。
部署於 NVIDIA BioNeMo 平臺的 Evo 2 採用 StripedHyena 混合架構,其在處理百萬級鹼基對序列時相較於傳統 Transformer 結構實現了近 3 倍的提速。同時,Evo 2 基於 DNA 序列進行自適應學習,能夠對 DNA、RNA 與蛋白質功能效應進行精準預測,並覆蓋中心法則(DNA → RNA → 蛋白質)的分子層級。
該模型無需任務特定微調,即可利用零樣本預測高效評估變異效應。例如準確推斷遺傳變異在臨床上對BRCA1 基因的影響,從非編碼區域判斷致病性。此外,Evo 2 還能自主識別外顯子與內含子邊界、轉錄因子結合位點、蛋白質結構及前噬菌體基因組區域,並具備生成符合生物學邏輯的線粒體基因組、最小細菌基因組及完整酵母染色體的能力,其生成結果在自然度與連貫性上均優於先前方法。
● 多領域預訓練與廣泛應用前景
Evo 2 模型在涵蓋植物、動物與細菌等多種生物領域的預訓練中表現出色,具備在醫療保健、農業生物技術及材料科學等多個科研領域的廣泛應用前景。
在醫療與藥物研發領域,Evo 2 能協助研究人員識別與特定疾病相關的基因變異,進而支援新型靶點的藥物設計。例如,在對乳腺癌相關BRCA1 基因變體的測試中,模型在零樣本預測下 AUROC 超過 0.90,而在監督模式下達到了 0.95,對良性與致病突變的區分能力表現出色。如此高效且精準的能力,正為生物醫學研究帶來顛覆性創新。
● 通用能力與未來虛擬細胞模型構想
Evo 2 的能力遠不止這些。它的最大亮點在於非常靈活通用,不侷限於某個具體任務,而是能在從分子到整個基因組,甚至更復雜的系統層面上,進行廣泛的預測和生成新內容。

生命各領域的基因組生成規模,圖源:Evo 2 preprint

其訓練資料集 OpenGenome 2 基於 12.8 萬個基因組構建,橫跨 40 億年進化歷史,堪稱數字生物博物館,包含 9.3 萬億核苷酸的超級語料庫,使模型能夠捕捉從古菌甲烷代謝到人類免疫系統等眾多進化密碼。
團隊下一步計劃是將這一統一表徵與表觀基因組學、轉錄組學等多模態資料相融合,構建能夠模擬健康與疾病狀態下複雜細胞表型的虛擬細胞模型,為生物學研究提供更加全面的解析工具。 
03
津渡生科 GeneLLM™——創新的生物科學人工智慧研究路徑
不可否認,生物系統由碳原子、氨基酸、核苷酸、蛋白質、大分子、細胞、組織與器官構成,每一層次都蘊含尚未完全闡明的“暗物質”,使得傳統自下而上的建模方法容易因各層模型誤差累積而偏離真實生物系統的複雜性,同時生物系統的湧現性特徵也使其整體行為難以用單一層次的模型解釋。
針對這一侷限,津渡生科創始團隊自專案伊始便另闢蹊徑,率先佈局生物科學人工智慧賽道。GeneLLM™ 透過直接解析原始測序資料,並端到端輸出疾病表徵相關性分析,規避了分層建模中的誤差疊加問題,為生物科學研究領域提供了一種全新的、切實可行的技術路徑。
● GeneLLM™:從單一模態生成式 AI 預測向多組學整合分析正規化 AI 的躍遷
Evo 2 的核心設計理念在於:所有生物編碼序列均遵循統一結構,即以起始密碼子開啟、以終止密碼子結束。基於這一原理,Evo 2 能夠透過學習序列特徵,實現生成式預測下一個鹼基對,也可以對未知基因的結構和功能進行預測和註釋。
而 GeneLLM™ 在遵循相同中心法則和進化論的基礎上,突破性地採用更高階的技術實現路徑——將原始測序資料直接輸入模型,透過深度學習演算法,GeneLLM™ 捕捉多組學資料的微小差異,構建疾病表徵與原始資料之間的直接關聯性對映。這種方法以高維資料表示和非線性關係建模為核心,顯著提升了疾病預測的準確性,為生物醫學研究提供了一種高效創新的研究正規化。
● 從資料洞察到科研轉化的實踐路徑
藉助從海量原始資料中提煉洞見並直接應用於下游研究的能力,GeneLLM™ 已率先實現了從多組學診斷基礎模型向精準醫療與基礎科研轉化的突破。
以 GeneLLM™ 為核心構建的一站式生物科學研究平臺 Bioford™,現已整合上百個垂直生物科學領域模型,支援基因組、轉錄組、蛋白質、RNA 三維結構、生物醫學影像及文字資料等多模態資料的全面智慧分析,以滿足生物醫學、生物資訊學、分子生物學、免疫學以及分子動力學等各學科的研究需求。平臺聚焦基礎科研、醫學診斷、生物製造、環境監測、生物育種及藥物開發六大核心場景,提供從實驗室資料處理、小樣本訓練到模型微調及推理服務的完整解決方案。
為滿足科研領域對資料隱私與安全的高標準要求,Bioford™ 同時支援雲端與本地同步部署,並內建專案級資料保密管理系統。該方案不僅充分保障了資料完整性與機密性,更構建了一個高效、協同且安全的科研生態系統,為醫院臨床與高校科研在推動前沿突破及臨床轉化中提供了堅實保障。
04
開創全新賽道:GeneLLM™ 引領生物科學 AI 研究
生物醫學研究正步入新時代。GeneLLM™ 的技術突破不僅顛覆了傳統多組學資料分析模式,更重要的是開啟了一種直接基於原始資料的全新研究正規化。
充分利用人工智慧“黑盒”優勢的這一方法,能夠捕捉到傳統手段難以發現的疾病特徵及生物學規律。憑藉 Evo 2 的廣泛突破及市場反響,津渡生科對全面實現技術破局充滿信心。作為國內首家聚焦生物科學 AI 大模型的企業,津渡生科不僅在技術上與國際接軌,更透過本土化創新不斷填補市場空白。
與代表生成式生物學革命的 Evo 2 相比,GeneLLM™ 在生物科學人工智慧賽道,為全球研究人員提供了一款極具競爭力的工具,推動科學發現與產業應用雙向進步。展望未來,GeneLLM™ 的廣泛應用將助力構建一個以 AI 驅動的生物科學生態系統,覆蓋醫療、農業與環境等多個領域,為人類健康與可持續發展貢獻中國智慧。
關於津渡生科
津渡生科致力於提供一站式 AI 生物科學研究解決方案,其自主研發的多組學大模型 GeneLLM™ 已完成 15 億引數和 3.5 萬億鹼基序列的預訓練版本。基於 GeneLLM™,津渡生科打造一站式科學服務平臺 BioFord™ ,聚焦醫學診斷、藥物開發、生物製造、基礎科研,生物育種及環境監測六大核心場景。BioFord™ 平臺包含九大生物科學模型庫:多組學基礎模型、蛋白質模型、RNA 三維結構預測模型、生物醫學文字處理模型、生物醫學影像處理模型、化學基礎模型、CRISPR 相關預測模型、單細胞分析模型和時間序列預測模型,為科研和產業使用者提供先進的 “AI for BioScience” AI 生信計算服務、雲平臺服務和推理一體機,已服務於華大基因、百度飛槳、協和腫瘤醫院、上海交通大學醫學院附屬上海兒童醫學中心、中國環境科學院等國內領先機構。津渡生科在深圳、北京佈局研發中心,創始團隊由四位牛津校友領銜,彙集了人工智慧、生物資訊、生物工程等領域的頂尖科學家和工程師,在《Nature》《Nature Communications》等頂級期刊發表論文六十餘篇。以“ AI 科技探索生命之謎”為使命,津渡生科將繼續突破 AI+ 生物科學的技術邊界,為生物科學研究與產業化應用提供創新動力,助力國家科技創新與產業升級。

如果您想對接文章中提到的專案,或您的專案想被動脈網報道,或者釋出融資新聞,請與我們聯絡;也可加入動脈網行業社群,結交更多志同道合的好友。

宣告:動脈網所刊載內容之智慧財產權為動脈網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立映象等任何使用。
動脈網,未來醫療服務平臺

相關文章