AI一眼認出95萬物種，還能分辨雄雌老幼，2億生物影像煉成“生命視覺”大模型

2025-06-29 09:39 量子位

BIOCLIP 2團隊投稿量子位 | 公眾號 QbitAI

讓AI看懂95萬物種，並自己悟出生態關係與個體差異!

俄亥俄州立大學研究團隊在2億生物影像資料上訓練了BioCLIP 2模型。大規模的訓練讓BioCLIP 2取得了目前最優的物種識別效能。

而更令人驚喜的是，即使在訓練過程中沒有相應監督訊號，BioCLIP 2還在棲息地識別、植物疾病識別等5個非物種任務中給出了遠超DINOv2的準確率。

BioCLIP 2在大規模訓練中獲取了物種之外的湧現的生物學理解：

物種間生態對齊：不同達爾文雀在特徵空間中的排列和他們喙的大小一致；
物種內差異分離：雌雄/幼成體的特徵落在與物種區別正交的子空間，且隨訓練規模增大而更容易區分。

以下是論文詳情：

把“生命之樹”搬進視訊記憶體

大語言/視覺模型的“湧現”告訴我們：規模+結構化監督=意料之外的能力。

然而，生物多樣性研究領域一直沒有見到一個具有湧現屬性的視覺語義基座。BIOCLIP把CLIP的多模態對齊搬到物種上，利用〔界-門-綱-目-科-屬-種〕+學名+常用名的多粒度文字提供層級監督。在此基礎之上，研究團隊提出一個問題：

如果把層級對比學習從1千萬張影像直接推到2億，會不會學出超越“物種標籤”的生物學知識？

BIOCLIP 2正是這一實驗的答案。

為了實現這一目標，研究團隊從GBIF、EOL、BIOSCAN-5M、FathomNet等 4 大平臺收集了2.14億生物影像，提出了TreeOfLife-200M資料集。該資料集包含95.2萬個不同的分類標籤，涵蓋標本、野外相機陷阱等豐富的影像類別。這是迄今規模最大、最豐富的生命影像庫。

在增大訓練資料量的同時，研究團隊也將模型從ViT-B擴大至ViT-L。更大的引數量為新知識的湧現做好了準備。

效能一覽

物種識別：零樣本物種識別平均準確率55.6% →比第二好的SigLIP模型提升了16.1。少樣本物種識別遠優於常用的視覺模型DINOv2。

非物種視覺任務：除了物種分類之外，BioCLIP 2還在棲息地識別、生物屬性識別、新物種發現和植物疾病識別等多項任務上超越了SigLIP和DINOv2等常用視覺模型。

BioCLIP 2在訓練階段只接觸了物種層級的監督訊號，但卻在各類非物種生物視覺任務上取得了優異的效能。這讓研究團隊深入調查了模型的特徵空間，並發現了大規模訓練帶來的湧現屬性。

兩大涌現屬性

1. 物種間生態對齊

具有相似生活習性和生態學意義的物種在特徵空間中聚集在一起，如淡水vs鹹水魚隨著訓練規模擴大分界逐漸清晰。

解釋：層級標籤把生態近鄰拉向相似的文字原型，從而實現視覺特徵和功能特徵的對齊。

2. 物種內差異分離

同一物種雌雄、幼成體之間的差異沒有被對比學習消除，而是沿著物種間差異正交的方向分佈，且正交程度隨著訓練規模增大同步增大。

解釋：當對比學習將不同的物種分開後，物種內的差異可以在正交子空間內分佈而不會影響物種分類的損失最佳化（論文中定理 5.1）。

1M→10M→50M→214M 四檔實驗顯示：所有非物種視覺任務效能單調上升，且體內差異的分離度 / 正交度同步提升，進一步證實了擴大訓練規模給湧現屬性帶來的增益。

一句話總結：BIOCLIP 2 證明了“把正確的監督做大”同樣能在專業領域復刻大模型的湧現屬性——不僅準確，而且懂生物。

專案主頁：https://imageomics.github.io/bioclip-2/Demo網址：https://huggingface.co/spaces/imageomics/bioclip-2-demo論文網址：https://arxiv.org/abs/2505.23883

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

相關文章

一套演算法控制機器人軍團！純模擬環境強化學習，Figure學會像人一樣走路

一套演算法控制機器人軍團！純模擬環境強化學習，Figure學會像人一樣走路

貝葉斯方法與深度學習的結合及應用（2）

貝葉斯方法與深度學習的結合及應用（2）

從0編寫基因組！史上最大生物學模型Evo-2全面開源：矽基生命能創造細胞？

從0編寫基因組！史上最大生物學模型Evo-2全面開源：矽基生命能創造細胞？

RFMEP01：Pi和π0具身基礎模型

RFMEP01：Pi和π0具身基礎模型

LeCun世界模型再近一步！Meta研究證明：AI可無先驗理解直覺物理

LeCun世界模型再近一步！Meta研究證明：AI可無先驗理解直覺物理

全球首次！2B復現DeepSeek-R1「啊哈時刻」，UCLA等用純RL實現多模態推理

全球首次！2B復現DeepSeek-R1「啊哈時刻」，UCLA等用純RL實現多模態推理

比Sora更瘋狂！英偉達AI讓機器人「做夢」修煉，無師自通直接上崗

比Sora更瘋狂！英偉達AI讓機器人「做夢」修煉，無師自通直接上崗

首個能讀懂所有物種DNA的模型問世，Arc、斯坦福、英偉達等聯合打造，可預測基因致病性、設計人工基因組

首個能讀懂所有物種DNA的模型問世，Arc、斯坦福、英偉達等聯合打造，可預測基因致病性、設計人工基因組

被谷歌點名感謝！杭州六小龍開源黑科技，讓機器人瞬間「悟透」3D世界｜紀源FAMILY

被谷歌點名感謝！杭州六小龍開源黑科技，讓機器人瞬間「悟透」3D世界｜紀源FAMILY

被谷歌點名感謝！杭州六小龍開源黑科技，讓機器人瞬間「悟透」3D世界

被谷歌點名感謝！杭州六小龍開源黑科技，讓機器人瞬間「悟透」3D世界

Copyright © 2025 | WordPress Theme by MH Themes