AI一眼認出95萬物種,還能分辨雄雌老幼,2億生物影像煉成“生命視覺”大模型

BIOCLIP 2團隊 投稿量子位 | 公眾號 QbitAI
讓AI看懂95萬物種,並自己悟出生態關係與個體差異!
俄亥俄州立大學研究團隊在2億生物影像資料上訓練了BioCLIP 2模型。大規模的訓練讓BioCLIP 2取得了目前最優的物種識別效能。
而更令人驚喜的是,即使在訓練過程中沒有相應監督訊號,BioCLIP 2還在棲息地識別、植物疾病識別等5個非物種任務中給出了遠超DINOv2的準確率。
BioCLIP 2在大規模訓練中獲取了物種之外的湧現的生物學理解:
  • 物種間生態對齊:不同達爾文雀在特徵空間中的排列和他們喙的大小一致;
  • 物種內差異分離:雌雄/幼成體的特徵落在與物種區別正交的子空間,且隨訓練規模增大而更容易區分。
以下是論文詳情:

把“生命之樹”搬進視訊記憶體

大語言/視覺模型的“湧現”告訴我們:規模+結構化監督=意料之外的能力
然而,生物多樣性研究領域一直沒有見到一個具有湧現屬性的視覺語義基座。BIOCLIP把CLIP的多模態對齊搬到物種上,利用〔界-門-綱-目-科-屬-種〕+學名+常用名的多粒度文字提供層級監督。在此基礎之上,研究團隊提出一個問題:
如果把層級對比學習從1千萬張影像直接推到2億,會不會學出超越“物種標籤”的生物學知識?
BIOCLIP 2正是這一實驗的答案。
為了實現這一目標,研究團隊從GBIF、EOL、BIOSCAN-5M、FathomNet等 4 大平臺收集了2.14億生物影像,提出了TreeOfLife-200M資料集。該資料集包含95.2萬個不同的分類標籤,涵蓋標本、野外相機陷阱等豐富的影像類別。這是迄今規模最大、最豐富的生命影像庫。
在增大訓練資料量的同時,研究團隊也將模型從ViT-B擴大至ViT-L。更大的引數量為新知識的湧現做好了準備。

效能一覽

物種識別:零樣本物種識別平均準確率55.6% →比第二好的SigLIP模型提升了16.1。少樣本物種識別遠優於常用的視覺模型DINOv2。
非物種視覺任務:除了物種分類之外,BioCLIP 2還在棲息地識別、生物屬性識別、新物種發現和植物疾病識別等多項任務上超越了SigLIP和DINOv2等常用視覺模型。
BioCLIP 2在訓練階段只接觸了物種層級的監督訊號,但卻在各類非物種生物視覺任務上取得了優異的效能。這讓研究團隊深入調查了模型的特徵空間,並發現了大規模訓練帶來的湧現屬性。

兩大涌現屬性

1. 物種間生態對齊
具有相似生活習性和生態學意義的物種在特徵空間中聚集在一起,如淡水vs鹹水魚隨著訓練規模擴大分界逐漸清晰。
解釋:層級標籤把生態近鄰拉向相似的文字原型,從而實現視覺特徵和功能特徵的對齊。
2. 物種內差異分離
同一物種雌雄、幼成體之間的差異沒有被對比學習消除,而是沿著物種間差異正交的方向分佈,且正交程度隨著訓練規模增大同步增大。
解釋:當對比學習將不同的物種分開後,物種內的差異可以在正交子空間內分佈而不會影響物種分類的損失最佳化(論文中定理 5.1)。
1M→10M→50M→214M 四檔實驗顯示:所有非物種視覺任務效能單調上升,且體內差異的分離度 / 正交度同步提升,進一步證實了擴大訓練規模給湧現屬性帶來的增益。
一句話總結:BIOCLIP 2 證明了“把正確的監督做大”同樣能在專業領域復刻大模型的湧現屬性——不僅準確,而且懂生物。
專案主頁:https://imageomics.github.io/bioclip-2/Demo網址:https://huggingface.co/spaces/imageomics/bioclip-2-demo論文網址:https://arxiv.org/abs/2505.23883
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章