讓 AI 看懂 95 萬物種,并自己悟出生態(tài)關(guān)系與個體差異 !
俄亥俄州立大學(xué)研究團隊在 2 億生物圖像數(shù)據(jù)上訓(xùn)練了 BioCLIP 2 模型。大規(guī)模的訓(xùn)練讓 BioCLIP 2 取得了目前最優(yōu)的物種識別性能。
而更令人驚喜的是,即使在訓(xùn)練過程中沒有相應(yīng)監(jiān)督信號,BioCLIP 2 還在棲息地識別、植物疾病識別等 5 個非物種任務(wù)中給出了遠(yuǎn)超 DINOv2 的準(zhǔn)確率。
BioCLIP 2 在大規(guī)模訓(xùn)練中獲取了物種之外的涌現(xiàn)的生物學(xué)理解:
物種間生態(tài)對齊:不同達爾文雀在特征空間中的排列和他們喙的大小一致;
物種內(nèi)差異分離:雌雄 / 幼成體的特征落在與物種區(qū)別正交的子空間,且隨訓(xùn)練規(guī)模增大而更容易區(qū)分。
把 " 生命之樹 " 搬進顯存
大語言 / 視覺模型的 " 涌現(xiàn) " 告訴我們:規(guī)模 + 結(jié)構(gòu)化監(jiān)督 = 意料之外的能力。
然而,生物多樣性研究領(lǐng)域一直沒有見到一個具有涌現(xiàn)屬性的視覺語義基座。BIOCLIP 把 CLIP 的多模態(tài)對齊搬到物種上,利用〔界 - 門 - 綱 - 目 - 科 - 屬 - 種〕+ 學(xué)名 + 常用名的多粒度文本提供層級監(jiān)督。在此基礎(chǔ)之上,研究團隊提出一個問題:
如果把層級對比學(xué)習(xí)從 1 千萬張圖像直接推到 2 億,會不會學(xué)出超越 " 物種標(biāo)簽 "的生物學(xué)知識?
BIOCLIP 2 正是這一實驗的答案。
為了實現(xiàn)這一目標(biāo),研究團隊從 GBIF、EOL、BIOSCAN-5M、FathomNet 等 4 大平臺收集了 2.14 億生物圖像,提出了 TreeOfLife-200M 數(shù)據(jù)集。該數(shù)據(jù)集包含 95.2 萬個不同的分類標(biāo)簽,涵蓋標(biāo)本、野外相機陷阱等豐富的圖像類別。這是迄今規(guī)模最大、最豐富的生命圖像庫。
性能一覽
物種識別:零樣本物種識別平均準(zhǔn)確率 55.6% →比第二好的 SigLIP 模型提升了 16.1。少樣本物種識別遠(yuǎn)優(yōu)于常用的視覺模型 DINOv2。
兩大涌現(xiàn)屬性
1. 物種間生態(tài)對齊
具有相似生活習(xí)性和生態(tài)學(xué)意義的物種在特征空間中聚集在一起,如淡水 vs 咸水魚隨著訓(xùn)練規(guī)模擴大分界逐漸清晰。
解釋:層級標(biāo)簽把生態(tài)近鄰拉向相似的文本原型,從而實現(xiàn)視覺特征和功能特征的對齊。
同一物種雌雄、幼成體之間的差異沒有被對比學(xué)習(xí)消除,而是沿著物種間差異正交的方向分布,且正交程度隨著訓(xùn)練規(guī)模增大同步增大。
解釋:當(dāng)對比學(xué)習(xí)將不同的物種分開后,物種內(nèi)的差異可以在正交子空間內(nèi)分布而不會影響物種分類的損失優(yōu)化(論文中定理 5.1)。
項目主頁:https://imageomics.github.io/bioclip-2/
Demo 網(wǎng)址:https://huggingface.co/spaces/imageomics/bioclip-2-demo
論文網(wǎng)址:https://arxiv.org/abs/2505.23883
一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評論區(qū)留下你的想法!
— 完 —
點亮星標(biāo)
科技前沿進展每日見