從無人機到個人手機,各種相機收集的自然世界圖像是越來越豐富的生物信息來源。從圖像中提取生物相關信息用于科學的計算方法和工具激增,尤其是計算機視覺。然而,其中大多數都是為特定任務設計的,不容易適應或擴展到新的問題、環境和數據集。為了解決這一問題,BioCLIP發布了TREEOFLIFE-10M,這是最大、最多樣化的生物圖像數據集。然后開發了BIOCLIP,這是生命樹的基礎模型,利用TREEOFLIFE-10M捕捉到的生物學的獨特特性,即植物、動物和真菌的豐富多樣的圖像,以及豐富的結構化生物學知識。BioCLIP在不同的細粒度生物分類任務上進行了嚴格的基準測試,BioCLIP始終顯著優于現有的基線(絕對值為16%至17%)。
來自:BIOCLIP: A Vision Foundation Model for the Tree of Life
目錄
- 背景概述
- 貢獻
- CLIP背景下的零樣本和小樣本場景
背景概述
計算機視覺正在迅速成為研究自然世界的工具。然而,應用計算機視覺來回答生物學問題仍然是一項艱巨的任務----生物學家必須手動為感興趣的特定分類種群標記足夠的數據,并找到和任務相關的模型。此時,CLIP和GPT-3等基礎模型正在推進零樣本或少樣本學習(無需參數更新)。類似的生物學視覺基礎模型應該適用于跨越整個生命樹的任務,而不僅僅是它所訓練的那些分類種群。
在這項工作中,作者的目標是為生命樹開發這樣一個基礎模型:
- 首先,它應盡可能推廣到整個生命樹,以確保它支持研究人員研究許多不同的分支。此外,收集覆蓋數百萬已知分類群的訓練數據是不可行的,因此該模型必須推廣到訓練數據中不存在的分類群。
- 其次,它應該學習生物圖像的細粒度表示,這種細粒度是至關重要的,因為生命樹將生物分為廣泛的類別(動物、真菌和植物)甚至非常細粒度的類別(印第安淺藍鳥,印第安藍鳥)。
- 最后,由于生物學中數據收集和標記的高成本,在low-data(即零樣本或少樣本)設置中的性能至關重要。
雖然泛化、細粒度分類在計算機視覺中已經是老問題,但對于生物自然圖像,數億張圖像上訓練的現有通用視覺模型依然達不到要求。具體而言,現有的視覺模型產生了一般的細粒度表示,有助于比較狗和狼等常見生物,但不適用于更細粒度的比較,例如Onoclea sensibilis和Onoclea hintonii(見圖1)。
下面,作者確定了開發生物學視覺基礎模型的兩個主要障礙。首先,需要合適的預訓練數據集:現有數據集缺乏規模、多樣性或細粒度標簽。其次,需要研究適當的預訓練策略,利用生物學領域的特性,更好地實現前面提到的三個關鍵目標。
- 圖1:a.兩種不同植物的兩個分類群(taxa),或分類學標簽(taxonomic labels),圖d和圖e,除了species之外,它們的taxa是相同的。b.自回歸文本編碼器自然地對分類法(taxonomy)的層次結構進行編碼。看看Order token(Polypodiales)如何包含Kingdom, Phylum 和 Class tokens的信息。這有助于將視覺表示與層次結構對齊。c.分類標簽的這些分層表示被饋送到標準對比預訓練目標中,并與圖像表示 d 和 e 相匹配。
文本類型 | 例子 |
---|---|
Common-共識 | black-billed magpie-黑嘴喜鵲 |
Scientific-科學 | Pica hudsonia-黑嘴喜鵲 |
Taxonomic-分類學 | Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia |
Scientific + Common | Pica hudsonia with common name black-billed magpie |
Taxonomic + Common | Animalia Chordata Aves Passeriformes Corvidae Pica hudsonia with common name black-billed magpie |
- 表3:BIOCLIP訓練中考慮的文本類型。
貢獻
鑒于這些目標和實現這些目標的挑戰,作者介紹了:TREEOFLIFE-10M,一個大規模的ML ready生物圖像數據集,以及BIOCLIP,一個生命樹的視覺基礎模型。
- TREEOFLIFE-10M:一個大規模、多樣化的ML生物圖像數據集。作者策劃并發布了迄今為止最大的ML ready生物圖像數據集及其相關分類標簽,包含超過1000萬張圖像,覆蓋生命樹中的454,000個分類群。相比之下,目前最大的ML ready生物圖像數據集中iNat21僅包含270萬張圖像。TREEOFLIFE-10M集成了現有的高質量數據集,如iNat21和BIOSCAN-1M。更重要的是,它包括來自生命百科全書的最新圖像,該百科全書提供了TREEOFLIFE-10M的大部分數據多樣性。TREEOFLIFE-10M中的每個圖像都以其盡可能最好的分類層次以及生命樹中更高的分類等級進行標記(參見圖1和表3中的分類等級和標簽示例)。TREEOFLIFE-10M能夠訓練BIOCLIP和未來的生物學基礎模型。
- BIOCLIP:生命之樹的視覺基礎模型。對于TREEOFLIFE-10M等大規模標記數據集,一種標準、直觀的訓練策略(如ResNet50和Swin Transformer等其他視覺模型所采用的)是使用監督分類目標,并從圖像中學習預測分類指數。然而,這并沒有認識到和利用分類學標簽的豐富結構——分類群(taxa)不是孤立存在的,而是在一個全面的分類學中相互聯系的。因此,通過普通監督分類訓練的模型不能很好地推廣到那些unseen分類群(不能支持零樣本分類)。
相反,作者提出了一種新的策略,將CLIP風格的多模態對比學習與BIOCLIP豐富的生物分類學相結合。作者將從Kingdom到最遠端的taxon rank“扁平化”為一個稱為taxonomic name的字符串,并使用CLIP對比學習目標來學習將圖像與其對應的分類名稱相匹配。直觀地說,這有助于該模型推廣到看不見的分類群——即使模型沒有看到某個物種,它也很可能學會了該物種屬(genus)或科(family)的合理表示(見圖1)。BIOCLIP還支持零樣本分類法(開放詞匯表)。作者進一步提出并證明了混合文本類型訓練策略的有效性;通過在訓練過程中混合不同的文本類型(例如,taxonomic vs. scientific vs. common),模型保留了taxonomic name的泛化能力,同時在測試時具有更大的靈活性。例如,即使下游用戶只提供常見的物種名稱,BIOCLIP仍然表現出色。
- 表4:模型基準測試。
CLIP背景下的零樣本和小樣本場景
對于零樣本,遵循與CLIP相同的程序(直接計算輸入圖像與候選文本的相似度就行)。對于小樣本學習,遵循SimpleShot并使用nearest-centroid classifier。對于k-shot,首先對每個類的k個示例進行隨機采樣,并從預訓練模型的視覺編碼器中獲得圖像embedding。然后,計算 k 個嵌入的平均特征向量作為每個類的質心。數據集中剩下的所有示例都用于測試。在對每個質心和測試特征向量應用均值減法和L2歸一化后,選擇質心離測試向量最近的類作為預測類。作者用不同的隨機種子重復每個實驗5次,并在表4中報告平均準確度。