摘要
? ? ? ?學習與特定任務無關的預訓練表示已經成為自然語言處理的標準,這些表示不進行微調,即可在下游任務上明顯優于特定任務模型的性能。其主要得益于使用無監督語言建模目標對大量原始文本進行預訓練。 遵循NLP中的這種范式轉變,以探索計算機視覺中類似的基礎模型。 這種基礎模型應該生成在任何任務上都可以開箱即用的視覺特征,無論是在圖像級別如圖像分類還是像素級別如分割。
? ? ? ?本文基于以往視覺判別式自監督學習方法(如IBT),提出如下改進:
- 建立了一個自動pipeline,從大量未經整理的圖像集合中利用圖像相似性過濾及利用聚類方法平衡數據集模式分布收集了一個小型多樣化的語料庫,包含1.42億張沒有標簽的圖像
- 開源了多種DINOv2預訓練ViT,具備比以往自監督ViT更優的性能
- 證明了在大量數據上進行預訓練,自監督學習具有學習通用視覺特征的潛力
? ? ? ?上圖每一列都為對DINOv2的輸出特征采用PCA后的主成分相互匹配的圖像,每張圖對應的右側圖為前3個主成分特征可視化的結果。觀察到采用無監督訓練的DINOv2具備優秀的特征提取能力,驗證了上述的改進結論。
? ? ? ?上圖為DINOv2在8種不同類型的視覺任務的性能,虛線為最好的弱監督方法的性能,淡橙色為自監督方法的性能,深粉色為弱監督方法的性能。觀察到DINOv2大幅改善了以往的自監督學習方法,達到了與弱監督相當的性能。
數據處理
? ? ? ?本文提出的LVD-142M數據集由一個巨大的未整理的數據池中檢索了幾個精選數據集中的圖像得到的圖像數據集和被用于檢索的幾個精選數據集組成。詳細流程如下圖:
Data sources
? ? ? ?數據源包括作為檢索條件的精選數據源和一個未經整理的數據池。其中精選數據源詳情如上表,包含ImageNet22k、ImageNet1k的訓練集、Google Landmarks和幾個細粒度數據集。未整理數據池包含1.2B張圖像,其來源于一個利用爬蟲爬取的未經過濾的公開可用網絡倉庫,并取出倉庫中的所有網頁的標簽的圖像 URL鏈接,其中丟棄了不安全或受域名限制的URL,并對下載的圖像進行了后處理(PCA哈希去重、NSFW過濾和模糊可識別的人臉)。
Deduplication
? ? ? ?將copy detection pipeline應用于未經整理的數據池,并對圖像去重,這減少了冗余并增加了圖像間的多樣性。另外對精選數據源中的測試或驗證集也進行了圖像去重。
Self-supervised image retrieval
? ? ? ?通過從未整理的數據池中檢索與精選數據源中的圖像接近的圖像來構建預訓練數據集。對任意兩張圖像,使用在ImageNet22k上預訓練的自監督ViT-H/16網絡計算圖像嵌入,并使用余弦相似度作為圖像之間的距離度量。
m ( s , r ) = c o s i n e _ s i m i l a r i t y ( f ( s ) , f ( r ) ) = f ( s ) , f ( r ) ∣ ∣ f ( s ) ∣ ∣ 2 ∣ ∣ f ( r ) ∣ ∣ 2 m(s,r)=cosine\_similarity(f(s),f(r))=\frac {f(s),f(r)} {||f(s)||_2||f(r)||_2} m(s,r)=cosine_similarity(f(s),f(r))=∣∣f(s)∣∣2?∣∣f(r)∣∣2?f(s),f(r)?
? ? ? ? s s s和 r r r是一對用于比較的圖像, f f f是生成的特征。首先對未經整理的數據進行k-means聚類,然后給定一個用于檢索的查詢數據集(精選數據源),如果其足夠大,則為每個查詢圖像檢索N(通常為4)個最近鄰圖像;如果查詢數據集很小,則從每個查詢圖像對應的聚類集群中采樣M張圖像。通過對檢索結果進行目視檢查,對N和M進行調整。
Implementation Details
? ? ? ?pipeline的去重和檢索階段依賴于Faiss庫的GPU加速索引來高效地實現基于特征嵌入最近鄰的批量搜索。整個處理過程分布在一個由20個節點組成的計算集群上,每個節點有8個V100-32GB GPU,生成LVD-142M數據集需要不到兩天的時間。
判別式自監督預訓練
? ? ? ?DINOv2采用DINO和iBOT組合的自監督方法學習特征,并做出一系列調整。
Image-level objective
? ? ? ?圖像級目標定義為分別從學生網絡和教師網絡中提取的ViT的cls patch特征之間的交叉熵損失,教師網絡和學生網絡的輸入從同一圖像的不同裁剪中獲得。
Patch-level objective
? ? ? ?隨機屏蔽一些學生網絡輸入的輸入patch,但不屏蔽教師網絡輸入,然后對每個掩碼patch對應的兩個網絡輸出patch特征之間計算交叉熵損失,即為patch級目標。該損失與圖像級損失相結合定義為最終損失,得到的損失用于訓練學生網絡的參數,使用EMA來構建教師網絡。詳情參考iBOT。
Untying head weights between both objectives
? ? ? ?采用上述方法將兩個目標的損失聯系在一起,會使模型在patch級別上欠擬合,而在圖像級別上過擬合。故對兩種損失添加不同權重,來提高模型在兩種尺度上的性能。
Sinkhorn-Knopp centering
? ? ? ?使用SwAV的Sinkhorn-Knopp(SK)批量歸一化替換DINO和iBOT教師網絡的softmax/centering步驟。模型對教師網絡應用3次SK歸一化,對學生應用softmax歸一化。
KoLeo regularizer
? ? ? ?KoLeo正則化器源自Kozachenko-Leonenko微分熵估計器,其會鼓勵一個batch中的特征呈均勻跨度。具體為,給定一組向量 ( x 1 , … , x n ) (x_1,…,x_n) (x1?,…,xn?), L k o l e o = ? 1 n ∑ i = 1 n l o g ( d n , i ) L_{koleo} =?\frac 1 n \sum^ n_{i=1} log(d_{n,i}) Lkoleo?=?n1?∑i=1n?log(dn,i?),其中 d n , i = min ? j ≠ i ∣ ∣ x i ? x j ∣ ∣ d_{n,i} = \min_{j\neq i} || x_i?x_j|| dn,i?=minj=i?∣∣xi??xj?∣∣是 x i x_i xi?和batch內其他點之間的最小距離。
? ? ? ?DINO的投影頭 h h h的MLP之后首先使用 l 2 l_2 l2?正則化,然后再使用KoLeo正則化。
Adapting the resolution
? ? ? ?提高圖像分辨率是像素級下游任務的關鍵(如分割或檢測),小目標會在低分辨率下消失。然而,在高分辨率下訓練需要更多時間和內存。為了平衡兩種情況,本文在預訓練快結束的短時間內會將圖像的分辨率提高到 518 × 518 518 × 518 518×518。
高效實現
? ? ? ?本文使用pytorch2.0在A100 GPU上訓練模型。在相同的硬件下,DINOv2的代碼實現只使用iBOT 1/3的內存但運行速度快2倍。具體實現細節如下:
Fast and memory-efficient attention
? ? ? ?實現了一個新版本的FlashAttention,提高了自注意層的內存使用效率和速度。因為GPU硬件的特殊性,當每個頭的嵌入維數為64的倍數時,效率最好;整體嵌入維數為256的倍數時,矩陣運行效率最好,因此實現的ViT-g使用1536個頭(64 dim/head),ViT-g參數量為1.1B。
Nested tensors in self-attention
? ? ? ?允許在同一前向傳播中運行global crops和local crops(全局視圖、局部視圖),與之前的實現相比提高了計算效率。
Efficient stochastic depth
? ? ? ?實現了一個改進版的隨機深度(stochastic depth),同以往實現掩蓋丟棄的殘差層計算結果不同,該實現跳過了被丟棄的殘差層的計算。這節省了內存和計算量,其比例近似于drop rate。由于較高的drop rate(d=40%),顯著提高計算效率和內存使用。另外還在每個batch上隨機打亂B個樣本,并切片前面的 ( 1 ? d ) × B (1?d)×B (1?d)×B個樣本用于塊中的計算。詳細訓練配置如上圖。
Fully-Sharded Data Parallel (FSDP)
? ? ? ?FSDP是一個可以在多個GPU節點上運行的高效分布式訓練框架。具體,在使用AdamW優化器進行訓練時,需要使用4個模型副本,包括學生網絡、教師網絡、優化器的一階和二階動量,對于ViT-g這樣1.1B參數的模型,需要至少16GB的內存存儲參數。故使用FSDP降低單個GPU的內存占用,將模型副本分片放置在多個GPU上。
? ? ? ?因此,模型大小不再受單個GPU的內存限制,而是受到整個計算節點的GPU內存總和的限制。FSDP還可以節省跨GPU通信成本,按優化器的要求參數權重分片以float32精度存儲,但骨干網絡的權重廣播和梯度下降使用float16精度進行計算(MLP的梯度用float32精度下降,以避免訓練不穩定),相比于Distributed Data Parallel(DDP)全部使用float32精度計算,可減少50%的通信成本。
Model distillation
? ? ? ?如上圖,DINOv2給出一系列模型ViT-g、ViT-l、ViT-b、ViT-s,其中只對1.1B參數的ViT-g采用LVD-142M進行預訓練,其余小模型均使用知識蒸餾從ViT-g中蒸餾得到。
? ? ? ?蒸餾過程采用和預訓練同樣的訓練框架,令ViT-g為教師網絡,其余型號的ViT小模型做學生網絡進行訓練,并保留一個學生網絡EMA作為最終模型。同預訓練不同之處在于刪除了mask和隨機深度策略,對于iBOT其分支全部使用global crops。
消融實驗
Improved Training Recipe
? ? ? ?DINOv2的訓練方法是在iBOT基礎上添加了上述組件進行了改進。為了評估各組件對訓練過程的重要性,依次將組件添加到一個baseline iBOT模型中,得到多個模型。
? ? ? ?如上表,報告了ImageNet-1k驗證集中k-NN和線性檢測任務的Top-1精度。觀察到,每個組件都逐步提高了k-NN或線性檢測的性能,只有LayerScale和隨機深度會導致線性檢測的性能下降,但其顯著提高了訓練的穩定性。
Pretraining Data Source
? ? ? ?特征的質量與訓練數據的質量直接相關。故將LVD-142M、ImageNet-22k、刪除ImageNet-1k(INet-22k\INet-21k)后的ImageNet-22k的變體及直接使用原始和未整理的數據進行比較,未經整理的數據集為從與LVD-142M相同的數據源中隨機抽取的1.42億張圖像。實驗在每個數據集上訓練一個具有相同迭代次數的ViT-g/14。
? ? ? ?如上表。觀察到在LVD-142M進行訓練的模型在3個基準上比Uncurated data上訓練的模型效果更好,這證實了數據整理的好處。與在ImageNet-22k上訓練的模型相比,在LVD-142M上訓練的模型在除ImageNet-1k之外的基準上也更優,這證實了在更多樣化的圖像集上進行訓練可以提高該數據集未覆蓋領域的特征質量。
? ? ? ?總體而言,LVD-142M對不同類型的圖像提供了很好的平衡,從而獲得了最佳的整體性能。
Model Size and Data
? ? ? ? 上圖為LVD-142M(藍色)和ImageNet-22k(橙色)上訓練的不同大小的模型在幾種測試集上的性能表現。觀察到隨著模型規模的增長,在LVD-142M上訓練比在ImageNet-22k上訓練更有益。例如,在LVD-142M上訓練的ViT-g與在ImageNet-22k上訓練的ViT-g 在ImageNet-1k上的性能相匹配,而在其他基準上明顯更優。
Loss Components
? ? ? ?本實驗驗證了添加KoLeo損失與否及有無MIM任務對最終模型性能的影響。對于這兩種情況,報告了使用線性分類器在ImageNet-1k的分類性能、使用線性分類器進行ADE-20k分割性能以及在Oxford-m上的最近鄰圖像檢索性能。
? ? ? ?上表a顯示了使用KoLeo損失與否的影響。觀察到使用KoLeo損失,圖像檢索性能提高了8%以上,這證實了KoLeo損失有助于在輸出空間中擴展特征。同時,其他指標也不會受到這種正則化的影響。
? ? ? ?上表b中,展示了使用iBOT的MIM的影響。觀察到MIM對于密集預測任務至關重要,可以導致近3%的性能改進。
Impact of Knowledge Distillation
? ? ? ?本實驗驗證對于小型架構,利用更大的模型進行知識蒸餾比從頭開始訓練更有益。具體,通過將從頭訓練的ViT-l/14(scratch)與從預訓練ViT-g/14(scratch)在上圖中的12個以上基準中蒸餾的ViT-l/14(distilled)進行比較,并報告了ViT-g/14(scratch)的性能。
? ? ? ?如上圖,ViT-l/14(distilled)在12個基準中的10個上優于ViT-l/14(scratch),驗證了對小型模型進行知識蒸餾的預訓練方法的有效性。
Impact of Resolution
? ? ? ?本實驗驗證了在預訓練過程中改變分辨率對圖像和patch級特征性能的影響。基于兩種策略,從頭訓練使用 224 × 224 224×224 224×224分辨率(橙色)或 416 × 416 416×416 416×416分辨率(深粉色)的模型;以及在 224 × 224 224×224 224×224分辨率從頭訓練,然后在 416 × 416 416×416 416×416分辨率上繼續進行10k次迭代的模型(橙色)。高分辨率訓練是計算密集型的,所以實驗采用ImageNet1k上訓練的ViT-L/16驗證。
? ? ? ?如上圖,報告了在ImageNet-1k和ADE-20k上的線性檢測的性能,并在不同的分辨率下進行了評估。觀察到,在高分辨率圖像上訓練的模型在不同分辨率上表現最好,但這種代價很高。另一方面,在訓練結束時進行10k次高分辨率訓練迭代的性能幾乎也同樣好,而且只需要一小部分計算量。因此,DINOv2采用在訓練結束時包括了這一步的策略,而不是從頭開始的高分辨率訓練。
對比實驗
? ? ? ?本實驗使用兩種類型的模型作為baseline。自監督模型包括MAE、DINO、SEERv2、MSN、EsViT、Mugs和iBOT。弱監督模型包括CLIP、OpenCLIP和SWAG。
ImageNet Classification
? ? ? ?本實驗驗證DINOv2在ImageNet1k分類數據集上的性能。實驗通過在凍結的骨干上訓練一個簡單的分類器來評估精度(沒有對骨干權重進行微調)。由于大多數SSL方法使用ImageNet1k驗證性,因此另外報告了ImageNet-Real和ImageNet-v2上的top-1準確性。
? ? ? ?如上圖,不考慮架構或預訓練數據的情況下將DINOv2與以往最優的SSL比較。DINOv2在線性評估方面比之前的最先進水平(在ImageNet-22k上訓練的iBOT ViT/16)提升了4.2%的精度。同時還觀察到,所提出方法在備選測試集(ImageNet-Real、ImageNet-v2上)上的性能提高更大,表明DINOv2泛化能力較強。
? ? ? ?另外還與以往最優的弱監督模型在ImageNet1k上對比了線性檢測性能,我們在表4中顯示了這個評估的結果。觀察到,ViT-G/14/DINOv2比ViT-G/14/OpenCLIP提高0.3%的精度,比ViT-g/14/EVA-CLIP提高0.1%的精度。同時,也觀察到DINOv2在ImageNet-V2測試上的表現比EVA-CLIP提高1.1%的精度,表明DINOv2具有更好的泛化能力。
? ? ? ?上圖實驗為DINOv2在ImageNet-1k微調后產生的性能。觀察到,輸入分辨率為224和448的模型,微調后ImageNet-1k驗證集上的top1精度都提高了+2%以上。證明對DINOv2的微調可以進一步提高在特定任務上的性能。
? ? ? ?另外實驗探索了DINOv2的特征魯棒性,在ImageNet-A、ImageNet-R、ImageNet-C、Sketch基準上評估了使用線性分類頭訓練的ImageNet-1k模型。
? ? ? ?實驗結果如上表所示。與最先進的SSL方法相比,DINOv2顯示出更好的魯棒性(與iBOT相比,ImageNet-A提高了29.6%,ImageNet-R提高了22.1%,Sketch提高了23.0%)。DINOv2還改進了ImageNet-A上的最佳弱監督模型OpenCLIP,但在ImageNet-R和Sketch上表現較差。
Additional Image and Video classification Benchmarks
? ? ? ?本實驗研究DINOv2的特征在下游分類基準測試上的泛化能力,使用了兩組評估,第一組使用大型細粒度數據集,如iNaturalist和Places205驗證圖像分類性能。對于iNaturalist 2018、iNaturalist 2021和Places205,實驗訓練了采用數據增強的線性分類器。
? ? ? ?第一組結果如上表中,報告了iNaturalist 2018、iNaturalist 2021和Places205的top-1個精度。觀察到,DINOv2在兩種iNaturalist變體上顯著優于ViT-G/14/OpenCLIP(+8.6%和+9.7%),但在Places205上略微落后(?2.3%)。
? ? ? ?在第二組評估中,驗證了模型在視頻動作識別上的性能,實驗評估了UCF-101、Kinetics-400和Something-Something v2三個數據集。對每個數據集,每個視頻間隔8幀提取一張圖像,其中UCF和K-400使用一個視頻提取出的圖像的特征平均值訓練線性分類器;對于SSv2,采用concat序列特征以保留更多的時序信息。使用平均精度為測量指標。
? ? ? ?第二組結果如上表右。觀察到在自監督的方法中,DINOv2實現了最先進的精度。此外,DINOv2在UCF和Kinetics上比OpenCLIP有更高的準確性(+0.1%、+0.5%),在SSv2上提升幅度更大(+2.5%),因為SSv2需要對視頻幀的時序性有更豐富的理解。
? ? ? ?在上表中,還比較了SimCLR提出的12個分類基準中得到性能。這個基準測試包括場景、對象(食物、汽車、飛機)和紋理。實驗用CUB替換了Birdsnap數據集,因為Birdsnap還沒有完全公開。
? ? ? ?觀察到,DINOv2顯著優于最先進的SSL模型,最顯著的差異是在Stanford Cars(+14.8% vs DINOViT-B/8)和FGVC Aircraft(+14.8% vs ViT-L/16/iBOT)。除了SUN(?5.3%)和Cars(?4.7%),DINOv2在大多數分類基準測試上與OpenCLIP也具有競爭力。
Instance Recognition
? ? ? ?在本實驗中,使用非參數方法驗證了模型在實例級識別任務的表現,查詢圖像通過與數據庫中的圖像的余弦相似度進行排序來確定實例類別。實驗在Paris和Oxford的基線進行了比較,還評估了Metropolitan museum和Amster時間,其中包含與Amsterdam檔案圖像相匹配的街景圖像。通過計算平均精度來衡量性能,
? ? ? ?結果如上表。觀察到,DINOv2顯著優于SSL(Oxford-Hard +41%mAP)和弱監督(Oxford-Hard +34%mAP),這是里程碑式的識別基準。
Dense Recognition Tasks
? ? ? ?本實驗評估語義分割性能,考慮了兩種不同的設置:
- 線性:訓練一個線性層從最后一層的patch token預測類logits,其可生成一個低分辨率的logit圖(例如一個patch大小為16的模型輸出為32x32),然后將其上采樣到全分辨率(512x512)以獲得一個分割圖
- +ms:一個線性設置的增強版本。將最后4層的patch token concat起來預測類logits,上采樣使用更大的圖像分辨率640,并使用multiscale test-time增強來改進預測
? ? ? ?結果如上表。報告了兩種設置下DINOv2變體在三個數據集(ADE20k、CityScapes、Pascal VOC)上的性能。觀察到,模型在所有數據集和所有設置上都顯示出非常好的性能,使用+ms的評估與使用UperNet解碼器微調的MAE(53.0 vs 53.6mIoU)相當,但DINOv2只使用了一個明顯更簡單的預測器。此外,使用+ms的最佳DINOv2模型,幾乎與Pascal VOC的最先進技術水平相當(86.2 vs 89.0mIoU)。
? ? ? ?在最后的實驗中,凍結了主干網絡,將其插入具有Mask2former頭的ViT-Adapter。在ADE20k上達到60.2 mIoU,接近最先進的62.9 mIoU。
? ? ? ?本實驗在三個單目深度估計基準(NYUd、KITTI和從NYUd到SUN3d的zero-shot遷移)上驗證模型在深度估計上的性能。考慮了三種不同的評估設置:
- lin.1:提取被凍結模型的最后一層的token,并將[CLS] token拼接到每個patch token,然后將上述token利用雙線性上采樣4倍以增加分辨率,最后利用分類loss訓練一個簡單的線性層,并將深度預測范圍劃分到256個均勻分布的bins中,然后進行線性歸一化
- lin.4:使用與lin.1相同的協議,但ViT-s/b拼接{3、6、9、12}層的token,ViT-l拼接{5、12、18、24}層,以及ViT-g拼接{10、20、30、40}層
- DPT:在凍結模型之上使用DPT解碼器,并設置一個回歸任務。并根據每個架構的特征的尺寸來縮放頭部的大小
? ? ? ?結果如上表。觀察到,DINOv2的性能超過了以往最優的SSL和WSL模型。另外,從ViT-L中提取的iBOT特征優于使用ViT-G的OpenCLIP特征,這一觀察結果支持了一種直覺,即caption-based的特征無法學習到這樣的微妙模式。
? ? ? ?此外,使用DPT解碼器的DINOv2,匹配或超過以往最優的性能。最后,在SUN-RGBd上的域外泛化結果表明,DINOv2的特征允許很好的域間轉移。一個由NYUd在室內場景上訓練的深度預測模塊可以很好地推廣到SUN-RGBd的室外例子。
定性分析
Semantic Segmentation and Depth Estimation
? ? ? ?上圖分別為ADE20K的語義分割可視化結果和NYUd、KITTI、SUN RGB-D的深度估計可視化結果,實驗將DINOv2與OpenCLIP在每個數據集上都使用線性分類器進行比較。
? ? ? ?觀察到雖然不完美,但使用DINOv2主干的線性分割模型產生了良好的結果,并且在這個評估設置下比OpenCLIP模型表現更好。由OpenCLIP-G產生的分割掩模顯示了許多偽影和斷開連接的組件。
? ? ? ?深度估計的定性結果也說明了OpenCLIP和DINOv2之間的差距。雖然DINOv2的特征以及OpenCLIP提取的特征都能夠線性地分離深度等復雜的信息(兩者都沒有使用這種類型的信息進行訓練)。然而,DINOv2的特性產生了一個更平滑的深度估計,與更少的偽影。一些對象,如SUN RGB-D圖像上的椅子,被OpenCLIP完全忽略,但DINOv2可以正確地定位。
Out-of-distribution generalization
? ? ? ?上圖為一些DINOv2深度估計和實例分割的示例。觀察到,即使在不同的領域,動物或繪畫的圖片的深度和分割的質量也非常好。
PCA of patch features
? ? ? ?上圖展示DINOv2提取的patch特征進行主成分分析(PCA)的結果。提取流程為:
- 從DINOv2的輸出中提取patch token特征,并對其計算PCA
- 對patch特征的第一主成分設置閾值后,只保留正值的patch,這個過程可以獲取從背景中分離出來的圖像的主要目標的patches
- 對上一步計算的前景patches再次計算PCA,并提取前3個主成分再次進行閾值過濾
- 得到的3個主成分patches做為RGB著色繪圖
? ? ? ?結果如上圖。首先,采用DINOv2的無監督前景/背景檢測器,采用PCA檢測第一主成分后,能夠描繪出圖像中主要目標的邊界;其次,其他主成分能匹配物體的不同部件。這證明DINOv2在沒有監督的情況下就能解析對象的各個部分。
Patch matching
? ? ? ?上圖實驗了DINOv2的跨圖像匹配功能,探索了patch級特征包含的信息類型。首先使用PCA檢測前景對象,然后計算從兩幅圖像中提取的patch特征之間的歐氏距離,并通過求解指派問題實現特征間的映射。為了減少匹配的數量,對匹配進行非極大值抑制(nms),只保留顯著的匹配。
? ? ? ?結果如上圖,展示了這種匹配的一些例子。觀察到,這些特征捕捉到了在不同的物體或動物中具有相似目的的語義區域的信息。例如,飛機的翅膀與鳥的翅膀相匹配。還觀察到,該模型對于風格和姿態的巨大變化(參考大象)具有魯棒性。
偏見分析
? ? ? ?本實驗用最大的ViT-g模型對模型進行了兩次公平性評估,探索了地理公平性和潛在的有害標簽關聯。
Geographical Fairness
? ? ? ?地理公平性評估使用Dollar Street數據集,包含來自54個國家289個家庭的16073張圖片,比較了不同國家和收入水平的生活差異的視覺表現。這項任務是識別94個概念,這些概念在不同的家庭中根據收入或地理位置有視覺上的差異,評估模型是否能在這些存在差異的圖像中準確識別目標概念。
? ? ? ?結果如上表,將DINOv2與SEERv2進行了比較,SEERv2是在地理上不同的圖像集上訓練的模型。觀察到,DINOv2在地區和收入都比SEERv2稍微公平一些。然而,仍然觀察到區域之間的顯著差異,特別是在非洲,DINOv2的性能與歐洲相比下降了25.7%。這表明DINOv2的模式仍然偏向西方國家。同樣,DINOv2在高收入家庭中的表現明顯優于低收入家庭,差異為31.7%。盡管有所改善,但DINOv2對西方國家的富裕家庭仍存在重大偏見。
Gender, Skintones and Age
? ? ? ?對于性別、膚色和年齡分類評估,在ImageNet-22k的619個類的子集上訓練了一個凍結主干網絡的多類分類器。實驗將619個類分為四個更廣泛的元類別:人類、可能是人類、非人類、罪犯,非人類和罪犯被認為是有害的。使用這個分類器,對來自Casual Conversations數據集的2955張圖像進行推斷,并將分類概率大于等于0.1的標簽保留在top-5中,因此,每張圖像都有多個類。
? ? ? ?結果如上表。將DINOv2與SEERv2進行了比較。DINOv2經常將所有群體的圖像分類為人類,對膚色沒有很大的偏差。SEERv2和DINOv2都無法準確預測非人類或犯罪元類別(除了兩個背景包含類似于監獄的酒吧)。DINOv2經常預測人類這個元類別,且經常預測男性人類類別。最終驗證了DINOv2沒有明確的模式表明對特定群體的偏見。
碳排放
? ? ? ?采用LLaMA的碳排放計算方法,DINOv2的耗能結果如上表,估計在A100-40GBGPU上使用20k GPU-hours后,整個項目的碳排放在0.5k到1k tCO2eq之間,排放的主要來源是模型的自監督預訓練。例如,ViT-g模型(22k gpu-hours)的一次預訓練會排放3.7噸的CO2eq,而對ImageNet-1k(1k gpu-hours)的微調會排放0.2噸的CO2eq。這一估計只考慮了GPU的用電量,而忽略其他排放。
實驗數據詳情
? ? ? ?上圖為消融實驗、對比實驗、定性分析、偏見分析、碳排放這些實驗使用的數據集詳情。
reference
Maxime, O. , Timothée, D. , Théo, M. , Huy, V. V. , Marc, S. , Vasil, K. , Pierre, F. , Daniel, H. , Francisco, M. , Alaaeldin, E. , Mahmoud, A. , Nicolas, B. , Wojciech, Galuba. , Russell, H. , PoYao, H. , ShangWen, L. , Ishan, M. , Michael, R. , Vasu, S. , Gabriel, S. , Hu, X. , Hervé, J. , Julien, M. , Patrick, L. , Armand, J. , & Piotr, B. . (2023). DINOv2: Learning Robust Visual Features without Supervision.