【論文精讀】DINOv2

摘要

? ? ? ?學習與特定任務無關的預訓練表示已經成為自然語言處理的標準,這些表示不進行微調,即可在下游任務上明顯優于特定任務模型的性能。其主要得益于使用無監督語言建模目標對大量原始文本進行預訓練。 遵循NLP中的這種范式轉變,以探索計算機視覺中類似的基礎模型。 這種基礎模型應該生成在任何任務上都可以開箱即用的視覺特征,無論是在圖像級別如圖像分類還是像素級別如分割。

? ? ? ?本文基于以往視覺判別式自監督學習方法(如IBT),提出如下改進:

  • 建立了一個自動pipeline,從大量未經整理的圖像集合中利用圖像相似性過濾及利用聚類方法平衡數據集模式分布收集了一個小型多樣化的語料庫,包含1.42億張沒有標簽的圖像
  • 開源了多種DINOv2預訓練ViT,具備比以往自監督ViT更優的性能
  • 證明了在大量數據上進行預訓練,自監督學習具有學習通用視覺特征的潛力
    image

? ? ? ?上圖每一列都為對DINOv2的輸出特征采用PCA后的主成分相互匹配的圖像,每張圖對應的右側圖為前3個主成分特征可視化的結果。觀察到采用無監督訓練的DINOv2具備優秀的特征提取能力,驗證了上述的改進結論。
image

? ? ? ?上圖為DINOv2在8種不同類型的視覺任務的性能,虛線為最好的弱監督方法的性能,淡橙色為自監督方法的性能,深粉色為弱監督方法的性能。觀察到DINOv2大幅改善了以往的自監督學習方法,達到了與弱監督相當的性能。

數據處理

? ? ? ?本文提出的LVD-142M數據集由一個巨大的未整理的數據池中檢索了幾個精選數據集中的圖像得到的圖像數據集和被用于檢索的幾個精選數據集組成。詳細流程如下圖:
image

Data sources

image
? ? ? ?數據源包括作為檢索條件的精選數據源和一個未經整理的數據池。其中精選數據源詳情如上表,包含ImageNet22k、ImageNet1k的訓練集、Google Landmarks和幾個細粒度數據集。未整理數據池包含1.2B張圖像,其來源于一個利用爬蟲爬取的未經過濾的公開可用網絡倉庫,并取出倉庫中的所有網頁的標簽的圖像 URL鏈接,其中丟棄了不安全或受域名限制的URL,并對下載的圖像進行了后處理(PCA哈希去重、NSFW過濾和模糊可識別的人臉)。

Deduplication

? ? ? ?將copy detection pipeline應用于未經整理的數據池,并對圖像去重,這減少了冗余并增加了圖像間的多樣性。另外對精選數據源中的測試或驗證集也進行了圖像去重。

Self-supervised image retrieval

? ? ? ?通過從未整理的數據池中檢索與精選數據源中的圖像接近的圖像來構建預訓練數據集。對任意兩張圖像,使用在ImageNet22k上預訓練的自監督ViT-H/16網絡計算圖像嵌入,并使用余弦相似度作為圖像之間的距離度量。
m ( s , r ) = c o s i n e _ s i m i l a r i t y ( f ( s ) , f ( r ) ) = f ( s ) , f ( r ) ∣ ∣ f ( s ) ∣ ∣ 2 ∣ ∣ f ( r ) ∣ ∣ 2 m(s,r)=cosine\_similarity(f(s),f(r))=\frac {f(s),f(r)} {||f(s)||_2||f(r)||_2} m(s,r)=cosine_similarity(f(s),f(r))=∣∣f(s)2?∣∣f(r)2?f(s),f(r)?

? ? ? ? s s s r r r是一對用于比較的圖像, f f f是生成的特征。首先對未經整理的數據進行k-means聚類,然后給定一個用于檢索的查詢數據集(精選數據源),如果其足夠大,則為每個查詢圖像檢索N(通常為4)個最近鄰圖像;如果查詢數據集很小,則從每個查詢圖像對應的聚類集群中采樣M張圖像。通過對檢索結果進行目視檢查,對N和M進行調整。

Implementation Details

? ? ? ?pipeline的去重和檢索階段依賴于Faiss庫的GPU加速索引來高效地實現基于特征嵌入最近鄰的批量搜索。整個處理過程分布在一個由20個節點組成的計算集群上,每個節點有8個V100-32GB GPU,生成LVD-142M數據集需要不到兩天的時間。

判別式自監督預訓練

? ? ? ?DINOv2采用DINO和iBOT組合的自監督方法學習特征,并做出一系列調整。

Image-level objective

? ? ? ?圖像級目標定義為分別從學生網絡和教師網絡中提取的ViT的cls patch特征之間的交叉熵損失,教師網絡和學生網絡的輸入從同一圖像的不同裁剪中獲得。

Patch-level objective

? ? ? ?隨機屏蔽一些學生網絡輸入的輸入patch,但不屏蔽教師網絡輸入,然后對每個掩碼patch對應的兩個網絡輸出patch特征之間計算交叉熵損失,即為patch級目標。該損失與圖像級損失相結合定義為最終損失,得到的損失用于訓練學生網絡的參數,使用EMA來構建教師網絡。詳情參考iBOT。

Untying head weights between both objectives

? ? ? ?采用上述方法將兩個目標的損失聯系在一起,會使模型在patch級別上欠擬合,而在圖像級別上過擬合。故對兩種損失添加不同權重,來提高模型在兩種尺度上的性能。

Sinkhorn-Knopp centering

? ? ? ?使用SwAV的Sinkhorn-Knopp(SK)批量歸一化替換DINO和iBOT教師網絡的softmax/centering步驟。模型對教師網絡應用3次SK歸一化,對學生應用softmax歸一化。

KoLeo regularizer

? ? ? ?KoLeo正則化器源自Kozachenko-Leonenko微分熵估計器,其會鼓勵一個batch中的特征呈均勻跨度。具體為,給定一組向量 ( x 1 , … , x n ) (x_1,…,x_n) (x1?,,xn?) L k o l e o = ? 1 n ∑ i = 1 n l o g ( d n , i ) L_{koleo} =?\frac 1 n \sum^ n_{i=1} log(d_{n,i}) Lkoleo?=?n1?i=1n?log(dn,i?),其中 d n , i = min ? j ≠ i ∣ ∣ x i ? x j ∣ ∣ d_{n,i} = \min_{j\neq i} || x_i?x_j|| dn,i?=minj=i?∣∣xi??xj?∣∣ x i x_i xi?和batch內其他點之間的最小距離。

? ? ? ?DINO的投影頭 h h h的MLP之后首先使用 l 2 l_2 l2?正則化,然后再使用KoLeo正則化。

Adapting the resolution

? ? ? ?提高圖像分辨率是像素級下游任務的關鍵(如分割或檢測),小目標會在低分辨率下消失。然而,在高分辨率下訓練需要更多時間和內存。為了平衡兩種情況,本文在預訓練快結束的短時間內會將圖像的分辨率提高到 518 × 518 518 × 518 518×518

高效實現

? ? ? ?本文使用pytorch2.0在A100 GPU上訓練模型。在相同的硬件下,DINOv2的代碼實現只使用iBOT 1/3的內存但運行速度快2倍。具體實現細節如下:

Fast and memory-efficient attention

? ? ? ?實現了一個新版本的FlashAttention,提高了自注意層的內存使用效率和速度。因為GPU硬件的特殊性,當每個頭的嵌入維數為64的倍數時,效率最好;整體嵌入維數為256的倍數時,矩陣運行效率最好,因此實現的ViT-g使用1536個頭(64 dim/head),ViT-g參數量為1.1B。

Nested tensors in self-attention

? ? ? ?允許在同一前向傳播中運行global crops和local crops(全局視圖、局部視圖),與之前的實現相比提高了計算效率。

Efficient stochastic depth

image
? ? ? ?實現了一個改進版的隨機深度(stochastic depth),同以往實現掩蓋丟棄的殘差層計算結果不同,該實現跳過了被丟棄的殘差層的計算。這節省了內存和計算量,其比例近似于drop rate。由于較高的drop rate(d=40%),顯著提高計算效率和內存使用。另外還在每個batch上隨機打亂B個樣本,并切片前面的 ( 1 ? d ) × B (1?d)×B (1?d)×B個樣本用于塊中的計算。詳細訓練配置如上圖。

Fully-Sharded Data Parallel (FSDP)

? ? ? ?FSDP是一個可以在多個GPU節點上運行的高效分布式訓練框架。具體,在使用AdamW優化器進行訓練時,需要使用4個模型副本,包括學生網絡、教師網絡、優化器的一階和二階動量,對于ViT-g這樣1.1B參數的模型,需要至少16GB的內存存儲參數。故使用FSDP降低單個GPU的內存占用,將模型副本分片放置在多個GPU上。

? ? ? ?因此,模型大小不再受單個GPU的內存限制,而是受到整個計算節點的GPU內存總和的限制。FSDP還可以節省跨GPU通信成本,按優化器的要求參數權重分片以float32精度存儲,但骨干網絡的權重廣播和梯度下降使用float16精度進行計算(MLP的梯度用float32精度下降,以避免訓練不穩定),相比于Distributed Data Parallel(DDP)全部使用float32精度計算,可減少50%的通信成本。

Model distillation

image
? ? ? ?如上圖,DINOv2給出一系列模型ViT-g、ViT-l、ViT-b、ViT-s,其中只對1.1B參數的ViT-g采用LVD-142M進行預訓練,其余小模型均使用知識蒸餾從ViT-g中蒸餾得到。

? ? ? ?蒸餾過程采用和預訓練同樣的訓練框架,令ViT-g為教師網絡,其余型號的ViT小模型做學生網絡進行訓練,并保留一個學生網絡EMA作為最終模型。同預訓練不同之處在于刪除了mask和隨機深度策略,對于iBOT其分支全部使用global crops。

消融實驗

Improved Training Recipe

? ? ? ?DINOv2的訓練方法是在iBOT基礎上添加了上述組件進行了改進。為了評估各組件對訓練過程的重要性,依次將組件添加到一個baseline iBOT模型中,得到多個模型。
image
? ? ? ?如上表,報告了ImageNet-1k驗證集中k-NN和線性檢測任務的Top-1精度。觀察到,每個組件都逐步提高了k-NN或線性檢測的性能,只有LayerScale和隨機深度會導致線性檢測的性能下降,但其顯著提高了訓練的穩定性。

Pretraining Data Source

? ? ? ?特征的質量與訓練數據的質量直接相關。故將LVD-142M、ImageNet-22k、刪除ImageNet-1k(INet-22k\INet-21k)后的ImageNet-22k的變體及直接使用原始和未整理的數據進行比較,未經整理的數據集為從與LVD-142M相同的數據源中隨機抽取的1.42億張圖像。實驗在每個數據集上訓練一個具有相同迭代次數的ViT-g/14。
image
? ? ? ?如上表。觀察到在LVD-142M進行訓練的模型在3個基準上比Uncurated data上訓練的模型效果更好,這證實了數據整理的好處。與在ImageNet-22k上訓練的模型相比,在LVD-142M上訓練的模型在除ImageNet-1k之外的基準上也更優,這證實了在更多樣化的圖像集上進行訓練可以提高該數據集未覆蓋領域的特征質量。

? ? ? ?總體而言,LVD-142M對不同類型的圖像提供了很好的平衡,從而獲得了最佳的整體性能。

Model Size and Data

image
? ? ? ? 上圖為LVD-142M(藍色)和ImageNet-22k(橙色)上訓練的不同大小的模型在幾種測試集上的性能表現。觀察到隨著模型規模的增長,在LVD-142M上訓練比在ImageNet-22k上訓練更有益。例如,在LVD-142M上訓練的ViT-g與在ImageNet-22k上訓練的ViT-g 在ImageNet-1k上的性能相匹配,而在其他基準上明顯更優。

Loss Components

? ? ? ?本實驗驗證了添加KoLeo損失與否及有無MIM任務對最終模型性能的影響。對于這兩種情況,報告了使用線性分類器在ImageNet-1k的分類性能、使用線性分類器進行ADE-20k分割性能以及在Oxford-m上的最近鄰圖像檢索性能。
image
? ? ? ?上表a顯示了使用KoLeo損失與否的影響。觀察到使用KoLeo損失,圖像檢索性能提高了8%以上,這證實了KoLeo損失有助于在輸出空間中擴展特征。同時,其他指標也不會受到這種正則化的影響。

? ? ? ?上表b中,展示了使用iBOT的MIM的影響。觀察到MIM對于密集預測任務至關重要,可以導致近3%的性能改進。

Impact of Knowledge Distillation

image
? ? ? ?本實驗驗證對于小型架構,利用更大的模型進行知識蒸餾比從頭開始訓練更有益。具體,通過將從頭訓練的ViT-l/14(scratch)與從預訓練ViT-g/14(scratch)在上圖中的12個以上基準中蒸餾的ViT-l/14(distilled)進行比較,并報告了ViT-g/14(scratch)的性能。

? ? ? ?如上圖,ViT-l/14(distilled)在12個基準中的10個上優于ViT-l/14(scratch),驗證了對小型模型進行知識蒸餾的預訓練方法的有效性。

Impact of Resolution

image
? ? ? ?本實驗驗證了在預訓練過程中改變分辨率對圖像和patch級特征性能的影響。基于兩種策略,從頭訓練使用 224 × 224 224×224 224×224分辨率(橙色)或 416 × 416 416×416 416×416分辨率(深粉色)的模型;以及在 224 × 224 224×224 224×224分辨率從頭訓練,然后在 416 × 416 416×416 416×416分辨率上繼續進行10k次迭代的模型(橙色)。高分辨率訓練是計算密集型的,所以實驗采用ImageNet1k上訓練的ViT-L/16驗證。

? ? ? ?如上圖,報告了在ImageNet-1k和ADE-20k上的線性檢測的性能,并在不同的分辨率下進行了評估。觀察到,在高分辨率圖像上訓練的模型在不同分辨率上表現最好,但這種代價很高。另一方面,在訓練結束時進行10k次高分辨率訓練迭代的性能幾乎也同樣好,而且只需要一小部分計算量。因此,DINOv2采用在訓練結束時包括了這一步的策略,而不是從頭開始的高分辨率訓練。

對比實驗

? ? ? ?本實驗使用兩種類型的模型作為baseline。自監督模型包括MAE、DINO、SEERv2、MSN、EsViT、Mugs和iBOT。弱監督模型包括CLIP、OpenCLIP和SWAG。

ImageNet Classification

? ? ? ?本實驗驗證DINOv2在ImageNet1k分類數據集上的性能。實驗通過在凍結的骨干上訓練一個簡單的分類器來評估精度(沒有對骨干權重進行微調)。由于大多數SSL方法使用ImageNet1k驗證性,因此另外報告了ImageNet-Real和ImageNet-v2上的top-1準確性。
image
? ? ? ?如上圖,不考慮架構或預訓練數據的情況下將DINOv2與以往最優的SSL比較。DINOv2在線性評估方面比之前的最先進水平(在ImageNet-22k上訓練的iBOT ViT/16)提升了4.2%的精度。同時還觀察到,所提出方法在備選測試集(ImageNet-Real、ImageNet-v2上)上的性能提高更大,表明DINOv2泛化能力較強。

? ? ? ?另外還與以往最優的弱監督模型在ImageNet1k上對比了線性檢測性能,我們在表4中顯示了這個評估的結果。觀察到,ViT-G/14/DINOv2比ViT-G/14/OpenCLIP提高0.3%的精度,比ViT-g/14/EVA-CLIP提高0.1%的精度。同時,也觀察到DINOv2在ImageNet-V2測試上的表現比EVA-CLIP提高1.1%的精度,表明DINOv2具有更好的泛化能力。
image
? ? ? ?上圖實驗為DINOv2在ImageNet-1k微調后產生的性能。觀察到,輸入分辨率為224和448的模型,微調后ImageNet-1k驗證集上的top1精度都提高了+2%以上。證明對DINOv2的微調可以進一步提高在特定任務上的性能。
image
? ? ? ?另外實驗探索了DINOv2的特征魯棒性,在ImageNet-A、ImageNet-R、ImageNet-C、Sketch基準上評估了使用線性分類頭訓練的ImageNet-1k模型。

? ? ? ?實驗結果如上表所示。與最先進的SSL方法相比,DINOv2顯示出更好的魯棒性(與iBOT相比,ImageNet-A提高了29.6%,ImageNet-R提高了22.1%,Sketch提高了23.0%)。DINOv2還改進了ImageNet-A上的最佳弱監督模型OpenCLIP,但在ImageNet-R和Sketch上表現較差。

Additional Image and Video classification Benchmarks

image
? ? ? ?本實驗研究DINOv2的特征在下游分類基準測試上的泛化能力,使用了兩組評估,第一組使用大型細粒度數據集,如iNaturalist和Places205驗證圖像分類性能。對于iNaturalist 2018、iNaturalist 2021和Places205,實驗訓練了采用數據增強的線性分類器。

? ? ? ?第一組結果如上表中,報告了iNaturalist 2018、iNaturalist 2021和Places205的top-1個精度。觀察到,DINOv2在兩種iNaturalist變體上顯著優于ViT-G/14/OpenCLIP(+8.6%和+9.7%),但在Places205上略微落后(?2.3%)。

? ? ? ?在第二組評估中,驗證了模型在視頻動作識別上的性能,實驗評估了UCF-101、Kinetics-400和Something-Something v2三個數據集。對每個數據集,每個視頻間隔8幀提取一張圖像,其中UCF和K-400使用一個視頻提取出的圖像的特征平均值訓練線性分類器;對于SSv2,采用concat序列特征以保留更多的時序信息。使用平均精度為測量指標。

? ? ? ?第二組結果如上表右。觀察到在自監督的方法中,DINOv2實現了最先進的精度。此外,DINOv2在UCF和Kinetics上比OpenCLIP有更高的準確性(+0.1%、+0.5%),在SSv2上提升幅度更大(+2.5%),因為SSv2需要對視頻幀的時序性有更豐富的理解。
image
? ? ? ?在上表中,還比較了SimCLR提出的12個分類基準中得到性能。這個基準測試包括場景、對象(食物、汽車、飛機)和紋理。實驗用CUB替換了Birdsnap數據集,因為Birdsnap還沒有完全公開。

? ? ? ?觀察到,DINOv2顯著優于最先進的SSL模型,最顯著的差異是在Stanford Cars(+14.8% vs DINOViT-B/8)和FGVC Aircraft(+14.8% vs ViT-L/16/iBOT)。除了SUN(?5.3%)和Cars(?4.7%),DINOv2在大多數分類基準測試上與OpenCLIP也具有競爭力。

Instance Recognition

image
? ? ? ?在本實驗中,使用非參數方法驗證了模型在實例級識別任務的表現,查詢圖像通過與數據庫中的圖像的余弦相似度進行排序來確定實例類別。實驗在Paris和Oxford的基線進行了比較,還評估了Metropolitan museum和Amster時間,其中包含與Amsterdam檔案圖像相匹配的街景圖像。通過計算平均精度來衡量性能,

? ? ? ?結果如上表。觀察到,DINOv2顯著優于SSL(Oxford-Hard +41%mAP)和弱監督(Oxford-Hard +34%mAP),這是里程碑式的識別基準。

Dense Recognition Tasks

image
? ? ? ?本實驗評估語義分割性能,考慮了兩種不同的設置:

  • 線性:訓練一個線性層從最后一層的patch token預測類logits,其可生成一個低分辨率的logit圖(例如一個patch大小為16的模型輸出為32x32),然后將其上采樣到全分辨率(512x512)以獲得一個分割圖
  • +ms:一個線性設置的增強版本。將最后4層的patch token concat起來預測類logits,上采樣使用更大的圖像分辨率640,并使用multiscale test-time增強來改進預測

? ? ? ?結果如上表。報告了兩種設置下DINOv2變體在三個數據集(ADE20k、CityScapes、Pascal VOC)上的性能。觀察到,模型在所有數據集和所有設置上都顯示出非常好的性能,使用+ms的評估與使用UperNet解碼器微調的MAE(53.0 vs 53.6mIoU)相當,但DINOv2只使用了一個明顯更簡單的預測器。此外,使用+ms的最佳DINOv2模型,幾乎與Pascal VOC的最先進技術水平相當(86.2 vs 89.0mIoU)。

? ? ? ?在最后的實驗中,凍結了主干網絡,將其插入具有Mask2former頭的ViT-Adapter。在ADE20k上達到60.2 mIoU,接近最先進的62.9 mIoU。
image
? ? ? ?本實驗在三個單目深度估計基準(NYUd、KITTI和從NYUd到SUN3d的zero-shot遷移)上驗證模型在深度估計上的性能。考慮了三種不同的評估設置:

  • lin.1:提取被凍結模型的最后一層的token,并將[CLS] token拼接到每個patch token,然后將上述token利用雙線性上采樣4倍以增加分辨率,最后利用分類loss訓練一個簡單的線性層,并將深度預測范圍劃分到256個均勻分布的bins中,然后進行線性歸一化
  • lin.4:使用與lin.1相同的協議,但ViT-s/b拼接{3、6、9、12}層的token,ViT-l拼接{5、12、18、24}層,以及ViT-g拼接{10、20、30、40}層
  • DPT:在凍結模型之上使用DPT解碼器,并設置一個回歸任務。并根據每個架構的特征的尺寸來縮放頭部的大小

? ? ? ?結果如上表。觀察到,DINOv2的性能超過了以往最優的SSL和WSL模型。另外,從ViT-L中提取的iBOT特征優于使用ViT-G的OpenCLIP特征,這一觀察結果支持了一種直覺,即caption-based的特征無法學習到這樣的微妙模式。

? ? ? ?此外,使用DPT解碼器的DINOv2,匹配或超過以往最優的性能。最后,在SUN-RGBd上的域外泛化結果表明,DINOv2的特征允許很好的域間轉移。一個由NYUd在室內場景上訓練的深度預測模塊可以很好地推廣到SUN-RGBd的室外例子。

定性分析

Semantic Segmentation and Depth Estimation

image
? ? ? ?上圖分別為ADE20K的語義分割可視化結果和NYUd、KITTI、SUN RGB-D的深度估計可視化結果,實驗將DINOv2與OpenCLIP在每個數據集上都使用線性分類器進行比較。

? ? ? ?觀察到雖然不完美,但使用DINOv2主干的線性分割模型產生了良好的結果,并且在這個評估設置下比OpenCLIP模型表現更好。由OpenCLIP-G產生的分割掩模顯示了許多偽影和斷開連接的組件。

? ? ? ?深度估計的定性結果也說明了OpenCLIP和DINOv2之間的差距。雖然DINOv2的特征以及OpenCLIP提取的特征都能夠線性地分離深度等復雜的信息(兩者都沒有使用這種類型的信息進行訓練)。然而,DINOv2的特性產生了一個更平滑的深度估計,與更少的偽影。一些對象,如SUN RGB-D圖像上的椅子,被OpenCLIP完全忽略,但DINOv2可以正確地定位。

Out-of-distribution generalization

image
? ? ? ?上圖為一些DINOv2深度估計和實例分割的示例。觀察到,即使在不同的領域,動物或繪畫的圖片的深度和分割的質量也非常好。

PCA of patch features

image
? ? ? ?上圖展示DINOv2提取的patch特征進行主成分分析(PCA)的結果。提取流程為:

  • 從DINOv2的輸出中提取patch token特征,并對其計算PCA
  • 對patch特征的第一主成分設置閾值后,只保留正值的patch,這個過程可以獲取從背景中分離出來的圖像的主要目標的patches
  • 對上一步計算的前景patches再次計算PCA,并提取前3個主成分再次進行閾值過濾
  • 得到的3個主成分patches做為RGB著色繪圖

? ? ? ?結果如上圖。首先,采用DINOv2的無監督前景/背景檢測器,采用PCA檢測第一主成分后,能夠描繪出圖像中主要目標的邊界;其次,其他主成分能匹配物體的不同部件。這證明DINOv2在沒有監督的情況下就能解析對象的各個部分。

Patch matching

image
? ? ? ?上圖實驗了DINOv2的跨圖像匹配功能,探索了patch級特征包含的信息類型。首先使用PCA檢測前景對象,然后計算從兩幅圖像中提取的patch特征之間的歐氏距離,并通過求解指派問題實現特征間的映射。為了減少匹配的數量,對匹配進行非極大值抑制(nms),只保留顯著的匹配。

? ? ? ?結果如上圖,展示了這種匹配的一些例子。觀察到,這些特征捕捉到了在不同的物體或動物中具有相似目的的語義區域的信息。例如,飛機的翅膀與鳥的翅膀相匹配。還觀察到,該模型對于風格和姿態的巨大變化(參考大象)具有魯棒性。

偏見分析

? ? ? ?本實驗用最大的ViT-g模型對模型進行了兩次公平性評估,探索了地理公平性和潛在的有害標簽關聯。

Geographical Fairness

image
? ? ? ?地理公平性評估使用Dollar Street數據集,包含來自54個國家289個家庭的16073張圖片,比較了不同國家和收入水平的生活差異的視覺表現。這項任務是識別94個概念,這些概念在不同的家庭中根據收入或地理位置有視覺上的差異,評估模型是否能在這些存在差異的圖像中準確識別目標概念。

? ? ? ?結果如上表,將DINOv2與SEERv2進行了比較,SEERv2是在地理上不同的圖像集上訓練的模型。觀察到,DINOv2在地區和收入都比SEERv2稍微公平一些。然而,仍然觀察到區域之間的顯著差異,特別是在非洲,DINOv2的性能與歐洲相比下降了25.7%。這表明DINOv2的模式仍然偏向西方國家。同樣,DINOv2在高收入家庭中的表現明顯優于低收入家庭,差異為31.7%。盡管有所改善,但DINOv2對西方國家的富裕家庭仍存在重大偏見。

Gender, Skintones and Age

image
? ? ? ?對于性別、膚色和年齡分類評估,在ImageNet-22k的619個類的子集上訓練了一個凍結主干網絡的多類分類器。實驗將619個類分為四個更廣泛的元類別:人類、可能是人類、非人類、罪犯,非人類和罪犯被認為是有害的。使用這個分類器,對來自Casual Conversations數據集的2955張圖像進行推斷,并將分類概率大于等于0.1的標簽保留在top-5中,因此,每張圖像都有多個類。

? ? ? ?結果如上表。將DINOv2與SEERv2進行了比較。DINOv2經常將所有群體的圖像分類為人類,對膚色沒有很大的偏差。SEERv2和DINOv2都無法準確預測非人類或犯罪元類別(除了兩個背景包含類似于監獄的酒吧)。DINOv2經常預測人類這個元類別,且經常預測男性人類類別。最終驗證了DINOv2沒有明確的模式表明對特定群體的偏見。

碳排放

image
? ? ? ?采用LLaMA的碳排放計算方法,DINOv2的耗能結果如上表,估計在A100-40GBGPU上使用20k GPU-hours后,整個項目的碳排放在0.5k到1k tCO2eq之間,排放的主要來源是模型的自監督預訓練。例如,ViT-g模型(22k gpu-hours)的一次預訓練會排放3.7噸的CO2eq,而對ImageNet-1k(1k gpu-hours)的微調會排放0.2噸的CO2eq。這一估計只考慮了GPU的用電量,而忽略其他排放。

實驗數據詳情

image
? ? ? ?上圖為消融實驗、對比實驗、定性分析、偏見分析、碳排放這些實驗使用的數據集詳情。

reference

Maxime, O. , Timothée, D. , Théo, M. , Huy, V. V. , Marc, S. , Vasil, K. , Pierre, F. , Daniel, H. , Francisco, M. , Alaaeldin, E. , Mahmoud, A. , Nicolas, B. , Wojciech, Galuba. , Russell, H. , PoYao, H. , ShangWen, L. , Ishan, M. , Michael, R. , Vasu, S. , Gabriel, S. , Hu, X. , Hervé, J. , Julien, M. , Patrick, L. , Armand, J. , & Piotr, B. . (2023). DINOv2: Learning Robust Visual Features without Supervision.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711853.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711853.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711853.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

iSlide插件2024免費版(包含52 個PPT設計輔助功能,9 大在線資源庫,以及超 50 萬 專業)

一、功能介紹 iSlide是一款專為PowerPoint設計的插件,它集合了眾多設計與效率提升的功能,幫助用戶更快速、更美觀地制作演示文稿。 主題設計:提供多種設計主題,用戶只需一鍵應用,即可為幻燈片賦予統一的視覺風格。智…

每次提出一個bug都讓測試重現,描述得那么清楚,自己操作下不會嗎?

一說到測試和開發的關系,你一定會想到一個詞“冤家”。 開發的工作就是按照PM的設計將產品最終造出來,而測試則是在開發已完成的工作里糾錯。so,測試的工作會讓開發很不爽,人之常情,誰都不喜歡自己的勞動成果被別人挑…

react路由基礎

1.目錄 A. 能夠說出React路由的作用 B. 能夠掌握react-router-dom的基本使用 C. 能夠使用編程式導航跳轉路由 D. 能夠知道React路由的匹配模式 2.目錄 A. React路由介紹 B. 路由的基本使用 C. 路由的執行過程 D. 編程式導航 E. 默認路由 F. 匹配模式 3.react路由介紹 現代…

開源項目:圖像分類技術在醫療影像分析中的應用與實踐

一、引言 在當今快速發展的醫療行業中,數字醫療正逐漸成為提升醫療服務質量和效率的關鍵力量。本項目旨在通過整合醫藥電商、遠程問診、慢病管理等多維度服務,為消費者和企業提供全面的醫療解決方案。項目的核心在于運用先進的圖像分類技術,以…

回歸測試:在不斷變化的環境中確保軟件的穩定性

軟件開發是一個復雜的過程,需要不斷變化和更新以滿足客戶不斷變化的需求,但它們也可能產生新問題或導致舊問題重新出現。這就是回歸測試的用武之地——它是在不斷變化的環境中確保軟件穩定性的重要組成部分。 在這篇文章中,我們將深入探討什…

第40期 | GPTSecurity周報

GPTSecurity是一個涵蓋了前沿學術研究和實踐經驗分享的社區,集成了生成預訓練Transformer(GPT)、人工智能生成內容(AIGC)以及大語言模型(LLM)等安全領域應用的知識。在這里,您可以找…

基于springboot + vue實現的前后端分離-在線旅游網站系統(項目 + 論文)

項目介紹 本旅游網站系統采用的數據庫是MYSQL ,使用 JSP 技術開發,在設計過程中,充分保證了系統代碼的良好可讀性、實用性、易擴展性、通用性、便于后期維護、操作方便以及頁面簡潔等特點。 技術選型 后端: SpringBoot Mybatis 數據庫 : MyS…

Qt 使用windows注冊表保存設置

重點: 1.在構造函數中初始化,確認注冊表中的一個目錄 QApplication::setOrganizationName("WWB-Qt");QApplication::setApplicationName("samp7_5"); 只要使用下面語句定義變量setting QSettings setting 表示setting指向注冊表目…

UE5 文字游戲(1) 僅UI截圖轉換為texture2d(適用于window端)

目錄 需求 思路 1.截圖并讀取到本地 2.本地讀取圖片并轉換為紋理2d 效果展示 找了好多的解決辦法,都不管用。這個算是折中的。 需求 將當前的用戶控件(ui)截圖下來,并賦值到一個texture2d上。 我的需求:文字游戲…

初學JavaWeb開發總結

0 什么是Web開發 Web: 全球廣域網,又稱萬維網(www World Wide Web),能夠通過瀏覽器訪問的網站。 Web開發,就是開發網站的,如:淘寶、京東等等。 1 網站的工作流程 流程: 瀏覽器先向前端服務器請求前端資…

Cesium 自定義Primitive-線

一、創作思路 1、創建一個自定義CustomPrimitive 2、可動態更新線的點位 3、方便后期繪制線 二、實現代碼 1、創建一個CustomPolylinePrimitive類,并加入更新的代碼 export default class CustomPolylinePrimitive {constructor(options) {this._props options;/*** 渲染列表…

EchoServer回顯服務器封裝與測試

目錄 類實現 編譯測試 這一篇本質上是為了TcpServer而做的一層封裝,讓外界調用更加簡潔 參考上文 TcpServer服務器管理模塊(模塊十)-CSDN博客 類實現 echo.hpp #include "../server.hpp"class EchoServer { private:TcpServer _server;private:void OnConnect…

貝葉斯分類器

貝葉斯分類器 1. 引言 貝葉斯分類器是一種基于貝葉斯定理的分類算法,它利用特征之間的關系和類別的先驗概率來進行分類。貝葉斯分類器在文本分類、垃圾郵件過濾、醫學診斷等領域有著廣泛的應用。 貝葉斯分類算法是統計學的一種分類方法,是一類利用概率…

vite打包構建時環境變量(env)生成可配置的js文件

現實需求 在vite開發過程中,一些變量可以放在.env(基礎公共部分變量).env.dev(開發環境)、.env.production(生產環境)中管理,通常分成開發和生產兩個不同的配置文件管理&#xff0c…

方法區的垃圾收集

方法區的垃圾收集 主要回收兩部分內容廢棄的常量和不再使用的類型 廢棄的常量: 假如一個字符串“java”曾經進入常量池中,但是當前系統又沒有任何一個字符串對象的值是“java”,換句話說,已經沒有任何字符串對象引用常量池中的“…

三天學會阿里分布式事務框架Seata-應用seata AT模式方案解決分布式事務問題

鋒哥原創的分布式事務框架Seata視頻教程: 實戰阿里分布式事務框架Seata視頻教程(無廢話,通俗易懂版)_嗶哩嗶哩_bilibili實戰阿里分布式事務框架Seata視頻教程(無廢話,通俗易懂版)共計10條視頻&…

dolphinscheduler海豚調度(四)釘釘告警

在之前的博文中,我們已經介紹了DolphinScheduler海豚調度的基本概念和工作流程,以及Shell任務和SQL任務的實踐。今天,讓我們來學習DolphinScheduler中的另一個重要功能:釘釘告警。 釘釘群添加機器人 在釘釘群添加機器人&#xf…

SpringBoot 使用@Async 注解實現異步任務

前言 在現代應用程序中,異步編程已經成為了必備的技能。異步編程使得應用程序可以同時處理多個請求,從而提高了應用程序的吞吐量和響應速度。在 SpringBoot 中,我們可以使用 Async 注解來實現異步編程。本文將介紹 Async 注解的使用方法和注…

從http到websocket

閱讀本文之前,你最好已經做過一些websocket的簡單應用 從http到websocket HTTP101HTTP 輪詢、長輪詢和流化其他技術1. 服務器發送事件2. SPDY3. web實時通信 互聯網簡史web和httpWebsocket協議1. 簡介2. 初始握手3. 計算響應健值4. 消息格式5. WebSocket關閉握手 實…

Redis 緩存數據庫

redis 中文網 http://www.redis.cn/ redis.net.cn 兩種數據庫陣營 1.關系型數據庫 MySQL Oracle DB2 SQL Server 等基于二維表結構存儲數據的文件型磁盤數據庫 缺點: 因為數據庫的特征是磁盤文件型數據庫, 就造成每次查詢都有IO操作, 海量數據查詢速度較慢 2.NoSQL數據庫 …