深度學習論文: Emerging Properties in Self-Supervised Vision Transformers

深度學習論文: Emerging Properties in Self-Supervised Vision Transformers
Emerging Properties in Self-Supervised Vision Transformers
PDF: https://arxiv.org/pdf/2104.14294v1
PyTorch代碼: https://github.com/shanglianlm0525/CvPytorch
PyTorch代碼: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

本文探討自監督學習是否為Vision Transformer(ViT)帶來了相較于卷積網絡的新特性。發現自監督ViT特征包含明確的圖像語義分割信息,并展現出色的k-NN分類性能。同時,強調了動量編碼器、多裁剪訓練及小補丁在ViT中的重要性。基于這些發現,提出了DINO這一無標簽自蒸餾方法,與ViT結合在ImageNet上實現了80.1%的top-1準確率。
在這里插入圖片描述

2 DINO

DINO框架結合了自監督學習和知識蒸餾的特點。在知識蒸餾中,學生網絡gθs的目標是模仿教師網絡gθt的輸出。兩個網絡對輸入圖像x產生K維概率分布Ps和Pt,通過softmax函數歸一化網絡輸出得到。
在這里插入圖片描述

2-1 SSL with Knowledge Distillation

從給定圖像中,生成一組不同的視圖V。該組包含兩個全局視圖xg1和xg2以及幾個較小分辨率的局部視圖(切圖)。所有的局部視圖都通過學生網絡,只有全局視圖通過教師網絡,從而鼓勵“局部到全局”的對應關系。最小化損失:
在這里插入圖片描述
DINO中使用2個全局視圖,分辨率為224x224,覆蓋原始圖像的大區域(例如大于50%),以及幾個分辨率為96x96的局部視圖,僅覆蓋原始圖像的小區域(例如小于50%)。

教師網絡不是預先給定的,而是從學生網絡的過去迭代中構建。使用指數移動平均(EMA)作為教師網絡參數的更新規則,這在DINO框架中效果良好。

網絡架構由主干網絡(如ViT或ResNet)和投影頭(MLP)組成,學生和教師網絡共享相同的架構但參數不同。DINO不使用批量歸一化(BN),特別是在使用ViT作為主干時。
在這里插入圖片描述
為了避免模型坍塌,DINO結合了動量教師輸出的居中和銳化操作。居中防止模型輸出偏向單一維度,而銳化則增強輸出分布的銳度。通過這種方式,DINO能夠在不同批次大小下穩定工作。

2-2 Implementation and evaluation protocols

Vision Transformer (ViT):

  • 描述了Vision Transformer的機制,參考了相關文獻中的Transformer和圖像適應細節。
  • 本文使用的ViT配置總結在表1中,ViT輸入為N×N分辨率的圖像塊網格,通常N=16或8。
  • 通過線性層將圖像塊轉換為嵌入,加入一個額外的可學習類別標記[CLS],并通過Transformer網絡處理。

實現細節:

  • 在無標簽的ImageNet數據集上預訓練模型,使用adamw優化器和1024的批量大小。
  • 學習率根據線性縮放規則調整,并采用余弦退火和權重衰減。
  • 使用BYOL的數據增強方法和雙三次插值,模型代碼和可復現結果公開。

評估協議:

  • 自監督學習的評估包括在凍結特征上訓練線性分類器或對下游任務特征進行微調。
  • 線性評估使用隨機裁剪和水平翻轉的數據增強,微調評估則在預訓練權重基礎上調整網絡。
  • 引入k-NN分類器作為特征質量的評估,簡化了評估過程,避免了超參數調整和數據增強的復雜性。

在這里插入圖片描述

3 Results

3-1 Comparing with SSL frameworks on ImageNet

在這里插入圖片描述

3-2 Properties of ViT trained with SSL

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24459.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24459.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24459.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Composition API函數

unref unref函數用于獲取響應式對象的原始值。如果傳入的是一個響應式對象,則返回其value屬性;如果傳入的是一個普通的JavaScript對象,則返回它本身。 unref函數在某些情況下很有用,例如在使用watchEffect函數時,可…

go語言實戰--基于Vue3+gin框架的實戰Cetide網項目(講解開發過程中的各種踩坑)

最近被要求學習go語言開發,也就做一個項目實戰鞏固一下,也分享一下關于gin框架的實戰項目 (后續應該還是會繼續學習Java,這一期還是做一個govue的) 經過一段時間的開發過后,感覺現在的開發效率要快不少了&…

傳統工科碩士想轉嵌入式,時間夠嗎?

在開始前剛好我有一些資料,是我根據網友給的問題精心整理了一份「嵌入式的資料從專業入門到高級教程」, 點個關注在評論區回復“888”之后私信回復“888”,全部無償共享給大家!!! 零基礎開始學&#xff0…

[NOVATEK] NT96580行車記錄儀功能學習筆記(持續更新~

一、u-Boot升級燈 運行u-Boot程序時LED燈閃爍,找到運行過程中一直在運行的函數在里面進行LED引腳電平的翻轉 宏定義 Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\include\configs\nvt-na51055-evb.h Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\drivers\mtd\nvt_flash_…

什么是JWT(Json-Web-Token)?JWT的用途和優勢是什么?

什么是JWT(Json-Web-Token)? JWT,全稱JSON Web Token,是一種開放標準(RFC 7519)。它定義了一種緊湊的、自包含的方式,用于在各方之間安全地傳輸信息。這種信息被設計成JSON對象格式…

簡介RESTful API和中間件Web API網關

從RESTful API開始 RESTful API(Representational State Transfer API)是一種設計Web服務的架構風格,它基于REST(Representational State Transfer)理論。REST是一種軟件架構風格,由Roy Fielding在其博士論文《Architectural Styles and the Design of Network-based So…

LeetCode 550, 380, 234

目錄 550. 游戲玩法分析 IV題目鏈接表要求知識點思路代碼 380. O(1) 時間插入、刪除和獲取隨機元素題目鏈接標簽思路代碼 234. 回文鏈表題目鏈接標簽思路代碼 550. 游戲玩法分析 IV 題目鏈接 550. 游戲玩法分析 IV 表 表Activity的字段為player_id,device_id&am…

Linux卸載殘留MySQL【帶圖文命令巨詳細】

Linux卸載殘留MySQL 1、檢查殘留mysql2、檢查并刪除殘留mysql依賴3、檢查是否自帶mariadb庫 1、檢查殘留mysql 如果殘留mysql組件,使用命令 rpm -e --nodeps 殘留組件名 按順序進行移除操作 #檢查系統是否殘留過mysql rpm -qa | grep mysql2、檢查并刪除殘留mysql…

k8s——Pod容器中的存儲方式及PV、PVC

一、Pod容器中的存儲方式 需要存儲方式前提:容器磁盤上的文件的生命周期是短暫的,這就使得在容器中運行重要應用時會出現一些問題。 首先,當容器崩潰時,kubelet 會重啟它,但是容器中的文件將丟失——容器以干凈的狀態&…

TensorRT 精度debug分析工具

tensorRT還提供了一套可用于engine生成過程中debug的工具,包括Polygraphy、ONNX GraphSurgeon和PyTorch-Quantization。這些小工具用處很大,值得花時間進一步研究。 Debug方法示例 polygraphy Polygraphy是TensorRT官方提供的一系列小工具合集&#x…

spring源碼解析-(1)關于Bean

什么是Bean? 是spring對所有注入到IoC容器中的類的統稱。 我們要注冊進入spirng的bean千奇百怪,所以spring必須需要使用一個統一的定義來標識bean,就有了接下來的BeandDefinition,通過名稱我們就可以知道,他是對bean…

美國演員工會SAG-AFTRA 要求人工智能在廣告中使用演員聲音需征得同意并付費

SAG-AFTRA 的新豁免允許在人工智能生成的廣告中使用演員的聲音,但需要同意、補償和安全措施 美國演員工會(SAG-AFTRA)推出了一項新的豁免,以保護會員免受未經授權的人工智能在廣告中使用其聲音的影響。動態人工智能音頻廣告豁免定…

C語言Kruskal算法求最小生成樹

Kruskal算法求出最小生成樹。 圖形 算法描述 先找最小權值邊為1的邊有(V1,V4),(V2,V9),保證不產生回路就可以成功選擇邊 除去上一次找的邊后,在找權值最小的邊為2的有&a…

制作AI問答機器人:從0到1的完整指南

在數字化轉型的浪潮中,企業正追求更高效、智能的客戶服務解決方案。AI問答機器人以其快速響應、全天候服務和持續學習的能力,成為了提升客戶滿意度和加速業務發展的關鍵工具。本文將深入探討如何制作一個企業級的AI問答機器人,并強調其功能體…

OpenAI發表研究論文 介紹了一種逆向工程AI模型工作原理的方法

ChatGPT 開發商 OpenAI 構建人工智能的方法本周遭到了前員工的抨擊,他們指責該公司利用可能有害的技術冒不必要的風險。今天,OpenAI 發布了一篇新的研究論文,目的顯然是為了表明它在通過提高模型的可解釋性來應對人工智能風險方面的認真態度。…

hot100 -- 二分查找

目錄 前言 🎂搜索插入位置 🌼搜索二維矩陣 🌼排序數組元素第一和最后一個位置 🌼旋轉排序數組 💪旋轉排序數組中的最小值 💪兩個正序數組的中位數 前言 二分算法學習_時間超限ac:0%-CSDN博客 &#…

2024年【起重機械指揮】考試及起重機械指揮新版試題

題庫來源:安全生產模擬考試一點通公眾號小程序 起重機械指揮考試考前必練!安全生產模擬考試一點通每個月更新起重機械指揮新版試題題目及答案!多做幾遍,其實通過起重機械指揮試題及解析很簡單。 1、【多選題】《中華人民共和國特…

【Androi】安卓發展歷程詳解

人不走空 🌈個人主頁:人不走空 💖系列專欄:算法專題 ?詩詞歌賦:斯是陋室,惟吾德馨 目錄 🌈個人主頁:人不走空 💖系列專欄:算法專題 ?詩詞歌…

git推送代碼到github拒絕推送的解決方案

這里描述一下本地推送的場景,首先我在碼云上建立了一個前端項目,進行了自己的個性化開發,后期在github上創建了一個一樣的項目倉庫存放代碼。使用webstorm進行代碼開發。在下面這個位置可以選擇推送的代碼位置。 選擇推送github倉庫之后&…

Python深度學習基于Tensorflow(16)基于Tensorflow的對話實例

文章目錄 基礎數據清洗數據生成詞匯表定義分詞器并制作數據集構建Transformer模型并訓練模型推理 Tensorflow 的核心就是注意力機制,在之前詳細的介紹過,具體可以看這個:Python深度學習基于Tensorflow(9)注意力機制_te…