【CVPR2024】計算機視覺|InceptionNeXt:速度與精度齊飛的CNN架構

在這里插入圖片描述

論文地址:http://arxiv.org/pdf/2303.16900v3
代碼地址:https://github.com/sail-sg/inceptionnext


關注UP CV縫合怪,分享最計算機視覺新即插即用模塊,并提供配套的論文資料與代碼。
https://space.bilibili.com/473764881
圖片

摘要

受ViT的遠程建模能力啟發,近來,人們對大核卷積進行了廣泛的研究和應用,以擴大感受野并提高模型性能,例如采用7×7深度卷積的出色工作ConvNeXt。雖然這種深度算子只消耗少量的FLOPs,但由于高內存訪問成本,它在強大的計算設備上大大損害了模型效率。例如,ConvNeXt-T與ResNet-50具有相似的FLOPs,但在A100 GPU上以全精度訓練時,吞吐量僅達到約60%。雖然減小ConvNeXt的內核大小可以提高速度,但會導致性能顯著下降,這就提出了一個具有挑戰性的問題:如何在保持基于大核的CNN模型性能的同時,提高其速度

為了解決這個問題,受Inception的啟發,本研究提出將大核深度卷積分解為沿通道維度的四個并行分支,即小方形核、兩個正交帶核和一個恒等映射。利用這種新的Inception深度卷積,本研究構建了一系列網絡,即InceptionNeXt,它不僅具有高吞吐量,而且保持了競爭性的性能。例如,InceptionNeXt-T的訓練吞吐量比ConvNeX-T高1.6倍,并且在ImageNet-1K上獲得了0.2%的top-1準確率提升。本研究預計InceptionNeXt可以作為未來架構設計的經濟型基線,以減少碳足跡。
在這里插入圖片描述

引言

本研究旨在提升卷積神經網絡(CNN)在計算機視覺領域的效率和性能。回顧深度學習發展歷程,CNN憑借其卓越的性能,在計算機視覺領域占據了核心地位Transformer模型在自然語言處理領域的成功,激發了研究者將其引入視覺領域的熱情。Vision Transformer (ViT) 的出現,更是推動了Transformer在圖像識別領域的應用。然而,現代CNN模型,如ConvNeXt,通過引入GELU激活函數大卷積核等模塊,在多種任務中超越了Swin Transformer等ViT模型。這些現代CNN模型通常采用深度可分離卷積更大的卷積核,以獲得更大的感受野

然而,盡管深度可分離卷積在理論上具有較低的計算復雜度,但由于其高內存訪問成本,在GPU等高性能計算設備上表現出較低的實際效率。增加卷積核尺寸會進一步降低模型速度。為了解決這個問題,本研究著眼于如何在保持大卷積核CNN模型性能的同時,提升其運算速度

通過對ConvNeXt的初步實驗,本研究發現并非所有輸入通道都需要進行計算成本較高的深度可分離卷積操作。因此,本研究提出保留部分通道不進行處理,僅對一部分通道進行深度可分離卷積操作。此外,本研究還提出將大的深度可分離卷積核分解為多個小組的小卷積核,借鑒Inception的思想。具體來說,對于需要處理的通道,其中一部分采用3x3的卷積核,另外兩部分分別采用3x3的卷積核,另外兩部分分別采用1xk和kx1的卷積核。基于這種新的**“Inception深度可分離卷積”,構建了InceptionNeXt模型**,該模型在準確率和速度之間取得了更好的平衡

論文創新點

本研究提出了一種名為InceptionNeXt的新型CNN架構,旨在提高深度學習模型在計算機視覺任務中的效率和性能。ConvNeXt通過采用大kernel卷積來擴大感受野并提高模型性能,但同時也帶來了高內存訪問成本的問題,影響了模型在強大計算設備上的效率。為了解決這個問題,本研究受到Inception的啟發,將大kernel深度卷積分解為四個并行分支,包括小kernel、兩個正交帶kernel和一個identity mapping。

InceptionNeXt的創新點主要體現在以下幾個方面:

  1. 💡 提出了Inception深度卷積:💡

    • 本研究并沒有像其他工作一樣追求更大kernel,而是選擇分解大kernel。具體來說,將深度可分離卷積的大kernel分解為幾個小組的小kernel。
    • 對于處理通道,一部分采用3×3的kernel,另外兩部分則分別采用1×k和k×1的kernel。
    • 通過這種方式,Inception depthwise convolution在參數數量和計算復雜度上都比傳統的深度可分離卷積更高效。
  2. 🚀 解決了ConvNeXt的速度瓶頸:🚀

    • 本研究指出ConvNeXt雖然FLOPs較小,但由于depthwise卷積帶來的高內存訪問成本,導致其在GPU等高性能計算設備上的速度較慢。
    • InceptionNeXt通過分解depthwise卷積,顯著提高了模型的訓練和推理速度。
  3. ?? 實現了精度與速度的更好trade-off:??

    • 實驗結果表明,InceptionNeXt在ImageNet-1K圖像分類任務上,相比ConvNeXt,不僅保持了甚至略微提升了精度,同時還實現了更高的訓練和推理吞吐量。
    • 這意味著InceptionNeXt在保證性能的同時,更具實際應用價值。
  4. 🌐 模型具有良好的泛化能力:🌐

    • 本研究通過實驗證明,InceptionNeXt不僅可以在傳統的四階段框架下表現良好,也可以在ViT風格的isotropic架構下取得有競爭力的結果,表明InceptionNeXt具有良好的泛化能力,可以適應不同的網絡架構。
  5. 🖼? 在語義分割任務上表現出色:🖼?

    • 本研究將InceptionNeXt應用于語義分割任務,并使用UperNet和Semantic FPN進行評估。
    • 實驗結果表明,InceptionNeXt在這些任務上顯著優于其他backbone,表明它在密集預測任務中具有很大的潛力。

論文實驗

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88986.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88986.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88986.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

7.15 窗口函數 | 二分 | 位運算 | 字符串dp

lc3316. 字符串dpdp多開一行一列后,注意原字符串下標映射dp[n][m] ( n 是source長度, m 是pattern長度)兩重循環填表for i 1-nfor j 0-m三種狀態轉移1.不選 dp i jdp i-1 j2.不選if tag, dp[i][j]3.if(s ip j) 選,dp i…

Spring原理揭秘--初識AOP

我們知道軟件開發一直在追求高效,易維護,易擴展的特性方式。在面向過程編程到面向對象編程的歷程中,程序的開發有了非常大的進步。但是oop的方式缺依然存在著一些缺點。oop的方式可以將業務進行很好的分解和封裝使其模塊化,但是卻…

Provider模式:軟件架構中的“供應商“設計哲學

文章目錄Provider模式:軟件架構中的“供應商“設計哲學什么是Provider模式?經典應用場景1. 配置管理Provider2. 數據訪問Provider4. 消息隊列ProviderProvider模式的優勢1. 解耦合實際項目中的應用Provider模式的最佳實踐1. 命名約定2. 接口設計原則3. 錯…

LTspic下載,幫助及演示電路

1.下載 LTspice是一款強大高效的免費SPICE仿真器軟件、原理圖采集和波形觀測器,為改善模擬電路的仿真提供增強功能和模型。其原理圖捕獲圖形界面使您能夠探測原理圖并生成仿真結果,這些結果可以通過內置波形查看器進一步觀察分析。 鏈接: …

位置編碼/絕對位置編碼/相對位置編碼/Rope原理+公式詳細推導及代碼實現

文章目錄1. 位置編碼概述1.1 為什么需要位置編碼?2. 絕對位置編碼 (Absolute Position Encoding)2.1 原理2.2 數學公式2.3 代碼實現2.4 代碼與公式的對應關系2.5 特性與優勢2.6 可學習的絕對位置編碼3. 相對位置編碼 (Relative Position Encoding)3.1 原理3.2 數學公…

網絡安全初級第一次作業

一,docker搭建和掛載vpm 1.安裝 Docker apt-get install docker.io docker-compose 2.創建文件 mkdir /etc/docker.service.d vim /etc/docker.service.d/http-proxy.conf 3.改寫文件配置 [Service] Environment"HTTP_PROXYhttp://192.168.10.103:7890…

交換類排序的C語言實現

交換類排序包括冒泡排序和快速排序兩種。冒泡排序基本介紹冒泡排序是通過重復比較相鄰元素并交換位置實現排序。其核心思想是每一輪遍歷將未排序序列中的最大(或最小)元素"浮動"到正確位置,類似氣泡上升。基本過程是從序列起始位置…

嵌入式 Linux開發環境構建之Source Insight 的安裝和使用

目錄 一、Source Insight 的安裝 二、Source Insight 使用 一、Source Insight 的安裝 這個軟件是代碼編輯和查看軟件,打開開發板光盤軟件,然后右鍵選擇以管理員身份運行這個安裝包。在彈出來的安裝向導里面點擊 next ,如下圖所示。這里選擇…

【字節跳動】數據挖掘面試題0016:解釋AUC的定義,它解決了什么問題,優缺點是什么,并說出工業界如何計算AUC。

文章大綱 AUC(Area Under the Curve)詳解一、定義:AUC是什么?二、解決了什么問題?三、優缺點分析四、工業界大規模計算AUC的方法1. 標準計算(小數據)2. 工業級大規模計算方案3.工業界最佳實踐4.工業界方案選型建議總結:AUC的本質AUC(Area Under the Curve)詳解 一、…

Python后端項目之:我為什么使用pdm+uv

在試用了一段時間的uv和pdm之后,上個月(2025.06)開始,逐步把用了幾年的poetry替換成了pdmuv(pipx install pdm uv && pdm config use_uv true) ## 為什么poetry -> pdm: 1. 通過ssh連接到服務器并使用poetry shell激活虛擬環境之…

鴻蒙Next開發,配置Navigation的Route

1. 通過router_map.json配置文件進行 創建頁面配置router_map.json {"routerMap": [{"name": "StateExamplePage","pageSourceFile": "src/main/ets/pages/state/StateExamplePage.ets","buildFunction": "P…

在 GitHub 上創建私有倉庫

一、在 GitHub 上創建私有倉庫打開 GitHub官網 并登錄。點擊右上角的 “” → 選擇 “New repository”。填寫以下內容: Repository name:倉庫名稱,例如 my-private-repo。Description:可選,倉庫描述。Visibility&…

量產技巧之RK3588 Android12默認移除導航欄狀態欄?

本文介紹使用源碼編譯默認去掉導航欄/狀態欄方法,以觸覺智能EVB3588開發板演示,Android12系統,搭載了瑞芯微RK3588芯片,該開發板是核心板加底板設計,音視頻接口、通信接口等各類接口一應俱全,可幫助企業提高產品開發效…

Conda 安裝與配置詳解及常見問題解決

《Conda 安裝與配置詳解及常見問題解決》 安裝 Conda 有兩種主流方式,分別是安裝 Miniconda(輕量級)和 Anaconda(包含常用數據科學包)。下面為你詳細介紹安裝步驟和注意要點。 一、安裝 Miniconda(推薦&a…

Linux ——lastb定時備份清理

lastb 命令顯示的是系統中 /var/log/btmp 文件中的SSH 登錄失敗記錄。你可以像處理 wtmp 那樣,對 btmp 文件進行備份與清理。? 一、備份 lastb 數據cp /var/log/btmp /var/log/btmp.backup.$(date %F)會保存為如 /var/log/btmp.backup.2025-07-14? 二、清空 lastb…

自定義類型 - 聯合體與枚舉(百度筆試題算法優化)

目錄一、聯合體1.1 聯合體類型的聲明1.2 聯合體的特點1.3 相同成員的結構體和聯合體對比1.4 聯合體大小的計算1.5 聯合練習二、枚舉類型2.1 枚舉類型的聲明2.2 枚舉類型的優點總結一、聯合體 1.1 聯合體類型的聲明 像結構體一樣,聯合體也是由一個或者多個成員構成…

FS820R08A6P2LB——英飛凌高性能IGBT模塊,驅動高效能源未來!

產品概述FS820R08A6P2LB 是英飛凌(Infineon)推出的一款高性能、高可靠性IGBT功率模塊,采用先進的EconoDUAL? 3封裝,專為大功率工業應用設計。該模塊集成了IGBT(絕緣柵雙極型晶體管)和二極管,適…

python學智能算法(十八)|SVM基礎概念-向量點積

引言 前序學習進程中,已經對向量的基礎定義有所了解,已經知曉了向量的值和方向向量的定義,學習鏈接如下: 向量的值和方向 在此基礎上,本文進一步學習向量點積。 向量點積 向量點積運算規則,我們在中學階…

【windows辦公小助手】比文檔編輯器更好用的Notepad++輕量編輯器

Notepad 中文版軟件下載:這個路徑總是顯示有百度無法下載,不推薦 更新:推薦下載路徑 https://github.com/notepad-plus-plus/notepad-plus-plus/releases 參考博主:Notepad的安裝與使用

2025年7月12日全國青少年信息素養大賽圖形化(Scratch)編程小學高年級組復賽真題+答案解析

2025年7月12日全國青少年信息素養大賽圖形化(Scratch)編程小學高年級組復賽真題+答案解析 選擇題 題目一 運行如圖所示的程序,舞臺上一共會出現多少只小貓呢?( ) A. 5 B. 6 C. 7 D. 8 正確答案: B 答案解析: 程序中“當綠旗被點擊”后,角色先移到指定位置,然后“重…