【2025 CVPR-Backbone】Building Vision Models upon Heat Conduction

摘要

利用注意力機制的視覺表示模型在追求大感受野時面臨著巨大的計算開銷。在本研究中,我們通過引入基于物理熱傳導原理的熱傳導算子(Heat Conduction Operator, HCO)來緩解這一挑戰這么高級咩(⊙o⊙)!HCO將圖像塊視為熱源,并通過自適應的熱能擴散來模擬它們之間的相關性,從而實現魯棒的視覺表示。HCO的計算復雜度為O(N^1.5),因為它可以通過離散余弦變換(DCT)操作實現。HCO是一種即插即用的模塊,與深度學習主干網絡結合后可以產生具有全局感受野的視覺表示模型(稱為vHeat)。在各種視覺任務的實驗中表明,除了性能更強之外,與Swin-Transformer相比,vHeat實現了高達3倍的吞吐量、減少80%的GPU內存分配以及減少35%的計算浮點運算量(FLOPs)。
代碼可在以下鏈接獲取:https://github.com/MzeroMiko/vHeat 和 https://openi.pcl.ac.cn/georgew/vHeat。
在這里插入圖片描述

1、引言

卷積神經網絡(CNNs)自深度學習興起以來一直是視覺表示的基石,在各種視覺任務中展現出卓越的性能。然而,依賴于局部感受野和固定的卷積操作限制了其捕捉圖像中長距離和復雜依賴關系的能力。這些局限性激發了開發替代視覺表示模型的濃厚興趣,包括基于視覺變換器(ViTs)和狀態空間模型的架構。盡管這些模型表現出色,但它們仍面臨挑戰,包括相對較高的計算復雜度和缺乏可解釋性。

-----------------------------------------------------------------------------CNN和VIT架構解析---------------------------------------------------------------------------------

  • CNN
    • 卷積操作。基于卷積核在輸入圖像上滑動,提取局部特征,這種局部感受野特性使得CNN能夠很好地捕捉圖像中的局部紋理、邊緣等信息。CNN的特征提取是先提取局部信息,在逐步抽象到整體特征
    • CNN結構。CNN結構通常包含卷積層、池化層和全連接層。池化層用于降低特征圖的空間維度,減少計算量,同時保留重要特征。全連接層則用于將提取到的特征進行組合,輸出最終的分類結果或回歸值。
    • 歸納偏置。歸納偏置其實就是一種先驗知識,一種提前做好的假設。在CNN中的歸納偏置一般包括兩類: locality(局部性)和translation equivariance(平移不變性):
      • locality:假設相鄰的區域會有相鄰的特征,靠得越近的東西相關性能也就越強。局部性可以控制模型的復雜度。
      • translation equivariance:由于卷積核是一樣的所以不管圖片中的物體移動到哪里,只要是同樣的輸入進來遇到同樣的卷積核,那么輸出就是一樣的。利用平移等變形可以很好的提高模型的泛化能力。
  • ViT
    • 對比。先前將Transformer應用于CV領域的工作,都和CNN相關。要么時將CNN卷積后的特征圖應用自注意力機制,要么是將注意力機制當成卷積核,應用于局部圖像。這樣做的原因是,假設一張圖像的大小是224*224,那么對每個像素點進行自注意力操作后,計算量會變得很大。因此Transformer的最大改動是將圖像分塊,這樣大大減少了計算量。
    • 結構。ViT通過自注意力機制同時考慮圖像塊之間的全局關系。在處理圖像時,每個圖像塊的特征更新都會受到其他所有圖像塊的影響。例如,在識別一張風景圖片時,ViT能夠同時考慮天空、山脈、河流等不同區域之間的關系,從而更好地理解整個圖像的語義信息。不具有CNN那樣的明確的層次化特征提取過程。雖然Vi也可以T通過堆疊多層Transformer模塊來提取更復雜的特征,但它的每一層都是在全局范圍內進行特征更新,而不是像CNN那樣逐層從局部到整體提取特征。
    • 在大規模數據集上表現出色。當有足夠大的數據集進行訓練時,ViT能夠學習到更豐富的特征表示。例如在ImageNet - 21k(一個包含21000個類別的大規模圖像數據集)上預訓練的ViT模型,在遷移到其他任務時往往能夠取得更好的性能。
  • 總結
    使用基于CNN的方法存在感受野有限的問題,不能很好的建模長遠的依賴關系(全局信息),而基于transformer的方法可以很好的建模全局信息但是transformer反而缺乏類似于CNN的歸納偏置,這些先驗信息必須通過大量的數據來進行學習,所以小的數據在CNN上取得的效果一般優于基于transformer的方法。訓練基于CNN的方法通常只需要一個較小的數據集,而訓練基于transformer的方法一般需要再大的數據集上進行預訓練。

------------------------------------------------------------------------------結束---------------------------------------------------------------------------------------------------

在解決這些限制時,我們從熱傳導領域汲取靈感,其中空間局部性對于熱能的傳遞至關重要,因為相鄰粒子的碰撞導致了熱能的傳遞。值得注意的是,熱傳導原理與視覺語義在空間域內的傳播之間存在類比關系,因為特定尺度下相鄰的圖像區域往往包含相關的信息或具有相似的特征。基于這些聯系,我們引入了vHeat,這是一種受物理啟發的視覺表示模型,它將圖像塊視為熱源,并將它們之間相關性的計算建模為熱能的擴散。

你小子嘰里咕嚕說什么呢,一點都聽不懂,努力理解一下:

  • 熱傳導原理:熱傳導是熱量從一個地方傳到另一個地方的過程,熱量傳導過程其實是鐵棒里的粒子相互碰撞,熱能就從熱的地方傳導冷的地方。
  • 圖像中的熱傳導類比:在圖像里,相鄰的區域往往也很相似。比如,一張照片里的一塊草地,草地上的每一小塊區域(比如幾根草)看起來都差不多,它們的顏色、紋理等特征很相似。這就像是熱傳導里的“相鄰粒子”,它們之間有很強的關聯。
    在這里插入圖片描述
    圖2. 信息傳導機制的比較:自注意力與熱傳導。(a)自注意力算子將信息從一個像素“傳導”到所有其他像素,導致復雜度為O(N2)。(b)熱傳導算子(HCO)將中心像素視為熱源,并通過離散余弦變換(DCT,記為F)和逆離散余弦變換(IDCT,記為F?1)來傳導信息傳播,該方法具有可解釋性、全局感受野以及O(N1?)的復雜度。

為了將熱傳導原理整合到深度網絡中,我們首先推導出二維空間中熱傳導的一般解,并將其擴展到多個維度,對應于特征通道。基于這一一般解,我們設計了熱傳導算子(HCO),它模擬了視覺語義在圖像塊之間的多維傳播。值得注意的是,我們證明了HCO可以通過二維離散余弦變換(DCT)和逆離散余弦變換(IDCT)近似實現,有效將計算復雜度降低到O(N^1.5)。這一改進由于DCT和IDCT操作的高度并行性,顯著提高了訓練和測試的效率。此外,由于DCT獲得的頻域中的每個元素都包含了圖像空間中所有塊的信息,因此vHeat能夠建立長距離的特征依賴關系,并實現全局感受野。為了增強vHeat的表示適應性,我們提出了可學習的頻率值嵌入(FVEs),以表征頻率信息并預測視覺熱傳導的熱擴散率。

我們開發了一系列vHeat模型(即vHeat-Tiny/Small/Base),并通過廣泛的實驗驗證了它們在多樣化視覺任務中的有效性。與各種架構的基準視覺主干網絡(例如ConvNeXt、Swin和Vim)相比,vHeat在圖像分類、目標檢測和語義分割任務中始終表現出更優的性能。具體而言,vHeat-Base在ImageNet-1K上實現了84.0%的top-1準確率,比Swin高出0.5%,并且其吞吐量比Swin高出超過40%(661對比456)。為了探索vHeat的泛化能力,我們還在魯棒性評估基準和低級視覺任務中驗證了其優越性。此外,由于HCO的O(N^1.5)復雜度,vHeat相比基于ViT的模型具有顯著更低的計算成本,表現出更少的浮點運算量(FLOPs)和GPU內存需求,以及隨著圖像分辨率增加而更高的吞吐量。特別是當輸入圖像分辨率增加到768×768時,vHeat-Base的吞吐量比Swin高出3倍,GPU內存分配減少80%,計算FLOPs減少35%。

本研究的貢獻總結如下:

  • 我們提出了vHeat,這是一種受熱傳導物理原理啟發的視覺主干模型,同時實現了全局感受野、低計算復雜度和高可解釋性。
  • 我們設計了熱傳導算子(HCO),這是一個物理上合理的模塊,將圖像塊視為熱源,通過頻率值嵌入(FVEs)預測自適應的熱擴散率,并按照熱傳導原理傳遞信息。
  • vHeat在視覺任務(包括圖像分類、目標檢測和語義分割)中取得了令人鼓舞的性能,同時在高分辨率圖像上實現了更高的推理速度、更少的FLOPs和更低的GPU內存使用。

2、相關工作

2.1 卷積神經網絡(CNNs)

CNNs在視覺感知的歷史中一直是里程碑式的模型[30, 31]。CNNs的獨特特性體現在卷積核上,這些卷積核在特定設計的GPU上具有很高的計算效率。借助強大的GPU和大規模數據集[14],人們提出了越來越深[24, 29, 52, 57]、更高效的模型[27, 46, 58, 73],以在各種視覺任務中實現更高的性能。為了提升卷積操作的能力[10]、效率[28, 74]和適應性[11, 69],人們對其進行了大量改進。然而,CNNs的局部感受野這一固有限制依然存在。最近開發的大型卷積核[16]在擴大感受野方面邁出了一步,但在處理高分辨率圖像時遇到了困難

2.2 視覺變換器(Vision Transformers)

基于自注意力算子[63]構建的ViTs在構建全局特征依賴方面具有天然優勢。憑借自注意力在所有圖像塊之間的學習能力,ViTs在有大規模數據集用于預訓練的情況下,已成為迄今為止最強大的視覺模型[18, 45, 61]。引入分層架構[12, 15, 17, 37, 41, 60, 67, 79, 80]進一步提升了ViTs的性能。然而,ViTs是O(N2)的計算復雜度,這意味著在處理高分辨率圖像時會帶來巨大的計算開銷。人們通過引入窗口注意力、線性注意力和交叉協方差注意力算子[1, 6, 37, 66]來提高模型效率,但代價是縮小了感受野或降低了非線性能力。還有研究通過在ViTs中引入卷積操作[12, 64, 68]或設計混合架構將CNN與ViT模塊結合起來[12, 41, 54],提出了混合網絡。

2.3 狀態空間模型和循環神經網絡(RNNs)

狀態空間模型(SSMs)[22, 43, 65]具有線性復雜度的長序列建模能力,也被從自然語言領域遷移過來(例如Mamba[21])。通過將選擇性掃描機制適應于二維圖像,設計了視覺SSMs[36, 82]。然而,基于選擇性掃描機制的SSMs由于并行性有限,限制了其整體潛力。最近的受控加權鍵值(RWKV)和RetNet模型[44, 56]在保持線性復雜度的同時提高了并行性。它們結合了Transformer的高效并行化訓練和RNN的高效推理,利用線性注意力機制,使模型既可以表示為Transformer,也可以表示為RNN,從而在訓練期間并行化計算,并在推理期間保持恒定的計算和內存復雜度。盡管具有這些優勢,但將二維圖像建模為序列會降低可解釋性。

2.4 生物和物理啟發模型

生物和物理原理一直是創造視覺模型的源泉。擴散模型[26, 49, 53]受到非平衡熱力學[13]的啟發,能夠通過為擴散步驟定義馬爾可夫鏈來生成圖像。QB-Heat[8]利用物理熱傳導方程作為掩碼圖像建模任務的監督信號。脈沖神經網絡(SNNs)[20, 32, 59]聲稱能更好地模擬生物神經元的信息傳遞,為簡單的視覺任務構建模型[4]。這些模型的成功鼓勵我們探索物理熱傳導原理,以開發視覺表示模型。(○′・д・)ノ

3、 Methodology

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

4、實驗

1. 圖像分類

圖像分類的結果總結在表1中。在相似的計算量(FLOPs)下,vHeat實現了82.2%的top-1準確率,分別超過了Swin-T和Vim-S 0.9%和0.8%。值得注意的是,vHeat在Small和Base尺度上也表現出優越性。具體來說,vHeat-B在僅11.2 GFLOPs和68M模型參數的情況下,實現了84.0%的top-1準確率,分別超過了Swin-B和Vim-B 0.5%和0.8%。

在計算效率方面,vHeat在Tiny/Small/Base模型尺度上相比基準模型享有顯著更高的推理速度。例如,vHeat-T實現了每秒1514張圖像的吞吐量,比Vim-S高出87%,比ConvNeXt-T高出26%,比Swin-T高出22%,同時保持了性能優勢。

2. 目標檢測和實例分割

作為骨干網絡,vHeat在MSCOCO2017數據集上進行了目標檢測和實例分割的測試。我們加載了分類預訓練的vHeat權重進行下游評估。由于輸入圖像大小與分類任務不同,需要將FVEs或k的形狀對齊到下游任務的目標圖像大小。更多細節請參考補充材料中的D.1節。

目標檢測的結果總結在表2中,vHeat在兩種訓練計劃(12或36個epoch)中均在box/mask平均精度(APb和APm)方面表現出優越性。例如,在12個epoch的微調計劃下,vHeat-T/S/B模型分別實現了45.1%/46.8%/47.7%的目標檢測mAP,分別超過了Swin-T/S/B 2.4%/2.0%/0.8% mAP,以及ConvNeXt-T/S/B 0.9%/1.4%/0.7% mAP。在相同的配置下,vHeat-T/S/B分別實現了41.2%/42.3%/43.0%的實例分割mAP,超過了Swin-T/S/B和ConvNeXt-T/S/B。在36個epoch(3×)的微調計劃下,vHeat的優勢依然存在,且在多尺度訓練下表現穩定。此外,vHeat相比Swin和ConvNeXt享有更高的推理速度(FPS)。例如,vHeat-B實現了每秒20.2張圖像,比Swin-B/ConvNeXt-B(13.8/14.1張圖像/秒)高出46%/43%。這些結果突出了vHeat在密集預測下游任務中提供強大性能和效率的潛力。

3. 語義分割

在ADE20K數據集上的結果總結在表3中,vHeat在Tiny/Small/Base尺度上一致地超過了其他基線模型。例如,vHeat-B分別超過了NAT-B和ViL-B 1.1%/0.8% mIoU。

4. 魯棒性評估

為了驗證vHeat的魯棒性,我們在ObjectNet和ImageNet-A等分布外分類數據集上評估了vHeat-B。我們在表4中測量了這兩個基準的Top-1準確率(%)。結果表明,vHeat在分布外數據上一致地超過了Swin和ConvNeXt(更好的結果用粗體標記)。這些實驗突出了vHeat在處理分布外數據(如旋轉對象、不同視角(ObjectNet)和自然對抗性樣本(ImageNet-A))時的魯棒性。

5. 低級視覺任務

為了進一步評估我們提出的vHeat模型的泛化能力,我們將熱傳導算子(HCO)集成到SwinIR模型中,替換了自注意力模塊,從而得到了vHeatIR架構。然后我們在幾個標準的低級視覺任務上進行了一系列實驗,以評估vHeatIR的性能。這些任務包括在Set12和McMaster數據集上的灰度和彩色圖像去噪,以及在LIVE1數據集上的JPEG壓縮偽影減少。在這些實驗中,我們使用了與SwinIR相同的設置,以確保公平比較。結果總結在表5中,表明vHeatIR一致地超過了其他基線模型。這一改進主要歸功于HCO在頻率域中高效運行的能力,這增強了模型在處理低級圖像細節方面的性能。在訓練了15,000次迭代后,我們在圖6中可視化了噪聲水平為σ=15的彩色圖像的去噪結果。如圖所示,與SwinIR相比,vHeatIR產生了明顯更清晰的圖像,表明其在恢復圖像質量方面的優越能力。這些結果不僅突出了提出的vHeat模型的有效性,還驗證了其在低級視覺任務中的強大泛化能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84825.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84825.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84825.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Rust編寫Shop管理系統

Rust編寫Shop管理系統 Actix Web 是一個功能強大、實用且速度極快的 Rust Web 框架。編寫Shop管理系統 HelloKeny 首先是先編寫最簡單的例子,類似hello World可以檢查環境 Actix Web 是一個功能強大、實用且速度極快的 Rust Web 框架。 命令 cargo new hellokenycd hell…

安寶特案例丨Vuzix AR智能眼鏡集成專業軟件,助力盧森堡醫院藥房轉型,贏得輝瑞創新獎

在Vuzix M400 AR智能眼鏡的助力下,盧森堡羅伯特舒曼醫院(the Robert Schuman Hospitals, HRS)憑借在無菌制劑生產流程中引入增強現實技術(AR)創新項目,榮獲了2024年6月7日由盧森堡醫院藥劑師協會&#xff0…

快速冪算法詳解:從暴力到優雅的數學優化

文章目錄 一、樸素冪運算的問題二、快速冪的數學原理三、快速冪的遞歸實現四、快速冪的迭代實現五、模運算下的快速冪六、快速冪的應用場景七、總結 快速冪是一種高效計算冪運算的算法,能夠將時間復雜度從樸素的 O (n) 降低到 O (log n)。本文將深入探討快速冪的原理…

HTML+CSS 動態菜單和登錄框

摘要 實現了一個現代化的登錄/注冊界面,包含導航欄和彈窗表單。 HTML結構采用了響應式設計,包含Logo、導航鏈接和登錄按鈕。 CSS樣式實現了背景圖片、導航欄懸浮效果和表單美化,使用偽元素實現鏈接下劃線動畫。 JavaScript實現了彈窗切換…

抖音AI數字人對口型軟件LatentSync最新版整合包,音頻驅動口型講話

本次和大家分享一個字節跳動開發的強大的音頻驅動口型數字人視頻制作軟件LatentSync,我以前也分享過不少類似軟件了,比如:EchoMimic、VideoReTalking、hallo。字節的推出的這個效果稍微更好一點,我制作了最新版的一鍵啟動整合包。…

深入理解 PyTorch:從基礎到高級應用

在深度學習的浪潮中,PyTorch 憑借其簡潔易用、動態計算圖等特性,迅速成為眾多開發者和研究人員的首選框架。本文將深入探討 PyTorch 的核心概念、基礎操作以及高級應用,帶你全面了解這一強大的深度學習工具。? 一、PyTorch 簡介? PyTorch…

Java 中的 synchronized 與 Lock:深度對比、使用場景及高級用法

💡 前言 在多線程并發編程中,線程安全問題始終是開發者需要重點關注的核心內容之一。Java 提供了多種機制來實現同步控制,其中最常用的兩種方式是: 使用 synchronized 關鍵字使用 java.util.concurrent.locks.Lock 接口&#xf…

Notepad++如何列選

在 Notepad 中,你可以通過 列模式(Column Mode) 進行垂直選擇文本(列選),以下是具體操作方法: 方法 1:鍵盤 鼠標列選 按住 Alt 鍵(或 Alt Shift)。 按住鼠…

華為OD機考-水仙花數Ⅰ-邏輯分析(JAVA 2025B卷)

import java.util.*; public static Integer get(int count,int c){if(count<3||count>7){return -1;}//存儲每位數的最高位……最低位int[] arr new int[count];List<Integer> res new ArrayList<>();for(int i(int) Math.pow(10,count-1);i<(int) Math…

基于 STL+VMD 二次分解的 Informer-LSTM 并行預測模型詳解與案例

一、背景與動機 在時間序列預測中,如電力負荷、風速、交通流量等復雜數據常表現為: 非線性:趨勢+季節+突變+噪聲 多尺度:高頻擾動與低頻變化共存 長時依賴:遠期信息也影響當前預測 傳統模型(如 ARIMA、LSTM)往往無法兼顧全局趨勢建模與局部擾動感知,因此我們提出一種 …

【Linux Learning】SSH連線出現警告:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

問題&#xff1a;WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! Someone could be eavesdropping on you right now (man-in-the-middle attack)! It is al…

輕量級密碼算法PRESENT的C語言實現(無第三方庫)

一、PRESENT算法介紹 PRESENT是一種超輕量級分組密碼算法&#xff0c;由Bogdanov等人在2007年提出&#xff0c;專門為資源受限環境如RFID標簽和傳感器網絡設計。該算法在硬件實現上僅需1570個門等效電路(GE)&#xff0c;在保持較高安全性的同時實現了極小的硬件占用空間。PRES…

if的簡化書寫,提高執行效率

很多時候可能有下面判斷 if(a0) {b1;} else if(a1) {b0;} 就是ba的反向值&#xff1a; a0;b1&#xff1b; a1;b0; 這時&#xff0c;可以簡化如下&#xff1a; ba^1 使用異或&#xff0c;程序更簡潔&#xff0c;執行效率也更高 其他的也可以類似使用按位異或優化代碼

Vim 調用外部命令學習筆記

Vim 外部命令集成完全指南 文章目錄 Vim 外部命令集成完全指南核心概念理解命令語法解析語法對比 常用外部命令詳解文本排序與去重文本篩選與搜索高級 grep 搜索技巧文本替換與編輯字符處理高級文本處理編程語言處理其他實用命令 范圍操作示例指定行范圍處理復合命令示例 實用技…

bash挖礦木馬事件全景復盤與企業級防御實戰20250612

&#x1f427; CentOS “-bash 挖礦木馬” 事件全景復盤與企業級防御實戰 ?? 作者&#xff1a;Narutolxy | &#x1f4c5; 日期&#xff1a;2025-06-12 | &#x1f3f7;? 標簽&#xff1a;Linux 安全、應急響應、運維加固、實戰復盤 &#x1f4d8; 內容簡介 本文是一場真實…

「Linux中Shell命令」Shell命令基礎

知識點詳細解析 Shell簡介 Shell是Linux操作系統系統中用戶與操作系統內核交互的接口。它既是命令解釋器,負責接收用戶輸入的命令并將其轉換為內核能夠理解的指令,也是一種腳本編程語言。作為Linux操作系統的重要組成部分,Shell扮演著用戶與系統內核之間的"中間人"…

202557讀書筆記|《夢里花落知多少(輕經典)》——有你在的地方才最美

《夢里花落知多少&#xff08;輕經典&#xff09;》作者三毛&#xff0c;物極必反&#xff0c;陰晴圓缺&#xff0c;小滿即萬全么&#xff1f;因為幸福過于滿溢。所以幸福被收走了。 沒有看過太多三毛的作品&#xff0c;給我的感覺她是很敏感&#xff0c;多愁善感及沒有安全感…

對象映射 C# 中 Mapster 和 AutoMapper 的比較

Mapster和AutoMapper是C#領域兩大主流對象映射庫&#xff0c;各具特色。Mapster以高性能著稱&#xff0c;使用表達式樹實現零反射映射&#xff0c;首次編譯后執行效率極高&#xff0c;適合對性能敏感的場景&#xff1b;AutoMapper則提供更豐富的功能集&#xff0c;如條件映射和…

QEMU源碼全解析 —— 塊設備虛擬化(26)

接前一篇文章:QEMU源碼全解析 —— 塊設備虛擬化(25) 本文內容參考: 《趣談Linux操作系統》 —— 劉超,極客時間 《QEMU/KVM源碼解析與應用》 —— 李強,機械工業出版社 Virt

微軟PowerBI考試 PL300-選擇 Power BI 模型框架【附練習數據】

微軟PowerBI考試 PL300-選擇 Power BI 模型框架 20 多年來&#xff0c;Microsoft 持續對企業商業智能 (BI) 進行大量投資。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于無數企業使用的成熟的 BI 數據建模技術。 同樣的技術也是 Power BI 數據…