5.10.1 Pre-Trained Image Processing Transformer

研究了低級計算機視覺任務(例如去噪、超分辨率和去雨)并開發了一種新的預訓練模型,即圖像處理變壓器(IPT)。利用著名的 ImageNet 基準來生成大量損壞的圖像對。 IPT 模型是在這些具有多頭和多尾的圖像上進行訓練的。此外,引入對比學習以更好地適應不同的圖像處理任務。因此,預訓練模型在微調后可以有效地應用于所需的任務。

1. 介紹

圖像處理是更全局的圖像分析或計算機視覺系統的低級部分的組成部分之一。圖像處理的結果很大程度上影響后續高層部分對圖像數據的識別和理解。近年來,深度學習已廣泛應用于解決低級視覺任務,例如圖像超分辨率、修復、去雨和著色。由于許多圖像處理任務都是相關的,因此很自然地期望在一個數據集上預訓練的模型可以對另一個數據集有所幫助。

在計算機視覺中,deraining是指圖像去雨的過程。具體來說,deraining技術旨在從被雨水影響的圖像中恢復出清晰、無雨的圖像內容。deraining是一個具有挑戰性的任務,因為雨水在圖像中可能表現為不同的形態和密度,且對圖像的影響也是復雜多變的。

預訓練可能為圖像處理任務提供有吸引力的解決方案

首先,對于特定任務的數據可能受到限制。這個問題在涉及付費數據或數據隱私的圖像處理任務中更加嚴重,例如醫學圖像和衛星圖像。各種不一致的因素(例如相機參數、照明和天氣)可能會進一步擾亂捕獲的訓練數據的分布。

其次,在呈現測試圖像之前,不知道將請求哪種類型的圖像處理作業。因此我們手頭必須準備一系列的圖像處理模塊。他們有不同的目標,但一些基本操作可以共享。


本文中,我們使用Transformer架構開發了一種用于圖像處理的預訓練模型,即圖像處理Transformer(IPT)。由于預訓練的模型需要兼容不同的圖像處理任務,包括超分辨率、去噪、去雨等,因此整個網絡由對應不??同任務的多對頭尾和單個共享主體組成。

由于Transformer的潛力需要使用大規模數據集來挖掘,因此我們應該準備大量具有相當多樣性的圖像來訓練IPT模型。為此,我們選擇包含各種高分辨率、1000 個類別的 ImageNet 基準測試。對于 ImageNet 中的每個圖像,我們使用操作來生成多個對應圖像來服務于不同的任務。

Transformer架構在巨大的數據集上進行訓練

1、訓練圖像被輸入到特定的頭部,生成的特征被裁剪為補丁,并隨后展平為序列。

2、Transformer主體被用來處理扁平化特征,其中位置嵌入和任務嵌入分別用于編碼器和解碼器。

3、尾部被迫根據特定任務預測具有不同輸出大小的原始圖像。此外,引入了不同輸入的塊之間關系的對比損失,以便更好地使用不同的圖像處理任務。

2. 相關工作

2.1 圖像處理

圖像處理包括對圖像的操作,包括超分辨率、去噪、去霧、去雨、去模糊等。

2.2 Transformer

Transformer及其變體已證明其在各種自然語言處理任務中是強大的無監督或自監督預訓練框架的成功。

探索 Transformer 在計算機視覺任務中的好處:

1、在傳統的卷積神經網絡中引入自注意力。引入了圖像分割的空間注意力、提出DANET通過結合空間和通道注意力來利用上下文信息、通過自注意力增強特征,以增強模型在幾個高級視覺任務上的性能

2、用自注意力塊代替卷積神經網絡。

3. Image Processing Transformer

3.1 IPT架構

IPT 的整體架構由四個部分組成:頭部用于從輸入的損壞圖像(例如,帶有噪聲的圖像和低分辨率圖像)中提取特征,編碼器-解碼器Transformer用于恢復輸入數據中缺失的信息,尾部用于將特征映射到恢復的圖像中。

頭部

為了適應不同的圖像處理任務,我們使用多頭架構來單獨處理每個任務,其中每個頭由三個卷積層組成。將輸入圖像表示為x\in\mathbb{R}^{3\times H\times W},頭部生成具有C個通道的相同高度和寬度的特征圖f_{H}\in\mathbb{R}^{C\times H\times W},計算公式為:f_{H} = H^{i}(x)H^{i} (i = \{1,\ldots,N_{t}\})表示第 i 個任務的頭部,N_t表示任務的數量。

Transformer編碼器

在將特征輸入到Transformer主體之前,我們將給定的特征分割成補丁,每個補丁被視為一個“單詞”。具體來說,特征圖f_{H} \in \mathbb{R}^{C\times H\times W}被重塑為補丁序列,f_{p_{i}} \in \mathbb{R}^{P^{2}\times C},i = \{1,\ldots,N\},其中N=\frac{HW}{P^{2}}是補丁的數量(序列長度),P是補丁的大小。

為了維護每個補丁的位置信息,我們為之后的每個特征f_{p_{i}}?補丁添加可學習的位置編碼E_{p_{i}} \in \mathbb{R}^{P^{2}\times C},并且E_{p_{i}}+f_{p_{i}}將直接輸入到Transformer編碼器中。編碼器層具有多頭自注意力模塊和前饋網絡。每個補丁的編碼器f_{E_{i}} \in \mathbb{R}^{P^{2}\times C}的輸出具有與輸入補丁f_{p_{i}}?相同的大小。?

y_{0}=\left[E_{p_{1}}+f_{p_{1}},E_{p_{2}}+f_{p_{2}},\ldots,E_{p_{N}}+f_{p_{N}}\right]

q_{i}=k_{i}=v_{i}=\mathrm{LN}(y_{i-1})

y_{i}^{\prime}=\mathrm{MSA}(q_{i},k_{i},v_{i})+y_{i-1}

y_i=\mathrm{FFN}(\mathrm{LN}(y_i^{\prime}))+y_i^{\prime},\quad i=1,\ldots,l

[f_{E_{1}},f_{E_{2}},\ldots,f_{E_{N}}]=y_{l}

其中?l?表示編碼器中的層數,MSA表示傳統變壓器模型中的多頭自注意力模塊,LN表示層歸一化,FFN表示前饋網絡,其中包含兩個完全連接層。

Transformer解碼器

解碼器也遵循相同的架構,并將解碼器的輸出作為變壓器主體的輸入,Transformer主體由兩個多頭自注意力(MSA)層和一個前饋網絡(FFN)組成。

可以利用特定于任務的嵌入作為解碼器的附加輸入。這些特定于任務的嵌入E_{t}^{i}\in\mathbb{R}^{P^{2}\times C},i=\{1,\ldots,N_{t}\}被學習來解碼不同任務的特征。解碼器的計算可以表述為:

z_{0}=\left[f_{E_{1}},f_{E_{2}},\ldots,f_{E_{N}}\right]

q_{i}=k_{i}=\mathrm{LN}(z_{i-1})+E_{t},v_{i}=\mathrm{LN}(z_{i-1})

z_{i}^{\prime}=\mathrm{MSA}(q_{i},k_{i},v_{i})+z_{i-1}

q_{i}^{\prime}=\mathrm{LN}(z_{i}^{\prime})+E_{t},k_{i}^{\prime}=v_{i}^{\prime}=\mathrm{LN}(z_{0})

z_{i}^{\prime\prime}=\mathrm{MSA}(q_{i}^{\prime},k_{i}^{\prime},v_{i}^{\prime})+z_{i}^{\prime}

z_{i}=\mathrm{FFN(LN}(z_{i}^{\prime\prime}))+z_{i}^{\prime\prime}, i=1,\ldots,l

[f_{D_{1}},f_{D_{2}},\ldots,f_{D_{N}}]=y_{l}

其中f_{D_{i}}\in\mathbb{R}^{P^{2}\times C}表示解碼器的輸出。然后,將解碼后的 N 個大小為?P^2\times C 的補丁特征重新整形為大小為 C × H × W 的特征 f_D

尾部

尾部的屬性與頭部相同,我們使用多尾來處理不同的任務。計算可以表述為f_{T} = T^{i}(f_{D})T^i(i=\{1,\ldots,N_t\})表示第 i 個任務的頭部,N_t表示任務的數量。輸出f_{T}的結果圖像大小為3\times H^{\prime}\times W^{\prime}由具體任務決定。對于2× 超分辨率任務,H′ = 2H,W = 2W。

3.2 ImageNet上的預訓練

成功訓練出優秀Transformer的關鍵因素之一是大規模數據集的充分利用。與圖像分類相比,用于圖像處理任務的可用數據數量相對較少。建議利用眾所周知的ImageNet作為基線數據集預訓練 IPT 模型,然后我們為多個任務(例如超分辨率和去噪)生成整個數據集。

由于 ImageNet 基準測試中的圖像具有很高的多樣性,其中包含來自 1,000 個不同類別的超過 100 萬張自然圖像。這些圖像具有豐富的紋理和顏色信息。

首先刪除語義標簽,并使用針對不同任務的各種退化模型,從這些未標記的圖像中手動合成各種損壞的圖像。例如,超分辨率任務通常采用雙三次退化(bicubic)來生成低分辨率圖像,去噪任務在不同噪聲級別的干凈圖像中添加高斯噪聲以生成噪聲圖像。這些合成圖像可以顯著提高學習深度網絡(包括 CNN 和 Transformer 架構)的性能。

損壞的圖像合成為:I_{corrupted}=f(I_{clean}),其中f表示退化變換,對于超分辨率任務,f_{sr}正是雙三次插值;對于圖像去噪,{f}_{noise}(I)=I+\eta,,其中 \eta 是加性高斯噪聲;對于除雨, f_{rain}(I)=I+r其中?r?是手工制作的雨條紋。以監督方式學習 IPT 的損失函數可以表示為:

\mathcal{L}_{supervised}=\sum_{i=1}^{N_t}L_1(\mathrm{IPT}(I_{corrupted}^i),I_{clean})

其中 L_1 表示重建所需圖像的傳統 L1 損失,I^i_{Corrupted} 分別表示任務 i 的損壞圖像。所提出的框架同時接受多個圖像處理任務的訓練。具體來說,對于每個批次,我們從 N_t?個監督任務中隨機選擇一個任務進行訓練,每個任務將同時使用相應的頭、尾和任務嵌入進行處理。

在預訓練 IPT 模型后,它將捕獲各種圖像處理任務的內在特征和轉換,因此可以進一步微調以使用新提供的數據集應用于所需的任務。此外,為了節省計算成本,其他頭部和尾部將被丟棄,并且剩余頭部、尾部和主體中的參數將根據反向傳播進行更新。

然而,由于退化模型多種多樣,我們無法為所有圖像處理任務合成圖像。實踐中可能存在多種可能的噪聲水平。因此,應進一步增強所得IPT的泛化能力。與預訓練自然語言處理模型類似,圖像塊之間的關系也提供了信息。我們引入對比學習來學習通用特征,以便預先訓練的IPT模型可以用于未見過的任務。將 IPT 解碼器針對給定輸入x_j生成的輸出補丁特征表示為f_{D_{i}}^{j} \in \mathbb{R}^{P^{2}\times C},i = \{1,\ldots,N\}其中x_j是從一批訓練圖像X=\{x_1,x_2,\ldots,x_B\}。我們的目標是最小化來自相同圖像的補丁特征之間的距離,同時最大化來自不同圖像的補丁特征之間的距離。

l(f_{D_{i_1}}^j,f_{D_{i_2}}^j)=-\mathrm{log}\frac{\exp(d(f_{D_{i_1}}^j,f_{D_{i_2}}^j))}{\sum_{k=1}^B\mathbb{I}_{k\neq j}\exp(d(f_{D_{i_1}}^j,f_{D_{i_2}}^k))}

\mathcal{L}_{constrastive}=\frac{1}{BN^{2}}\sum_{i_{1}=1}^{N}\sum_{i_{2}=1}^{N}\sum_{j=1}^{B}l(f_{D_{i_{1}}}^{j},f_{D_{i_{2}}}^{j}),其中\begin{matrix}d(a,b)&=&\frac{a^Tb}{\|a\|\|b\|}\end{matrix}表示余弦相似度。為了充分利用監督和自監督信息,我們將損失函數重新表述為:

\mathcal{L}_{IPT}=\lambda\cdot\mathcal{L}_{contrastive}+\mathcal{L}_{supervised}?其中,我們將λ平衡對比損失與監督損失相結合作為IPT的最終目標函數。

4. 實驗

預訓練的 IPT 模型可以在這些任務上實現最先進的性能。此外,大量的消融研究實驗表明,在使用大規模數據集解決圖像處理問題時,基于 Transformer 的模型比卷積神經網絡表現更好。

超分辨率圖像處理(Image Super-resolution)是一種重要的圖像處理技術,旨在通過算法和模型將低分辨率(Low Resolution, LR)圖像提升到高分辨率(High Resolution, HR),從而增強圖像的細節和清晰度。

數據集

使用著名的 ImageNet 數據集,該數據集由超過 1M 個高度多樣性的彩色圖像組成。訓練圖像被裁剪成 48 × 48 的 patch,具有 3 個通道進行訓練,即有超過 10M 個 patch 用于訓練 IPT 模型。然后,我們生成具有 6 種退化類型的損壞圖像:分別是 2×、3×、4× 雙三次插值、30、50 噪聲級別高斯噪聲和添加雨紋。

超分辨率

由于高縮放因子導致大量信息丟失,因此很難恢復原始高分辨率圖像。以前的方法生成模糊圖像,而我們的模型生成的超分辨率圖像可以很好地從低分辨率圖像中恢復細節。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13055.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13055.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13055.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Megatron-lm、DeepSpeed

1、為了訓練更多的數據、更大的模型,提出了并行訓練框架。 2、并行的方式:數據并行、模型并行(張量并行、流水線并行)。 3、Megatron-LM 綜合應用了數據并行(Data Parallelism),張量并行&…

內網安全工具之ADExplorer的使用

ADExplorer是域內一款信息查詢工具,它是獨立的可執行文件,無需安裝。它能夠列出域組織架構、用戶賬號、計算機賬號登,可以幫助尋找特權用戶和數據庫服務器等敏感目標。 下載地址:http://live.sysinternals.com/ 連接 下載了ADE…

第十四屆藍橋杯大賽軟件賽國賽C/C++ 大學 B 組 拼數字

//bfs只能過40%。 #include<bits/stdc.h> using namespace std; #define int long long int a,b,c,dp[2028]; struct s {int x,y,z;string m; }; map<vector<int>,int>k; signed main() {ios::sync_with_stdio(false);cin.tie(0),cout.tie(0);cin>>a…

Java入門基礎學習筆記24——While循環和do-while循環

1、While循環&#xff1a; 例1&#xff1a; package cn.ensource.loop;public class WhileDemo3 {public static void main(String[] args) {// 目標&#xff1a;掌握while循環的書寫格式&#xff0c;以及理解其執行流程// 需求&#xff1a;打印多行Hello Worldint i 0;while…

EFCore_創建項目

添加依賴 Microsoft.EntityFrameworkCore Microsoft.EntityFrameworkCore.Tools(Migration工具) 根據使用的DB添加對應依賴&#xff1a; SQL Server&#xff1a;Microsoft.EntityFrameworkCore.SqlServer 添加該依賴時可不添加Microsoft.EntityFrameworkCore&#xff0c;該依…

電工能混到這份上

最近看到某電工師傅發了一篇帖子&#xff0c;大致內容是他在處理一個簡單故障的時候居然花了很長的時間。我們一起來看看他遇到的是什么故障吧! plc 控制的一臺設備&#xff0c;行走部分靠 2 個腳踏開關控制&#xff08;內部開關量控制方向&#xff0c;電位器控制速度&#xff…

Java:使用BigDecimal、NumberFormat和DecimalFormat保留小數

一、代碼和調試結果 1.1 BigDecimal ![在這里插入圖片描述](https://img-blog.csdnimg.cn/direct/fa36749de8124266a730817710fdf737.png) 1.2 DecimalFormat 1.3 NumberFormat 二、原代碼 BigDecimalUtil.java 代碼 package utils;import java.math.BigDecimal; import jav…

前端模塊導入導出方式

不同的導出方式和相應的導入方式&#xff0c;可以提煉成 3 種類型&#xff1a;name、default 和 list。 以下是使用示例&#xff1a; // Name Export | Name Import // 一個“命名”的導出 export const name value import { name } from ...? 錯誤示例&#xff1a; export…

Linux平臺和Windows平臺互傳文件

rz和sz的出發對象都是從Linux出發的&#xff0c;例如sz發送&#xff08;Send&#xff09;從Linux->發送到Windows。 rz 從Windows文件發送到Linux中 先創立一個新文本文件 之后將hello Windows輸入到該文本文件中 在顯示器上顯示里面是否有hello Windows內容 sz發送Lin…

Flutter 中的 PageStorage 小部件:全面指南

Flutter 中的 PageStorage 小部件&#xff1a;全面指南 在Flutter中&#xff0c;PageStorage小部件提供了一種方法來保存和恢復頁面間的信息&#xff0c;這對于具有多個頁面且需要在這些頁面之間共享狀態的應用程序非常有用。本文將詳細介紹PageStorage的用途、如何使用它以及…

Microsoft Azure AI語音服務

一&#xff1a;文字轉語音SDK安裝 安裝語音 SDK - Azure AI services | Microsoft Learn 二&#xff1a;基于文本轉語音Rest API 文本轉語音 API 參考 (REST) - 語音服務 - Azure AI services | Microsoft Learn 三&#xff1a;基于文本合成語音 如何基于文本合成語音 - 語…

Retrying,一個神奇優雅的 Python 庫

大家好&#xff01;我是愛摸魚的小鴻&#xff0c;關注我&#xff0c;收看每期的編程干貨。 一個簡單的庫&#xff0c;也許能夠開啟我們的智慧之門&#xff0c; 一個普通的方法&#xff0c;也許能在危急時刻挽救我們于水深火熱&#xff0c; 一個新穎的思維方式&#xff0c;也許能…

非成對意象翻譯中的內容制約范式再思考

Rethinking the Paradigm of Content Constraints in Unpaired Image-to-Image Translation 非成對意象翻譯中的內容制約范式再思考 Xiuding Cai1 2, Yaoyao Zhu1 2, Dong Miao1 2, Linjie Fu1 2, Yu Yao1 2 蔡秀定 1 2 、朱瑤瑤 1 2 、苗東 1 2 、付林杰 1 2 、余瑤 1 2 Corre…

遙感數據集制作(Potsdam數據集為例):TIF圖像轉JPG,TIF標簽轉PNG,圖像重疊裁剪

文章目錄 TIF圖像轉JPGTIF標簽轉PNG圖像重疊裁剪圖像重命名數據集轉COCO格式數據集轉VOC格式 遙感圖像不同于一般的自然圖像&#xff0c;由于波段數量、圖像位深度等原因&#xff0c;TIF圖像數據不能使用簡單的格式轉換方法。本文以Potsdam數據集為例&#xff0c;制作能夠直接用…

Linux安裝配置CGAL,OpenCV和Gurobi記錄

安裝Qt&#xff0c;查看當前的Qt版本&#xff0c;需要至少滿足v5.12 qmake -v安裝CGAL&#xff0c;The Computational Geometry Algorithms Library (cgal.org) CGAL v5.6.1&#xff1a;https://github.com/CGAL/cgal/releases/download/v5.6.1/CGAL-5.6.1.tar.xz 確保C編譯…

每日復盤-20240515

僅用于記錄當天的市場情況&#xff0c;用于統計交易策略的適用情況&#xff0c;以便程序回測 短線核心&#xff1a;不參與任何級別的調整&#xff0c;采用龍空龍模式 一支股票 10%的時候可以操作&#xff0c; 90%的時間適合空倉等待 國聯證券 (1)|[9:25]|[133765萬]|31.12 一…

基于Pytorch深度學習神經網絡MNIST手寫數字識別系統源碼(帶界面和手寫畫板)

第一步&#xff1a;準備數據 mnist開源數據集 第二步&#xff1a;搭建模型 我們這里搭建了一個LeNet5網絡 參考代碼如下&#xff1a; import torch from torch import nnclass Reshape(nn.Module):def forward(self, x):return x.view(-1, 1, 28, 28)class LeNet5(nn.Modul…

【數據結構】C++語言實現二叉樹的介紹及堆的實現(詳細解讀)

c語言中的小小白-CSDN博客c語言中的小小白關注算法,c,c語言,貪心算法,鏈表,mysql,動態規劃,后端,線性回歸,數據結構,排序算法領域.https://blog.csdn.net/bhbcdxb123?spm1001.2014.3001.5343 給大家分享一句我很喜歡我話&#xff1a; 知不足而奮進&#xff0c;望遠山而前行&am…

分布式系統的一致性與共識算法(三)

順序一致性(Sequential Consistency) ZooKeeper 一種說法是ZooKeeper是最終一致性&#xff0c;因為由于多副本、以及保證大多數成功的ZAB協議&#xff0c;當一個客戶端進程寫入一個新值&#xff0c;另外一個客戶端進程不能保證馬上就能讀到這個值&#xff0c;但是能保證最終能…

我的第一個網頁:武理天協

1. html代碼 1.1 首頁.html <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><title>武理天協</title><link rel"stylesheet" href"./style.css"><link rel"stylesh…