面向真實場景的定制化圖像降質模型設計方案
1. 核心思路:從真實圖像中學習退化模型
1.1 問題定義:合成數據與真實數據的域差距
在超分辨率(Super-Resolution, SR)算法的實際應用中,一個核心挑戰源于訓練數據與真實測試數據之間的域差距(Domain Gap)。當前主流的SR模型訓練流程通常依賴于人為合成的低分辨率(Low-Resolution, LR)圖像。具體而言,這些合成LR圖像是通過對高分辨率(High-Resolution, HR)圖像應用一系列預定義的退化操作(如雙三次插值下采樣)生成的。然而,這種簡化的退化模型無法全面、準確地模擬真實世界中復雜多變的圖像退化過程。真實LR圖像往往受到多種因素的復合影響,包括但不限于復雜的模糊核(如運動模糊、鏡頭像差)、非高斯噪聲(如傳感器噪聲、量化噪聲)、色彩失真、壓縮偽影(如JPEG塊狀偽影)、紫邊(Chromatic Aberration)以及色差等。由于訓練集與測試集在退化特性上存在顯著差異,導致在合成數據上表現優異的SR模型,在處理真實LR圖像時性能會急劇下降,甚至產生明顯的模糊和偽影,這極大地限制了SR技術在實際業務場景中的有效性和可靠性 。
1.2 解決方案概述:利用參考圖像進行定制化降質
為了解決上述域差距問題,一個直接且有效的思路是使訓練數據的退化過程盡可能地逼近真實場景。考慮到獲取大規模成對的真實LR-HR數據集成本高昂且不切實際,本方案提出一種“定制化”的降質策略。該策略的核心思想是:針對每一張或每一類特定的HR圖像,利用少數幾張具有代表性的真實LR圖像作為參考,從中學習并提取其獨特的退化特征。通過這種方式,可以構建一個能夠模擬特定場景或設備退化特性的“退化池”(Degradation Pool)。在訓練SR模型時,從這個退化池中隨機采樣退化參數(如模糊核、噪聲水平等)來對HR圖像進行降質,從而生成與真實LR圖像在視覺和統計特性上高度相似的合成LR圖像。這種方法旨在縮小訓練數據與真實推理數據之間的域差距,從而提升SR模型在真實場景下的泛化能力和重建質量。
1.3 技術路線:構建“退化池”以模擬真實退化分布
實現定制化降質的技術路線主要分為兩個關鍵步驟。第一步是退化參數估計,即從提供的少數真實LR參考圖像中,準確地估計出其內在的退化參數。這包括估計模糊核的形狀和大小、噪聲的類型和強度、以及可能存在的壓縮偽影等。第二步是退化池構建與應用,將估計出的多樣化退化參數進行匯總,形成一個針對特定場景的退化池。在SR模型的訓練階段,對于每一個輸入的HR圖像塊,系統將從退化池中隨機選擇一組退化參數,并應用這些參數對HR圖像進行降質處理,從而生成用于訓練的LR-HR圖像對。這種基于退化池的訓練方式,使得SR模型能夠接觸到更廣泛、更真實的退化模式,從而學習到更具魯棒性的超分辨率映射關系。例如,可以結合KernelGAN等方法從單張LR圖像中估計模糊核 ,并結合其他技術提取噪聲特征,最終將這些參數整合到一個統一的降質框架中,如Real-ESRGAN所倡導的高階退化模型,以實現更精細化的模擬。
2. 關鍵步驟一:從真實低清圖像中估計退化參數
2.1 模糊核(Blur Kernel)估計
2.1.1 基于KernelGAN的模糊核估計方法
KernelGAN是一種創新的、無監督的模糊核估計方法,它利用生成對抗網絡(GAN)的內部學習機制,僅從單張LR測試圖像中估計出其對應的下采樣模糊核 。其核心思想基于自然圖像的跨尺度自相似性(Cross-Scale Recurrence) 原理,即圖像中局部小塊(patches)的分布在不同尺度下具有重復性 。KernelGAN的目標是找到一個模糊核,使得用該核對LR圖像進行下采樣后,生成圖像的局部塊分布與原始LR圖像的局部塊分布盡可能一致。
該方法的網絡結構由一個生成器(Generator, G)和一個判別器(Discriminator, D)組成,二者在測試時針對單張LR圖像進行訓練,無需任何外部訓練數據 。
- 生成器 (G) :被設計為一個深度線性網絡,即由多個不含非線性激活函數的卷積層構成。這種設計旨在確保生成器僅執行線性變換,從而模擬圖像的模糊和下采樣過程。生成器的任務是對輸入的LR圖像進行下采樣,生成一個更小尺寸的圖像。其網絡結構通常包含5到6個卷積層,前幾層的卷積核較大(如7x7, 5x5),后幾層為1x1卷積核,整體感受野可達13x13,能夠生成一個13x13的模糊核 。
- 判別器 (D) :采用一個全卷積的Patch Discriminator,其感受野較小(如7x7),用于判斷輸入圖像的每一個局部小塊是真實的(來自原始LR圖像)還是生成的(來自生成器的輸出)。判別器輸出一個概率圖(heatmap),圖中每個值代表對應圖像塊為真的概率 。
訓練過程是一個對抗性博弈:生成器G試圖生成能夠欺騙判別器D的圖像,而判別器D則努力提升其辨別真偽的能力。當判別器無法區分兩者時,可以認為生成器G已經學習到了能夠將LR圖像正確下采樣的模糊核。這個學習到的模糊核可以通過對生成器G的所有卷積核參數進行連續卷積運算來顯式地提取出來 。為了約束估計出的模糊核符合物理規律,KernelGAN在生成器的損失函數中加入了多個正則化項,包括:
- 歸一化損失 (Sum-to-One Loss) :確保模糊核所有元素之和為1。
- 中心化損失 (Centralized Loss) :鼓勵模糊核的質心位于其幾何中心。
- 邊界損失 (Boundaries Loss) :懲罰模糊核邊界的非零值,以促進其緊湊性。
- 稀疏性損失 (Sparsity Loss) :鼓勵模糊核的稀疏性,防止過度平滑 。
通過KernelGAN,可以為每一張真實LR參考圖像估計出一個獨特的、符合其內在退化特性的模糊核,為構建定制化的模糊核退化池提供了強有力的工具。
2.1.2 基于深度學習的模糊核估計網絡(BKENet)
除了KernelGAN這種基于內部學習的方法,還可以設計專門的監督式深度學習網絡來估計模糊核。例如,在BESRNet(Blurred image blind super-resolution network via kernel estimation)中,作者提出了一個模糊核估計網絡(Blur Kernel Estimation Network, BKENet) 。與KernelGAN不同,BKENet通常需要在一個包含成對LR圖像和對應真實模糊核的數據集上進行預訓練。一旦訓練完成,該網絡便能夠直接從輸入的LR圖像中顯式地估計出完整的模糊核。
BKENet的設計旨在捕捉LR圖像中與模糊相關的復雜特征,并將其映射到一個固定大小的模糊核表示。其網絡結構可能包含多個卷積層、池化層以及全連接層,以逐步提取從低級到高級的圖像特征,并最終回歸出模糊核的像素值。在BESRNet的框架中,BKENet估計出的模糊核隨后被用作一個條件輸入,指導后續的圖像重建網絡(SRNet)進行自適應的超分辨率重建。SRNet內部包含一個模糊核自適應特征選擇模塊,該模塊能夠根據輸入的模糊核動態地調整網絡各層的特征圖,從而使重建過程能夠適應不同圖像的特定模糊退化 。
雖然BKENet需要預先準備帶有真實模糊核標簽的訓練數據,這在某些場景下可能是一個限制,但它提供了一種更為直接和高效的模糊核估計方式。在實際應用中,如果可以獲得少量帶有真實模糊核的LR圖像,就可以利用BKENet進行訓練,然后將其應用于同一場景下的其他無標簽LR圖像,以快速估計其模糊核,從而構建退化池。
2.1.3 基于自然圖像統計特性的模糊核估計
除了基于學習的方法,一些傳統的、基于自然圖像統計特性的模糊核估計算法也表現出了強大的性能,并且在某些場景下具有獨特的優勢。這類方法通常基于一個核心假設:自然圖像的某些統計特性(如梯度分布、功率譜等)遵循特定的規律,而模糊操作會改變這些規律。通過分析模糊圖像與理想自然圖像模型之間的差異,就可以反推出模糊核的信息。例如,Goldstein和Fattal在2012年提出的方法就是一個典型代表 。該方法首先建立了一個精細的自然圖像功率譜模型,該模型考慮了圖像中邊緣的方向性,比傳統的各向同性冪律模型更為準確。
在估計過程中,該方法首先對輸入的模糊圖像進行“白化”處理,即通過一個特定的濾波器來消除自然圖像本身功率譜的影響。理想情況下,如果圖像是清晰的,白化后的圖像功率譜應該是平坦的。然而,由于模糊的存在,白化后的功率譜會呈現出與模糊核功率譜相關的特征。通過分析這些殘留的“不規則性”,就可以估計出模糊核的功率譜。最后,再利用相位恢復(phase retrieval)算法,結合對模糊核的非負性和緊支撐(compact support)等物理約束,從估計出的功率譜中重建出空間域的模糊核。這種方法的優點在于其堅實的數學基礎和物理意義,它不依賴于大規模的訓練數據,對噪聲具有一定的魯棒性,并且能夠處理包含復雜紋理或植被等缺乏明顯邊緣的圖像,這些場景對于基于邊緣檢測的方法來說往往是困難的 。
2.2 噪聲(Noise)估計與提取
2.2.1 從真實圖像中提取噪聲塊
在真實圖像中,噪聲的特性(如強度、分布)與合成數據中高斯白噪聲的假設往往相去甚遠。為了更真實地模擬噪聲,可以從提供的真實LR參考圖像中直接提取噪聲樣本。一種可行的方法是利用圖像的自相似性和稀疏表示。具體步驟如下:
- 圖像預處理:首先對真實LR圖像進行預處理,如輕微的平滑操作,以去除部分高頻噪聲,得到一個相對“干凈”的圖像版本。
- 噪聲殘差計算:將原始LR圖像與預處理后的“干凈”圖像相減,得到的差值圖像即為噪聲殘差圖。
- 噪聲塊提取:在噪聲殘差圖上,通過滑動窗口的方式提取大量的小塊(patches)。這些噪聲塊保留了真實噪聲的統計特性。
- 構建噪聲池:將提取出的所有噪聲塊收集起來,形成一個噪聲池。在后續的降質過程中,可以隨機從這個噪聲池中選取一個或多個噪聲塊,并將其添加到經過模糊和下采樣的HR圖像上,從而模擬出與真實圖像相似的噪聲效果。
這種方法的優勢在于它完全基于真實數據,能夠捕捉到復雜的、非理想的噪聲模式,而無需對噪聲的分布做任何先驗假設。
2.2.2 學習噪聲的不確定性(USR-DU方法)
為了更精細地建模噪聲,可以借鑒《Learning Degradation Uncertainty for Unsupervised Real-world Image Super-resolution》(USR-DU)論文中的思想 。該方法不僅學習生成LR圖像的均值,還學習其對應的不確定性(即方差),從而能夠對噪聲等退化因素的多樣性進行建模。其核心思想是,給定一張HR圖像,退化過程并非確定性的,而是存在一個概率分布。通過學習這個分布的均值和方差,可以從該分布中采樣出多個不同的LR圖像,從而極大地豐富了訓練數據的多樣性。
在USR-DU框架中,通常設計一個退化表示網絡(Degradation Representation Network) ,該網絡以HR圖像為輸入,輸出兩個分支:一個分支預測“平均”的LR圖像,另一個分支預測每個像素的不確定性圖(uncertainty map)。這個不確定性圖可以被視為對噪聲強度或復雜度的度量。在訓練時,通過最小化一個基于Kullback-Leibler (KL) 散度的損失函數,來約束網絡學習到的分布與真實退化分布相匹配。在生成訓練數據時,可以從學習到的分布中進行多次采樣,得到一系列具有不同噪聲水平的LR圖像,這些圖像共同構成了一個更具代表性的訓練集。這種方法能夠有效地模擬真實世界中退化的不確定性,從而提升SR模型對未知噪聲的魯棒性。
2.3 其他退化因素(壓縮偽影、色彩失真等)的建模
除了模糊和噪聲,真實圖像中還存在許多其他復雜的退化因素,如壓縮偽影和色彩失真。這些因素雖然難以用簡單的數學模型精確描述,但同樣對圖像質量有顯著影響,需要在退化模型中予以考慮。
壓縮偽影,尤其是JPEG壓縮帶來的塊效應(blocking artifacts)和振鈴效應(ringing artifacts),是數字圖像中非常常見的退化。為了模擬這種退化,可以在降質流程中加入一個模擬壓縮的模塊。例如,在生成合成LR圖像后,可以將其保存為JPEG格式并設置一個較低的質量因子,然后再讀取回來。通過這種方式,可以引入與真實JPEG壓縮非常相似的偽影。更精細的做法是,可以訓練一個神經網絡來模擬壓縮過程,該網絡以未壓縮的圖像為輸入,輸出模擬壓縮后的圖像,從而能夠更靈活地控制壓縮強度和偽影類型。
色彩失真,如色差(chromatic aberration)和紫邊(purple fringing),通常是由于鏡頭光學特性不完美導致的。這些失真表現為圖像邊緣出現彩色條紋。模擬這類退化相對復雜,一種可能的方法是通過分析真實圖像中色彩失真的模式,然后設計相應的圖像處理濾波器來近似這種效果。例如,可以設計一個空間變化的濾波器,在圖像的高對比度邊緣區域引入特定的顏色偏移。另一種更數據驅動的方法是,收集大量存在色彩失真的真實圖像,然后訓練一個生成模型(如GAN)來學習這種失真的映射關系。這個生成模型就可以被用作退化模型的一部分,為合成圖像添加逼真的色彩失真。
將這些復雜的退化因素納入統一的退化框架,是構建高保真定制化降質模型的最終目標。這通常需要一個多階段的降質流程,例如,先進行模糊和下采樣,然后依次添加噪聲、壓縮偽影和色彩失真。通過這種方式,可以生成在多個維度上都與真實LR圖像高度相似的合成數據,從而極大地提升SR模型在真實場景下的性能。
3. 關鍵步驟二:構建與應用“退化池”
3.1 構建針對特定場景的退化池
3.1.1 模糊核退化池的構建
構建模糊核退化池是實現定制化降質的關鍵環節。該過程旨在收集并整理能夠代表特定應用場景(如特定手機攝像頭、監控設備等)退化特性的模糊核集合。具體步驟如下:
- 收集參考圖像:首先,針對目標應用場景,收集一組具有代表性的真實LR圖像。這些圖像應涵蓋不同的場景、光照條件和內容。
- 估計模糊核:對收集到的每一張真實LR圖像,應用前述的模糊核估計方法(如KernelGAN或BKENet)來估計其對應的模糊核。KernelGAN因其無監督的特性,在此步驟中尤為適用,因為它無需任何成對的訓練數據,可以直接對單張圖像進行處理 。
- 核的驗證與篩選:對估計出的模糊核進行必要的后處理和篩選。例如,可以剔除那些能量過于分散或不符合物理約束(如負值、未歸一化)的核。同時,可以對核進行聚類分析,以識別出該場景下主要的幾種模糊類型(如輕微模糊、中度運動模糊等)。
- 構建退化池:將所有經過驗證和篩選的模糊核存儲起來,形成一個模糊核退化池。這個池子中的每一個核都對應于一種真實的退化模式。
通過這種方式構建的退化池,能夠高度概括目標場景的模糊特性,為后續的降質操作提供了豐富且真實的先驗知識。
3.1.2 噪聲池的構建
與模糊核退化池類似,噪聲池的構建也是為了模擬真實場景中的噪聲特性。其構建流程如下:
- 提取噪聲樣本:從收集到的真實LR參考圖像中,按照2.2.1節中描述的方法,提取大量的噪聲塊(patches)。
- 統計特性分析:對提取出的噪聲塊進行統計分析,例如計算其均值、方差、直方圖等。這有助于了解該場景下噪聲的整體強度和分布特點。
- 構建噪聲池:將所有提取出的噪聲塊直接存儲,形成一個噪聲池。或者,可以進一步對噪聲塊進行建模,例如用高斯混合模型(GMM)來擬合其分布,從而可以用更少的參數來表示整個噪聲池。
- 參數化表示(可選) :為了更靈活地控制噪聲水平,可以為噪聲池中的每個噪聲塊或每個GMM分量關聯一個噪聲強度參數(如標準差)。在降質時,可以根據需要選擇特定強度的噪聲進行添加。
構建完成的噪聲池,使得在合成LR圖像時,可以添加與真實圖像在視覺上和統計上都高度一致的噪聲,從而進一步提升合成數據的真實性。
3.2 應用退化池進行定制化降質
3.2.1 隨機采樣退化參數進行降質
在擁有了針對特定場景的模糊核退化池和噪聲池之后,就可以對HR訓練圖像進行定制化的降質。最直接的方法是隨機采樣:
- 模糊核采樣:對于每一張用于訓練的HR圖像,從模糊核退化池中隨機抽取一個模糊核。
- 應用模糊與下采樣:使用抽取到的模糊核對HR圖像進行卷積操作,然后進行下采樣(如雙三次下采樣或最近鄰下采樣),得到初步的LR圖像。
- 噪聲采樣與添加:從噪聲池中隨機抽取一個噪聲塊或根據噪聲分布采樣一個噪聲圖。
- 添加噪聲:將采樣到的噪聲添加到初步的LR圖像上,得到最終的合成LR圖像。
通過這種方式,每一次訓練迭代都會生成一組具有不同退化特性的LR-HR圖像對。這種隨機性使得SR模型能夠接觸到該場景下所有可能的退化模式,從而學習到更具泛化能力的超分辨率映射。這種方法簡單有效,是實現定制化降質的基礎。
3.2.2 結合高階退化模型(Real-ESRGAN思想)
為了模擬更復雜的真實世界退化,可以借鑒Real-ESRGAN中提出的高階退化模型(High-order Degradation Model) 。該模型將退化過程建模為多個基本退化操作的串聯組合,例如:
LR = [ (HR * k1)↓s + n1 ] * k2 + n2
其中,k1
和k2
是兩個不同的模糊核,n1
和n2
是兩種不同水平的噪聲,↓s
表示下采樣。
在定制化降質的框架下,可以將高階退化模型與退化池相結合:
- 多階模糊核采樣:從模糊核退化池中為
k1
和k2
分別隨機采樣一個模糊核。 - 多階噪聲采樣:從噪聲池中為
n1
和n2
分別隨機采樣一個噪聲塊。 - 執行高階退化:按照高階退化模型的公式,對HR圖像依次執行模糊、下采樣、加噪、再模糊、再加噪等一系列操作。
這種高階退化模型能夠更好地模擬真實圖像中可能存在的復合退化效應,例如,圖像先因相機抖動而模糊,再因壓縮而產生塊狀偽影,最后又因傳輸而引入額外噪聲。通過引入這種更復雜的退化流程,可以生成更加逼真的訓練數據,從而訓練出對真實世界退化更具魯棒性的SR模型。
4. 模型訓練與優化策略
4.1 基于生成對抗網絡(GAN)的降質模型訓練
4.1.1 High-to-Low GAN:學習從高清到低清的映射
High-to-Low GAN是一種專門用于學習圖像退化過程的GAN模型 。其基本結構包括一個生成器G和一個判別器D。
- 生成器G:輸入是一張HR圖像,輸出是一張合成的LR圖像。生成器的目標是學習一個復雜的降質函數,使得生成的LR圖像能夠“騙過”判別器。
- 判別器D:輸入是一張LR圖像(可以是真實的,也可以是生成的),輸出是一個判斷該圖像是“真實”還是“假”的概率。判別器的目標是盡可能準確地區分真實LR圖像和生成器生成的LR圖像。
訓練過程是一個 minimax 博弈過程。生成器G努力最小化判別器D的判別準確率,而判別器D則努力最大化自己的判別準確率。最終,當判別器無法區分真假LR圖像時,生成器G就成功地學習到了從HR到LR的退化映射。這種方法的優勢在于,它不需要成對的LR-HR數據進行訓練,只需要大量的HR圖像和大量的LR圖像(無需對應)即可。
4.1.2 判別器的設計:區分合成LR與真實LR
判別器的設計對于High-to-Low GAN的成功至關重要。一個強大的判別器能夠提供更精確的梯度反饋,從而引導生成器生成更逼真的LR圖像。
早期的GAN通常使用一個簡單的卷積神經網絡作為判別器,其輸出是一個全局的“真/假”判斷。然而,這種設計可能無法捕捉到圖像的局部細節和紋理。為了解決這個問題,Real-ESRGAN采用了U-Net結構作為判別器 。U-Net判別器不僅能夠輸出一個全局的判斷,還能輸出一個像素級的“真實度”圖,為生成器提供更豐富的、逐像素的反饋信息。此外,為了穩定GAN的訓練,Real-ESRGAN還在判別器中引入了譜歸一化(Spectral Normalization, SN)技術,這有助于防止訓練過程中的梯度爆炸和模式崩潰問題。
4.2 基于參考圖像的遷移學習
4.2.1 ReDegNet:從人臉數據學習退化并遷移到自然圖像
ReDegNet(Learning Real Degradation for Blind Image Super-Resolution)提出了一種新穎的遷移學習范式,旨在解決真實世界退化建模的難題 。其核心洞察是:人臉圖像由于其具有強烈的結構先驗,可以被更魯棒地恢復,因此可以利用真實世界的低質量(LQ)人臉圖像及其通過先進算法恢復的高質量(HQ)圖像對,來學習復雜的真實世界退化過程。然后,將這種學習到的退化表示遷移到自然圖像上,從而合成其逼真的LQ版本。
ReDegNet框架主要包含兩個子網絡:
- DegNet(Degradation Network) :該網絡以成對的LQ人臉圖像和其恢復的HQ人臉圖像作為輸入,旨在學習一個退化表示(degradation representation)
Ω
。這個表示Ω
被設計為能夠捕捉與內容無關的、純粹的退化信息。DegNet通過比較LQ和HQ圖像的差異,并將這種差異編碼到一個緊湊的向量或特征圖中,從而提取出退化模式。 - SynNet(Synthesis Network) :該網絡以一張任意的HQ自然圖像和一個從DegNet學習到的退化表示
Ω
作為輸入,其任務是生成一張與輸入HQ圖像內容相同,但具有由Ω
所定義的退化特性的合成LQ圖像。SynNet內部通常采用調制卷積(Modulated Convolution) 等技術,將退化表示Ω
作為條件,動態地影響生成過程中的特征圖,從而實現對退化樣式的精確控制。
通過這種方式,ReDegNet巧妙地繞過了直接獲取大規模真實LR-HR自然圖像對的困難。它利用人臉數據作為“退化探針”,學習到一個通用的、可遷移的退化模型。在推理階段,可以從收集到的少量真實LR人臉圖像中提取退化表示,然后用這個表示來降質大量的HR自然圖像,從而構建出用于訓練SR模型的、高度逼真的LR-HR自然圖像對。這種方法為處理真實世界復雜退化場景提供了全新的思路 。
4.3 引入語義分割等先驗知識進行約束
4.3.1 SSG-RWSR:利用分割損失指導降質過程
SSG-RWSR(Semantic Segmentation Guided Real-World Super-Resolution)提出了一種利用語義分割損失來指導SR學習的新穎框架 。雖然該框架主要用于SR任務,但其思想同樣可以借鑒到降質模型的構建中。
其核心思想是:一個“好”的降質模型,應該能夠生成這樣的LR圖像——當SR模型對其進行超分時,能夠重建出具有清晰、準確語義邊界的HR圖像。因此,可以設計一個聯合訓練框架,包含一個降質模型、一個SR模型和一個預訓練的語義分割網絡。
訓練過程如下:
- 降質模型將HR圖像降質為LR圖像。
- SR模型將生成的LR圖像超分為SR圖像。
- 語義分割網絡對原始的HR圖像和生成的SR圖像分別進行分割,得到兩個分割圖。
- 計算這兩個分割圖之間的差異(例如,交叉熵損失),并將其作為一部分損失函數,用于優化降質模型和SR模型。
通過這種方式,語義分割損失作為一種正則化項,引導降質模型生成那些能夠被SR模型“正確”恢復的LR圖像,從而避免了生成一些過于模糊或包含不合理偽影的LR圖像。這使得整個降質和超分的過程更加符合人類的視覺感知和語義理解。
5. 相關論文與開源資源參考
5.1 模糊核估計相關論文
5.1.1 KernelGAN: Blur Kernel Estimation using an Internal-GAN
- 論文標題: Blind Super-Resolution Kernel Estimation using an Internal-GAN
- 會議/期刊: NeurIPS 2019 (Oral)
- 核心思想: 提出一種圖像特定的內部生成對抗網絡(Internal-GAN),利用自然圖像的跨尺度自相似性,在測試時僅通過單張LR圖像進行無監督訓練,從而估計出該圖像的下采樣模糊核。生成器為深度線性網絡,判別器為Patch Discriminator,通過對抗訓練使生成器學會正確的下采樣操作 。
- 主要貢獻:
- 首個從單張LR圖像中估計未知SR-Kernel的深度學習方法。
- 完全無監督,除輸入圖像外無需任何訓練數據。
- 估計出的核可插入現有SR算法,顯著提升盲超分性能 。
- 代碼鏈接: https://github.com/sefibk/KernelGAN
5.1.2 KMSR: Kernel Modeling Super-Resolution on Real Low-Resolution Images
- 論文標題: KMSR: Kernel Modeling Super-Resolution on Real Low-Resolution Images
- 核心思想: 提出一種結合真實核估計和GAN核擴充的數據生成策略。首先從真實LR圖像中估計模糊核,然后使用GAN對估計出的模糊核進行擴充,最后利用擴充后的模糊核庫來生成大規模的LR-HR訓練對 。
- 主要貢獻:
- 提出了一種結合真實核估計和GAN核擴充的數據生成策略。
- 通過構建更真實的訓練數據集,提升了SR模型在真實圖像上的性能。
5.1.3 ADKR: An efficient blur kernel estimation method for blind image Super-Resolution
- 論文標題: An efficient blur kernel estimation method for blind image Super-Resolution
- 核心思想: 提出了一種高效的、兩階段的模糊核估計方法。該方法首先在包含豐富信息的“錨點”像素處估計模糊核,然后通過輕量級的插值方法重建其余像素的模糊核,從而在保證性能的同時顯著降低了計算量 。
- 主要貢獻:
- 提出了“錨點檢測與核重建”(ADKR)流程。
- 在保持與SOTA方法相當性能的同時,將FLOPs降低了約80%。
- 開源代碼: https://github.com/xuyimin0926/ADKR
5.2 真實世界超分辨率與退化學習相關論文
5.2.1 Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
- 論文標題: Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
- 核心思想: 提出一種高階退化模型,通過將多個不同的退化操作(如模糊、噪聲、下采樣、JPEG壓縮等)以隨機順序進行串聯,來模擬真實世界中多種退化因素疊加的復雜情況。通過使用這種高階退化模型生成大量的合成訓練數據,Real-ESRGAN能夠學習到處理各種復雜退化的能力,并在真實世界的LR圖像上取得出色的重建效果 。
- 主要貢獻:
- 提出了高階退化模型,極大地提升了合成數據的真實性。
- 引入了sinc濾波器來模擬振鈴和過沖偽影。
- 使用帶有譜歸一化的U-Net判別器,提升了GAN訓練的穩定性。
5.2.2 USR-DU: Learning Degradation Uncertainty for Unsupervised Real-world Image Super-Resolution
- 論文標題: Learning Degradation Uncertainty for Unsupervised Real-world Image Super-Resolution
- 核心思想: 提出在生成合成LR圖像時,不僅要學習其均值,還要學習其不確定性(方差)。通過學習一個退化分布,可以從該分布中采樣出多個不同的LR圖像,從而豐富了訓練數據的多樣性,并提升了SR模型對未知退化的魯棒性。該方法通過最小化KL散度損失來學習不確定性 。
- 主要貢獻:
- 首次在退化建模中引入了不確定性學習。
- 通過采樣多個LR圖像,有效提升了訓練數據的多樣性。
5.2.3 ReDegNet: Learning Real Degradation for Blind Image Super-Resolution
- 論文標題: From Face to Natural Image: Learning Real Degradation for Blind Image Super-Resolution
- 會議/期刊: ECCV 2022
- 核心思想: 提出一種新穎的遷移學習框架,利用真實世界的低質量人臉圖像及其恢復的HQ圖像對來學習復雜的真實退化表示,然后將該表示遷移到自然圖像上,以合成逼真的LQ圖像。該方法包含DegNet(學習退化表示)和SynNet(合成LQ圖像)兩個子網絡 。
- 主要貢獻:
- 提供了一種利用人臉數據為自然圖像建模真實退化的新途徑。
- 通過顯式學習退化表示,實現了對退化過程的可控生成。
- 實驗證明,用其合成的數據訓練的SR模型在真實場景下表現優于SOTA方法 。
- 代碼鏈接: https://github.com/csxmli2016/ReDegNet
5.3 開源代碼與工具
5.3.1 KernelGAN官方實現
KernelGAN的官方實現代碼是學習和應用該算法的重要資源。通過研究其代碼,可以深入理解其內部GAN的結構、損失函數的設計以及如何從網絡參數中提取模糊核的具體實現細節。這對于希望在自己的項目中復現或改進該方法的工程師和研究人員來說至關重要。通常,官方實現會提供完整的訓練和測試腳本,以及預訓練模型(如果適用),極大地降低了使用門檻。在GitHub等代碼托管平臺上搜索 “KernelGAN” 通常可以找到相關的開源項目。
5.3.2 ADKR官方實現
ADKR的官方實現代碼為研究者和工程師提供了一個高效估計空間可變模糊核的實用工具。該代碼庫通常會包含錨點檢測模塊(ADM)和核重建模塊(KRM)的具體實現,以及用于訓練和評估的完整流程。通過使用這些代碼,用戶可以在自己的圖像數據上快速應用ADKR方法,估計出空間變化的模糊核,并將其應用于后續的盲超分辨率或其他圖像復原任務中。根據論文 的信息,其官方代碼已在 GitHub 上開源,鏈接為 https://github.com/xuyimin0926/ADKR
。