文章目錄
- 一、前言
- 二、主要貢獻
- 三、Introduction
- 四、Methodology
- 4.1 Motivation :
- 4.2Framework Overview.**
一、前言
通信作者是香港理工大學 & OPPO研究所的張磊教授,也是圖像超分ISR的一個大牛了。 論文如下
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]
二、主要貢獻
提出語義感知的方式來保持Real ISR 中的語義保真度。主要包括以下步驟
- 訓練退化感知提示詞提取器(degradationaware prompt extractor) 可以在大的退化圖像中同時生成軟語義提示詞和硬語義提示詞,提升T2I模型生成充滿細節且語義準確的結果。
- 在推理階段,將LR 圖像的信息融入初始采樣噪聲,緩解擴散模型產生過多額外細節的趨勢。
三、Introduction
?? 一些常規的介紹。數據方面從單一退化到多種退化,模型方面從GAN發展到了DDPMs。由于大規模預訓練的文本到圖像模型(T2I)包含大量的文本圖像配對數據,包含了豐富的自然圖像先驗,因此需要作者開始挖掘這種模型的潛力 。StableSR、PASD、DiffBIR就是利用T2I模型作為預訓練,進行Real-ISR任務。但是他們存在一定局限性,例如StableSR和DiffBIR 僅依靠LR圖像作為控制信號,忽略了語義文本信息在預訓練的T2I模型中的作用,PASD模型嘗試使用現成的high-level模型提取語義提示詞作為額外的控制信息,但是如果LQ圖像包含太多物體或者退化太多嚴重,這個方式就會失效。
這篇工作
??這篇文章深入研究如何提取如何才能更有效的提取提示詞來充分利用T2I模型的潛力,并總結了兩個關鍵點:1、提示詞應該覆蓋盡可能多的對象,幫助模型理解不同的局部區域,2、提示詞應該是退化感知的,要避免錯誤的語義恢復結果。
??基于這兩點,作者提出這個方法Semantic-aware SR (SeeSR),這個模型可以使用高質量的語義提示詞來增加T2I模型在Real-SR方向上的潛力,這個方法包括兩個階段。1、微調語義提示詞提取器,使它獲得退化感知能力。2、語義提示詞、LR圖像共同輸入T2I模型進行精細的控制,其中推理階段還將LR圖像的信息嵌入到初始采樣噪聲中避免生成過多的隨機細節。
四、Methodology
4.1 Motivation :
為了釋放預訓練的 T2I 模型的生成潛力,同時避免 Real-ISR 輸出中的語義失真!
作者研究了三種語義提升風格,分別是 classification-style, caption-style ,tag-style.。經過對比,發現他們有如下的特點:
作者認為classification-style 缺少局部物體的信息,caption-style 會出現介詞和副詞,影響注意力,在存在降質的前提下,有可能語義提示錯誤導致錯誤的結果;tag-style 可以提供大量的物體信息,但是有著和caption-style一樣的問題,在降質情況下,可能會導致錯誤的語義信息。
具體的比較可以看圖1,不同種類提示詞的結果:
作者認為,可以在tag-style基礎上加上降質感知就可以得到較好的結果。
4.2Framework Overview.**
基于上述討論,作者確定了整體的任務框架,主要目的是提取高質量的tag-style 提示詞用來發揮T2I模型的潛力。下圖是整體的任務框架。
首先是學習退化感知提示詞提取器degradation-aware prompt extractor (DAPE),這個提取器包括image encoder 和 tagging head。這個提取器的目的就是讓LR提取的提示詞和HR提取的提示詞盡可能接近。然后輸出兩個特征,分別是feature representations 以及 tags。這兩個東西用來控制T2I模型的生成過程。
第一階段學習DAPE模塊,使用LR、HR的輸出作為約束
第二階段是將提示詞以及LR image 通過交叉注意力模塊控制預訓練T2I模型。
最后是細節的處理,在推理階段,LR的信息嵌入到初始采樣噪聲中,作者說這樣是很有效果的,具體對比圖如下
如果沒有LRE模塊,那么可能將一些退化增強為細節,如果有這個模塊,那么整體生成就更加正常了。
具體實驗圖見論文