[論文閱讀] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

文章目錄

  • 一、前言
  • 二、主要貢獻
  • 三、Introduction
  • 四、Methodology
    • 4.1 Motivation :
    • 4.2Framework Overview.**

一、前言

通信作者是香港理工大學 & OPPO研究所的張磊教授,也是圖像超分ISR的一個大牛了。 論文如下
SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution[paper][code]

二、主要貢獻

提出語義感知的方式來保持Real ISR 中的語義保真度。主要包括以下步驟

  • 訓練退化感知提示詞提取器(degradationaware prompt extractor) 可以在大的退化圖像中同時生成軟語義提示詞和硬語義提示詞,提升T2I模型生成充滿細節且語義準確的結果。
  • 在推理階段,將LR 圖像的信息融入初始采樣噪聲,緩解擴散模型產生過多額外細節的趨勢。

三、Introduction

?? 一些常規的介紹。數據方面從單一退化到多種退化,模型方面從GAN發展到了DDPMs。由于大規模預訓練的文本到圖像模型(T2I)包含大量的文本圖像配對數據,包含了豐富的自然圖像先驗,因此需要作者開始挖掘這種模型的潛力 。StableSR、PASD、DiffBIR就是利用T2I模型作為預訓練,進行Real-ISR任務。但是他們存在一定局限性,例如StableSR和DiffBIR 僅依靠LR圖像作為控制信號,忽略了語義文本信息在預訓練的T2I模型中的作用,PASD模型嘗試使用現成的high-level模型提取語義提示詞作為額外的控制信息,但是如果LQ圖像包含太多物體或者退化太多嚴重,這個方式就會失效。
這篇工作
??這篇文章深入研究如何提取如何才能更有效的提取提示詞來充分利用T2I模型的潛力,并總結了兩個關鍵點:1、提示詞應該覆蓋盡可能多的對象,幫助模型理解不同的局部區域,2、提示詞應該是退化感知的,要避免錯誤的語義恢復結果。
??基于這兩點,作者提出這個方法Semantic-aware SR (SeeSR),這個模型可以使用高質量的語義提示詞來增加T2I模型在Real-SR方向上的潛力,這個方法包括兩個階段。1、微調語義提示詞提取器,使它獲得退化感知能力。2、語義提示詞、LR圖像共同輸入T2I模型進行精細的控制,其中推理階段還將LR圖像的信息嵌入到初始采樣噪聲中避免生成過多的隨機細節。

四、Methodology

4.1 Motivation :

為了釋放預訓練的 T2I 模型的生成潛力,同時避免 Real-ISR 輸出中的語義失真!
作者研究了三種語義提升風格,分別是 classification-style, caption-style ,tag-style.。經過對比,發現他們有如下的特點:
作者認為classification-style 缺少局部物體的信息,caption-style 會出現介詞和副詞,影響注意力,在存在降質的前提下,有可能語義提示錯誤導致錯誤的結果;tag-style 可以提供大量的物體信息,但是有著和caption-style一樣的問題,在降質情況下,可能會導致錯誤的語義信息。
具體的比較可以看圖1,不同種類提示詞的結果:
在這里插入圖片描述
作者認為,可以在tag-style基礎上加上降質感知就可以得到較好的結果。
在這里插入圖片描述

4.2Framework Overview.**

基于上述討論,作者確定了整體的任務框架,主要目的是提取高質量的tag-style 提示詞用來發揮T2I模型的潛力。下圖是整體的任務框架。
在這里插入圖片描述
首先是學習退化感知提示詞提取器degradation-aware prompt extractor (DAPE),這個提取器包括image encoder 和 tagging head。這個提取器的目的就是讓LR提取的提示詞和HR提取的提示詞盡可能接近。然后輸出兩個特征,分別是feature representations 以及 tags。這兩個東西用來控制T2I模型的生成過程。
第一階段學習DAPE模塊,使用LR、HR的輸出作為約束
在這里插入圖片描述
第二階段是將提示詞以及LR image 通過交叉注意力模塊控制預訓練T2I模型。
在這里插入圖片描述
最后是細節的處理,在推理階段,LR的信息嵌入到初始采樣噪聲中,作者說這樣是很有效果的,具體對比圖如下
在這里插入圖片描述
如果沒有LRE模塊,那么可能將一些退化增強為細節,如果有這個模塊,那么整體生成就更加正常了。

具體實驗圖見論文

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/70185.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/70185.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/70185.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

案例-04.部門管理-刪除

一.功能演示 二.需求說明 三.接口文檔 四.思路 既然是通過id刪除對應的部門,那么必然要獲取到前端請求的要刪除部門的id。id作為請求路徑傳遞過來,那么要從請求路徑中獲取,id是一個路徑參數。因此使用注解PathVariable獲取路徑參數。 請求方…

Blazor-父子組件傳遞任意參數

在我們從父組件傳參數給子組件時,可以通過子組件定義的[Parameter]特性的公開屬性進行傳值,但是當我們需要傳遞多個值的時候,就需要通過[Parameter]特性定義多個屬性,有沒有更簡便的方式? 我們可以使用定義 IDictionar…

DeepSeek 的創新融合:多行業應用實踐探索

引言 在數字化轉型的浪潮中,技術的融合與創新成為推動各行業發展的關鍵力量。藍耘平臺作為行業內備受矚目的創新平臺,以其強大的資源整合能力和靈活的架構,為企業提供了高效的服務支持。而 DeepSeek 憑借先進的人工智能技術,在自然…

STM32創建靜態庫lib

創建靜態庫lib 1. 新建工程1.1 創建工程文件夾1.2 編寫用戶相關代碼1.2.1 stm32f4xx_it.h1.2.2 stm32f4xx_it.c1.2.3 標準庫配置:stm32f4xx_conf.h1.2.4 HAL庫的配置:stm32f4xx_hal_conf.h1.2.5 LL庫配置:stm32f4xx_ll_conf.h 1.3 移植通用文…

elabradio入門第二講——BPSK數字調制與解調(插值、升余弦濾波、速率匹配、符號同步)

數字信號可以通過數字基帶傳輸系統進行傳輸,而基帶傳輸系統僅僅適用于低頻信道下的數字信號傳輸。然而,在實際的通信系統中信道通常具有帶通特性,因而需要將基帶信號搬移到適合信道傳輸的高頻載波上,使得信號與信道相匹配&#xf…

汽車 OTA 升級:提升下載與升級速度,優化用戶體驗

摘要: 隨著汽車智能化的飛速發展,OTA(Over - the - Air)升級已成為汽車行業的重要技術,它能為車輛持續帶來功能更新與性能優化。然而,下載及升級速度較慢的問題常常影響用戶體驗。本文深入探討在汽車 OTA …

【Spring+MyBatis】留言墻的實現

目錄 1. 添加依賴 2. 配置數據庫 2.1 創建數據庫與數據表 2.2 創建與數據庫對應的實體類 3. 后端代碼 3.1 目錄結構 3.2 MessageController類 3.3 MessageService類 3.4 MessageMapper接口 4. 前端代碼 5. 單元測試 5.1 后端接口測試 5.2 使用前端頁面測試 在Spri…

SQLite Select 語句詳解

SQLite Select 語句詳解 SQLite 是一個輕量級的數據庫管理系統,以其簡潔的設計和高效的性能被廣泛應用于各種場景。在 SQLite 中,SELECT 語句是用于查詢數據庫中的數據的命令。本文將詳細介紹 SQLite 的 SELECT 語句,包括其基本語法、常用功…

深度學習05 ResNet殘差網絡

目錄 傳統卷積神經網絡存在的問題 如何解決 批量歸一化BatchNormalization, BN 殘差連接方式 ?殘差結構 ResNet網絡 ResNet 網絡是在 2015年 由微軟實驗室中的何凱明等幾位大神提出,斬獲當年ImageNet競賽中分類任務第一名,目標檢測第一名。獲得CO…

組件庫地址

react: https://react-vant.3lang.dev/components/dialoghttps://react-vant.3lang.dev/components/dialog vue用v2的 Vant 2 - Mobile UI Components built on Vue

docker 進階命令(基于Ubuntu)

數據卷 Volume: 目錄映射, 目錄掛載 匿名綁定: 匿名綁定的 volume 在容器刪除的時候, 數據卷也會被刪除, 匿名綁定是不能做到持久化的, 地址一般是 /var/lib/docker/volumes/xxxxx/_data 綁定卷時修改宿主機的目錄或文件, 容器內的數據也會同步修改, 反之亦然 # 查看所有 vo…

從入門到精通:Postman 實用指南

Postman 是一款超棒的 API 開發工具,能用來測試、調試和管理 API,大大提升開發效率。下面就給大家詳細講講它的安裝、使用方法,再分享些實用技巧。 一、安裝 Postman 你能在 Postman 官網(https://www.postman.com )下…

將圖片base64編碼后,數據轉成圖片

將圖片數據進行base64編碼后,可以在瀏覽器上查看圖片,只需在前端加上data:image/png;base64,即可 在線工具: Base64轉圖片 - 加菲工具

【動態規劃】詳解 0-1背包問題

文章目錄 1. 問題引入2. 從 dfs 到動態規劃3. 動態規劃過程分析4. 二維 dp 的遍歷順序5. 從二維數組到一維數組6. 一維數組的遍歷次序7. 背包的遍歷順序8. 代碼總結9. 總結 1. 問題引入 0-1 背包是比較經典的動態規劃問題,這里以代碼隨想錄里面的例子來介紹下。總的…

LeetCode每日精進:20.有效的括號

題目鏈接:20.有效的括號 題目描述: 給定一個只包括 (,),{,},[,] 的字符串 s ,判斷字符串是否有效。 有效字符串需滿足: 左括號必須用相同類型的右括號閉合。左括號必須以…

llama.cpp部署 DeepSeek-R1 模型

一、llama.cpp 介紹 使用純 C/C推理 Meta 的LLaMA模型(及其他模型)。主要目標llama.cpp是在各種硬件(本地和云端)上以最少的設置和最先進的性能實現 LLM 推理。純 C/C 實現,無任何依賴項Apple 芯片是一流的——通過 A…

Web后端 - Maven管理工具

一 Maven簡單介紹 Maven是apache旗下的一個開源項目,是一款用于管理和構建java項目的工具。 Maven的作用 二 Maven 安裝配置 依賴配置 依賴傳遞 依賴范圍 生命周期 注意事項:在同一套生命周期中,當運行后面的階段時,前面的階段都…

[LeetCode力扣hot100]-C++常用數據結構

0.Vector 1.Set-常用滑動窗口 set<char> ans;//根據類型定義&#xff0c;像vector ans.count()//檢查某個元素是否在set里&#xff0c;1在0不在 ans.insert();//插入元素 ans.erase()//刪除某個指定元素 2.棧 3.樹 樹是一種特殊的數據結構&#xff0c;力扣二叉樹相…

vite+vue3開發uni-app時低版本瀏覽器不支持es6語法的問題排坑筆記

重要提示&#xff1a;請首先完整閱讀完文章內容后再操作&#xff0c;以免不必要的時間浪費&#xff01;切記&#xff01;&#xff01;&#xff01;在使用vitevue3開發uni-app項目時&#xff0c;存在低版本瀏覽器不兼容es6語法的問題&#xff0c;如“?.” “??” 等。為了方便…

《計算機視覺》——角點檢測和特征提取sift

角點檢測 角點的定義&#xff1a; 從直觀上理解&#xff0c;角點是圖像中兩條或多條邊緣的交點&#xff0c;在圖像中表現為局部區域內的灰度變化較為劇烈的點。在數學和計算機視覺中&#xff0c;角點可以被定義為在兩個或多個方向上具有顯著變化的點。比如在一幅建筑物的圖像…