(論文速讀)Text-IF:基于語義文本引導的退化感知交互式圖像融合方法

論文信息

論文題目:Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion(Text-IF:利用語義文本指導退化感知和交互式圖像融合)

會議:CVPR2024

摘要:圖像融合的目的是將不同源圖像的信息結合在一起,形成具有綜合代表性的圖像。現有的融合方法在處理低質量源圖像的退化和對多種主客觀需求的非交互性方面通常是無能的。為了解決這些問題,我們引入了一種新的方法,利用語義文本引導圖像融合模型進行退化感知和交互式圖像融合任務,稱為TextIF。它創新性地將經典圖像融合擴展到文本引導下的圖像融合,并能夠協調地解決融合過程中的退化和交互問題。通過文本語義編碼器和語義交互融合解碼器,實現了一體化的紅外和可見光圖像降解感知處理和交互式柔性融合結果。這樣,Text-IF不僅實現了多模態圖像融合,而且實現了多模態信息融合。大量的實驗證明,本文提出的文本引導圖像融合策略在圖像融合性能和退化處理方面都比SOTA方法有明顯的優勢。

源碼鏈接:https://github.com/XunpengYi/Text-IF


研究背景與問題

傳統的圖像融合方法,特別是紅外和可見光圖像融合,面臨著兩個關鍵挑戰:

  1. 退化處理困難:當源圖像存在低光照、過曝、噪聲、低對比度等退化問題時,現有融合方法無法有效處理,導致融合質量低下。

  2. 缺乏交互性:現有方法只能產生相對固定的融合結果,無法根據用戶的主觀需求和客觀應用任務進行靈活調整。

現有的解決方案通常需要先使用不同的圖像修復模型處理各種退化,再進行融合,這種分離式方法不僅繁瑣,還難以在增強和融合之間達到和諧統一。

核心創新點

1. 首次引入文本引導的圖像融合范式

Text-IF開創性地將傳統的圖像融合任務擴展為文本引導的圖像融合,將融合公式從:

擴展為:

這種范式轉變使得用戶可以通過簡單的文本描述來指定融合需求和處理退化類型。I表示為圖像(可見與紅外),θ為網絡,F為函數。

2. 一體化退化感知處理

與需要針對不同退化類型切換多個修復模型的傳統方法不同,Text-IF使用相同的模型參數處理所有退化場景,包括:

  • 可見光圖像的低光照、過曝問題
  • 紅外圖像的噪聲、低對比度問題
3. 語義交互引導模塊(SIGM)

設計了專門的語義交互引導模塊,通過特征調制將文本語義信息與圖像融合特征耦合:

其中γ_m和β_m是從文本語義中提取的語義參數。

4. 基于Transformer的融合架構

采用Transformer/Restormer作為基礎特征提取器,結合交叉融合層和語義交互融合解碼器,實現高質量的多模態信息融合。

實驗結果與性能表現

數據集和實驗設置
  • 使用MSRS、MFNet、RoadScene、LLVIP等主流數據集
  • 訓練集:3618個圖像對,測試集:1135個圖像對
  • 評估指標:SCD、SD、EN、VIF、QAB/F、CLIP-IQA、NIQE、MUSIQ、BRISQUE、SF

定量性能結果

1. 無文本引導的性能比較 在MSRS數據集上,Text-IF在所有5個指標上都達到最佳性能:

  • SCD: 1.681(最高)
  • SD: 44.564(最高)
  • EN: 6.789(最高)
  • VIF: 1.046(最高)
  • QAB/F: 0.676(最高)

在LLVIP數據集上同樣表現優異:

  • SCD: 1.591, SD: 48.834, EN: 7.325, VIF: 1.011, QAB/F: 0.616

2. 文本引導下的退化處理性能 在各種退化場景下,Text-IF都顯著優于"SOTA修復方法+融合方法"的組合:

  • 在MSRS低光照場景:CLIP-IQA達到0.132(最高)
  • 在RoadScene過曝場景:SF指標達到17.766
  • 在MFNet低對比度場景:MUSIQ達到48.625
高級任務性能驗證

在LLVIP數據集上進行的目標檢測實驗中,使用YOLOv8作為檢測backbone,Text-IF融合結果取得了最佳檢測性能:

  • mAP@0.50: 0.941
  • mAP@0.75: 0.676
  • mAP@0.50:0.95: 0.602
定性結果分析

實驗結果顯示Text-IF在以下三個方面表現突出:

  1. 熱目標突出顯示:融合結果中熱目標的像素強度最高,目標最為突出
  2. 亮度和細節處理:展現更合適的亮度并提供更多細節信息
  3. 色彩保真度:呈現更生動自然的顏色,更符合視覺感知

消融實驗結果

論文對損失函數的各個組成部分進行了消融實驗:

  • 強度損失:保持熱輻射目標的顯著性
  • 顏色損失:保持色彩一致性
  • 最大梯度損失:提供清晰的紋理信息
  • 結構相似性損失:確保結構保真度

完整的損失函數組合取得最佳的定性和定量評估結果,驗證了方法的有效性。

技術優勢與意義

  1. 實用性強:用戶只需提供簡單的文本描述就能處理復雜的退化場景
  2. 通用性好:一個模型處理多種退化類型,避免模型切換的繁瑣
  3. 交互性強:支持用戶自定義融合需求,提供靈活的融合控制
  4. 性能優異:在多個數據集和評估指標上都達到了最先進的性能

結論

Text-IF成功地將文本語義引導引入圖像融合領域,不僅解決了現有方法在處理退化圖像時的困難,還實現了用戶交互式的個性化融合。這項工作為后續的文本引導圖像融合研究提供了可行的方向,在實踐應用和理論研究中都具有重要的促進作用。

該方法的創新性在于將多模態信息融合從傳統的圖像層面擴展到了文本-圖像的跨模態層面,為圖像融合技術的發展開辟了新的研究路徑。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91974.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91974.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91974.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python創建一個excel文件

以下是使用Python根據指定名稱創建Excel文件的兩種實現方法,根據需求選擇適合的方案:方法一:使用pandas庫(適合結構化數據) # 安裝依賴(命令行執行) # pip install pandas openpyxlimport panda…

C++高頻知識點(十四)

文章目錄66. 程序什么時候應該使用多線程,什么時候單線程效率高?67. 死鎖的原因和避免死鎖的避免預防死鎖:破壞持有并等待條件68. TCP擁塞控制四個階段輪換過程描述69. C的內存管理70. 構造函數可以是虛函數嗎,析構函數呢66. 程序…

淺窺Claude-Prompting for Agents的Talk

Prompting for Agents先說一句:顏值這么高,你倆要出道啊。此圖基本就是claude倡導的agent prompt結構了,可以看到經過一年時間的演變,基本都是follow這個結構去寫prompt。我比較喜歡用Role→react→task→histroy→few shot→rule…

【MySQL04】:基礎查詢

MySQL的基本查詢表的增刪查改 insert(插入) insert [info] table_name [(colume, [,colume] ...)] values (value_list) ...對于value_list我們通過,作為分隔符 插入替換我們使用on duplicate key update, 表示如果存在主鍵沖突, 會進行更新, 這個字段后面還有寫更新的字段repl…

NGINX反向代理golang后端服務

nginx配置參考(/etc/nginx/sites-available路徑下創建配置文件) server {listen 80; # 監聽80端口server_name ip; # 你的域名或IPlocation / {root /var/www/test_page/;index index.html; # 默認文件try_files $uri $uri/ /index.html; # 單頁…

【秋招筆試】2025.08.03蝦皮秋招筆試-第二題

?? 點擊直達筆試專欄 ??《大廠筆試突圍》 ?? 春秋招筆試突圍在線OJ ?? 筆試突圍在線刷題 bishipass.com 02. 城市規劃的連通網絡 問題描述 A先生是一名城市規劃師,他負責設計一個智能城市的通信網絡。城市被劃分為一個 n m n \times m n

JVM 01 運行區域

Java 虛擬機 跨平臺 虛擬機隱藏平臺差異,解決不同平臺代碼運行結果不一致問題,實現Write Once, Run Anywhere,實現用戶代碼跨平臺。它本身是一個操作系統上的應用程序,將字節碼文件翻譯成特定機器的機器碼。 Java 虛擬機 運行時內…

[學習筆記-AI基礎篇]03_Transfommer與GPT架構學習

介紹GPT-1,GPT-2,GPT-3,GPT-4 GPT-1 介紹2018年6月,OpenAI公司發表了論文"|mproving Language Understanding by Generative Pre-training”《用生成式預訓練提高模型的語言理解力》,推出了具有1.17億個參數的GPT-1(Generative Pre-trainingTransformers,生成式預訓練變換…

HPNetworkCheckControl.dll HPEnvRes.dll hpcasl.dll HpBwcDecode.dll HpBlogic.dll hpbhilxres.dll

在使用電腦系統時經常會出現丟失找不到某些文件的情況,由于很多常用軟件都是采用 Microsoft Visual Studio 編寫的,所以這類軟件的運行需要依賴微軟Visual C運行庫,比如像 QQ、迅雷、Adobe 軟件等等,如果沒有安裝VC運行庫或者安裝…

飛算 JavaAI:給需求分析裝上 “智能大腦“

在軟件開發的漫長旅途中,需求分析是至關重要的起點,其精準度與效率直接關乎整個項目的成敗。傳統的需求分析依賴人工梳理,不僅耗費大量時間與精力,還時常出現理解偏差和邏輯漏洞。而飛算 JavaAI 的橫空出世,猶如為需求…

javacc學習筆記 01、JavaCC本地安裝與測試

文章目錄前言本章節源碼一、什么是javacc二、Mac環境安裝javacc三、javacc測試案例1、編寫詞法描述文件2、借助javacc命令來處理demo01.jj文件3、idea配置輸入參數,運行Adder類方法四、javacc文件編譯類描述4.1、demo1.jj文件生成內容描述&解析轉換過程4.2、解析…

Java基礎-stream流的使用

目錄 案例要求: 實現思路: 代碼: 總結: 案例要求: 實現思路: 創建一個包含學生姓名(String)和選擇地址變量(集合)的實體類,然后將題干數據封裝到集合,然后進行stream操作 代碼: import ja…

virtualbox+UBuntu20.04+內存磁盤擴容

寫在前面:1.由于我寫博客都是偏向個人筆記性質的,所以寫的比較粗糙,如果有疑問私信評論我即可。2.這篇博客的解決方法應該算是“全網”首發吧,因為我為了磁盤擴容真的找了好多相關資料,但是基本都沒有用。如果你也是找…

關于對Spring的理解,以及對spring中的兩大核心概念AOP和IOC的理解

我們先來說一說Spring,從總體上Spring就是一個基礎框架,同時Spring給我們提供了一個Bean容器,用來裝載和管理具體的Bean對象,你像我們之前創建對象的時候就是通過new關鍵字來實現的,但是現在我們只需要告訴容器有哪些對…

Next Terminal 實戰:內網無密碼安全登錄

本文首發于 Anyeの小站,點擊閱讀原文體驗更加。 前言 在日常的 HomeLab 或小型私有云環境中,我們常常通過反向代理(如 Nginx、Caddy 等)將內網服務暴露到公網,方便遠程訪問。然而,一旦端口映射開啟、公網…

WebSocket斷線重連機制:保障實時通信的高可用性

一、為什么需要斷線重連?WebSocket雖提供全雙工通信能力,但實際環境中連接穩定性受多重威脅:??網絡層波動??:Wi-Fi切換、4G/5G信號抖動(觸發onclose事件)??服務端異常??:服務器宕機、主…

低空三維多物理場耦合風洞試驗,保證飛行器的性能安全是低空飛行的底線,是低空經濟發展的基礎

風墻\風矩陣開發背景:2024年被稱為中國低空經濟產業發展元年,國家發改委提出“無安全、不低空”原則,要求低空經濟產業在技術研發、適航認證、運營管理各環節優先保障安全。目前無人機及其他低空飛行器技術已深度融入軍事、民用與工業領域&am…

中文基于Qwen3-235B-2507蒸餾數據集的操作

中文基于Qwen3-235B-2507蒸餾數據集的操作 flyfish 方式1 from datasets import load_dataset from transformers import AutoTokenizer# -------------------------- 配置參數 -------------------------- TOKENIZER_PATH "/media/models/models/Qwen/Qwen3-8B/" #…

論文閱讀筆記:《Dataset Distillation by Matching Training Trajectories》

論文閱讀筆記:《Dataset Distillation by Matching Training Trajectories》1.動機與背景2.核心方法:軌跡匹配(Trajectory Matching)3.實驗與效果4.個人思考與啟發主體代碼算法邏輯總結一句話總結: 這篇論文通過讓合成…

STM32標準庫的工程創建

一.所需文件說明 1.啟動文件startup_xxxx.s 作用:初始化堆棧指針、復位向量、中斷向量表,執行 SystemInit() 后跳轉到 main()。 位置:Libraries/CMSIS/Device/ST/STM32Fxx/Source/Templates/arm/ 文件名: startup_stm32f10x_l…