多模態學習（八）：2022 TPAMI——U2Fusion: A Unified Unsupervised Image Fusion Network

論文鏈接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9151265

一.摘要

1.1 摘要翻譯

1.2 摘要解析

二.Introduction

2.1 Introduciton翻譯

2.2 Introduction 解析

三. related work

3.1?related work翻譯

3.2 relate work解析

四. 方法

4.1 方法翻譯

4.2 方法解析

五.實驗

5.1實驗翻譯

????????5.2 實驗解析

一.摘要

1.1 摘要翻譯

????????本研究提出了一種新型的統一且無監督的端到端圖像融合網絡（U2Fusion），能夠解決多模態、多曝光、多焦點等不同融合任務。通過特征提取和信息度量，U2Fusion自動估計源圖像的重要性并生成自適應信息保留度，從而將不同融合任務統一到同一框架中。基于自適應保留度，網絡通過保持融合結果與源圖像之間的相似性進行訓練，顯著緩解了深度學習在圖像融合中依賴真值標簽和專用設計指標的核心障礙。通過避免多任務順序訓練導致的能力丟失，我們獲得了適用于多種任務的統一模型。此外，本研究發布了新的對齊紅外-可見光數據集RoadScene（https://github.com/hanna-xu/RoadScene），為基準測試提供新選擇。在三大典型圖像融合任務上的定性與定量實驗結果驗證了U2Fusion的有效性和普適性，代碼已開源（https://github.com/hanna-xu/U2Fusion）。

1.2 摘要解析

1. 研究背景與動機

????????圖像融合是計算機視覺領域的重要研究方向，其目標是將來自多個源圖像的信息整合到一張圖像中，以增強視覺效果或提取更有用的信息。傳統的圖像融合方法通常針對特定任務（如多模態、多曝光或多焦點）進行設計，缺乏通用性和靈活性。此外，深度學習近年來在圖像處理領域取得了顯著進展，但將其應用于圖像融合時存在以下挑戰：

缺乏真實標簽（Ground-truth） ：圖像融合任務本質上是無監督的，難以定義明確的“正確答案”。
特定任務需求 ：不同任務需要專門設計的損失函數或評價指標，難以實現統一框架。
模型泛化性差 ：傳統方法通常只能處理單一任務，無法同時應對多種融合場景。

????????為了克服這些問題，本文提出了 U2Fusion ，旨在實現一個統一且無監督的框架，能夠同時處理多種圖像融合任務。

2.創新點

創新點：
1. 統一框架：將不同融合任務整合到一個模型中，避免任務特定的設計。
2. 無監督學習：無需 ground-truth（真實融合圖像），突破傳統深度學習依賴標注的限制。
3. 自適應信息保留：通過特征提取和信息測量，動態調整源圖像的貢獻。
解析：
- 與 DenseFuse （見上一篇blog）相比，U2Fusion 的野心更大，DenseFuse 專注于紅外與可見光融合，而 U2Fusion 擴展到多任務。
- 無監督方法是亮點，解決了 DenseFuse 中僅用可見光訓練導致模態偏差的問題。

3.技術細節與優勢

（1）網絡架構

U2Fusion 的核心是一個端到端的深度學習網絡，包含以下關鍵組件：

特征提取模塊 ：使用卷積神經網絡（CNN）提取源圖像的特征。
信息度量模塊 ：計算源圖像的重要性，并生成自適應保留權重。
融合模塊 ：根據自適應權重生成最終的融合圖像。

（2）訓練策略

由于圖像融合任務缺乏真實標簽，U2Fusion 采用了一種基于 自適應相似性 的訓練策略：

訓練目標是最小化融合圖像與源圖像之間的差異，同時最大化保留重要信息。
這種策略避免了對特定任務設計復雜損失函數的需求。

-----------------------------------------------------------------------------------------------------------------------------

端到端訓練： U2Fusion采用端到端訓練方式，使得網絡能夠自動學習最優的融合策略，無需人工設計復雜的融合規則。
避免任務順序訓練的性能損失： 通過統一框架處理多任務，避免了傳統順序訓練方法中，后訓練任務對先前訓練任務性能的“遺忘”現象。
通用性： 實驗結果表明，U2Fusion在多種圖像融合任務中均表現出色，驗證了其通用性。
無監督： 該方法減少了對于有監督訓練的依賴，在訓練樣本缺乏的領域有更大的優勢。

--------------------------------------------------------------------------------------------------------------------------------

二.Introduction

2.1 Introduciton翻譯

????????圖像融合在安防、工業和民用領域具有廣泛應用[1][2]。受硬件設備或光學成像限制，單一傳感器或拍攝設置僅能捕獲部分信息（如有限亮度范圍的反射光、固定景深等）。圖像融合旨在通過整合多源圖像（不同傳感器或光學設置捕獲）的互補信息生成合成圖像。

????????如圖1所示，融合圖像需具備更優的場景表征和視覺感知能力以支持后續任務（視頻監控、場景理解、目標識別等[3][4]）。典型任務包括多模態、多曝光、多焦點圖像融合，現有算法可分為傳統融合框架與端到端模型[9]。傳統方法受限于人工設計規則，性能提升空間有限；端到端模型依賴真實標簽（監督學習）或專用指標（無監督學習），但跨任務通用真值與評價指標缺失，成為模型統一與學習方法應用的主要障礙。盡管不同任務目標相似（整合關鍵互補信息），但源圖像類型差異導致關鍵信息定義不同（詳見3.1節）。神經網絡強大的特征表征能力為統一表征提供了可能，本研究探索的統一框架可使多任務協同優化：例如多曝光訓練可增強多模態/多焦點圖像中欠/過曝光區域的融合性能，從而提升單任務泛化能力。為此，我們提出無監督統一圖像融合網絡U2Fusion：首先通過特征提取器獲取豐富特征，基于信息度量定義特征重要性（即融合結果與源圖像的相似性關系，相似性越高則信息保留度越高），隨后訓練DenseNet[10]生成融合結果（無需真值）。本文貢獻包括：

????????①提出首個跨任務統一模型，解決傳統方法任務隔離、存儲計算冗余、持續學習災難性遺忘等問題；

????????②構建無監督網絡，通過約束融合圖像與源圖像相似性突破通用真值缺失的瓶頸；

????????③發布對齊紅外-可見光數據集RoadScene（https://github.com/hanna-xu/RoadScene）；

????????④在6個數據集驗證有效性。相較于前期工作[11]，本文改進包括：

基于特征信息度量（而非原始圖像）動態分配信息保留度；
優化損失函數（移除梯度損失抑制偽影，增加像素強度損失降低亮度偏差）；
擴展多模態融合范圍（含醫學影像）；
補充消融實驗驗證彈性權重鞏固（EWC）在持續學習中的有效性（權重統計分布、訓練過程中間結果分析）。

2.2 Introduction 解析

問題背景與重要性 (Problem Context & Importance)

圖像融合的需求: 單一傳感器或成像設置無法捕捉場景的全部信息（如可見光與紅外、不同曝光度、不同焦點）。圖像融合通過結合多個圖像的互補信息，生成信息更豐富、視覺效果更好的圖像，這對于后續的計算機視覺任務（監控、識別、理解）至關重要。
融合類型: 明確了主要的應用場景：多模態（如可見光+紅外，不同類型的傳感器）、多曝光（解決高動態范圍問題）和多焦點（解決景深限制問題）。

現有方法的局限性 (Limitations of Existing Methods):

傳統方法: 依賴手工設計的特征提取和融合規則（如小波變換、金字塔分解等）。缺點是設計復雜、規則選擇有限、性能提升困難、泛化能力差。
端到端深度學習方法: 雖然性能更好，但通常依賴：
- 監督學習: 需要大量的“真值”（Ground Truth）融合圖像進行訓練，但在大多數融合任務中，理想的、公認的真值圖像是不存在或難以定義的。
- 無監督學習: 依賴特定的無參考質量度量指標來構建損失函數。然而，設計一個通用且有效的、適用于所有融合任務的無參考度量標準同樣是巨大挑戰。
任務特定性: 大多數現有方法（無論是傳統還是深度學習）都是為特定融合任務（如僅多曝光或僅紅外-可見光）設計的，缺乏跨任務的通用性。

U2Fusion的核心思想與創新 (Core Idea & Innovation of U2Fusion)

統一框架 (Unified Framework): 這是最核心的貢獻。U2Fusion 旨在用一個模型、一套參數來處理多種不同的圖像融合任務（多模態、多曝光、多焦點）。這極大地提高了模型的效率和實用性，避免了為每個任務單獨設計和訓練模型的麻煩，并減少了存儲和計算需求。
無監督學習 (Unsupervised Learning): 為了規避對真值（Ground Truth）的依賴，U2Fusion 采用無監督學習策略。這是圖像融合領域的一個重要研究方向。
基于信息保留度的損失函數 (Information Preservation Degree based Loss): 這是其無監督策略的關鍵。模型不直接學習如何逼近一個不存在的“真值”，而是學習如何最大程度地保留來自所有源圖像的關鍵信息。它通過以下步驟實現：
- 用特征提取器（如 DenseNet 的一部分）提取源圖像的深層特征。
- 測量這些特征中的信息豐富度 (richness of information)。
- 根據信息豐富度定義每個源圖像特征對于最終融合結果的相對重要性（即“信息保留度”）。
- 通過約束融合圖像與源圖像在特征空間上的相似性（由信息保留度加權）來訓練網絡。信息保留度高的源圖像，其特征應與融合圖像的特征更相似。
解決災難性遺忘 (Addressing Catastrophic Forgetting): 摘要后半部分提到，通過彈性權重鞏固 (EWC) 等技術，模型在學習新任務時能夠保留在舊任務上學到的知識，支持持續學習 (Continual Learning)，這對于統一模型處理多任務至關重要。

其他貢獻 (Other Contributions)

新數據集 (New Dataset): 發布了 RoadScene 數據集（對齊的紅外與可見光圖像），為該領域的研究提供了新的基準資源。
廣泛驗證 (Extensive Validation): 在涵蓋三種主要融合任務的六個數據集上進行了實驗，證明了方法的有效性和普適性。
對初步版本的改進 (Improvements over Preliminary Version): 展示了研究的迭代過程，包括改進信息保留度計算方式（基于特征而非原始圖像）、優化損失函數（移除梯度損失減少偽影，增加像素強度損失減少亮度偏差）、擴展任務范圍和更深入的消融研究（EWC、自適應信息保留度）。

意義與影響 (Significance & Impact):

U2Fusion 代表了圖像融合領域向著更通用、自動化、無需真值方向發展的重要一步。
其“統一模型”思想有望簡化融合技術的應用部署，并可能通過任務間的相互促進提升整體性能。
基于信息保留度的無監督策略為解決缺乏真值和通用評價指標這一核心難題提供了有前景的思路。
對持續學習的考慮增加了模型在現實世界中不斷適應新數據或新任務類型時的實用性。

三. related work

3.1?related work翻譯

1 圖像融合方法

1.1 基于傳統融合框架的方法

????????傳統的融合框架可以大致概括如圖2所示：

????????由于重建通常是提取的逆過程，這些算法的關鍵在于兩個重要因素：特征提取和特征融合。通過修改這兩個因素，可以設計出用于解決多模態、多曝光或多焦點圖像融合的方法。為了解決特征提取的問題，大量的傳統方法被提出。它們所基于的理論可以分為四個代表性類別：i) 多尺度變換，如拉普拉斯金字塔(LP)、低通金字塔比率(RP)、梯度金字塔(GP)、離散小波變換(DWT)、離散余弦變換(DCT) [13]、曲波變換(CVT)、剪切波變換(Shearlet)等；ii) 稀疏表示 [14]；iii) 子空間分析，例如獨立成分分析(ICA)、主成分分析(PCA)、非負矩陣分解(NMF)等；以及 iv) 混合方法。然而，這些手動設計的提取方法使得融合方法日益復雜，從而加劇了設計融合規則的難度。提取方法需要相應修改以解決不同的融合任務。此外，需要特別關注提取方法的適當性以確保證特征的完整性。為了克服這些限制，一些方法在特征提取中引入了卷積神經網絡(CNN)，或者作為某些子部分[15], [16]，或者作為整個部分[17], [18]。然后，基于提取的特征來確定融合規則。常用的規則包括最大值、最小值、加法、l1范數等。然而，這些手動設計的融合規則的有限選擇，即使在一些基于CNN的方法中，也對性能提升構成了玻璃天花板。值得注意的是，有一些方法脫離了這個框架，例如基于梯度傳遞和全變分最小化的VIS-IR圖像融合方法[19]，通過優化結構相似性指數的多曝光圖像融合方法[20]，以及基于密集SIFT的多焦點圖像融合方法[21]等。然而，這些方法所基于的算法或度量標準是專用于特定融合任務的，可能泛化性不佳。

1.2 端到端模型

????????為了避免設計融合規則，許多基于深度學習的算法被提了出來。這些方法通常是為特定融合任務量身定制的端到端模型。

多模態圖像融合。 用于多模態圖像融合的端到端模型通常是為可見光(VIS)和紅外(IR)圖像融合設計的。Ma等人提出了FusionGAN [5]，通過在生成器和判別器之間建立對抗博弈，以保留紅外圖像中的像素強度分布和可見光圖像中的細節。隨后，其變體[22]被提出，通過引入目標增強損失來銳化熱目標的邊緣。DDcGAN [23], [24]通過引入雙判別器架構來增強熱目標的顯著性。然而，可見光和紅外圖像融合中的獨特問題是像素強度分布和細節的保留，這并不適用于其他融合任務。此外，這類任務中通常不存在真值（ground truth）。因此，這是在多模態圖像融合中利用監督學習的主要障礙。
多曝光圖像融合。 為了解決這個問題，一些無監督方法被提了出來。Prabhakar等人提出了Deepfuse [7]，其中采用無參考度量MEF-SSIM作為損失函數。然而，MEF-SSIM是專門為多曝光圖像設計的，通過舍棄亮度分量，因為亮度分量在這個問題中不重要。然而，它在其他任務中仍然扮演重要角色。因此，MEF-SSIM不適用于其他問題。在一些多曝光數據集中，沒有用于監督學習的真值。
多焦點圖像融合。 對于這個問題，Liu等人提出了一個網絡來生成焦點圖[25]。預定義的標簽（指示它們是高質量圖像還是高斯模糊圖像）用于監督學習。然后，它被擴展為一個通用的圖像融合框架[26]。根據泛化能力，在多焦點圖像融合上訓練的模型可以用于解決其他任務。此外，Guo等人提出了FuseGAN [27]，其中生成器直接產生二元焦點掩碼，判別器試圖區分生成的掩碼與真值（通過利用歸一化圓盤點擴散函數以及分離背景和前景來合成）。焦點圖/掩碼對于多焦點圖像融合很重要，但在其他任務中并非必需，甚至不適用。所有這些方法都基于監督學習。

?????????考慮到上述限制，提出了一個統一的無監督圖像融合網絡，具有以下特點：i) 它是一個端到端模型，不受手動設計融合規則限制的約束。ii) 它是一個適用于各種融合任務的統一模型，而不是針對特定目標，例如獨特性問題、度量標準的特殊性、對二元掩碼的需求等。iii) 它是一個無監督模型，不需要真值。iv) 通過持續學習解決新任務而不丟失舊能力，它用統一的參數解決了多個任務。

2 持續學習

????????在持續學習（Continual Learning）設置中，學習被視為要學習的一系列任務。在訓練階段，權重會適應新任務，而不會忘記先前學習過的任務。為了避免存儲先前學習任務的任何訓練數據，許多基于彈性權重鞏固（Elastic Weight Consolidation, EWC）的算法被提出[28], [29]，這些算法包含一個正則化項，強制參數保持接近為先前任務訓練的參數。這些技術已廣泛應用于許多實際問題中，例如行人重識別[30]、實時車輛檢測[31]和情感識別[32]等。在本研究中，我們執行持續學習來解決多個融合任務。

3.2 relate work解析

1. 傳統融合框架?

核心流程: 清晰地闡述了傳統方法的“三段式”流程：特征提取 → 特征融合 → 圖像重建。這是理解這類方法的基礎。
特征提取技術: 列舉了四大類主流的傳統特征提取方法：
- 多尺度變換 (Multi-scale Transform): 如各種金字塔 (LP, RP, GP) 和變換 (DWT, DCT, CVT, Shearlet)。這類方法的核心思想是在不同尺度/頻域上分解圖像，提取不同層次的特征。這是最經典和廣泛使用的類別。
- 稀疏表示 (Sparse Representation): 假設圖像信號可以用某個字典中的少量原子線性表示，通過學習字典和稀疏系數來提取特征。
- 子空間分析 (Subspace Analysis): 如 PCA, ICA, NMF，試圖找到一個低維子空間來表示圖像的主要信息。
- 混合方法 (Hybrid): 結合上述多種方法的優點。
核心局限性:
- 手動設計復雜性: 特征提取和融合規則都需要人工精心設計，費時費力，且依賴專家經驗。
- 任務特定性: 不同的融合任務（多模態、多曝光、多焦點）往往需要不同的提取方法和融合規則，通用性差。
- 融合規則限制: 即使特征提取得不錯（甚至用了部分CNN），簡單的融合規則（如max, min, add, l1-norm）限制了最終性能，形成了“玻璃天花板”。
- 特例方法: 提及了一些不完全遵循該框架但仍是傳統思路的方法（如基于梯度、TV、SSIM、SIFT），但同樣強調了它們的任務特定性和泛化能力差的問題。

2. 端到端模型?

核心優勢: 采用深度學習（主要是CNN或GAN）直接從輸入圖像映射到融合圖像，避免了手動設計特征提取和融合規則。模型通過數據驅動的方式自動學習融合過程。
任務特定性分析: 這是本節的關鍵，揭示了現有端到端模型的主要問題：
- 多模態 (VIS-IR): 現有模型（如FusionGAN, DDcGAN）主要針對紅外和可見光融合，關注其獨特問題（保留紅外強度、可見光細節、增強熱目標）。這些目標和使用的對抗學習策略不直接適用于其他融合任務。最大的障礙是缺乏真值 (Ground Truth)，難以進行監督學習。
- 多曝光: 提出了無監督方法（如DeepFuse），但其依賴的損失函數 (MEF-SSIM) 是專為多曝光設計的（忽略了亮度），不適用于需要考慮亮度的其他任務。同樣面臨缺乏真值的問題。
- 多焦點: 現有方法通常生成焦點圖/掩碼，這對于多焦點融合很關鍵，但對其他任務不適用。這些方法通常依賴監督學習，需要預定義標簽或合成的真值掩碼。
共同的痛點: 反復強調了現有端到端模型的兩個主要痛點：任務特定性（模型、損失函數、目標都為特定任務設計）和對監督信息（真值或特定標簽）的依賴（或無監督方法依賴任務特定的度量）。

3. 定位U2Fusion

在詳細分析了傳統和現有端到端方法的局限性后，作者清晰地定位了 U2Fusion 的優勢，直接回應前面發現的問題：
- 端到端: 克服傳統方法的手動設計限制。
- 統一: 克服現有端到端模型的任務特定性。
- 無監督: 克服對真值的依賴。
- 持續學習 & 統一參數: 進一步強調其統一性，能夠用一套參數通過持續學習處理多個任務，解決災難性遺忘問題。

4. 持續學習

概念引入: 簡要介紹了持續學習（或增量學習）的概念，即模型按順序學習多個任務而不忘記舊知識。
關鍵技術 (EWC): 提到了彈性權重鞏固 (EWC) 作為一種代表性技術，通過正則化保護對舊任務重要的權重。
與U2Fusion的關聯: 說明了在本研究中，持續學習技術（如EWC）是實現用統一模型和統一參數解決多個不同融合任務的關鍵機制。這使得模型在學習例如多曝光融合后，再去學習多焦點融合時，不會完全丟失多曝光融合的能力。

四. 方法

4.1 方法翻譯

????????我們的系統允許使用不同傳感器和/或拍攝設置從同一相機位置捕獲的信號。在本節中，我們提供了問題公式、損失函數設計、彈性權重鞏固技術以及網絡架構的描述。

1 問題公式

????????聚焦于圖像融合的主要目標，即保留源圖像中的關鍵信息，我們的模型基于測量來確定這些信息的豐富程度。如果源圖像包含豐富的信息，它對融合結果的重要性就很高，融合結果應與源圖像表現出高度相似性。因此，我們方法的關鍵問題在于探索一種統一的測量方法，以確定源圖像的信息保留程度。我們的方法不是像監督學習那樣最大化融合結果與真實標注（ground truth）之間的相似性，而是依賴這些保留程度來保持與源圖像的自適應相似性。作為一個無監督模型，它適用于多種融合問題，這些問題通常難以獲得真實標注。為了實現所需的測量，一個主要問題是不同類型源圖像中的關鍵信息差異很大。例如，在紅外（IR）和正電子發射斷層掃描（PET）圖像中，關鍵信息是熱輻射和功能反應，表現為像素強度分布。在可見光（VIS）和磁共振成像（MRI）圖像中，關鍵信息是反射光和由圖像梯度表示的結構內容[19]，[23]。在多焦點圖像中，需要保留的信息包括視場深度（DoF）內的物體。在多曝光圖像中，關鍵信息涉及可以增強的場景內容。上述多樣性給設計統一的測量方法帶來了相當大的困難，因為針對特定任務設計的測量方法在面對其他問題時不再有效。這些方法基于某些表面特征或特定屬性，而在不同任務中，這些屬性難以以統一的方式預先確定。我們通過綜合考慮源圖像的多方面屬性來解決這一問題。為此，我們提取淺層特征（紋理、局部形狀等）和深層特征（內容、空間結構等）來估計信息測量。U2Fusion 的流程總結如圖3所示。

????????以源圖像表示為 $I_1$ ? 和 $I_2$ ??，訓練一個 DenseNet 來生成融合圖像 $I_f$ ?。特征提取的輸出是特征圖 $\phi _{c_1}(I_1),...,\phi _{c_5}(I_1)$ 和 $\phi _{c_1}(I_2),...,\phi _{c_5}(I_2)$ 。然后在這些特征圖上進行信息測量，生成兩個測量值，分別表示為 $g_{I_1}$ 和 $g_{I_2}$ 。經過后續處理，最終的信息保留程度表示為 $\omega _1$ 和 $\omega _2$ 。 $I_1$ , $I_2$ , $I_f$ , $\omega _1$ , $\omega _2$ ?被用于損失函數中，無需真實標注。在訓練階段，測量 $\omega _1$ 和 $\omega _2$ 并用于定義損失函數。然后，優化 DenseNet 模塊以最小化損失函數。在測試階段，不需要測量 $\omega _1$ ? 和 $\omega _2$ ?，因為 DenseNet 已被優化。詳細定義或描述將在以下小節中給出。

1 特征提取

????????與專為融合任務訓練的模型相比，用于其他計算機視覺任務的模型通常在更大、更多樣化的數據集上訓練。因此，這些模型提取的特征豐富且全面[33]，[34]。受感知損失[35]，[36]的啟發，我們采用預訓練的 VGG-16 網絡[37]進行特征提取，如圖4所示。
????????輸入I 在我們的模型中被統一為單通道（我們將在第3.5節討論這種轉換），我們將其復制為三通道，然后輸入到 VGG-16 中。在最大池化層之前的卷積層輸出是用于后續信息測量的特征圖，如圖4所示，表示為 $\phi _{c_1}(I_1),...,\phi _{c_5}(I_1)$ ，其形狀如下所示。

????????為了直觀分析，圖5展示了一對多曝光圖像的部分特征圖。在原始源圖像中，過曝圖像比欠曝圖像包含更多的紋理細節或更大的梯度，因為后者受低亮度的影響較大。在圖5中， $\phi _{c_1}(I)$ 和 $\phi _{c_2}(I)$ 的特征基于淺層特征，如紋理和形狀細節。在這些層中，過曝圖像的特征圖仍然顯示出比欠曝圖像更多的信息。相比之下，較高層（如 $\phi _{c_4}(I)$ 和 $\phi _{c_5}(I)$ ）的特征圖主要保留深層特征，如內容或空間結構。在這些層中，欠曝圖像的特征圖中出現了可比較的和額外的信息。因此，淺層和深層特征的組合形成了對關鍵信息的全面表示，這些信息可能不易被人類視覺感知系統察覺。

2 信息測量

????????為了測量提取的特征圖中包含的信息，使用其梯度進行評估。與一般信息理論衍生的實體相比，圖像梯度是一種基于局部空間結構和小感受野的度量。在深度學習框架中使用時，梯度在計算和存儲方面效率更高。因此，它們更適合在 CNN 中用于信息測量。信息測量定義如下：

$g_{I_I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_j W_j D_j} \sum_{k=1}^{D_j} \left\| \nabla f_{C_j k}(I_I) \right\|_F^2$ (1)

其中， $f_{C_j}(I_I)$ 是圖4中第 j個最大池化層之前的卷積層輸出的特征圖，k?表示第 k?個通道的特征圖（共 $D_j$ 個通道）， $\|\cdot\|_F$ 表示 Frobenius 范數， $\nabla$ 是拉普拉斯算子。

3 信息保留程度

????????為了保留源圖像中的信息，分配兩個自適應權重作為信息保留程度，這些權重定義了融合圖像與源圖像之間相似性的權重。權重越高，期望的相似性越高，相應源圖像的信息保留程度也越高。

????????這些自適應權重表示為 $\omega _1$ 和 $\omega _2$ ，根據等式 (1) 獲得的信息測量結果 $g_{I_I},g_{I_2}$ ?? 估計。由于 $g_{I_I},g_{I_2}$ ?? 之間的差異是絕對值而非相對值，與它們自身相比可能太小，無法反映其差異。因此，為了增強并體現權重的差異，使用一個預定義的正常數 c 來縮放值，以更好地分配權重。因此， $\omega _1$ 和 $\omega _2$ 定義為：

$[\omega_1, \omega_2] = \text{softmax} \left( \left[ \frac{g_{I_1}}{c}, \frac{g_{I_2}}{c} \right] \right)$

????????其中，我們使用 softmax 函數將 $\frac{g_{I_1}}{c}, \frac{g_{I_2}}{c}$ ??? 映射到 0 到 1 之間的實數，并保證 $\omega _1$ 和 $\omega _2$ ?的和為?1。然后， $\omega _1$ 和 $\omega _2$ ? 被用于損失函數中，以控制特定源圖像的信息保留程度。

2 損失函數

????????損失函數主要設計用于保留關鍵信息并訓練適用于多任務的單一模型。它由兩部分組成，定義如下：

$L(\theta, D) = L_{sim}(\theta, D) + \lambda L_{ewc}(\theta, D)$

????????其中， $\theta$ 表示 DenseNet 中的參數，D?是訓練數據集。 $L_{sim}(\theta, D)$ 是融合結果與源圖像之間的相似性損失。 $L_{ewc}(\theta, D)$ 是為持續學習設計的一項，將在下一小節描述。 $\lambda$ 是一個超參數，用于控制權衡。我們從兩個方面實現相似性約束，即結構相似性和強度分布。鑒于結構相似性指數（SSIM）是根據光線、對比度和結構信息相似性建模失真的最廣泛使用的度量[38]，我們使用它來約束 $I_1, I_2$ 和 $I_f$ 之間的結構相似性。因此，使用 $\omega _1$ 和 $\omega _2$ ? 控制信息程度， $L_{sim}(\theta, D)$ 的第一項被表述為：

$L_{ssim}(\theta, D) = E[\omega_1 \cdot (1 - S_{I_f, I_1}) + \omega_2 \cdot (1 - S_{I_f, I_2})]$

????????其中， $S_{xx, yy}$ 表示兩張圖像之間的 SSIM 值。雖然 SSIM 關注對比度和結構的變化，但它對強度分布差異的約束較弱。我們用第二項補充 $L_{sim}(\theta, D)$ ，該項由兩張圖像之間的均方誤差（MSE）定義：

$L_{mse}(\theta, D) = E[\omega_1 \cdot \text{MSE}_{I_f, I_1} + \omega_2 \cdot \text{MSE}_{I_f, I_2}]$

????????同時，通過約束 MSE 獲得的結果由于平均所有可能的輸出而顯得相對模糊，而 SSIM 可以彌補這一問題。因此，這兩項相互補償。使用 $\alpha$ 控制權衡， $L_{sim}(\theta, D)$ 被表述為：

$L_{sim}(\theta, D) = L_{ssim}(\theta, D) + \alpha L_{mse}(\theta, D)$

3 使用彈性權重鞏固（EWC）實現多融合任務的單一模型

????????不同的融合任務通常會導致特征提取和/或融合的差異，這直接體現在 DenseNet 參數值的多樣性上。這導致需要訓練多個具有相同架構但參數不同的模型。然而，由于一些參數是冗余的，這些模型的利用率可以大大提高。這激勵我們訓練一個具有統一參數的單一模型，整合這些模型，從而適用于多種任務。這一目標可以通過兩種方式實現，即聯合訓練和順序訓練，如圖6所示。

????????聯合訓練是一種簡單方法，其中所有訓練數據在整個訓練過程中都保留。在每個批次中，從多個任務中隨機選擇數據進行訓練。然而，隨著任務數量的增加，兩個緊迫問題變得難以解決：i) 始終保留先前任務數據導致的存儲問題；ii) 使用所有數據進行訓練導致的計算問題，包括計算難度和時間成本。在順序訓練中，我們需要為不同任務更改訓練數據，如圖6b所示。因此，在訓練過程中只需存儲當前任務的數據，解決了存儲和計算問題。然而，當我們為新任務訓練模型以獲得新能力時，出現了一個新問題：之前的訓練數據不可用[39]。隨著訓練過程的繼續，參數被優化以解決新問題，同時失去了從先前任務中學到的能力。這個問題被稱為災難性遺忘。為了避免這一缺點，我們應用彈性權重鞏固算法（EWC）[12]來防止它。在 EWC 中，當前任務參數 $\theta$ 與先前任務參數 $\theta^*$ 之間的平方距離根據其對 $\theta^*$ 的重要性加權。那些重要的參數被賦予更高的權重，以防止遺忘從舊任務中學到的知識，而重要性較低的參數可以更大程度地修改以學習新任務。通過這種方式，模型能夠通過彈性權重鞏固實現持續學習。因此，用于持續學習的損失 $L_{ewc}(\theta ;D)$ ，被包含在等式 (3) 的總損失函數中。這些與重要性相關的權重定義為 $\mu_i$ ?， $L_{ewc}(\theta ;D)$ 被表述為：

$L_{ewc}(\theta ;D) = \frac{1}{2} \sum_i\mu _i (\theta _i - \theta _i^*)^2$

????????其中 i表示網絡中的第 i 個參數， $u_i$ 表示相應平方距離的權重。為了評估重要性， $u_i$ 被指定為 Fisher 信息矩陣的對角項，并通過使用先前任務數據的梯度平方計算近似，如下定義：

$\mu _i = E \left[ \left( \frac{\partial}{\partial \theta _i^*} \log p(D^*|\theta ^*) \right)^2 \bigg|{\theta ^*} \right]$

????????其中 $D^*$ 表示先前任務的數據。 $\log p(D^*|\theta ^*)$ 可以近似替換為 $-L(\theta ^*, D^*)$ [12]。因此，等式 (8) 轉換為：

$\mu _i = E \left[ \left(- \frac{\partial}{\partial \theta _i^*} \log p(D^*|\theta ^*) \right)^2 \bigg|{\theta ^*} \right]$

????????由于 Fisher 信息矩陣可以在丟棄舊數據 $D^*$ 之前計算，模型在訓練當前任務時不需要 $D^*$ 。如果存在多個先前任務， $L_{ewc}(\theta ;D)$ 根據特定任務和相應數據進行調整。然后，這些梯度的平方被平均以獲得最終的 $u_i$ 。訓練過程和數據流如圖7所示。

????????在多任務圖像融合中， $\theta$ 是 DenseNet 的參數。首先，DenseNet 被訓練以解決任務1，即通過最小化等式 (6) 定義的相似性損失來解決多模態圖像融合問題。當增加解決任務2（即多曝光圖像融合問題）的能力時，首先計算與重要性相關的權重 $u_i$ 。特別是， $u_i$ ? 指示 DenseNet 中每個參數對多模態圖像融合的重要性。然后，通過最小化等式 (3) 中的 $L_{ewc}$ 項鞏固重要參數，以避免災難性遺忘；而重要性較低的參數通過最小化相應的相似性損失 $L_{sim}$ 更新以解決多曝光圖像融合。最后，當我們在多焦點圖像融合上訓練 DenseNet 時，根據前兩個任務計算 $u_i$ 。后續的彈性權重鞏固策略與之前相同。通過這種方式，EWC 可以定制為多任務自適應圖像融合的場景。

4 網絡架構

????????在我們的方法中，DenseNet 被用來生成融合結果 $I_f$ ?，其輸入是 $I_1$ ? 和 $I_2$ 的拼接。因此，它是一個無需設計融合規則的端到端模型。

????????如圖8所示，U2Fusion 中 DenseNet 的架構由 10 層組成，每層包括一個卷積后接一個激活函數。所有卷積層的核大小設置為 $3 \times 3$ ，步幅為 1。在卷積之前采用反射填充以減少邊界偽影。不使用池化層以避免信息損失。前九層的激活函數是 LeakyReLU，斜率設置為 0.2，而最后一層是 tanh。此外，研究表明，如果在靠近輸入的層和靠近輸出的層之間建立較短的連接，CNN 可以顯著加深并高效訓練。因此，在前七層中，采用了密集連接 CNN [10] 中的密集連接塊來改善信息流和性能。在這些層中，以前饋方式在每層與所有層之間建立了直接的快捷連接，如圖8中的拼接操作所示。這種方式可以減少梯度消失問題。同時，特征傳播可以進一步加強，同時減少參數數量[40]。特征圖的通道數均設置為 44。隨后四層逐漸減少特征圖的通道數，直到達到單通道融合結果，如圖8所示。

5 處理 RGB 輸入

????????RGB 輸入首先被轉換為 YCbCr 顏色空間。然后，使用 Y（亮度）通道進行融合，因為結構細節主要在此通道中，且此通道的亮度變化比色度通道更明顯。Cb 和 Cr（色度）通道的數據按傳統方式融合：

$C_f = \frac{C_1 (|C_1 - t|) + C_2 (|C_2 - t|)}{|C_1 - t| + |C_2 - t|}$

????????其中 $C_1$ 和 $C_2$ 分別是第一和第二源圖像的 Cb/Cr 通道值， $C_f$ 是融合結果的相應通道，t 設置為 128。然后，通過逆轉換，融合圖像可以轉換回 RGB 空間。因此，所有問題都被統一為單通道圖像融合問題。

6 處理多個輸入

????????????????在多曝光和多焦點融合中，我們需要融合源圖像序列，即存在兩個以上的源圖像。在這種情況下，這些源圖像可以順序融合。如圖9和圖10所示，我們首先融合其中的兩個源圖像。然后，將中間結果與另一個源圖像融合。以這種方式，U2Fusion 理論上能夠融合任意數量的輸入。

4.2 方法解析

1 特征提取

方法：
- 使用預訓練的 VGG-16 網絡提取特征，而非 DenseFuse 的自定義密集塊。
- 輸入單通道圖像（ $I_I$ ），復制為三通道以適配 VGG-16。
- 提取 5 個卷積層（ $f_{C1} \dots f_{C5}$ ?）的特征圖，分別對應淺層（紋理）和深層（內容）信息。
分析：
- VGG-16 的選擇：受感知損失啟發，VGG-16 在 ImageNet 上訓練，特征表達豐富，適合多任務提取（文獻 [33], [34]）。
- 多尺度特征：淺層（ $f_{C1}, f_{C2}$ ）捕獲紋理細節，深層（ $f_{C4}, f_{C5}$ ）捕獲空間結構，與圖5示例吻合。
解析：
- 與 DenseFuse 的區別：DenseFuse 使用密集塊從頭訓練，特征針對融合任務優化；U2Fusion 借用預訓練 VGG-16，泛化性更強但可能不完全適配融合。
- 單通道輸入：統一為單通道
- 優勢：淺層和深層特征結合，提供全面信息表示，彌補人類視覺局限。

2 信息測量

方法：
- 使用特征圖梯度的 Frobenius 范數衡量信息： $g_{I_I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_j W_j D_j} \sum_{k=1}^{D_j} \left\| \nabla f_{C_j k}(I_I) \right\|_F^2$
- 梯度通過拉普拉斯算子計算，強調局部空間結構。
分析：
- 梯度優勢：相比信息熵等全局統計，梯度計算效率高，感受野小，適合 CNN。
- 歸一化：除以 $H_j W_j D_j$ （特征圖尺寸和通道數），標準化不同尺度的測量。
解析：
- 與 DenseFuse 對比：DenseFuse 用 l1?-范數衡量特征顯著性，U2Fusion 用梯度范數，關注空間變化而非絕對強度。
- 實現細節：拉普拉斯算子可能通過 Sobel 濾波或二階差分實現，高效但可能對噪聲敏感。
- 意義：梯度反映紋理和邊緣信息，與多任務需求（如多焦點、多曝光）一致。

3 信息保留程度

方法：
- 自適應權重 $\omega_1, \omega_2$ 通過 softmax 計算：
- $[\omega_1, \omega_2] = \text{softmax} \left( \left[ \frac{g_{I_1}}{c}, \frac{g_{I_2}}{c} \right] \right)$
- c是縮放常數，增強 $g_{I_1}, g_{I_2}$ ?? 的相對差異。
分析：
- 權重作用： $\omega_1, \omega_2$ 控制融合圖像與源圖像的相似性，信息豐富的圖像權重更高。
- Softmax 設計：歸一化到 [0, 1] 且和為 1，保證權重分配合理。
解析：
- 與 DenseFuse 對比：DenseFuse 的 l1?-范數權重直接加權特征，U2Fusion 的 $\omega_1, \omega_2$ 用于損失函數，更動態。
- c 的作用：避免絕對值差異過小（如紅外與可見光的梯度差異），增強區分度。
- 潛在問題：c 需手動調參，可能影響魯棒性。

4. 損失函數

方法：
- 總損失：
- $L(\theta, D) = L_{sim}(\theta, D) + \lambda L_{ewc}(\theta, D)$
- 相似性損失?：
  - $L_{ssim}(\theta, D) = E[\omega_1 \cdot (1 - S_{I_f, I_1}) + \omega_2 \cdot (1 - S_{I_f, I_2})]$ ：結構相似性。
  - $L_{mse}(\theta, D) = E[\omega_1 \cdot \text{MSE}_{I_f, I_1} + \omega_2 \cdot \text{MSE}_{I_f, I_2}]$ ：強度分布。
- $L_{ewc}$ ?：持續學習項（下一節詳述）。
分析：
- SSIM 和 MSE 互補：
  - SSIM 關注結構和對比度，弱化強度分布。
  - MSE 關注像素級差異，但可能導致模糊。
- $\omega_1, \omega_2$ 的作用：動態加權相似性，保留信息豐富的源圖像特征。
- α 和 λ：超參數平衡各部分損失。
解析：
- 與 DenseFuse 對比：DenseFuse 用固定 λ 加權 MSE 和 MS-SSIM，U2Fusion 用 $\omega_1, \omega_2$ 自適應加權 SSIM 和 MSE。
- 無監督實現：通過與源圖像的相似性優化，無需 ground-truth，優于 DenseFuse 的監督訓練。
- 持續學習： $L_{ewc}$ 解決多任務遺忘問題，DenseFuse 無此設計。

5 使用 EWC 實現多任務單一模型

核心問題：
- 不同融合任務導致 DenseNet 參數差異，傳統方法需訓練多個模型。
- 參數冗余激勵單一模型設計，支持多任務。
方法：
- 聯合訓練：所有任務數據同時訓練，隨機采樣。
  - 優點：簡單。
  - 缺點：存儲和計算成本高，隨任務數增加不可持續。
- 順序訓練：逐任務訓練，僅存儲當前任務數據。
  - 優點：解決存儲和計算問題。
  - 缺點：災難性遺忘（catastrophic forgetting），新任務優化覆蓋舊任務能力。
- EWC 解決方案：
  - 通過 $L_{ewc}(\theta ;D) = \frac{1}{2} \sum_i\mu _i (\theta _i - \theta _i^*)^2$ 正則化參數變化。
  - $\mu _i$ （Fisher 信息矩陣對角項）衡量參數對舊任務的重要性。
  - 重要參數變化受限，低重要性參數可更新。
解析：
- 與 DenseFuse 對比：DenseFuse 單任務訓練，無多任務支持。U2Fusion 用 EWC 實現持續學習，統一多任務。
- EWC 的作用：通過梯度平方（公式 (9)）估計參數重要性，避免遺忘，類似正則化但任務特定。
- 實現細節：
  - Fisher 信息矩陣近似計算高效（無需保留舊數據）。
  - 多任務累積 $\mu _i$ 需平均，可能稀釋特定任務權重。
- 潛在問題：
  - $\mu _i$ 依賴梯度分布，若任務數據不均衡，可能偏向某一任務。
  - λ 調參關鍵，過大限制新任務學習，過小無法防遺忘。

6 網絡架構

設計：
- 輸入： $I_1$ ? 和 $I_2$ 拼接，端到端生成 $I_f$ 。
- 結構：10 層卷積網絡：
  - 前 7 層：密集連接塊（3x3 卷積，LeakyReLU，44 通道）。
  - 后 3 層：通道漸減至 1（tanh 輸出）。
- 特點：無池化，反射填充，密集連接緩解梯度消失。
解析：
- 與 DenseFuse 對比：
  - DenseFuse 用密集塊生成 64 特征圖，U2Fusion 固定 44 通道，結構更深（10 層 vs 3 層）。
  - DenseFuse 融合層顯式（如 l1l_1l1?-范數），U2Fusion 端到端無需規則。
- 密集連接：前 7 層全局拼接（經典 DenseNet），增強特征復用，與之前分析的局部連接不同。
- 激活函數：
  - LeakyReLU（0.2）保留負值信息，tanh 輸出歸一化到 [-1, 1]。
- 潛在問題：
  - 固定 44 通道可能限制特征表達力。
  - 無池化增加計算量，需權衡效率。

7 處理 RGB 輸入

方法：
- RGB 轉 YCbCr，僅 Y 通道融合。
- Cb/Cr 傳統融合：加權平均（公式 (10)）。
解析：
- 與 DenseFuse 對比：DenseFuse 逐通道融合 RGB，U2Fusion 簡化至 Y 通道，色度傳統處理。
- 優勢：Y 通道含結構信息，簡化多模態處理。
- 局限：
  - Cb/Cr 融合依賴固定閾值 t=128，可能丟失色度細節。
  - 未利用深度學習優化色度，可能影響 RGB 融合質量。

8 處理多個輸入

方法：
- 順序融合：兩兩融合，迭代生成最終結果。
專家解析：
- 靈活性：理論上支持任意輸入，優于 DenseFuse 的雙輸入限制。
- 潛在問題：
  - 順序依賴中間結果，誤差可能累積。
  - 未提及多輸入時的 $\omega_1, \omega_2$ 計算

五.實驗

5.1實驗翻譯

實驗結果與討論

????????在本節中，我們將 U2Fusion 與多種最新方法在多個任務和數據集上進行定性和定量比較。

1 訓練細節

????????我們對 U2Fusion 進行了三種類型的融合任務實驗：i) 多模態圖像融合，包括可見光-紅外（VIS-IR）和醫學圖像（PET-MRI）融合；ii) 多曝光圖像融合；iii) 多焦點圖像融合。鑒于 VIS-IR 和 PET-MRI 融合的性質相似（詳見第 3.1 節的解釋），它們被聯合視為多模態圖像融合（任務 1）。訓練數據集來自四個公開數據集：任務 1 使用 RoadScene1（VIS-IR）和 Harvard2（PET-MRI），任務 2 使用 [41] 中的數據集，任務 3 使用 Lytro4。為了驗證通用性，測試數據集還包括兩個額外的 TNO5（VIS-IR 圖像融合）和 EMPA HDR6（多曝光圖像融合）。基于 FLIR 視頻7，我們發布了 RoadScene，這是一個新的對齊 VIS-IR 圖像數據集，用于彌補現有數據集的不足。首先，我們從視頻中選擇場景高度重復的圖像對。其次，減少原始紅外圖像中的熱噪聲。第三，為了精確對齊圖像對，我們仔細選擇特征點，并使用單應性變換和雙三次插值對齊每對圖像。此外，由于相機畸變或成像時間間隔導致某些區域無法通過單應性精確對齊，我們裁剪出精確配準的區域。

????????RoadScene 包含 221 對對齊圖像對，涵蓋豐富的場景，如道路、車輛和行人。它解決了基準數據集中的問題，如圖像對數量少、空間分辨率低以及紅外圖像缺乏詳細信息。所有數據集中的源圖像被裁剪為 64×64 的小塊。對于多焦點圖像，由于對齊圖像對不足，我們對圖像進行放大和翻轉以增加訓練數據。我們設置 α=20、 $\lambda =8\times 10^4$ 。c?分別設置為 $3 \times 10^3$ 、 $3.5 \times 10^3$ 和 $1 \times 10^2$ ，對應的訓練輪數分別為 3、2 和 2。參數通過 RMSPropOptimizer 更新，學習率為 $1 \times 10^{-4}$ 。批次大小為 18。實驗在 NVIDIA Geforce GTX Titan X GPU 和 3.4 GHz Intel Core i5-7500 CPU 上進行。

2 多模態圖像融合

1 可見光和紅外圖像融合

????????我們將 U2Fusion 與五種最新方法進行比較：HMSD [42]、GTF [19]、DenseFuse [17]、FusionGAN [5] 和 DDcGAN [24]。TNO 和 RoadScene 數據集上的定性結果分別如圖 11 和圖 12 所示。

????????總體而言，U2Fusion 表現出比競爭方法更清晰的外觀。如高亮區域所示，競爭方法丟失了一些細節，例如汽車、標志和車牌。相比之下，U2Fusion 通過呈現更多細節緩解了這一問題。此外，在一個源圖像信息極少的情況下，U2Fusion 在融合結果中更完整地保留了另一個源圖像的信息，如圖 11 的最后一行和圖 12 的第一行所示。此外，U2Fusion 還被應用于 RoadScene 中融合 VIS（RGB）和灰度 IR 圖像。

????????如圖 13 所示，融合結果更像是通過 IR 圖像增強的 VIS 圖像，以更好地表現場景，因為融合過程僅在 Y 通道上進行，色度信息全部來自 VIS 圖像。

????????在 TNO 和 RoadScene 的剩余 20 和 45 對圖像上進行定量比較。使用四種指標進行評估：相關系數（CC）、SSIM、峰值信噪比（PSNR）和差值的相關性總和（SCD）[43]。CC 測量源圖像與結果之間的線性相關程度。PSNR 評估融合過程引起的失真。SCD 量化融合圖像的質量。如表 1 所示，U2Fusion 在兩個數據集的 CC、SSIM 和 PSNR 上排名第一。盡管在 SCD 上排名第二，但其結果具有競爭力。這些有前景的結果表明，U2Fusion 與源圖像具有高保真度，失真、噪聲或偽影較少。

2 醫學圖像融合

????????我們在 Harvard 數據集上將 U2Fusion 與 RPCNN [44]、CNN [16]、PAPCNN [45] 和 NSCT [6] 進行比較。

如圖 14 所示，我們的結果在功能信息（顏色）損失較少的前提下，具有更多的結構（紋理）信息。對剩余 10 對測試圖像對進行第 4.2.1 節中四種指標的定量評估，結果如表 2 所示。

????????在 CC、SSIM 和 PSNR 上取得最佳結果表明，U2Fusion 與源圖像具有更高的相關性和相似性，且產生更少的失真/噪聲。在 SCD 上的次優結果表明，U2Fusion 在差異與源圖像的相關性上表現相當。

3 多曝光圖像融合

????????我們將 U2Fusion 與 GFF [46]、DSIFT [47]、GBM [48]、Deepfuse [7] 和 FLER [49] 進行比較，針對源圖像曝光比例大且信息量少的更具挑戰性的問題。[41] 中的數據集和 EMPA HDR 數據集上的定性結果分別如圖 15 和圖 16 所示。

由于源圖像曝光設置不當，場景表現較弱，視覺感知較差。在我們的結果中，這些表現通過適當的曝光得到進一步增強。GFF、DSIFT 和 FLER 中的局部暗區域在 U2Fusion 中得到改善。此外，與 GBM 和 Deepfuse 相比，我們的結果具有更清晰的細節或更高的對比度，提供更好的細節表現，如紅框所示。

在 [41] 中的數據集和 EMPA HDR 數據集的 30 和 15 對圖像上進行定量比較。除了 SSIM、PSNR 和 CC 外，還使用邊緣強度（EI）指標進行評估。EI 反映邊緣點的梯度幅度。均值和標準差如表 3 所示。在 [41] 數據集上，U2Fusion 在 SSIM 和 PSNR 上取得最優均值。EI 和 CC 的結果分別落后于 FusionDN 和 Deepfuse 0.02 和 0.011。在 EMPA HDR 數據集上，我們的 SSIM 均值最佳。對于其他指標，U2Fusion 取得 0.037、0.064 和 0.009，接近最佳值。這些結果表明，U2Fusion 中融合圖像與源圖像的相似性和相關性更高，失真更少，梯度幅度更大。

4 多焦點圖像融合

????????我們將方法與 DSIFT [50]、GBM [48]、CNN [25]、GFDF [8] 和 SESF-Fuse [18] 進行比較，定性結果如圖 17 所示。

雖然 U2Fusion 未使用真實標注進行監督，也未提取和填充融合圖像中的焦點區域，但仍取得相當的結果。如第一行所示，競爭方法在焦點和失焦區域邊界處模糊的邊緣被融合到結果中。在 U2Fusion 中，這一現象得到緩解，因為它在判斷相對模糊關系后嘗試重建焦點區域。其他差異如最后兩行所示，在 DSIFT、CNN、GFDF 和 SESF-Fuse 中，焦點和失焦區域邊界處的一些細節丟失，例如高爾夫球和耳朵邊緣。盡管 GBM 保留了這些細節，但結果中可觀察到明顯的亮度和顏色偏差。相比之下，U2Fusion 在更大程度上保留了這些細節。

????????評估指標包括 EI、CC、視覺信息保真度（VIF）[51] 和平均梯度（MG）。VIF 通過計算源圖像與融合結果之間的失真來測量信息保真度。MG 越大，圖像包含的梯度越多，融合性能越好。如表 4 所示，U2Fusion 在 EI 和 CC 上取得最優結果。EI 上的最佳結果和 MG 上的次優結果表明，我們的結果具有更多梯度，呈現更清晰的外觀。這些結果與圖 17 的定性結果一致。此外，CC 上的最佳結果和 VIF 上的最優結果表明，U2Fusion 與源圖像保持最高的線性相關性，并實現相當的信息保真度。

3 關于 EWC 的消融研究

????????在 U2Fusion 中，我們使用彈性權重鞏固（EWC）訓練單一模型以應對三種融合任務，克服災難性遺忘。為了驗證其有效性，我們進行了一個對比實驗，在不使用 EWC 的情況下順序訓練任務。從三個方面分析其有效性：i) 相似性損失，ii) $\mu_i$ 的統計分布，iii) 訓練階段的中間融合結果。相似性損失 $L_{sim}(\theta ;D)$ （等式 (3)）的變化如圖 18 所示。

????????第一張圖是不應用 EWC 時每個任務的相似性損失，第二張圖是應用 EWC 時的損失。任務 1 和任務 2 的損失差異不明顯。然而，當在任務 3 上訓練 DenseNet 且不使用 EWC 時，任務 2 驗證數據集上的損失明顯增加。這表明當前網絡在多曝光圖像融合上的性能下降。使用 EWC 時，前任務的相似性損失與單獨訓練時基本相同。因此，通過應用 EWC，我們獲得了一個適用于這些任務的單一模型。我們還比較了有無 EWC 時 $\mu_i$ 的統計分布，如圖 19 所示。

???????? $\mu_i$ 在每個任務訓練后通過相似性損失和相應數據集計算。例如，訓練任務 3 后的分布是通過任務 1 和任務 2 的相似性損失和數據集計算得到的平均 $\mu_i$ 的統計分布。不使用 EWC 時，三個任務后的 $\mu_i$ 分布差異不大，如第一張圖所示。參數僅與當前任務相關， $\mu_i$ 僅顯示參數對當前任務的重要性。然而，使用 EWC 時，大值 $\mu_i$ 的比例顯著增加。這一增加表明網絡中存在更多重要參數，這些參數不僅對當前任務而且對前任務都重要。同時，小值的比例減少表明網絡冗余減少。越來越多的參數在提升融合性能中發揮重要作用。有無 EWC 的直觀定性比較結果如圖 20 所示。

????????在任務 1 和任務 2 上訓練模型后，有無 EWC 的模型在多模態和多曝光圖像融合上均取得滿意結果。由于未在任務 3 上訓練，多焦點圖像融合結果顯示邊緣模糊，如圖 20a、20b 和 20c 中任務 3 的結果所示。然而，在任務 3 上訓練后，結果顯示更清晰的外觀，如圖 20d 和 20e 中任務 3 的結果所示。不使用 EWC 時，任務 2 的性能下降，例如整個圖像亮度降低。此外，任務 1 的結果在圖 20b 和 20c 中存在明顯差異。使用 EWC 時，這兩個問題得到緩解，如圖 20d 和 20e 所示。

4 不同任務間互助的統一模型

????????在 U2Fusion 中，我們使用 EWC 持續學習新任務。這樣，統一模型能夠融合多種類型的源圖像。因此，使用統一參數，U2Fusion 從單一任務中學到的信息可以促進其他任務。為驗證這一點，我們為每個任務訓練獨立模型，因此不同任務間無交互。融合結果如圖 21 所示。

????????盡管多模態和多焦點圖像融合與多曝光圖像融合不同，但多模態和多焦點圖像也有過曝區域，這從前三列的可見光圖像和最后一列的遠焦圖像中明顯可見。使用訓練過多曝光圖像融合的統一模型，U2Fusion 在這些過曝區域表現出比獨立模型更清晰的表示。另一個例子是多曝光圖像融合的結果，即第六列。源圖像中的高亮區域類似于多焦點圖像。由于模型已從多焦點圖像融合中學習，U2Fusion 的結果比獨立訓練的模型顯示更清晰銳利的邊緣。因此，通過聚集多個任務的優勢，U2Fusion 不僅對多種類型的源圖像具有強大泛化能力，而且對同一類型源圖像中的多種區域也如此。因此，統一模型可以實現不同融合任務的互助。

5 關于自適應信息保留程度的消融研究

????????為了驗證自適應信息保留程度的有效性，我們進行了實驗，將 $\omega _1$ 和 $\omega _2$ 直接設置為 0.5。六個數據集上的對比結果如圖 22 所示。

????????第一行是 $\omega _1$ 和 $\omega _2$ 固定為 0.5 的結果，第二行是 U2Fusion 的結果。在多模態圖像融合中，沒有自適應信息保留程度的結果顯示較差的細節表示，如云的邊緣、吉普車的紋理、網的細節和結構信息。在多曝光圖像融合中，差異在過曝區域明顯可見。沒有自適應程度時，這些區域仍顯得過曝，如花、窗戶和太陽。這一現象在多焦點圖像融合結果中最為明顯。當 $\omega _1$ 和 $\omega _2$ ? 直接設為 0.5 時，網絡無法區分焦點和失焦區域。因此，結果邊緣模糊，而 U2Fusion 生成更清晰的外觀。

6 訓練順序的影響

????????在三種融合任務中，多焦點圖像融合與其他兩種（多模態和多曝光）略有不同。對于多模態和多曝光圖像塊，融合塊可視為兩個源圖像的組合。然而，對于多焦點圖像塊，融合過程可視為選擇源圖像中的焦點區域。因此，融合結果預計在焦點區域與源圖像高度相似。因此，我們在本節進行了兩個對比實驗。為定量比較，我們使用相關系數（CC）測量結果與源圖像的相關性，使用平均梯度（MG）測量融合結果的性能。一方面，我們改變多模態和多曝光圖像融合的順序。訓練順序重置為：多曝光 → 多模態 → 多焦點圖像融合。定性結果如圖 23 所示，定量結果如表 5 所示。

結果顯示，多模態和多曝光圖像融合的順序交換對融合多焦點圖像影響不大。對于這兩個任務，結果顯示更高的亮度和平均梯度。然而，原始訓練順序的結果與源圖像保持更高的相關性。另一方面，考慮到多焦點圖像融合與其他兩個任務的差異，我們將多焦點圖像融合設為第一個任務。然后，訓練順序重置為：多焦點 → 多模態 → 多曝光圖像融合。顯然，多焦點圖像融合的結果比其他順序更模糊，從圖 23 的最右列可見。這一現象也反映在表 5 中平均梯度的大幅下降，從 0.0677 或 0.0700 降至 0.0563。U2Fusion 的持續學習能力得益于等式 (7) 中定義的 $L_{ewc}$ 。一些不重要參數被更新以學習新任務，導致前任務性能略有下降。鑒于多焦點圖像融合的特殊性，性能下降更明顯，尤其體現在形狀邊緣的模糊上。因此，多模態和多曝光圖像融合的訓練順序對融合結果影響較小，而多焦點順序影響較大。比較表 5 中的定量結果，多模態 → 多曝光 → 多焦點的順序表現最佳。因此，我們在 U2Fusion 中采用此順序。

7 U2Fusion 與 FusionDN 的對比

????????該方法的初步版本是 FusionDN [11]，改進內容在第 1 節中描述。為驗證這些改進的有效性，我們比較了 FusionDN 和 U2Fusion 的結果，如圖 24 所示。

????????首先，我們通過修改源圖像的信息量和質量改進了信息保留程度分配策略。這一改進效果如圖 24 的第一和第二列所示。FusionDN 依賴原始源圖像的信息量和質量，保留了 VIS 區域的高對比度，如煙霧與背景之間。然而，相應 IR 區域的大量細節丟失。在 U2Fusion 中，通過考慮提取的大量特征中的信息，信息保留程度發生變化，保留了更多源圖像細節。其次，我們通過移除梯度損失并添加 MSE 損失修改了損失函數。在 FusionDN 中，梯度損失用于保留更多梯度。然而，它導致一些虛假邊緣，如第四和第五列的結果所示。通過移除它，我們依靠 SSIM 和改進的信息保留程度分配策略保留結構信息。結果仍顯示清晰外觀并緩解虛假邊緣。此外，由于強度分布僅由 SSIM 保留，結果的亮度分量與源圖像略有偏差，如最后一列 FusionDN 的結果所示。在 U2Fusion 中，為克服亮度偏差，我們添加了 MSE 損失。如最后一列所示，U2Fusion 的強度與源圖像更相似。最后，我們將第一個融合任務從 VIS-IR 圖像融合替換為多模態圖像融合。此任務包括 VIS-IR 和 PET-MRI 圖像融合。由于 FusionDN 的模型未在醫學數據集上訓練，結果顯示邊緣較弱且背景呈灰色，如第三列所示。

5.2 實驗解析

1 訓練細節

任務與數據集：
- 任務：多模態（VIS-IR、PET-MRI）、多曝光、多焦點。
- 訓練數據：RoadScene (VIS-IR)、Harvard (PET-MRI)、[41] (多曝光)、Lytro (多焦點)。
- 測試數據：新增 TNO 和 EMPA HDR，驗證泛化性。
- RoadScene：221 對圖像，解決傳統數據集（少樣本、低分辨率）問題。
解析：
- RoadScene 創新：對齊和去噪提升數據質量，但 221 對樣本量仍有限，可能偏向多模態場景。
- 超參數調整：c 按任務變化表明信息測量需任務特定調優，削弱“統一性”聲明。
- 訓練效率：少輪數和高 λ 可能限制模型收斂，計算資源（Titan X）支持復雜度但未優化實時性。

2 多模態圖像融合

VIS-IR 融合：
- 定性：圖 11、12 顯示 U2Fusion 比 HMSD、GTF、DenseFuse 等更清晰，細節保留好（如車牌）。
- 定量：表 1 顯示 CC、SSIM、PSNR 最佳，SCD 次優。
醫學融合：
- 定性：圖 14 顯示結構信息豐富，顏色損失少。
- 定量：表 2 顯示 CC、SSIM、PSNR 最佳，SCD 次優。
解析：
- 優勢：無監督設計和自適應權重 $w1,w2$ 提升細節保留。
- 與 DenseFuse 對比：DenseFuse 在紅外-可見光上專注（20 對數據），U2Fusion 泛化性更強但 SCD 次優可能反映信息融合不均衡。
- RGB 融合：Y 通道融合增強場景表現，但色度依賴 VIS，未充分利用 IR。

3 多曝光圖像融合

定性：
- 圖 15、16 顯示 U2Fusion 改善暗區，提升對比度和細節。
定量：
- 表 3 顯示 SSIM 和 PSNR 最佳，EI 和 CC 次優。
解析：
- 優勢：自適應權重適應曝光差異，優于 GFF、Deepfuse 的固定融合。
- 局限：EI 次優表明邊緣增強不足，可能因梯度均值忽略局部顯著性。

4 多焦點圖像融合

定性：
- 圖 17 顯示 U2Fusion 緩解邊界模糊，保留細節（如高爾夫球）。
定量：
- 表 4 顯示 EI 和 CC 最佳，MG 和 VIF 次優。
解析：
- 優勢：無監督重建焦點區域，優于 CNN、SESF-Fuse 的監督方法。
- 局限：MG 次優表明梯度增強有限，可能因單一信息測量未針對清晰度優化。

5?關于 EWC 的消融研究

實驗設計：
- 對比有無 EWC 的順序訓練，分析 $L_{sim}$ 、 $\mu _i$ ? 分布和中間結果。
結果：
- 損失：無 EWC 時，任務 3 訓練后任務 2 損失增加（圖 18），驗證災難性遺忘；EWC 保持前任務損失穩定。
- $\mu _i$ 分布：EWC 增加大值 $\mu _i$ 比例（圖 19），表明更多參數對多任務重要，冗余減少。
- 定性：無 EWC 時任務 2 亮度下降、任務 1 細節丟失（圖 20），EWC 緩解此問題。
解析：
- EWC 有效性：通過正則化 $L_{ewc} = \frac{1}{2} \sum_i u_i (\theta_i - \theta_i^*)^2$ 保護重要參數，解決遺忘問題，與理論一致。
- 與 DenseFuse 對比：DenseFuse 無多任務需求，U2Fusion 的 EWC 是多任務統一的關鍵。
- 局限： $\mu _i$ 依賴 Fisher 近似，若任務數據分布差異大，可能偏向某一任務

6 任務間互助的統一模型

實驗設計：
- 對比統一模型與獨立模型，驗證任務間信息共享。
結果：
- 圖 21 顯示統一模型在過曝區域（多模態、多焦點）和邊緣（多曝光）上優于獨立模型。
解析：
- 互助機制：EWC 保留共享特征（如過曝處理、邊緣增強），提升泛化性。
- 與 DenseFuse 對比：DenseFuse 單任務無互助，U2Fusion 的統一性是優勢。
- 局限：未定量分析互助程度，可能因任務相似性有限而效果不均。

7 自適應信息保留程度消融

實驗設計：
- 對比 $\omega _1=\omega _2=0.5$ （固定權重）與自適應 $\omega _1,\omega _2$ 。
結果：
- 圖 22 顯示固定權重導致細節丟失（多模態）、過曝（多曝光）、邊緣模糊（多焦點），自適應權重改善這些問題。
解析：
- 自適應性驗證：動態 $\omega _1,\omega _2$ 根據信息測量（梯度范數）調整權重，優于均等分配。
- 局限： $\omega _1,\omega _2$ ? 依賴 c 和梯度公式，模態特異性仍不足。

8 訓練順序影響

實驗設計：
- 對比三種順序：1) 多模態→多曝光→多焦點（原始），2) 多曝光→多模態→多焦點，3) 多焦點→多模態→多曝光。
結果：
- 圖 23 和表 5 顯示順序 1 和 2 對多焦點影響小，順序 3 導致多焦點模糊（MG 下降）。
解析：
- 順序敏感性：多焦點任務（選擇焦點）與多模態/多曝光（組合信息）目標不同，先訓多焦點易被后續任務覆蓋。
- EWC 局限： $L_{ewc}$ 未完全平衡任務特性，多焦點性能下降反映任務沖突。
- 優化建議：任務特定分支或動態 λ 可減少順序依賴。

9 U2Fusion vs FusionDN

改進點：
1. 信息保留：從原始圖像信息改為特征信息。
2. 損失函數：移除梯度損失，加 MSE。
3. 任務范圍：VIS-IR 擴展到多模態。
結果：
- 圖 24 顯示 U2Fusion 保留更多細節（多模態）、減少虛假邊緣（多曝光）、改善亮度（多焦點）和醫學融合。
解析：
- 改進效果：
  - 特征信息提升細節保留，優于 FusionDN 的像素級策略。
  - MSE+SSIM 平衡亮度和結構，彌補梯度損失缺陷。
  - 多模態擴展增強泛化性。
- 與 DenseFuse 對比：U2Fusion 改進后的損失和范圍超越 DenseFuse 的單一任務設計。
- 局限：仍依賴 VGG-16 和梯度公式，未徹底解決計算復雜度和自適應性。