論文:(cvpr2025) Adaptive Rectangular Convolution for Remote Sensing Pansharpening
代碼:https://github.com/WangXueyang-uestc/ARConv.git
這個論文研究的是全色與多光譜圖像的融合。作者認為現有的基于CNN的方法中,傳統的卷積存在兩個問題:問題1,卷積被限制在一個固定的方形窗口內。問題2,采樣點的個數是預設的,保持不變。
為了解決這兩個問題,作者提出了 ARConv (Adaptive Rectangular Convolution),與當前方法的比較如下圖所示,最大的變化是窗口可以變成3x5這樣的形狀,這個尺寸是通過網絡學出來的。
作者提出了ARConv ,如下圖所示,主要包括四個步驟:
- 學習卷積核的高度和寬度:用網絡學習每個像素位置的卷積核高度和寬度。每個位置學到的卷積核高度和寬度是不同的,這使得卷積核的形狀能夠自適應地調整以適應不同尺度的物體。(網絡的最后輸出是 sigmoid函數,因此輸出是(0,1)區間,作者使用a,b變量進行了縮放,這個變量是通過實驗手工設置的)
- 確定采樣點的數量: 根據高度和寬度特征圖的平均值,通過映射函數選擇垂直和水平方向上的采樣點數量,并確保采樣點數量為奇數。(作者設計了變量m,n,可以用高度、寬度平均值除以m,n得到采樣點數量,這個m,n也是手工設置的)
- 生成采樣圖:基于標準卷積的采樣網格,通過縮放矩陣調整采樣點位置,并采用雙線性插值估計非整數位置的像素值。
- 卷積實現:對生成的采樣圖進行卷積操作,并引入仿射變換以增強空間適應性。
全色與多光譜圖像的融合網絡的整體架構如下圖所示,是典型的UNET結構,中間加了5個應用ARConv的block。
ARConv 的特點是: 卷積可以適應圖像中不同大小和形狀的物體。在遙感圖像中,物體的尺度差異很大,例如小汽車和大型建筑物。傳統的固定形狀卷積核(如 3x3 或 5x5)無法有效地捕捉這些不同尺度的特征,而ARConv通過自適應調整卷積核的形狀,能夠更好地提取每個局部區域的特征。盡管卷積核大小不同,但最后采樣點又是相同的,這樣又加速了計算。為證明研究動機,可視化是必要的,也就是說對于不同尺寸的目標,學習到的卷積核大小是不同的。 論文中有一個實驗,如下圖所示,作者把5個block里學到的卷積核大小可視化出來了。作者指出,在第四層建筑外圍有一條藍細線,這表明卷積核的高度在邊緣處較小。
實驗部分可以參考作者論文,這里不過多介紹。