CVPR 2024最佳論文分享:打破剛性的超分辨率圖像處理GNN
CVPR(Conference on Computer Vision and Pattern Recognition)是計算機視覺領域最有影響力的會議之一,主要方向包括圖像和視頻處理、目標檢測與識別、三維視覺等。近期,CVPR 2024 公布了最佳論文。共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,2篇最佳論文題目和4篇最佳學生論文提名。本公眾號推出CVPR 2024最佳論文專欄,分享這10篇最佳論文。
本文詳細介紹了CVPR 2024最佳論文《Image Processing GNN: Breaking Rigidity in Super-Resolution》。該論文的第一作者為北京大學博士田雨川。論文針對超分辨率圖像重建中的剛性問題,提出了一個新的圖神經網絡模型IPG,通過靈活的圖結構提升超分辨率性能。本文由李楊撰寫,審校為朱旺和陸新穎。
1.研究背景與解決的關鍵問題
超分辨率(Super-Resolution, SR)是指從低分辨率圖像重建高分辨率圖像。在現有的SR方法中,卷積神經網絡(Convolutional Neural Network,CNN)和基于自注意力機制的Transformer模型是主要的兩大類方法。然而,這些方法在操作上存在剛性問題:每個像素聚集相同數量的鄰近像素信息,導致在細節豐富的圖像部分上重建效果不佳。論文提出了一種基于圖的超分辨率方法(Image Processing GNN,IPG),通過靈活的圖結構(Graph Structure)打破傳統方法的剛性限制,提升超分辨率性能。
2.方法
(1)模型架構
圖1 IPG模型的總體架構
其中, 多尺度聚合塊(Multiscale Graph-aggregation Blocks,MGB):負責從局部和全局尺度聚合信息。圖聚合層(Graph Aggregation Layers,GAL):執行圖聚合操作,聚合局部和全局信息。圖構建:在每個MGB塊中,分別執行局部和全局采樣,構建圖結構,交替分配給GAL層進行聚合操作。
(2)優勢
1)度靈活性
在傳統方法中,每個像素聚集相同數量的鄰域像素信息,這種“度等效剛性”在SR任務中顯得不合理。論文提出了一種度靈活性的圖解決方案,基于細節豐富的圖像部分,設計了一種度變異圖結構。具體來說,通過設計一個細節感知指標(Detail-rich Indicator Metric,DF),對圖像節點的重要性進行度量,并將更高的度分配給細節豐富的節點。
2)像素節點靈活性
在圖像圖結構中,論文采用像素而非圖像塊作為圖節點,以避免由于圖塊剛性導致的對齊問題。相比之下,像素節點能夠更靈活地找到其相關像素進行聚合,從而避免像素對齊問題。
3)空間靈活性
論文提出了一種結合局部和全局采樣的像素節點連接搜索策略,以聚合局部和全局信息。局部采樣在節點周圍的鄰域中選擇,構建局部圖;全局采樣在整個圖像上以擴展模式選擇,構建全局圖。通過這種方式,圖能夠靈活地聚合局部和全局信息,從而提升SR性能。
4)圖聚合
在圖聚合過程中,論文采用邊緣條件聚合(Edge-conditioned Aggregation),這種方法在保持鄰域信息的同時,關注像素之間的關系,適用于低級視覺任務。通過在節點特征中加入相對位置編碼,增強位置信息,進一步提升圖聚合的效果。
3.實驗結果
圖2 IPG-S和IPG與SR基線在FLOPs和性能方面的比較
所提出的 IPG-S 和 IPG 與 SR 基線在浮點運算次數(Floating Point Operations per Second,FLOPs)和性能方面的比較。由于圖結構的靈活性,IPG 在類似的 FLOPs下可以比其他 SR 模型高出0.1dB。值得注意的是,FLOPs僅反映理論計算成本,而不反映實際推理速度。
表1 IPG與其他SR方法在多個基準數據集上的比較
表1展示了IPG與其他SR方法在多個基準數據集上的詳細比較。結果顯示,IPG在峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似性(Structural Similarity,SSIM)指標上均取得了顯著的提升。
4.可視化
圖3與最新 SR 基線的視覺比較
圖3展示了在Urban100數據集上的可視化結果對比。可以看到,IPG模型在細節重建方面表現優異,重建出的圖像細節更加清晰,偽影更少。
5. 結論
論文提出了一種基于圖的超分辨率方法IPG,通過靈活的圖結構打破傳統方法的剛性限制,提升超分辨率性能。實驗結果表明,IPG在多個基準數據集上的表現優于現有的SR模型。論文設計了度靈活圖、像素節點和空間靈活性策略,使得IPG能夠充分利用圖的靈活性,在超分辨率任務中取得了顯著的提升。
掃碼關注我們
微信號:人工智能怎么學