w~視覺~合集13

我自己的原文哦~? ??https://blog.51cto.com/whaosoft/13384038

#xxx w視覺合集13~17沒了....

#ViTAR

作者提出了一種新穎的架構：任意分辨率的視覺 Transformer （ViTAR）。ViTAR中的自適應標記合并功能使模型能夠自適應地處理可變分辨率圖像輸入，逐步將標記合并到固定大小，極大地增強了模型的分辨率泛化能力，并且在處理高分辨率輸入時減少了計算成本。完美支持任意分辨率輸入的ViT！4032×4032等超大分辨率性能完爆DeiT等

本文解決了視覺 Transformer （ViTs）面臨的一個重大挑戰：它們在不同圖像分辨率之間的可擴展性受限。通常，當處理與訓練時看到的不同的分辨率時，ViTs的性能會下降。作者的工作引入了兩項關鍵創新來解決這個問題。首先，提出了一種新穎的模塊，用于動態調整分辨率，該模塊設計了一個單一的 Transformer 塊，專門用于實現高效的增量 Token 集成。其次，在視覺 Transformer 中引入了模糊位置編碼，以在多個分辨率之間提供一致的位置感知，從而防止對任何單一訓練分辨率的過擬合。

ViTAR（具有任意分辨率的視覺 Transformer ），展示了出色的適應性，在1120x1120分辨率下達到83.3%的top-1準確率，在4032x4032分辨率下達到80.4%的準確率，同時降低了計算成本。ViTAR在下游任務中也表現出強大的性能，如實例和語義分割，并且可以輕松與自監督學習技術（如 Mask 自動編碼器）結合使用。作者的工作為提高ViTs的分辨率可擴展性提供了一種成本效益高的解決方案，為更靈活和高效的高分辨率圖像處理鋪平了道路。

1 Introduction

Transformer在自然語言處理（NLP）領域巨大的成功激發了計算機視覺（CV）社區內的相當大探索。特別是，視覺Transformer（ViTs）將圖像分割為非重疊的塊，將每個塊投射成標記，然后應用多頭自注意力（MHSA）來捕捉不同標記之間的依賴關系。得益于Transformer卓越的建模能力，ViTs在多樣的視覺任務中取得了不錯的結果，包括圖像分類，目標檢測，視覺-語言建模，甚至是視頻識別。

圖1：與其他模型的比較：當輸入分辨率大于1792時，DeiT-B和ResFormer-B均遇到內存不足（OOM）錯誤。標注表示模型在FLOPS方面的計算負載。結果表明，ViTAR具有較低的計算開銷和特別強的分辨率泛化能力。

盡管在各個領域取得了成功，但在需要處理可變輸入分辨率的真實世界場景中，ViTs表現得并不盡如人意。很少有研究探索如何將ViTs適應到不同的分辨率上。實際上，沒有訓練可以涵蓋所有的分辨率，一種簡單且廣泛應用的方法是在將位置編碼輸入到ViT之前直接進行插值。然而，這種方法在圖像分類等任務中會導致性能顯著下降。為了解決這個問題，ResFormer在訓練過程中融入了多分辨率圖像。此外，對ViT使用的位置編碼進行了改進，將它們轉變為更加靈活的、基于卷積的位置編碼。

然而，ResFormer仍面臨挑戰。首先，它只能在相對較窄的分辨率變化范圍內保持高性能，如圖1所示。隨著分辨率增加，超過892甚至更高時，模型性能明顯下降。此外，由于采用了基于卷積的位置編碼，將ResFormer整合到廣泛采用的自監督框架中，如 Mask 自動編碼器（Masked AutoEncoder, MAE）變得具有挑戰性。

在這項研究中，作者提出了具有任意分辨率能力的視覺 Transformer （ViTAR），它以較低的運算負擔處理高分辨率圖像，并展現出強大的分辨率泛化能力。在ViTAR中，作者引入了自適應 Token 合并（ATM）模塊，該模塊迭代處理經過切塊嵌入的 Token 。ATM將所有 Token 散布到網格上。這個過程首先將網格內的 Token 視為一個單一單元。然后逐步合并每個單元內的 Token ，最終將所有 Token 映射到一個固定形狀的網格上。這個過程產生了所謂的“網格 Token ”集合。

隨后，這組網格 Token 通過一系列多個多頭自注意力模塊進行特征提取。ATM模塊不僅提高了模型卓越的分辨率適應性，同時也使得在處理高分辨率圖像時具有較低的計算復雜度。如圖1所示，與DeiT和ResFormer相比，ViTAR能更好地泛化到未見過的分辨率。此外，隨著輸入分辨率的增加，ViTAR相關的計算成本降低至僅相當于傳統ViT的十分之一，甚至更低。

為了使模型能夠泛化到任意分辨率，作者還設計了一種稱為模糊位置編碼（FPE）的方法。FPE引入了一定程度的位置擾動，將精確的位置感知轉化為帶有隨機噪聲的模糊感知。這一措施防止了模型對特定分辨率的位置過擬合，從而增強了模型的分辨率適應性。同時，FPE可以被理解為一種隱式數據增強，它讓模型能夠學習到更魯棒的位置信息，并實現更好的性能。

作者的貢獻可以總結如下：

作者提出了一種簡單而有效的多分辨率適配模塊——自適應標記合并器，使ViTAR能夠適應多分辨率推理的要求。這個模塊通過自適應地合并輸入標記，顯著提高了模型的分辨率泛化能力，并在高分辨率輸入下大大減輕了模型的計算負擔。
作者引入了一種模糊位置編碼（Fuzzy Positional Encoding），這種編碼讓模型在訓練過程中能夠感知到魯棒的位置信息，而不是過分擬合到特定的分辨率。作者將常用的精確點位置編碼轉換為模糊范圍感知。這顯著提高了模型對不同分辨率輸入的適應性。
作者進行了大量實驗來驗證作者方法在多分辨率推理中的有效性。作者的基礎模型在224、896和4032輸入分辨率下分別達到了81.9、83.4和80.4的top-1準確度。其魯棒性顯著超越了現有的ViT模型。ViTAR在實例分割和語義分割等下游任務中也展示了穩健的性能。

2 Related Works

視覺 Transformer 。視覺 Transformer （ViT）是一種強大的視覺架構，它在圖像分類、視頻識別和視覺-語言學習上展示了令人印象深刻的性能。已經從數據和計算效率的角度做出了許多努力來增強ViT。在這些研究中，大多數研究者通過微調將模型適應比訓練時更高的分辨率。很少有研究嘗試在不進行微調的情況下直接將模型適應未知分辨率，這通常會導致性能下降。在高分辨率上進行微調通常會產生額外的計算成本。因此，設計一個可以直接處理多種分辨率的視覺模型尤為重要。然而，這個方向仍然研究得不夠充分。

多分辨率推理。研究單一視覺模型能夠在不同分辨率下進行推理仍然是一個很大程度上未被探索的領域。對于大多數視覺模型來說，如果在推理時使用的分辨率與訓練時使用的分辨率不同，且在沒有微調的情況下直接進行推理，會觀察到性能下降。作為這一領域的一項開創性工作，ResFormer采用了一種涉及多分辨率訓練的方法，使模型能夠適應各種分辨率的輸入圖像。它還加入了幾種獨特的位置編碼，增強了模型適應不同分辨率的能力。

然而，ResFormer使用的位置編碼是基于卷積神經網絡，這種配置難以應用于如MAE這樣的自監督學習框架中。此外，ResFormer本身基于原始的ViT架構，當輸入分辨率增加時，它會帶來顯著的計算開銷。為了使模型能夠適應更廣泛的分辨率范圍，并適用于常用的自監督學習框架，有必要進行進一步的模型優化。

位置編碼。位置編碼對ViT至關重要，通常為其提供位置感知和性能提升。ViT的早期版本使用了正弦余弦編碼來傳遞位置信息，一些研究展示了這種位置編碼方法的有限分辨率魯棒性。相比之下，基于卷積的位置編碼顯示出更強的分辨率魯棒性。當面臨未見過的分辨率時，使用卷積位置編碼的模型甚至可以實現性能提升。不幸的是，卷積位置編碼阻礙了模型在如MAE這樣的自監督學習框架中的應用。這使得模型難以應用于大規模未標注數據集的訓練。

3 Methods

Overall Architecture

ViTAR的總體框架如圖2所示，主要包括自適應標記合并器（ATM），模糊位置編碼（FPE）以及傳統的ViT架構。作者沒有采用分層結構；相反，作者使用類似于ResFormer和DeiT的直接貫穿架構。

Adaptive Token Merger (ATM)

圖3：網格注意力機制示意圖。

類似于標準的多頭自注意力機制, GridAttention同樣融合了殘差連接。為了對齊標記的形狀,作者使用了帶有平均池化的殘差連接。完整的GridAttention如公式1所示。

Fuzzy Positional Encoding

許多研究指出，常用的可學習位置編碼和正弦余弦位置編碼對于輸入分辨率的改變非常敏感，并且它們未能提供有效的分辨率適應性。盡管基于卷積的位置編碼展現出更好的分辨率魯棒性，但其對相鄰標記的感知阻止了其在如MAE這樣的自監督學習框架中的應用。

作者的FPE與上述方法不同。在增強模型分辨率魯棒性的同時, 它并不像卷積那樣引入特定的空間結構。因此, 它可以應用于自監督學習框架中。這一特性使得ViTAR能夠應用于大規模、未標注的訓練集進行訓練, 旨在獲得更強大的視覺基礎模型。

在推理過程中, 作者不再使用模糊位置編碼, 而是選擇精確的位置編碼。當輸入圖像分辨率發生改變時, 作者對可學習的位置嵌入進行插值處理。由于在訓練階段使用了模糊位置編碼, 對于任何插值的位置編碼, 模型可能已經以某種方式看到并使用了它。因此, 模型獲得了強大的位置適應性。結果, 在推理過程中, 面對未見過的分辨率輸入時, 模型仍然表現出穩健的性能。

Multi-Resolution Training

類似于ResFormer，在訓練ViTAR時，作者也采用了多分辨率訓練方法。與ResFormer相比，ViTAR在處理高分辨率圖像時顯著降低了計算需求，這使得作者能夠在訓練過程中使用更廣泛的分辨率。與處理包含各種分辨率的輸入批次的ResFormer不同，并使用KL損失進行跨分辨率監督，ViTAR則處理每批具有一致分辨率的輸入，僅依賴基本的交叉熵損失進行監督。

基于多分辨率訓練策略，ViTAR可以應用于非常廣泛的分辨率，并在圖像分類任務中取得良好結果。同時，在處理高分辨率輸入任務（實例分割、語義分割）時，ViTAR以更小的計算成本達到了現有模型的相似性能。具體來說，在需要高分辨率輸入的實例分割和語義分割任務中，ViTAR在使用50%的FLOPs情況下，達到了與ResFormer和DeiT相似的結果

4 Experiments

作者在多個視覺任務上進行了廣泛的實驗，例如在ImageNet-1K上的圖像分類，在COCO上的實例分割，以及在ADE20K上的語義分割。作者還將在自監督框架MAE上訓練模型，以驗證ViTAR與MAE之間的兼容性。在這些之后，作者進行了消融研究，以驗證ViTAR中每個組件的重要性。

Image Classification

表1：大小“S”與大小“B”的比較。與DeiT和ResFormer相比，ViTAR能夠以極低的計算成本處理高分辨率輸入圖像，并展現出強大的分辨率泛化能力。

Object Detection

Semantic Segmentation

設置。遵循ResFormer的做法，作者采用MMSegmentation實現了UperNet，以驗證ViTAR的性能。作者使用的數據集是ADE20K。為了訓練UperNet，作者遵循Swin中的默認設置。作者選擇AdamW作為優化器，用于訓練模型，迭代次數為80k/160k。

表4：在ADE20K數據集上不同 Backbone 網絡的成果與比較。所有 Backbone 網絡均在ImageNet-1k上進行預訓練。

Compatibility with Self-Supervised Learning

Settings.?ResFormer采用了卷積進行位置編碼，這使得它難以與像Mask AutoEncoder（MAE）這樣的自監督學習框架兼容，因為MAE會破壞圖像的空間結構。由于ViTAR沒有引入與卷積相關的空間結構，且作者提出的模糊位置編碼（FPE）不需要額外的空間信息，因此它可以更方便地融入到MAE中。與標準的MAE不同，在訓練期間作者仍然采用多分辨率輸入策略。作者對ViTAR-B進行了300個周期的預訓練，并額外進行了100個周期的微調。

結果。作者在表6中報告了實驗結果。僅預訓練了300個周期的ViTAR，在與預訓練了1600個周期的ViT模型對比中顯示出明顯的優勢。當輸入分辨率提高時，ViT+MAE的性能顯著下降。另一方面，ViTAR+MAE顯示出強大的分辨率魯棒性。即使輸入分辨率超過4000，模型仍然保持高性能。這些發現表明，ViTAR在自監督學習框架中具有很大潛力，如MAE所示。ViTAR相對于MAE的性能優勢可能源于兩個方面。第一個是ATM使模型能夠學習更高質量的標記，為模型提供了一部分信息增益。第二個是FPE作為一種隱式數據增強，允許模型學習更魯棒的位置信息。正如Droppos所示，模型的位置信息對其學習過程至關重要。

表6：使用MAE框架的結果。作者所采用的訓練分辨率為（224, 448, 672, 896, 1120）。

Ablation Study

表7：ATM的消融研究。所有實驗都是基于ViTAR-S進行的。

表7的結果顯示，作者的ATM顯著提高了模型的性能和分辨率適應性。特別是在高分辨率場景中，ATM的優勢越來越明顯。具體來說，在4032分辨率下，作者提出的ATM比 Baseline 提高了7.6%的準確率。在224分辨率下，ATM也比AvgPool表現出0.5%的性能提升。

模糊位置編碼。?作者比較了不同的位置編碼對模型分辨率泛化能力的影響。這包括在ResFormer中常用的simcos絕對位置編碼（APE），條件位置編碼（CPE），全局-局部位置編碼（GLPE），Swin中的相對位置偏置（RPB），以及作者提出的FPE。值得注意的是，只有APE和FPE與MAE框架兼容。由于卷積固有的空間位置結構，另外兩種位置編碼難以整合到MAE學習框架中。對于沒有采用MAE的模型，作者使用ViTAR-S進行實驗，而對于采用MAE的模型，作者使用ViTAR-B。

不同位置編碼在各種測試分辨率下的結果如表8所示。可以看出，作者提出的FPE在分辨率泛化能力方面表現出顯著優勢。此外，在MAE自監督學習框架下，FPE相對于APE也表現出更優越的性能，證明了FPE在更廣泛領域的潛在適用性。具體來說，在4032輸入分辨率下，FPE的top-1準確率超過了GLPE 4.5%。在MAE框架中，FPE比APE高出4.6%。

訓練分辨率。?與ResFormer僅在訓練期間使用較低分辨率（128、160、224）不同，由于ViTAR的計算效率，它可以處理具有非常高分辨率的輸入。此外，采用更廣泛的分辨率范圍增強了ViTAR的泛化能力。在之前的實驗中，作者使用（224、448、672、896、1120）這些分辨率來訓練所有模型。在本節中，作者嘗試減少訓練期間使用的分辨率，以檢驗模型的分辨率泛化能力。

表9：訓練分辨率的消融研究。在訓練過程中使用更多分辨率顯著增強了模型的分辨率泛化能力。所有實驗都是基于ViTAR-S進行的。

如表9所示的實驗結果表明，在實驗中使用的分辨率范圍內，模型在訓練中使用的分辨率越高，其分辨率泛化能力越強。特別是，當ViTAR使用這五個分辨率（224、448、672、896、1120）進行訓練時，模型展現出最強的分辨率泛化能力。與僅使用（224、448）進行訓練相比，在高分辨率（4032）上的準確率提高了4.9%。這有力地證明了多分辨率訓練的有效性。

5 Conclusions

在這項工作中，作者提出了一種新穎的架構：任意分辨率的視覺 Transformer （ViTAR）。ViTAR中的自適應標記合并功能使模型能夠自適應地處理可變分辨率圖像輸入，逐步將標記合并到固定大小，極大地增強了模型的分辨率泛化能力，并且在處理高分辨率輸入時減少了計算成本。此外，ViTAR還融入了模糊位置編碼，使模型能夠學習魯棒的位置信息，并處理訓練期間未遇到的高分辨率輸入。

ViTAR還與現有的基于MAE的自監督學習框架兼容，表明其潛在適用于大規模未標注數據集。在需要高分辨率輸入的任務，如實例分割和語義分割中，ViTAR在幾乎不損失性能的情況下顯著降低了計算成本。作者希望這項研究能夠激發后續對高分辨率或可變分辨率圖像處理的研究。

#EMAGE

面部+肢體動畫，一個框架搞定從音頻生成數字人表情與動作

AI 數字人面部與肢體的驅動算法作為數字人研發的重要環節，可以大幅度降低 VR Chat、虛擬直播和游戲 NPC 等領域中的驅動成本。

近年來，基于語音生成面部、肢體和手部的動作的各類獨立基線模型已經逐漸成熟。然而，直接將不同模型的動畫結果混合會導致最終全身整體的動畫不協調。研究者逐漸考慮使用統一的框架來同時生成面部表情和肢體動作。

然而，盡管研究社區在面部的表情和肢體的動作上分別存在統一的數據標準，已有的基線模型僅在獨立的數據格式上進行訓練和評估，比如 FLAME (面部) 和 AMASS (肢體)。社區仍然缺少面向全身的，格式統一的訓練數據和基線模型。

針對此問題，東京大學，清華大學，德國馬普所的研究者聯合提出了 EMAGE，一個從音頻和動作的掩碼中生成人體全身動作的框架，包括面部、局部肢體、手部和全局運動。

論文地址：https://arxiv.org/abs/2401.00374
項目主頁：https://pantomatrix.github.io/EMAGE/
視頻結果：https://www.youtube.com/watch?v=T0OYPvViFGE
hugging face space 鏈接：https://huggingface.co/spaces/H-Liu1997/EMAGE

EMAGE 研究論文包含 BEAT2 與 EMAGE 兩部分。用戶可以自定義動作的輸入，在接受預定義的時序與空間的動作輸入方面具有靈活性，最終可生成完整的、與音頻相同步的結果，EMAGE?輸出全身動作的效果屬于業界 SOTA。

BEAT2: 即 BEAT-SMPLX-FLAME，是語音與基于網格的動作數據的全身數據集，共有 60 小時的數據。BEAT2 將 SMPLX 的肢體與 FLAME 的面部參數相結合，并進一步解決了頭部、頸部和手指等運動的模型問題，為研究社區提供了一個標準化且高質量的 3D 動捕數據集。

左：將精調后的 SMPLX 肢體參數結果（Refined Moshed）與 BEAT 的原始骨架數據（BEAT）、使用 AutoRegPro 的重定向數據（Retargeted）以及 Mosh++ 的初始結果（Moshed）進行比較，精調的結果擁有正確的頸部彎曲、適當的頭頸形狀比例和詳細的手指彎曲。

右：將原始 BEAT 中的混合表情權重可視化，與 ARKit 的基礎臉部模板（BEAT）、基于線性 Wrapped 的方法（Wrapped Optimum）以及人工 PCA 映射 FACs 的表情優化（Handcraft Optimum）進行比較。最終的人工映射優化基于 FLAME 混合表情，實現了準確的唇動細節和自然對話時的口型。

EMAGE：在訓練過程中利用了肢體動作掩碼的先驗知識來提高推理性能。EMAGE 使用了一個音頻與動作掩碼的轉換器，有效提高了音頻生成動作和動作掩碼下的動作重建的聯合訓練的效率，從而有效地將音頻和肢體動作的提示幀編碼進網絡。動作掩碼的肢體提示幀分別被用于生成面部和肢體動作。此外，EMAGE 自適應地合并了音頻的節奏和內容的語音特征，并利用身體各個部位 (共計四種) 的組合式 VQ- VAEs 來增強結果的真實性和多樣性。

下圖給出了?EMAGE?生成肢體動畫的例子：

從上到下依次為：真實數據、不使用肢體提示幀生成的數據、使用肢體提示幀生成的數據、肢體提示幀的可視化：

EMAGE 可以生成多樣化、具有語義和與音頻同步的肢體動作，例如，對于 “spare time” 這個提示詞，可以同時舉起雙手，而對于 “hike in nature” 則可以采取放松的動作。

此外，如第三行和第四行所示，EMAGE 可以靈活地接受非音頻同步的肢體提示幀，基于任意幀或關節，以此明確引導生成的動作。例如，重復類似的動作比如舉起雙手，或是改變行走方向等。注：此圖中，第三列的生成結果的關節提示（灰色網格），與第四行的肢體提示幀的關節（綠色網格）并不一致。

下圖是?EMAGE?生成面部動畫的結果：

EMAGE 生成的面部運動與基線模型的對比。

分別是臉部單獨生成的方法如 faceformer 與 codetalker、全身整體動作生成方法如 Habibie et al. 和 Talkshow。在 BEAT2 數據集中，因為 codetalker 具有離散的面部先驗知識，所以即使 codetalker 的 MSE（均方誤差）更高，即更偏離真實數據，但主觀結果更好。而 EMAGE 則利用離散的面部先驗知識和動作掩碼的肢體提示幀，實現了更精準的唇動性能。

模型介紹

EMAGE 是一個支持用戶自定義輸入，帶有動作掩碼與音頻輸入的全身動作建模框架，使用新提出的數據集 BEAT2（BEAT-SMPLX-FLAME），生成面部表情、局部身體動作、手部動作和全局平移運動時，是以音頻與動作掩碼作為基準聯合訓練。灰色身體部位是用戶輸入的肢體提示幀，藍色表示整體的網絡輸出。? ?

算法細節

EMAGE 采取了兩種訓練路線：動作掩碼重建（MaskedGesture2Gesture，即 MG2G）和使用音頻的動作生成（Audio2Gesture，即 A2G）。

MG2G：通過基于 Transformer 的動作的時空編碼器與基于交叉注意力的動作解碼器，來對肢體提示幀進行編碼。
A2G：利用輸入的肢體提示與獨立的的音頻編碼器，對于經過預訓練的面部和肢體潛征進行解碼。

可切換的交叉注意力層在上述過程中作為關鍵組件，對于合并肢體提示幀和音頻特征起重要作用。此融合使特征被有效地解耦并可以被用于動作的解碼。動作潛征被重建之后，EMAGE 使用預訓練的 VQ-Decoder 來對于面部和局部肢體運動進行解碼。

此外，預訓練的全局運動預測器也被用來估計全身的全局平移，使得模型生成逼真并且連貫動作的能力得到加強。

CRA 和 VQ-VAEs 的與訓練模型的細節

左圖：內容節奏注意力模塊 (CRA) 將音頻的節奏（初始語音和振幅）與內容（來自文本的預訓練詞條嵌入）自適應地相融合。這種架構可以讓特定幀更有效地基于音頻的內容或節奏，生成更加具有語義的動作。

右圖：通過對于面部、肢體上半身、手部和肢體下半身的分別重建，來預訓練四個組合式 VQ-VAEs 模型，以更加明示地將與音頻無關的動作相解耦。

前向傳播網絡對比

直接融合模塊 (a) : 將音頻特征與未精調的肢體特征合并，僅基于位置嵌入重組音頻特征。
自注意力解碼器模塊 (b) : 為 MLM 模型中所采用的模塊，只限于自回歸推理的任務。
EMAGE (c) : 融合 (a) 與 (b) 的長處，同時使音頻特征融合更有效，且可以自回歸解碼。

#DragNoise

文章的工作聚焦于利用擴散模型語義傳播實現交互式點控制的圖像編輯，只需點幾個點，即可對用戶輸入的真實圖片和生成圖片精準快速的編輯，再也不用擔心甲方 “天馬行空” 的要求！拖拽P圖又雙叒升級了！DragNoise實現更快更準的拖拽編輯

新加坡管理大學何盛烽團隊聯合華南師范大學在 CVPR 2024 上發表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation》。這一工作聚焦于利用擴散模型語義傳播實現交互式點控制的圖像編輯，只需點幾個點，即可對用戶輸入的真實圖片和生成圖片精準快速的編輯，再也不用擔心甲方 “天馬行空” 的要求！

DragNoise 對內容填充、擦除、轉臉、姿勢控制等要求都能輕松快速的搞定，想要拖動哪里只需點一個紅點，想要拖到哪里只需點一個藍點，DragNoise 即可將紅點的內容拖拽到藍點。相對于 SOTA 方法 DragDiffusion，我們方法在有效保留圖片原有信息的同時實現更精準快速的拖拽。

論文題目：

Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation

論文地址：

??https://arxiv.org/abs/2404.01050??

代碼地址：

??https://github.com/haofengl/DragNoise??

DragNoise

DragDiffusion

在這一領域，一些近期的工作引起了廣泛關注。利用生成對抗網絡 (GAN) 的 DragGAN 是一個重要里程碑，DragDiffusion 進一步應用到擴散模型上，下圖展示了這兩個方法的主要思想。不同于傳統的“Outer-inversion”將真實圖像反演至 latent 空間，我們將這種將用戶編輯反演至 latent 空間的內部優化過程稱為“Inner-inversion”。?
1. DragGAN：使用 StyleGAN2 生成器的第 6 層特征作為運動監督，將拖拽編輯反演至 latent code，從而產生相應的拖動結果圖。盡管 DragGAN 具有創新性，但基于 GAN 固有的生成效果局限性使其無法獲得高質量的編輯結果。此外，該工作和其他基于 GAN 的編輯方法涉及優化新的 latent code，難以保留圖片全局內容。

DragGAN

2. DragDiffusion 利用大規模預訓練擴散模型的優勢，在這一領域取得了顯著進步。DragDiffusion 延續了 DragGAN 的“Inner-inversion”方法，利用 U-Net 中間特征來監督優化噪聲 latent map，從而控制后續去噪過程生成編輯后的圖片。

然而，我們發現 DragDiffusion 出現了兩個主要問題：梯度消失導致的拖拽不足或無效，以及較低的反演保真度。DragDiffusion 的反演反向傳播鏈較長，當控制點前后的特征差異很小時，梯度消失的問題就會加劇，導致結果出現“欠拖拽”。

此外，保持圖像的保真度仍然是反演技術的長期挑戰。雖然 DragDiffusion 相比 DragGAN，通過將“Inner-inversion”擴展到二維 latent map，改善了空間控制，但由于其優化路徑為反傳到去噪過程中的有噪聲 latent map，仍然難以保持較高的保真度。

DragDiffusion

相比于以上的方法，我們提出的方法 DragNoise 改變預測的噪聲并傳播優化來進行圖像編輯。

DragNoise 的核心思想來源于我們對在擴散模型中一種“middle-block replacement”的操作的探索。該操作從某個去噪時間步開始，將不同層的特征復制到所有后續 timestep 的對應層。通過觀察 DDIM inversion 重建圖像的效果，我們探索了擴散模型在何時以及何處學習到何種層次的語義信息。

如下圖所示，我們發現，bottleneck 特征是一種最優擴散語義表示，適合于高效編輯。由于它可以在早期 timestep 中有效地被編輯，因此操縱 bottleneck 特征可以平滑地傳播到后面的去噪步驟，從而確保結果圖像擴散語義的完整性。此外，由于優化 bottleneck 的路徑短，有效地避免了梯度消失問題。?

Middle-Block Replacement

如下圖所示，我們的方法 DragNoise 包括兩個過程——擴散語義優化和擴散語義傳播：

擴散語義優化：DragNoise 的編輯過程開始于訓練高級語義的 timestep (例如，t=35)，在此階段針對用戶的拖拽編輯對 U-Net 的 bottleneck 特征進行擴散語義優化。優化后的 bottleneck 特征學習到預期的拖拽效果，并使 U-Net 輸出相應的操縱噪聲。
擴散語義傳播：上一個步驟中優化的 bottleneck 特征包含了目標語義，因此與上面討論的“middle-block replacement”操作相似，我們通過替換相應的 bottleneck 特征將優化后的 bottleneck 特征傳播到所有后續時間步，從而避免了冗余的特征優化。這種替換以穩定、高效的方式顯著增強了操縱效果。

DragNoise

我們使用拖拽編輯數據集 DragBench 和不同的示例圖像進行了廣泛的定量和定性實驗。如下圖，DragDiffusion 在大幅編輯時，會出現破壞周圍特征的情況。DragGAN 由于其生成能力的限制，對用戶輸入的圖片編輯會嚴重失真，即使對于 GAN 生成的圖片（下圖中小貓），由于其優化的 latent code 為一維特征，缺少空間控制能力，會出現全局變化。

另外，我們在編輯點周圍特征相似的極端情況下進行了實驗，我們方法可以實現精準的控制，且控制能力優于 FreeDrag 方法。

與 DragDiffusion 相比，DragNoise 顯著減少了 50% 以上的優化步驟。結果表明了 DragNoise 的編輯具有突出的效率和靈活性。

我們在 DragBench 數據集上進行了定量實驗，結果達到了 SOTA。

?此外，我們展示更多和 DragDiffusion 的對比效果，以表明我們方法廣泛的有效性。

最后，我們展示更多的 DragNoise 的編輯過程，以表明 DragNoise 的連續性和穩定性。

#PSLNet

本文分享論文??Perceptive self-supervised learning network for noisy image watermark removal??，由西工大&廣西師大&港中文聯合提出一種基于感知自監督學習網絡的噪聲圖像去水印方法。

作者：田春偉，鄭夢華，李波，張艷寧，張師超，張大鵬
單位：西北工業大學、空天地海一體化大數據應用技術國家工程實驗室、廣西師范大學、香港中文大學
原文鏈接：https://arxiv.org/abs/2403.02211
代碼鏈接：https://github.com/hellloxiaotian/PSLNet

01摘要

現有方法通常使用有監督方式來訓練圖像去水印模型。然而，在現實世界中難以獲得參考圖像以及相機拍攝圖像過程中會受到噪聲的影響。

為了克服這些缺點，本文中提出了一種基于感知自監督學習網絡的噪聲圖像去水印方法（Perceptive Self-supervised Learning Network for Noisy Image Watermark Removal，PSLNet）。PSLNet依賴于一個并行網絡完成圖像去除噪聲和水印。

其中，上網絡使用任務分解的思想依次去除噪聲和水印。下網絡利用退化模型的思想同時去除噪聲和水印。兩個網絡能提取互補信息，完成噪聲圖像的去水印。具體為，配對的水印圖像是通過自監督的方式獲得的，而配對的噪聲圖像是通過監督的方式獲得的。為了增強獲得圖像的清晰度，通過交互兩個子網絡和融合獲得的清晰圖像進一步提取結構信息和增強像素，提升圖像水印去除的效果。

此外，考慮到紋理信息，使用混合損失來增強噪聲圖像水印去除的魯棒模型。與現有的卷積神經網絡相比，提出的PSLNet在噪聲圖像水印去除方面非常有效。

PSLNet代碼可以在https://github.com/hellloxiaotian/PSLNet獲取。

主要貢獻：

使用自監督思路來解決非參考圖像的圖像水印去除問題。
利用分解和退化模型的思想，同時處理帶有噪聲和水印的圖像復原任務。
設計了融合機制增強結構信息和增強像素，進一步提升噪聲圖像水印去除的視覺效果。
設計結構和紋理混合損失來提高噪聲圖像水印去除的性能。

02 方法

PSLNet網絡結構如圖1所示：

圖1 PSLNet網絡結構圖

03 實驗

本文提出的方法在本文提出的數據集上超過了很多流行的方法，如：DRD-Net、EAFNWDD和FastDerainNet等。更多的結果如表1-表8所示：

表1 不同方法復原透明度為0.3，噪聲等級分別為0、15、25和50的噪聲水印圖像的PSNR、SSIM和LPIPS結果

表2 不同方法復原透明度為0.3、0.5、0.7和1.0，噪聲等級分別為25的噪聲水印圖像的PSNR、SSIM和LPIPS結果

表3 不同方法復原透明度為0.3，噪聲等級分別為0、15、25和50（盲噪聲訓練）的噪聲水印圖像的PSNR、SSIM和LPIPS結果

表4 不同方法復原透明度為0.3（盲水印訓練），噪聲等級分別為0、15、25和50（盲噪聲訓練）的噪聲水印圖像的PSNR、SSIM和LPIPS結果

表5 不同方法復原透明度為0.5、0.7和1.0（盲水印訓練），噪聲等級為25（盲噪聲訓練）的噪聲水印圖像的PSNR、SSIM和LPIPS結果

表6 不同方法復原透明度為0，噪聲等級為15、25和50（盲噪聲訓練）的噪聲圖像的PSNR、SSIM和LPIPS結果

表7 不同方法復原透明度為0.3、0.5、0.7和1.0（盲水印圖像訓練），噪聲等級為0的水印圖像的PSNR、SSIM和LPIPS結果? ? ?

表8 不同圖像去水印方法的復雜度?

此外，本文也制作了2組可視化結果從定性分析角度來驗證本文提出方法的有效性，如圖2和圖3所示：

圖2 不同方法的可視化結果（噪聲等級為25，水印透明度為0.3）：(a)原圖 (b)噪聲水印圖像(20.02 dB) (c) DnCNN(28.50 dB) (d) DRDNet(27.03 dB) (e) FastDerainNet (26.32 dB) (f) FFDNet(26.98 dB) (g) IRCNN(27.39 dB) (h) PSLNet(29.72 dB)

圖3 不同方法的可視化結果（噪聲等級為15，水印透明度為0.3）：(a)原圖 (b)噪聲水印圖像(24.42 dB) (c) DnCNN (34.15 dB) (d) DRDNet (27.46 dB) (e) FastDerainNet (31.88 dB) (f) FFDNet (32.67 dB) (g) IRCNN (32.96 dB) (h) PSLNet (35.19 dB)

04 結論

本文提出了一種基于感知自監督學習網絡的噪聲圖像去水印方法。該方法依賴于一個并行網絡，并根據任務分解的解決方案思路，去除噪聲和水印。其中，上網絡根據任務分解的思想，逐步去除噪聲和水印。下網絡根據退化模型的思想，同時去除噪聲和水印。

為了解決獲取參考圖像困難的問題，采用自監督學習方法根據給定的水印圖像獲取參考圖像。為了獲得更清晰的圖像，兩個子網絡及其獲得的圖像分別被融合，以增強結構信息和像素。此外，通過感知思想和像素關系，設計了混合損失，以提取更多的紋理信息。

廣泛的實驗結果表明，提出的感知自監督學習網絡方法對噪聲圖像水印去除非常有效。

#AFNet

本文首次提出基于在噪聲位姿等退化場景下的多視角深度估計的魯棒性基準測試，分析了這些退化的原因以及如何解決這些退化場景，通過提出的自適應融合方法AFNet，充分結合了單視角和多視角深度估計的優勢。實驗表明，AFNet在非退化場景（位姿，內參等精準）以及退化場景下同時達到了SOTA。

論文標題：Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

論文鏈接：https://arxiv.org/pdf/2403.07535.pdf

代碼鏈接：https://github.com/Junda24/AFNet/

文章第一作者是來自華中科技大學的博士生程俊達，其他作者來自大疆科技。

1.引言

隨著計算機視覺的發展，基于深度學習的單目多視角深度估計已經在多個公開數據集上展現出了卓越的性能，在理想情況下，它比單視角深度估計擁有更高的精度（metric scale）和魯棒性。但是多視角深度估計的精度高度依賴于相機內參，相機位姿的精度，以及足夠的translation來進行三角化獲取metric depth。而在實際的自動駕駛應用場景中，通過SLAM獲得的位姿以及相機內參是帶有噪聲的，并且汽車可能會在交通燈處停車或者因掉頭而沒有足夠的translation，這些不可避免的退化場景是無法滿足投影原理的，進而極大的影響多視角深度估計的精度。

為了應對退化場景這一挑戰，我們提出了單視角和多視角的自適應融合方法AFNet。相比多視角，單視角深度估計更多的是依賴于從訓練數據中獲取的對場景的語義理解以及透視投影線索，在無紋理區域，以及動態場景會更加魯棒，并且不依賴于相機位姿，所以對于上述退化場景下是更有優勢的。但是由于尺度模糊問題，單視角深度估計的精度是低于多視角深度估計的。

因此我們認為，能不能通過一種融合方式，充分的發揮單視角和多視角深度估計的優勢，在保持多視角的高精度的同時，融合獲得單視角深度估計在退化場景下的魯棒性，同時達到精度高魯棒性好。

因此，我們通過設計基于重投影置信度的自適應融合方法，在不同場景下去自適應選擇單視角和多視角深度估計中更可靠的分支，實現了同時在噪聲pose以及精準pose下的高精預測，極大的提升了深度估計系統的魯棒性。

作者的貢獻可以總結如下：

我們提出了AFNet來自適應的融合單視角和多視角深度從而獲得了更加魯棒高精的fusion depth，在DDAD和KITTI自動駕駛數據集達到了SOTA。
我們是第一個提出融合單視角和多視角來解決多視角深度估計在噪聲pose等退化場景下會fail的，并且提出了一個新的魯棒性測試benchmark來評估多視角深度估計系統在噪聲pose下的性能。我們的方法在魯棒性測試benchmark上也是達到了SOTA。
我們提出的AF module能夠提升多視角深度估計方法在動態物體區域的性能。

2.方法

1.整體結構

2.單視角和多視角分支

3.自適應融合模塊

3.實驗

1.benchmark performance

當擁有gt pose作為輸入時，我們在單目深度估計方法中達到SOTA，并且具有很明顯的優勢，并且我們實現了精度和效率的優異平衡。

2.動態物體區域表現

我們的AF module能夠顯著提升多視角深度估計在動態物體區域的表現，如上表所示。

3.Robustness benchmark performance

AFNet在所提出的魯棒性基準測試中也是顯著優于其他sota方法，AFNet隨著pose噪聲的逐漸增大，仍舊保持較高的精度，擁有最佳的魯棒性。? ?

4.可視化結果

隨著噪聲的增大，可以看出其他方法由于噪聲而出現明顯的噪點甚至完全fail，而我們的AFNet始終保持精準預測，具有更強的抗噪聲干擾能力。

多幀點云融合可視化結果，可以看出我們的depth具有很好的多幀一致性以及精準的邊緣細節。

4.結論

作者提出了一個單視角，多視角自適應融合的深度估計系統，有效解決了多視角深度估計無法處理退化場景的難題，同時提升了精度和魯棒性，大量實驗證明了該方法的優越性和有效性。

#img2img-turbo

可玩性極強！

簡筆素描一鍵變身多風格畫作，還能添加額外的描述，這在 CMU、Adobe 聯合推出的一項研究中實現了。512x512圖像推理，A100只用0.11秒

作者之一為 CMU 助理教授朱俊彥，其團隊在 ICCV 2021 會議上發表過一項類似的研究：僅僅使用一個或數個手繪草圖，即可以自定義一個現成的 GAN 模型，進而輸出與草圖匹配的圖像。

論文地址：https://arxiv.org/pdf/2403.12036.pdf
GitHub 地址：https://github.com/GaParmar/img2img-turbo
試玩地址：https://huggingface.co/spaces/gparmar/img2img-turbo-sketch
論文標題：One-Step Image Translation with Text-to-Image Models

效果如何？我們上手試玩了一番，得出的結論是：可玩性非常強。其中輸出的圖像風格多樣化，包括電影風、3D 模型、動畫、數字藝術、攝影風、像素藝術、奇幻畫派、霓虹朋克和漫畫。

prompt 為「鴨子」。

prompt 為「一個草木環繞的小房子」。

prompt 為「打籃球的中國男生」。

?prompt 為「肌肉男兔子」。

在這項工作中，研究者對條件擴散模型在圖像合成應用中存在的問題進行了針對性改進。這類模型使用戶可以根據空間條件和文本 prompt 生成圖像，并對場景布局、用戶草圖和人體姿勢進行精確控制。

但是問題在于，擴散模型的迭代導致推理速度變慢，限制了實時應用，比如交互式 Sketch2Photo。此外模型訓練通常需要大規模成對數據集，給很多應用帶來了巨大成本，對其他一些應用也不可行。

為了解決條件擴散模型存在的問題，研究者引入了一種利用對抗學習目標來使單步擴散模型適應新任務和新領域的通用方法。具體來講，他們將 vanilla 潛在擴散模型的各個模塊整合到擁有小的可訓練權重的單個端到端生成器網絡，從而增強模型保留輸入圖像結構的能力，同時減少過擬合。

研究者推出了 CycleGAN-Turbo 模型，在未成對設置下，該模型可以在各種場景轉換任務中優于現有基于 GAN 和擴散的方法，比如晝夜轉換、添加或移除霧雪雨等天氣效果。

同時，為了驗證自身架構的通用性，研究者對成對設置進行實驗。結果顯示，他們的模型 pix2pix-Turbo 實現了與 Edge2Image、Sketch2Photo 不相上下的視覺效果，并將推理步驟縮減到了 1 步。

總之，這項工作表明了，一步式預訓練文本到圖像模型可以作為很多下游圖像生成任務的強大、通用主干。

方法介紹

該研究提出了一種通用方法，即通過對抗學習將單步擴散模型（例如 SD-Turbo）適配到新的任務和領域。這樣做既能利用預訓練擴散模型的內部知識，同時還能實現高效的推理（例如，對于 512x512 圖像，在 A6000 上為 0.29 秒，在 A100 上為 0.11 秒）。

此外，單步條件模型 CycleGAN-Turbo 和 pix2pix-Turbo 可以執行各種圖像到圖像的轉換任務，適用于成對和非成對設置。CycleGAN-Turbo 超越了現有的基于 GAN 的方法和基于擴散的方法，而 pix2pix-Turbo 與最近的研究（如 ControlNet 用于 Sketch2Photo 和 Edge2Image）不相上下，但具有單步推理的優勢。

添加條件輸入

為了將文本到圖像模型轉換為圖像轉換模型，首先要做的是找到一種有效的方法將輸入圖像 x 合并到模型中。

將條件輸入合并到 Diffusion 模型中的一種常用策略是引入額外的適配器分支（adapter branch），如圖 3 所示。

具體來說，該研究初始化第二個編碼器，并標記為條件編碼器（Condition Encoder）。控制編碼器（Control Encoder）接受輸入圖像 x，并通過殘差連接將多個分辨率的特征映射輸出到預訓練的 Stable Diffusion 模型。該方法在控制擴散模型方面取得了顯著成果。

如圖 3 所示，該研究在單步模型中使用兩個編碼器（U-Net 編碼器和條件編碼器）來處理噪聲圖像和輸入圖像遇到的挑戰。與多步擴散模型不同，單步模型中的噪聲圖直接控制生成圖像的布局和姿態，這往往與輸入圖像的結構相矛盾。因此，解碼器接收到兩組代表不同結構的殘差特征，這使得訓練過程更加具有挑戰性。

直接條件輸入。圖 3 還說明了預訓練模型生成的圖像結構受到噪聲圖 z 的顯著影響。基于這一見解，該研究建議將條件輸入直接饋送到網絡。為了讓主干模型適應新的條件，該研究向 U-Net 的各個層添加了幾個 LoRA 權重（見圖 2）。

保留輸入細節

潛在擴散模型 (LDMs) 的圖像編碼器通過將輸入圖像的空間分辨率壓縮 8 倍同時將通道數從 3 增加到 4 來加速擴散模型的訓練和推理過程。這種設計雖然能加快訓練和推理速度，但對于需要保留輸入圖像細節的圖像轉換任務來說，可能并不理想。圖 4 展示了這一問題，我們拿一個白天駕駛的輸入圖像（左）并將其轉換為對應的夜間駕駛圖像，采用的架構不使用跳躍連接（中）。可以觀察到，如文本、街道標志和遠處的汽車等細粒度的細節沒有被保留下來。相比之下，采用了包含跳躍連接的架構（右）所得到的轉換圖像在保留這些復雜細節方面做得更好。

為了捕捉輸入圖像的細粒度視覺細節，該研究在編碼器和解碼器網絡之間添加了跳躍連接（見圖 2）。具體來說，該研究在編碼器內的每個下采樣塊之后提取四個中間激活，并通過一個 1×1 的零卷積層處理它們，然后將它們輸入到解碼器中對應的上采樣塊。這種方法確保了在圖像轉換過程中復雜細節的保留。

實驗

該研究將 CycleGAN-Turbo 與之前的基于 GAN 的非成對圖像轉換方法進行了比較。從定性分析來看，如圖 5 和圖 6 顯示，無論是基于 GAN 的方法還是基于擴散的方法，都難以在輸出圖像真實感和保持結構之間達到平衡。

該研究還將 CycleGAN-Turbo 與 CycleGAN 和 CUT 進行了比較。表 1 和表 2 展示了在八個無成對轉換任務上的定量比較結果。

CycleGAN 和 CUT 在較簡單的、以對象為中心的數據集上，如馬→斑馬（圖 13），展現出有效的性能，實現了低 FID 和 DINO-Structure 分數。本文方法在 FID 和 DINO-Structure 距離指標上略微優于這些方法。

如表 1 和圖 14 所示，在以對象為中心的數據集（如馬→斑馬）上，這些方法可以生成逼真的斑馬，但在精確匹配對象姿勢上存在困難。?

在駕駛數據集上，這些編輯方法的表現明顯更差，原因有三：（1）模型難以生成包含多個對象的復雜場景，（2）這些方法（除了 Instruct-pix2pix）需要先將圖像反轉為噪聲圖，引入潛在的人為誤差，（3）預訓練模型無法合成類似于駕駛數據集捕獲的街景圖像。表 2 和圖 16 顯示，在所有四個駕駛轉換任務上，這些方法輸出的圖像質量較差，并且不遵循輸入圖像的結構。

#ViT-CoMer

本文分享 CVPR 2024 論文??ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions??，由百度提出視覺新骨干 ViT-CoMer，刷新密集預測任務 SOTA。

論文鏈接：https://arxiv.org/pdf/2403.07392.pdf
開源地址：https://github.com/Traffic-X/ViT-CoMer，（歡迎大家試用和star）

1.算法效果

1.1.炸裂結果

檢測效果SOTA

在未增加額外訓練數據的情況下，ViT-CoMer-L在目標檢測benchmark COCO val2017上達到了64.3% AP。此前檢測的SOTA算法為Co-DETR，在未增加額外數據時Co-DETR的效果為60.7% AP，使用ViT-CoMer替換原backbone(Swin-L)的同時采用了ViT-Adapter提供的BEiTv2*作為預訓練，其檢測效果可達64.3% AP，相比較其他同體量算法ViT-CoMer效果更優。

分割效果SOTA

ViT-CoMer-L在語義分割 benchmark ADE20K val上獲得了62.1% mIoU，10億參數量以下效果SOTA。基于Mask2Former分割算法，對比了ViT-CoMer和其他先進的骨干網絡（如RevCol-H，ViT-Adapter-L等），從表7可以看出，在相似體量下，ViT-CoMer算法達到了SOTA的效果，甚至可媲美其他更大體量的模型（ViT-Adapter-G，1B參數）

小體積大能量

Small也可以當Large用，ViT-CoMer-S （1/6 ViT-L參數量）取得與ViT-L相當的檢測效果。基于經典的Mask R-CNN檢測框架，我們跨體量跨骨干網絡對比了在COCO數據集上的效果，驚喜的發現ViT-CoMer-Small(僅ViT-Large參數量的1/6)可以達ViT-Large相同效果，而當采用更先進的預訓練時效果又出現了代差級的提升。

不同規模效果樣樣強

ViT-CoMer 在不同的參數規模下都可以獲得SOTA效果。同樣基于Mask-RCNN檢測框架，我們對比了不同骨干網絡在COCO數據集上的效果，不難發現，ViT-CoMer在不同參數規模、不同訓練配置下效果均領先于其他先進的骨干網絡。

1.2.性能

訓推性能均強悍（Rebuttle內容，后續補充至github）

相同的效果下，ViT-CoMer在訓練、推理性能（耗時更短）上都更優。基于Mask-RCNN檢測框架，對比分析了ViT-Large、ViT-Adapter-Large和ViT-CoMer-Base-light三種方案的性能，可以看出ViT-CoMer-Base-light（使用少量的CTI模塊）用更短的訓練和推理時間，即可取得更好的效果。

1.3.可拓展性

零成本使用先進預訓練

ViT-CoMer可以直接加載不同的預訓練（如ImagNet-1K，ImageNet-22K，MM等）。基于Mask-RCNN檢測和UperNet分割框架，依次使用Imagenet-1K，Imagenet-22K和多模態等預訓練初始化ViT分支。從表3和表6中我們可以看出預訓練越強，算法效果越好。

高效兼容不同算法框架

ViT-CoMer可以直接嵌入到不同的檢測框架中。將ViT-CoMer遷移到Cascade Mask-RCNN，ATSS和GFL等檢測框架中，從表2可以看出，ViT-CoMer效果較其他骨干網絡更優。

輕松適配不同Transformer

CoMer不僅僅可以適配ViT框架，其他基準骨干網絡（如Swin）也可以輕松適配。我們嘗試將CoMer遷移到ViT之外的其他Transformer框架中，我們驚喜的發現，CoMer同樣可以在其中發揮作用，從表11中可以看到，適配后X-CoMer效果相比較基準模型更優。

有效的PEFT策略（Rebuttle內容，后續補充至github）

CoMer也可以作為一種有效的PEFT策略使用。當我們freeze住ViT部分，只訓練CoMer部分參數，可以看出CoMer效果要優于LoRA（ViT-CoMer-L（freeze ViT) > ViT-L(full-tune) > ViT-L(freeze ViT + LoRA))。

密集預測任務不是極限

除了密集預測任務之外，我們也嘗試了ViT-CoMer在分類任務上的效果。我們在Imagenet數據集上對比了ViT和ViT-CoMer的結果，實驗顯示我們的算法依舊有很強的競爭力。

2.動機

當前Tranformer骨干網絡處理密集預測任務存在以下問題：

ViT骨干網絡處理密集預測任務（檢測、分割等）效果不佳；
特制骨干網絡需要重新預訓練，增加訓練成本；
適配骨干網絡僅對ViT和卷積特征進行信息交互，缺少不同尺度特征之間的信息交互。

針對以上三個問題，Vit-CoMer做了如下優化：

針對問題1和2, 設計了一種新穎的密集預測骨干網絡，它集成了ViT和CNN特征。由于網絡保留了完整的ViT結構，所以可以有效地利用各種ViT開源預訓練權重，同時網絡融入多感受野空間多尺度卷積特征，解決了ViT特征之間缺乏交互以及表征尺度單一的問題。
針對問題3, 設計了一種CNN-Transformer雙向交互模塊，不僅能夠豐富與增強彼此之間的特征，還能同時進行層級之間多尺度特征的融合，從而得到更加豐富的語義信息，有利于處理密集預測任務。

3.方案

3.1.整體框架

ViT-CoMer網絡架構十分簡潔（如圖3所示），其中ViT占主體（如紅色框內1所示），適配一個輕量的CNN結構（如綠色框內所示）。整個結構包含2個關鍵模塊：MRFP(如綠2）和CTI（如綠3）。其中MRFP主要作用是補充多尺度和局部特征信息。CTI的作用則是對不同架構特征信息進行增強。?

3.2.多感受野特征金字塔模塊（MRFP）

MRFP是由特征金字塔和多感受野卷積層組成。特征金字塔能提供豐富的多尺度信息，而后者通過不同的卷積核擴展感受野，增強了CNN特征的長距離建模能力。該模塊如圖4所示。

3.3.CNN-Transformer雙向交互融合模塊（CTI）

CTI是一種跨架構的特征融合方法，如圖5所示。在不改變ViT的結構的情況下，引入了CNN的多尺度特征，由于ViT是單尺度特征，CNN為多尺度特征，在實現的時候直接將CNN中與ViT同尺度的特征進行相加（優勢，簡單高效）。同時對相加后的特征進行了多尺度自注意力操作，這樣不同尺度的特征之間也進行了借鑒和增強。通過雙向交互模塊，CTI緩解了ViT中缺乏局部信息交互和非層次特征的問題，同時進一步增強了CNN的長距離建模和語義表征能力。