51c視覺~合集13

自己的原文哦~? ? ? ? ?https://blog.51cto.com/whaosoft/11685452

#GKGNet

多標簽分類遇上圖卷積網絡ViG

本文提出了第一個完全圖卷積模型，基于分組K近鄰的圖卷積網絡GKGNet，該模型在靈活且統一的圖結構中，同時建模語義標簽嵌入與圖像塊之間的連接。實驗表明，GKGNet在具有挑戰性的多標簽數據集（即MS-COCO和VOC2007數據集）上，以顯著較低的計算成本實現了最先進的性能。

多標簽分類是一個具有挑戰性的任務，旨在預測單個圖像中的多個對象標簽，同時建模標簽與圖像區域之間的復雜關系。盡管卷積神經網絡CNN和視覺轉換器Transformer在將圖像處理為規則的像素塊網格（patch）方面取得了成功，但這些表示對于捕捉不規則和不連續的興趣區域來說并不理想。在這項工作中，我們提出了第一個完全圖卷積模型，基于分組K近鄰的圖卷積網絡（Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet），該模型在靈活且統一的圖結構中，同時建模語義標簽嵌入與圖像塊之間的連接。為了應對不同對象的尺度差異并從多個角度捕捉信息，我們提出了用于動態圖構建和信息傳遞的Group KGCN模塊。我們的實驗表明，GKGNet在具有挑戰性的多標簽數據集（即MS-COCO和VOC2007數據集）上，以顯著較低的計算成本實現了最先進的性能。

論文鏈接：??https://arxiv.org/abs/2308.14378??

代碼地址：??https://github.com/jin-s13/GKGNet??

靈活圖結構解決多標簽分類任務

圖1 CNN, Transformers, GCN對圖片特征的提取

在多標簽分類中，與某個標簽相關的區域可能是復雜的，甚至是不連續的。例如，為了識別圖像中狗的存在，需要關注多個區域，因為可能存在多只狗。卷積神經網絡（CNN）將圖像視為像素網格，并根據空間位置應用滑動卷積核。CNN可以很好地處理連續區域，但局限的感受野讓它難以適應不規則的興趣區域。

相比之下，視覺轉換器（Vision Transformer）將圖像視為一系列圖像塊(patch)，具有全局感受野，并通過全局注意力從圖像塊中提取視覺特征。然而，對于小尺寸目標對象，大多數圖像塊屬于背景，因此它們的注意力得分之和不能忽略，讓特征提取受到來自背景噪聲的干擾。而圖方法（如 Vision GNN）將視覺圖像塊視為節點，通過將圖像表示為圖結構Graph來形成一種靈活的特征提取方法。

具體而言：

1. 感受野是全局的，根據語義特征相似性尋找鄰居節點，能夠靈活在全圖尋找目標區域。

2. 特征傳遞是局部的，只發生在鄰居節點之間。減少了背景區域的干擾。

這讓圖結構可以很好的適應目標區域的分布復雜，大小不一的難點。

方法介紹

圖2 GKGNet網絡結構

在這項工作中，我們提出了第一個用于多標簽分類任務的完全圖卷積網絡（GCN），即基于分組K近鄰的圖卷積網絡GKGNet。GKGNet將圖像塊和目標標簽都視為圖節點，并在統一的圖結構中處理它們。

GKGNet構建了兩種不同的圖：一種是跨層次圖（cross-level），建模目標標簽和圖像塊之間的標簽-對象關系；另一種是圖像塊層次圖（patch-level），處理和更新圖像塊之間的圖像特征。

這樣，GKGNet能夠自適應地整合興趣補的特征，即使在存在不規則和不連續區域的情況下，也能有效更新視覺特征和標簽嵌入的統一圖表示。

如圖2所示，圖像塊節點和標簽節點通過四個分層階段進行處理。

圖3 KNN無法自適應地處理不同尺度的對象

圖構建是GCN成功的關鍵。但是目前廣泛使用的K近鄰（KNN）構圖方法只能會選擇固定數目的鄰居節點，無法自適應地處理不同尺度的對象。如圖3，鄰居數量K控制了提取和聚合區域特征的區域大小。過大的K會導致特征過度平滑，并涉及無效背景的干擾，而過小的K又難以選取足夠的目標區域，影響特征提取和消息傳遞。

圖4 Group KNN的分組和可重疊策略

因此，我們提出了基于Group KNN的GCN（Group KGCN）模塊，該模塊將節點特征拆分為多個組，并在每個組之間構建連接，如圖4。通過設計每個組選擇的鄰居節點可以重疊，Group KNN方法允許目標節點與動態數量的源節點進行交互，并處理不同尺度的對象。

利用不同的組允許目標節點與不同數量（從𝐾個到𝐾 × 𝐺個）的源節點建立連接。如圖4所示，子目標節點𝐷11連接到子源節點𝑆11 和𝑆21，而子目標節點𝐷12連接到子源節點𝑆31和𝑆41。這使得目標節點𝐷1能夠與四個源節點進行交互：𝑆1，𝑆2，𝑆3 和 𝑆4。這種情況通常發生在目標節點涉及到更廣泛的興趣區域時，例如大型目標對象。

相反，當不同組的鄰居重疊時，所選擇的源節點數量會減少。例如，𝐷2的兩個子目標節點都連接到源節點𝑆2，導致僅與三個源節點進行交互：𝑆1，𝑆2和𝑆4。這種情況通常發生在目標節點僅涉及到小的興趣區域時，例如小型目標對象，從而有助于在信息傳遞過程中繞過無關信息。

最終基于Group KNN的Group KGCN模塊如圖5所示。

圖5 Group KGCN模塊結構

實驗結果

GKGNet在具有挑戰性的多標簽數據集（即MS-COCO和VOC2007數據集）上，以顯著較低的計算成本實現了SOTA的性能。

表1 MS-COCO數據集結果

表2 VOC數據集結果

下表3證明了GKGNet模型各個組件的效果，P、C和G分別代表Patch-Level Graph、Cross-Level Graph和Group KNN。

表3 GKGNet模型組件的效果（MS-COCO數據集）

為了探索Group KNN在通用圖像識別中的效果，我們將 Group KNN 應用于經典的圖像分類模型ViG-Tiny，并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等數據集上進行實驗，可以看到top-1準確率顯著提高。

表4 Group KNN在通用圖像識別上的性能

可視化展示

圖6 GKGNet的可視化

在圖6的可視化中，彩色色塊表示圖像塊與標簽的連接。我們可以觀察到Group KNN有效地適應了對象的大小。對于較小的對象，最終選擇的標簽節點集中在包含目標對象的區域。對于較大的對象，最終選擇的標簽節點覆蓋了足夠的區域，并關注對象的不同部分。此外，通過利用不同的子組，Group KNN靈活地提取共現關系，例如汽車和交通信號燈之間的關系。

總結

在本文中，我們提出了GKGNet，一種新穎的全圖卷積模型，用于多標簽圖像識別任務。我們首次研究了視覺特征和標簽嵌入的統一圖表示。提出的Group KGCN模塊用于動態圖構建和消息傳遞，有效處理不同對象的尺度變化，從不同角度捕捉信息，并建模不同對象的共現關系。在MS-COCO和VOC2007等公共基準數據集上的綜合實驗驗證了我們方法的有效性。我們希望將多模態特征與動態圖表示相結合的理念能夠廣泛應用，并引起社區對這一有前途方向的關注。未來，我們計劃將我們的工作擴展到更廣泛的基于圖學習的問題，如點云和社交網絡。視覺AI 開發板商城天皓智聯 whaoosoft aiot -- gitee可找到我

#xxx

#用「畫家流水線」的方式理解Transformer中間層

Transformer架構層層堆疊，包含十幾億甚至幾十億個參數，這些層到底是如何工作的？當一個新奇的比喻——「畫家流水線」，被用于類比并理解Transformer架構的中間層，情況突然變得明朗起來，并引出了一些有趣的發現。

盡管Transformer架構已經主宰了當今幾乎所有的大模型，但我們依舊對它的工作原理知之甚少。

而且，基于Transformer的預訓練LLM動輒有幾十億參數，很難直接對模型進行可解釋性分析。

同時，模型中間層由N個相同的塊堆疊在一起，它們之間唯一的區別只有層次位置和權重值，這就讓理解中間層更加困難。

然而，最近發表的一篇論文卻給出了一個十分通俗易懂的比喻——「畫家流水線」。

論文地址：https://arxiv.org/pdf/2407.09298v1

有著「東京AI夢之隊」之稱的Sakana AI，聯合IBM前AI負責人Satya Nitta創始的Emergence AI，兩個團隊的研究人員用一種新的「打開方式」來解釋Transformer架構的中間層。

值得一提的是，這篇論文作者之一Llion Jones同樣也是當年Transformer架構的共同創建者之一。

那么，「畫家流水線」這個比喻該如何理解呢？

首先，輸入被看作是一張畫布，輸入通過N個組成中間層的塊的過程，就像是畫布在「畫家流水線」上進行傳遞的過程。

有些畫家擅長畫鳥，而有些畫家則更擅長畫魚。每個畫家從前面的畫家手中接過畫布，然后決定是在畫上添幾筆，還是直接傳給后面的畫家。

在這個類比中，非常重要的一點是，每個畫家都使用相同的「詞匯」來理解畫作，因此一個畫家可以在流水線上從前一個畫家手中接過畫作，但不會因為對畫面理解不同而造成災難。

畫家們也可以重新排序（調整圖層的前后順序），甚至可以同時添加筆觸，就像N個塊可以并行運行。

這個類比并不是一個嚴謹的理論，但可以提供一個幫助我們思考Transformer層的有趣視角。

在這個類比的啟發下，研究人員提出了一些假設，并通過實驗來驗證這些假設是否成立——

不同層是否使用相同的表征空間？
所有的層都是有必要的嗎？
中間層是否都在執行相同的功能？
層的順序重要嗎？
我們能并行運行各層嗎？
順序是否對與某些特定任務而言更重要
循環是否有助于并行層？
哪些變體對性能的損害最小？

實驗

主要用于實驗包括兩種預訓練LLM，分別是decoder-only架構的Llama2-7B，以及encoder-only架構的BERT。Llama2-7B有70億個參數和32層（每層含2.02億個參數），BERT僅有24層和3.4億個參數。

在下述所有實驗過程中，模型都是凍結的。除了對BERT進行GLUE基準測試時進行了標準的微調步驟，參數沒有經過任何修改。

評估過程采用了ARC（科學考試題）、HellaSwag（常識）、GSM8K（數學應用題）、LAMBADA（單詞預測）等常用基準。

其中LAMBADA任務可以衡量模型困惑度（perplexity），任務最接近預訓練時的原始token預測。

結果發現，Transformer的中間層有一定程度的一致性，但不冗余，而且對數學、推理任務而言，各層的運行順序比在語義任務中有更重要的影響。?

各層「說同一種語言」？

Transformer中的不同層是否共享相同的表示空間？

為了回答這個問題，論文采用的方法是讓模型跳過特定層或調換相鄰層的順序，觀察會不會出現災難性后果。

圖2中展示了Llama 2 7B在跳過或調換一些層后，模型整體在Open-LAMADA基準上的表現。

可以看到，除了起始和末端的幾層，模型對這兩種架構修改都表現出了相當強的魯棒性。

因此可以得出初步結論：1)中間層共享同一個表示空間，2)表示空間與「外層」（第一層和最后幾層）不同。

為了進一步驗證，論文還進入模型內部，測量了不同層中隱藏狀態內激活函數的余弦相似度（圖3），表明這種一致性在三個模型的所有中間層都成立。

上圖還可以很清晰看到，模型各層自然形成了4～5個不同的相似組，比如Llama 2 13B模型中分別是：第0層，1-3層、中間層，以及最后的1層或2層。

據此，Transformer中的所有層可以被大致分為三類：起始層、中間層和結束層。

此外，圖3中的矩陣也能和圖2中的模型分數相對應，更能有力證明，中間層之間共享語義表達空間。?

所有層都必要？

為了進一步檢驗中間層的重定向空間是否真正共享（除了具有接近的余弦相似性），研究人員嘗試跳過多個層。

也就是說，將第N層的輸出直接送入第N+M層的輸入（其中M>1），從而「跳過」M-1層。

在不進行任何微調的情況下，這個實驗是要看看N+M層能否理解來自N層的激活，盡管它在訓練中只接受了來自N+M-1層的輸入。

結果顯示，Llama2-7B和BERT-Large的許多基準性能都出現了一定程度的下降。

那么，所有層都有必要嗎？這一問題已經有了答案。

No! 并非所有層都是必要的，至少有幾個中間層可以跳過，而不會發生災難性故障。

左圖：Llama2-7B跳過N層～32-N層的基準測試結果（歸一化）；右圖：BERT跳過N層～24-N 層的基準測試結果（未歸一化）

中間層功能相同嗎？

如果中間層共享一個共同的表征空間，這是否意味著這些層是多余的呢？

為了驗證這一點，研究人員重新進行了上一小節的「跳過」實驗。

但不同的是，這次不是直接跳過M個中間層，而是用模型最中心的的一層代替全部M個層（Llama是第16層，BERT是第12層），相當于在這一層上循環T-2N+1次，其中T是層的總數。

結果表明，隨著被替換層數M的增加，基準測試結果迅速下降。

在研究人員所嘗試的所有測試中，這一項測試的變化是最嚴重的，比直接跳過一些層還要嚴重得多。

因此，中間層功能相同嗎？這一問題的答案是——

No! 在中間層之間共享權重是災難性的，這表明中間層在執行不同的功能。

用中心層替換M個中間層（左側經過歸一化，右側未經歸一化）

順序重要嗎？

之前的實驗表明，中間層共享一個表征空間，但對這個空間執行不同的操作。

那么另一個問題來了——這些操作的執行順序有多重要？

論文進行了兩組實驗來檢驗這個問題。首先，以與預訓練完全相反的順序運行中間層，如下圖所示：

第二組則是以隨機順序運行中間層，最終結果是取10個隨機種子進行實驗后的均值。

圖6和圖7分別展示了中間層完全翻轉和隨機順序的結果，雖然都出現了一定程度的性能下降，但兩者的結果都優于直接跳過的情況。

所以，中間層順序重要嗎？這一問題的答案是——

比較重要。改變中間層的執行順序，無論是隨機打亂或者完全翻轉，都會導致模型性能退化。?

并行運行

如果層本身的存在比它們的執行順序更重要，那么我們是否可以獨立運行各層，最后合并它們的結果呢？

比如像下圖中，將原本堆疊在一起的中間層展開，并行運行后取各層輸出的平均值，傳遞給最后的N個層。

實驗結果顯示，GSM8K（數學應用題）基準中，模型性能有劇烈的變化，直線下降，其他基準分數的下滑則平緩得多。

我們暫且可以下這樣一個結論：并行運行是可行的，但解決數學問題除外。

要理解這種性能下降，可以用我們的「畫家流水線」進行類比：某些中間層只有在看到合適輸入時，才能對結果有所貢獻，就像一個擅長畫車輪的畫家，只有在畫面上看到汽車車身時，才更有可能畫出輪子。

如果是這種情況，將中間層并行運行的過程迭代多次應該會提高性能。

如下圖所示，論文將多個并行層的平均輸出再作為輸入反饋回去，如此進行一定次數的循環。

圖9顯示了循環3次的結果，與圖8中沒有循環的方案相比，性能曲線的確相對平緩，尤其是在圖右BERT模型未經歸一化的分數上更加明顯。

圖10更清楚直觀地展示了，并行的中間層數和循環次數如何影響性能，其中紅框圈出了每列上的最高值。

除了29層和31層（接近Llama 2 7B的總層數32）得出例外的結果，從5層到27層都呈現出一致的趨勢：最佳迭代次數大致與并行化層數呈線性比例。?

實驗結果總結

將上述所有實驗結果放到同一張圖中（圖11），我們就能比較不同變體對模型性能的影響程度

左圖（Llama2）取各基準的中值，右圖（BERT）取各基準的平均值

「隨機化層順序」和「循環并行」分別在Llama2和BERT-Large上造成了最少的性能下降，「中間重復」方案（用中心層運行多次代替整個中間層）則在兩個模型上都造成了最嚴重的滑坡。

討論

自從Transformer發布后，大多數工作都在關注架構的修改和優化，以達到性能提升或參數減少。這篇論文則提供了另一種視角，調查了層并行化和重用的影響。

基于「Transformer層即畫家」這個類比，我們開頭提出的幾個問題都通過實驗得到了答案，最后得到了3個有趣的發現：

所有Transformer層可以大致分為三類：起始層、中間層和結束層，其中中間層占比最大；
中間層具有一定程度的一致性，但并不冗余；
與語義任務相比，各層的執行順序對數學和推理任務更為重要。

為什么Transformer架構面對各種架構修改時能表現出如此強大的魯棒性？作者表示將在之后的工作中再深入研究。

一個可能的假設是，訓練過程中的殘差連接是各層共享相同表征的必要條件。

我們已經知道，殘差連接有助于解決梯度消失問題，然而相比沒有殘差連接的Transformer，加上殘差會降低性能。

如果能在沒有殘差的Transformer上重新運行上述架構的變體，看看是否會破壞完全無殘差模型所取得的微薄收益，那將會非常有趣。

對于未來的其他工作，研究人員還計劃「解凍」模型，并研究Transformer是否需要（以及需要多長時間）通過微調來適應上述的架構變化。

雖然本文的目的是更好地理解Transformer的中間層，而非引入新模型，但根據實驗結果，中間層并行或者干脆跳過都可以用適度的準確性損失換取更低的推理延遲。

作者團隊

本文作者分別來自兩家AI初創公司：Sakana AI和Emergence AI。

Sakana AI在今年年初剛剛獲得3000萬美元的種子輪融資，由Lux Capital領投，并得到了硅谷頂級風投公司Khosla Ventures以及Jeaf Dean、Alexandr Wang等大佬的支持。

公司研發的重點是基于自然啟發的新型基礎模型，創始團隊也是星光熠熠，一半成員來自「AI黃埔軍校」——谷歌大腦和DeepMind。

相比于關注基礎研究的Sakana，Emergence AI更關注應用，專門從事LLM驅動的multi-agent系統研發。

公司聯合創始Satya Nitta曾擔任IBM研究院「AI解決方案」領域的全球主管，其中的許多研究人員和工程師也同樣來自谷歌、Meta、微軟、亞馬遜和Allen AI等頂尖機構。

Emergence上個月剛剛從Learn Capital獲得9720萬美元的資金，以及額外的總計超過一億美元的信貸額度，未來的發展也是前途可期。

參考資料：

??https://arxiv.org/abs/2407.09298v1??

#CFPT

干翻一眾 FPN，專攻小目標檢測！CFPT：無需上采樣的新型特征金字塔網絡

在本文中，作者提出了跨層特征金字塔 Transformer （CFPT），這是一種無需上采樣的新型特征金字塔網絡，專門為航拍圖像中的小目標檢測而設計。?

目標檢測一直是一項具有挑戰性的任務。大多數當前檢測器優先考慮新穎的檢測框架，卻常常忽視了對基本組成部分（如特征金字塔網絡）的研究。在本文中，作者提出了跨層特征金字塔 Transformer （CFPT），這是一種無需上采樣的新型特征金字塔網絡，專門為航拍圖像中的小目標檢測而設計。CFPT采用了兩個精心設計的、具有線性計算復雜度的注意力模塊：跨層通道注意力（CCA）和跨層空間注意力（CSA）。

CCA通過劃分通道 Token 組來實現跨層交互，以沿空間維度感知跨層全局信息；而CSA則通過劃分空間 Token 組來完成跨層交互，以沿通道維度感知跨層全局信息。通過整合這些模塊，CFPT一步實現跨層交互，從而避免了元素逐點加和以及層與層之間傳遞引起的語義差距和信息丟失。此外，CFPT融入了全局上下文信息，這增強了小目標的檢測性能。為了在跨層交互中進一步提升位置感知，作者基于層間相互感受野提出了跨層一致相對位置編碼（CCPE）。作者在兩個具有挑戰性的航拍圖像目標檢測數據集上評估了CFPT的有效性，分別是VisDrone2019-DET和TinyPerson。大量實驗證明了CFPT的有效性，它在計算成本更低的情況下，性能優于現有的特征金字塔網絡。

相關代碼將在https://github.com/duzw9311/CFPT發布。

I Introduction

得益于卷積神經網絡（CNNs）和視覺 Transformer （ViTs）的進步，現有的目標檢測器已經取得了顯著的發展，并在自動駕駛、人臉檢測、醫學圖像分析和工業質量檢查等眾多應用領域奠定了其基本解決方案的地位。

作為目標檢測的一個子領域，小目標檢測由于在卷積和池化操作過程中小目標特征可能會被大目標特征所淹沒或遮蓋，因此相較于傳統的目標檢測任務面臨更大的挑戰。如圖3所示，作者展示了兩個經典的小目標檢測數據集在航拍圖像中的數據分布箱線圖：VisDrone2019-DET [2] 和 TinyPerson [3]。箱線圖凸顯了 VisDrone2019-DET 數據集不僅包含大量小目標（20到30像素），而且存在顯著的尺度變化。相比之下，TinyPerson 數據集相比于 VisDrone2019-DET，主要包含更小尺寸的目標，大多數目標的大小不超過20像素。無人機飛行高度和拍攝角度顯著影響目標尺度分布，導致在航拍圖像上的目標檢測性能相對較差。

圖1：在VisDrone2019-DET數據集上，各種最先進特征金字塔網絡的性能比較。作者通過替換RetinaNet [1]中的 Neck 組件來評估它們的性能。

為了應對這些挑戰，已經連續提出了許多研究。鑒于無人機場景中前景的比例較小，現有的解決方案通常采用由粗到精的檢測方案[4, 5, 6]。在粗略預測階段，通常使用一個通用檢測器來檢測目標并預測密集的目標簇。隨后，在細化階段，通常會修剪、上采樣該簇，并將其重新輸入檢測器以進行精細搜索。盡管上述模型架構可以有效地適應無人機視角，并且在較低的計算成本下比直接輸入高分辨率圖像增強了各種檢測器的性能，但它仍然缺少專為空中圖像中目標檢測定制的基本組件，例如特征金字塔網絡。特征金字塔網絡作為圖像金字塔的低計算成本替代方案，在多種檢測器中被廣泛使用，并已成為每個檢測器的基本組成部分。最早的FPN [7]使用自上而下的單向路徑將語義信息整合到淺層特征圖中，有效增強了模型在多尺度目標檢測方面的能力。由于逐層傳遞的單向路徑不可避免地造成信息丟失[8]，隨后的特征金字塔網絡逐漸過渡到層與層之間的直接交互。

作者提出CFPT，一種新的跨層特征金字塔結構，它通過在不同方向（即空間方向和通道方向）促進跨層信息交互來增強模型的表達能力。

通過整合這兩種交互，CFPT能夠有效地捕獲小型目標的必要全局上下文信息，同時保持較低的計算成本。

作者提出CCPE，一種基于層間互惠感受野的新型位置編碼方法，旨在增強模型在跨層交互過程中對空間和通道位置的認識。
通過在VisDrone2019-DET和TinyPerson數據集上的大量實驗，作者證明了CFPT在航拍圖像中小型目標檢測的有效性。

II Related Work

Small Object Detection in Aerial Images

現代的目標檢測器通常通過連續的卷積和池化層降低輸入圖像的分辨率，力求在性能與計算復雜度之間達到最佳平衡。因此，檢測小物體本質上比常見目標檢測更具挑戰性，因為它們的小尺寸增加了在下采樣過程中信息丟失的風險。

對于航拍圖像中的小目標檢測，ClusDet [17]采用了一種從粗到精的方案，首先檢測密集的目標簇，然后在這些簇內進行搜索細化，以提高模型檢測小物體的能力。DMNet [18]簡化了ClusDet的訓練過程，通過采用密度圖生成網絡來為簇預測生成密度圖。遵循類似的檢測流程，CRENet [19]和GLSAN [4]進一步增強了聚類預測算法，并優化了細粒度預測方案。UFPMP-Det [6]采用UFP模塊和MPNet預測子區域，并將它們組裝成單一圖像以實現高效的單一推理，從而提高了檢測的準確性和效率。CEASC [20]利用稀疏卷積優化了航拍圖像中目標檢測的傳統檢測器，降低了計算需求同時保持了競爭力的性能。DTSNNet [21]在Backbone和Neck之間引入了人工設計的塊，以提高模型對多尺度特征的敏感性，并采用了專門針對小物體的訓練樣本選擇方法。

上述解決方案優化了各種檢測器，以適應航拍圖像中的目標檢測場景，而作者提出了一種專門針對這一背景下小目標檢測的新型特征金字塔網絡。

Feature Pyramid Network

為了減輕圖像金字塔帶來的巨大計算成本，特征金字塔網絡（FPN）作為一種有效且高效的替代方法出現，它提高了各種檢測器的性能。FPN [7] 利用一系列自頂向下的快捷連接來增強淺層特征圖中缺乏的語義信息。基于FPN，PAFPN [12] 提出使用自底向上的快捷連接來解決深層特征圖中細節信息的不足。Libra-RCNN [22] 通過結合非局部塊來改進原始特征，以獲得平衡的交互特征。為了減輕多尺度特征圖中的語義差距，AugFPN [23] 引入了連貫的監督分支，并提出了ASF，用于跨多尺度動態特征融合。FPG [8] 使用規則網格表示特征尺度空間，并通過平行路徑之間的多方向橫向連接進行融合，從而增強了模型的特征表示能力。AFPN [11] 通過深層和淺層特征圖的跨 Level 融合迭代改進多尺度特征，在具有常見尺度分布的目標檢測中取得了競爭性的性能。

與先前方法不同，作者提出了CFPT，它利用全局上下文信息，并策略性地強調淺層特征圖，以增強航拍圖像中小型目標的檢測。

Vision Transformer

作為計算機視覺中Transformer[24]的擴展，Vision Transformer (ViT)[25]在各種各樣的視覺場景中[26, 27, 28]展示了顯著的潛力。由于傳統ViT與圖像分辨率相關的二次計算復雜度，后續研究主要集中在開發輕量級的替代方案。Swin Transformer[29]通過限制特定窗口內的交互，并在交互過程中移動這些窗口以實現全局感受野。局部ViT[30, 31, 32]通過局部窗口內的交互引入局部誘導偏差，有效降低了模型的計算復雜度并加快了收斂速度。軸向注意力[33]通過將交互限制在圖像寬度和高度上的條帶，減少了計算復雜度。

遵循類似的輕量級概念，作者設計了兩款具有線性復雜度（即CCA和CSA）的注意力塊，以跨層捕捉沿各種方向（即空間方向和通道方向）的全局上下文信息，從而增強了模型對小物體的檢測能力。?

III Methodology

在本節中，作者將詳細介紹所提出的跨層特征金字塔 Transformer （CFPT）。在第三節A部分，作者首先概述了所提出CFPT的整體架構。隨后，在第三節B和C部分，作者介紹了CFPT的兩個關鍵組成部分，即跨層通道注意力（CCA）和跨層空間注意力（CSA）。在第三節D部分，作者提出了一種新穎的跨層一致相對位置編碼（CCPE），旨在增強模型的跨層位置感知能力。

Overview

如圖4所示，CFPT采用多個并行的CBR塊來構建跨層特征交互的輸入，這些輸入來自特征提取網絡（如ResNet[34]）的多級特征圖輸出，從而降低了計算復雜度，滿足了大多數檢測器在架構上的要求。通過利用堆疊的跨層注意力模塊（CAMs），CFPT增強了模型利用全局上下文信息和跨層多尺度信息的能力。

具體來說，CAM模塊由一系列跨層通道注意力（CCA）和跨層空間注意力（CSA）組成。CCA沿著通道維度促進局部跨層交互，從而通過每個通道 Token 組的交互在空間維度上建立一個全局感受野。相反，CSA沿著空間維度促進局部跨層交互，通過每個空間 Token 組的交互捕捉通道維度的全局上下文信息。此外，作者通過在CAM的輸入和輸出之間使用捷徑分支來進一步提高梯度增益。

假設經過CBR塊后每個尺度的特征圖可以表示為?, 其中??是輸入層的數量, 每個特征圖的空間分辨率??隨橧加而增大, 同時保持通道數??不變。上述過程可以描述為

其中是一組經過跨層交互的多尺度特征圖，其形狀與相應的輸入特征圖保持一致。

值得注意的是，作者的CFPT消除了復雜特征上采樣操作和逐層信息傳輸機制，這些機制在層間傳輸過程中容易造成信息丟失，并導致計算負載增加和內存訪問延遲。相反，作者通過利用尺度間相互感受野大小的局部分組操作，對多尺度特征圖執行一步跨層鄰近交互操作，從而促進尺度間的信息混合。這種方法使得每個尺度的特征能夠平衡地從其他層獲取信息（即使這些層相隔較遠），同時促進自我修正，并從局部交互提供的歸納偏置中受益[32]。

跨層通道注意力

假設CCA的輸入特征圖集合為??。如圖5(a)所示, CCA沿著通道維度執行跨層的多尺度鄰近交互, 從而為每個通道 Token 提供空間維度的全局上下文信息。為了構建交互式輸入, 作者首先在每個尺度上對特征圖執行通道重建 (CR), 以確保它們具有相同的空間分辨率, 從而得到??。CR是一個與YOLOv5中的Focus類似的操作符,但不同之處在于它不使用額外的操作進行特征映射。相反, CR將空間維度的特征值堆疊到通道維度, 從而在保持效率的同時實現一致的空間分辨率。上述過程可以描述為

接下來, 作者執行重疊通道式 Patch 劃分 (OCP) 以形成通道式標記組, 這可以看作是沿著通道維度在局部區域具有重疊區域的 Patch 嵌入[25], 其中不同尺度的特征圖上的 Patch 大小是不同的。具體來說, 根據多尺度特征的形狀,??中相鄰特征圖的通道大小相差一個 4 倍因子（即,??)。為了構建重疊的鄰近交互組, 作者引入一個擴展因子??對??執行OCP, 從而得到??。上述過程可以描述為：

以第??層的特征圖為例, 在獲得??之后, 作者采用跨層一致的多頭注意力機制來捕獲沿空間維度的全局依賴性, 從而得到交互結果??。

其中??是線性投影矩陣。??分別表示連接的鍵和值, 其中??代表連接操作。?表示第??個跨層一致相對位置編碼（CCPE）, 具體細節將在第三節D中介紹。注意, 為了簡化, 作者只考慮頭數為 1 的情況。在實踐中, 作者采用多頭機制來捕獲每個通道式標記的全局依賴性。

在為每個尺度的特征圖獲得交互結果??之后, 作者應用反向重疊通道式 Patch 劃分 (ROCP) 來恢復 OCP 的影響, 并得到??。作為 OCP 的反向操作, ROCP旨在使用與OCP相同的核大小和步長來恢復原始的空間分辨率。

作者最終使用空間重建 (SR) 來獲得與輸入X形狀相匹配的結果??。

Cross-layer Spatial-wise Attention

同樣，將CSA的輸入特征圖集合表示為?。如圖5(b)所示，CSA沿著空間維度跨層執行多尺度鄰近交互，為每個空間標記提供沿通道維度的全局上下文信息。

由于輸入特征圖的通道大小在CBR塊后匹配（例如，256），無需使用CR和SR等方法來調整它們的大小, 正如在CCA中所做的那樣。因此, 作者可以直接執行重疊空間劃分 (OSP) 來形成空間標記組, 這可以看作是在不同尺度特征圖上使用不同大小的矩形框進行滑動裁剪。假設OSP的擴展因子為?, 通過上述操作, 作者可以得到??。上述過程可以表示為

然后, 作者在跨層空間標記組內執行局部交互, 并使用跨層一致性多頭注意力來捕獲沿通道維度的全局依賴性, 從而得到??。對于第??層的特征圖, 這個過程可以表示如下:

其中??是線性投影矩陣。和??。?表示第??層的跨層一致性相對位置編碼 (CCPE) 。

接下來, 作者使用反向重疊空間劃分（ROSP）來反轉OSP的效果, 并獲得交互結果集??。

Cross-layer Consistent Relative Positional Encoding

由于在交互過程中，它們各自的跨層標記組內的每個標記都保持著特定的位置關系。然而，傳統的多頭注意力機制統一處理所有交互標記，這對于像目標檢測這樣對位置敏感的任務來說會導致次優結果。因此，作者引入了跨層一致相對位置編碼（CCPE），以增強CFPT在交互過程中的跨層位置感知。

CCPE的主要解決方案是基于對多個尺度上的相互感受野進行對齊, 這由卷積的特性決定。以CSA 為例, 每對空間標記組之間的注意力圖集合其中??是頭的數量,?, 如方程 9 中定義。為了簡化, 作者忽略??和?, 并定義??和?, 其中??和??分別表示第??層和第??層空間標記組的高度和寬度。因此, 注意力圖集合可以重新表示為??。

CCGE的過程如圖6所示。作者定義了一個可學習的碼本?, 并通過計算它們的跨層一致相對位置索引, 從碼本中獲取任意兩個標記之間的相對位置信息。為了簡化, 考慮來自第??層和第??層的空間標記組的交互，其中??和??分別表示它們各自的絕對坐標矩陣。

為了獲得??相對于??的相對位置信息, 作者首先使用它們各自的空間標記組大小來中心化它們的坐標, 以獲得??和??。?

Complexity Analysis

在本節中，作者將分析典型相關分析（CCA）和通道分割注意力（CSA）的計算復雜性。此外，由于在訓練和測試階段，空間域和通道域的標記組大小保持不變，它們的計算復雜性與輸入特征圖的空間分辨率成線性關系。

Iii-E1 Cross-layer Channel-wise Attention

考慮一組輸入特征圖集合, 記作??。此外, 令??表示在CCA中使用的擴展因子。CCA的整體計算復雜度包括線性投影的?, 注意力交互的?, 以及FFNs的??。

Iii-E2 Cross-layer Spatial-wise Attention

假設輸入特征圖集合為??。此外, 令??表示在CSA中使用的擴展因子。CSA的整體計算復雜度包括線性投影的?, 注意力交互的?, 以及FFNs的??。?

IV Experiments

Datasets

作者通過將提出的CFPT應用于兩個特別為從小型無人機視角進行小目標檢測而設計的挑戰性數據集來評估其有效性：VisDrone2019-DET [2] 和 TinyPerson [3]。

Iv-A1 VisDrone2019-DET

這個數據集包含了7,019張由無人機拍攝的圖片，其中6,471張用于訓練，548張用于驗證。數據集涵蓋了十個類別：自行車、三輪車、三輪機動車、貨車、公交車、卡車、摩托車、行人、人以及汽車。這些圖片的分辨率大約為像素。

Iv-A2 TinyPerson

這個數據集由無人機收集，主要用于遠距離場景中的小目標檢測，因為目標目標的平均長度小于20像素。它包含1,610張圖片，其中794張用于訓練，816張用于測試。數據集包含72,651個標記實例，分為兩組：“海上行人”和“陸地行人”。為了簡化，作者將上述兩個類別合并為一個類別，命名為“行人”。

Implementation Details

作者使用PyTorch [48] 和MMdetection工具箱 [49] 實現了所提出的CFPT。所有模型都在單塊RTX 3090上進行訓練和測試，批處理大小為2。在模型訓練中，作者使用SGD作為優化器，學習率為0.0025，動量為0.9，權重衰減為0.0001。作者在VisDrone2019-DET數據集上進行了消融研究，并比較了各種最先進的特征金字塔網絡性能，輸入分辨率為，并采用計劃（12個周期）。為了加速模型收斂，作者在訓練開始時采用了線性預熱策略。為了比較在VisDrone2019-DET數據集上各種最先進檢測器的性能，作者訓練模型15個周期，以確保按照CEASC [20]的方法完全收斂。

在TinyPerson數據集 [3] 的實驗中，為了減少內存使用過度，作者將高分辨率圖像劃分為大小均勻的塊，并設有30%的重疊比例。每個塊按比例縮放，以確保最短邊長為512像素。為了全面評估模型性能，作者在模型訓練中設置了批處理大小為1，并采用計劃，同時實施多尺度訓練和多尺度測試。

Comparison with Other Feature Pyramid Networks

作者最初在VisDrone2019-DET數據集上，將提出的CFPT與基于RetinaNet [1]的各種最先進特征金字塔網絡性能進行了比較。如表格I所示，作者的CFPT在不同的 Backbone 網絡上，包括ResNet-18、ResNet-50和ResNet-101，均取得了RetinaNet的最佳結果，同時在性能與計算復雜度之間取得了最優平衡。此外，與專注于航拍圖像中小目標檢測的SSFPN相比，作者的CFPT在參數更少（分別為-3.8M、-3.5M和-3.5M）和FLOPs更低（分別為-55.5G）的情況下，實現了更好的性能（+0.8 AP、+0.5 AP和+0.4 AP）。這證明了CFPT在航拍圖像中小目標檢測的應用潛力。

Comparison with State-of-the-Art Methods

為了進一步驗證CFPT的有效性，作者將當前最先進檢測器中的特征金字塔網絡替換為CFPT，并在VisDrone2019-DET和TinyPerson數據集上比較其性能表現。

Iv-D1 VisDrone2019-DET

作者將GFL [43]中的特征金字塔替換為CFPT，并將其性能與各種最先進的檢測器進行比較。如表格II所示，應用作者的CFPT分別基于ResNet-18、ResNet-50和ResNet-101，將GFL的性能提升了0.8 AP、0.7 AP和0.7 AP。盡管參數數量略有增加，分別為0.3 M、0.2 M和0.2 M。與CEASC [20]相比，作者的參數僅增加了0.1 M，卻實現了顯著的性能提升（分別提升了+0.7 AP、+0.6 AP和+0.6 AP），證明了作者CFPT的有效性。

Iv-D2 TinyPerson

在TinyPerson數據集上的比較中，作者采用了文獻[3]中定義的評價指標來全面評估模型的性能。作者觀察到，GFL [43]在細粒度檢測方面表現出色，這體現在其在AP-tiny指標上的優越性能上；而FSAF [41]在粗粒度預測方面更為有效，這從其在AP-tiny和AP-tiny指標上的更好性能可以證明。因此，作者將CFPT分別整合到GFL和FSAF中，以評估其在兩種場景下的適應性。如表格III所示，CFPT帶來了顯著的性能提升，包括為GFL提高了2.4個AP-tiny（44.2 AP-tiny對比41.8 AP-tiny），以及為FSAF提高了2.0個AP-tiny（44.5 AP-tiny對比42.5 AP-tiny），所有性能指標均有增強。因此，有效整合CFPT可顯著提升模型對小物體的檢測性能，證明了其在航拍圖像中小目標檢測的有效性。

Ablation Study

在消融研究部分的開頭。

V-E1 Order of CCA and CSA

作者研究了CCA（典型相關分析）和CSA（通道空間注意力）應用的順序對模型性能的影響。具體來說，作者比較了如圖7所示的三種解決方案的性能，包括先應用CCA后應用CSA（CCACSA）、先應用CSA后應用CCA（CSACCA）以及同時應用CCA和CSA（CCACSA）。如表4所示，CCACSA的模式取得了最優性能，平均精度（AP）為22.2。作者認為這是因為CCA沿著空間方向提供了全局感受野，使得CSA能夠利用全局上下文信息來預測更準確的注意力圖，并獲取更優的鄰近細節信息。然而，由于CSA沿著通道方向具有全局感受野，首先應用它可能會破壞局部性，阻止CCA準確關注空間上的鄰近信息。此外，CCACSA將導致CCA和CSA之間沒有交互，使得無法利用彼此的信息進行精細的信息聚合。

V-E2 Effectiveness of each proposed component

作者通過逐步將提出的模塊整合到 Baseline 模型（即沒有FPN的RetinaNet）中來評估每個組件的有效性。如表5所示，將CCA和CSA分別整合到 Baseline 模型中，顯著提升了模型性能，分別提高了3.5個AP和3.4個AP。將CCA和CSA綜合整合到CAM中，模型實現了3.9個AP的提升（22.0 AP對比18.1 AP）。隨后，應用CCPE進一步增強了模型性能，最終AP達到了22.2。值得注意的是，與表1中的大多數特征金字塔網絡相比，僅整合CCA或CSA就能實現更優的性能，這突顯了它們在航空圖像中小目標檢測的潛力。

作者還報告了每個組件對模型計算復雜度、參數數量和推理速度的影響，具體見表5。當僅使用單一組件（例如CCA）時，與 Baseline 模型相比，CFPT引入了額外的1.4M參數、7.4G FLOPs和每張圖像0.004秒的推理延遲，同時實現了顯著性能提升（+3.5 AP）。當使用所有組件時，CFPT引入了額外的2.8M參數、14.8G FLOPs和每張圖像0.01秒的推理延遲，同時實現了顯著性能提升（+4.1 AP）。因此，CFPT能夠在性能與計算復雜度之間實現更好的平衡。

Iv-D3 Number of CAMs

作者評估了CAMs數量對模型性能的影響。如表格VI所示，增加CAMs的數量一致性地提升了模型的性能。當使用三個CAMs時，模型達到了22.5的AP，相較于 Baseline 模型提高了4.4個AP點（22.5 AP對比18.1 AP）。為了更好地平衡計算復雜度與性能，作者在所有其他實驗中將CAM的堆疊數量設置為1，盡管更多的CAMs會帶來更多的好處。

Iv-D4 Channel Size reduction factor and MLP ratio

作者研究了不同的通道尺寸縮減因子（即特征圖通道在注意力交互中的壓縮比）和多層感知器（MLP）比例（即在FFN中通道尺寸的擴展比）的影響，旨在找出能夠平衡計算復雜度和模型性能的最佳組合。如圖9所示，當通道尺寸縮減因子設為4，MLP比例設為2時，模型在計算復雜度和性能之間達到了最佳平衡。因此，在VisDrone2019-DET和TinyPerson數據集上進行的所有實驗中，作者均采用這一組合方案。

Qualitative Analysis

作者通過在VisDrone2019-DET和TinyPerson數據集上可視化檢測結果來對CFPT進行定性分析，所有可視化的置信度閾值設置為0.3。如圖8所示，作者將CFPT應用于GFL，并將其與 Baseline 模型（即GFL）和CEASC在VisDrone2019-DET數據集上進行定性比較。應用CFPT有效降低了模型的漏檢率（第一行和第三行）和誤檢率（第二行），從而提升了整體性能。此外，圖8的第三行展示了CFPT在小目標檢測方面的有效性。如圖10所示，在TinyPerson數據集上的檢測結果進一步驗證了上述解釋，表明CFPT在降低漏檢和誤檢率的同時，有效提升了模型對小目標的檢測能力。

V Conclusion

在本論文中，作者引入了CFPT，這是一種新型的無需上采樣的特征金字塔網絡，

CFPT能夠明確更多地關注淺層特征圖，并摒棄基于靜態核的交互方案，以減輕尺度差異對模型性能的影響，這使得它特別適合于航拍圖像中的目標檢測。

具體來說，CFPT由兩個精心設計的、具有線性計算復雜度的注意力模塊組成，分別為CCA和CSA。這兩個模塊從不同角度捕捉上下文信息，它們的融合為模型提供了對檢測小目標至關重要的全局上下文建模能力。

此外，為了在跨層交互中增強位置感知，作者提出了一種新的位置編碼方法CCPE。在兩個具有挑戰性的航拍數據集上的大量實驗表明，CFPT在優于現有最先進的特征金字塔網絡的同時，也降低了計算成本。

在未來的工作中，作者計劃探索可變形的跨層交互解決方案，并研究更有效的實現策略。

#DSCL

本文通過解耦訓練目標來解決SCL的這兩個問題，將SCL中的原正樣本和增強正樣本解耦并針對不同目標來優化他們的關系，從而減輕數據集不平衡的影響。北京大學提出解耦對比損失

監督對比損失（??SCL???）在視覺表征學習中很流行。但在長尾識別場景中，由于每類樣本數量不平衡，對兩類正樣本進行同等對待會導致類內距離的優化出現偏差。此外，??SCL???忽略了負樣本之間的相似關系的語義線索。為了提高長尾識別的性能，論文通過解耦訓練目標來解決??SCL???的這兩個問題，將??SCL??中的原正樣本和增強正樣本解耦并針對不同目標來優化他們的關系，從而減輕數據集不平衡的影響。論文進一步提出了一種基于塊的自蒸餾方法，將知識從頭類轉移到尾類，以緩解尾類表征不足的問題。該方法挖掘不同實例之間共享的視覺模式，并利用自蒸餾過程來傳輸此類知識

論文地址：???https://arxiv.org/abs/2403.06151??

論文代碼：???https://github.com/SY-Xuan/DSCL??

Introduction

在實際應用中，訓練樣本通常呈現長尾分布，其中少數頭類貢獻了大部分觀察結果，而許多尾類僅與少數樣本相關。長尾分布給視覺識別帶來了兩個挑戰：

為平衡數據集設計的損失函數很容易偏向頭部類別。
每個尾部類別包含的樣本太少，無法表示視覺差異，導致尾部類別的代表性不足。

通過優化類內和類間距離，監督對比損失（??SCL???）在平衡數據集上取得了很不錯的性能。給定錨定圖像，??SCL??將兩種正樣本聚在一起，即（a）由數據增強生成的錨定圖像的不同視圖，以及（b）來自同一類的其他圖像。這兩種類型的正樣本監督模型學習不同的表征：（a）來自相同類別的圖像強制學習語義線索，而（b）通過外觀差異增強的樣本主要導致低級外觀線索的學習。

如圖 1（a）所示，??SCL???有效地學習了頭類的語義特征，例如，學習到的語義“蜜蜂”對于雜亂的背景具有魯棒性。而如圖 1 (b) 所示，??SCL??學習的尾部類別表征對于形狀、紋理和顏色等低級外觀線索更具辨別力。

通過對??SCL???的梯度進行分析后，論文提出了解耦監督對比損失（??DSCL???）來處理這個問題。具體來說，??DSCL???解耦了兩種正樣本，重新制定了類內距離的優化策略，緩解了兩種正樣本的梯度不平衡。如在圖 1（b）所示，??DSCL??學習到的特征對語義線索具有區分性，并且大大提高了尾部類別的檢索性能。

為了進一步緩解長尾分布的挑戰，論文提出了基于圖像塊的自蒸餾（??PBSD???），利用頭類來促進尾類中的表征學習。??PBSD??采用自蒸餾策略，通過挖掘不同類之間的共享視覺模式并將知識從頭類遷移到尾類，更好地優化類間距離。論文引入塊特征來表示目標的視覺模式，計算塊特征和實例級特征之間的相似度以挖掘共享視覺模式。如果實例與基于塊特征共享視覺模式，則它們將具有很高的相似性，然后利用自蒸餾損失來維持樣本之間的相似關系，并將知識融入到訓練中。

Analysis of SCL

后面的分析有點長，總結起來，論文發現了??SCL??的三個問題：

過于關注頭類的訓練。
原樣本和增強樣本之間的梯度存在差異。
負樣本可以更好地處理。

給定訓練數據集?. , 其中??表示圖像,??是其類標簽。假設??表示??中??類的數量, 并且類的索引按數量降序排序, 即如果 $a<b$, 則="" $n^a="" \geq="" n^b$="" 。在長尾識別中,="" 訓練數據集是不平衡的,="" 即="" $n^1="" \gg="" n^k$,="" 不平衡比的計算為="" n^k$="" 。<="" p="">

對于圖像分類任務, 算法旨在學習特征提取主干??和線性分類器, 先將圖像??映射為全局特征圖??并使用全局池化來獲取??維特征向量, 隨后將特征向量分為??維分類分數。通常來說, 測試數據集是平衡的。

特征提取主干一般采用監督對比學習（SCL）來訓練。給定錨定圖像?, 定義?為用主干和額外投影頭??提取的歸一化特征,?為正樣本??通過數據增強生成的圖片的歸一化特征。定義??為可通過內存隊列獲取的一組樣本特征,??為從??中抽取的??的正樣本特征集。

??SCL??通過拉近錨定圖像與其它正樣本來減小類間距離，同時通過將具有不同類別標簽的圖像推開來擴大類間距離，即

其中??是??的數量。使用??來表示預定義的溫度參數, 條件概率??的計算如下:

公式 1 可以表示為分布對齊任務，

其中??是目標分布的概率。對于增強?和原??將它們同等地視為正樣本，并將其目標概率設置為??。對于??中其它具有不同類標簽的圖像，SCL 將它們視為負樣本，并將其目標概率設置為 0 。

對于錨定圖像??的特征??的梯度為:

其中??是??的負集, 包含從??中提取的特征。

SCL 包含兩種類型的正樣本?和?, 錨定圖像對于兩種正樣本的梯度計算分別為:

訓練開始時，兩種正樣本的梯度??L2??范數之比為，

當??SCL??收斂時，的最優條件概率為：

在 SCL 中, 內存隊列??是從訓練集中均勻采樣的, 這導致??。在平衡數據集中,?, 不同類別的??數量是平衡的。對于具有不平衡??的長尾數據集, SCL 則會更加關注將頭部類的針點??與從??得到的特征拉在一起, 因為梯度由公式 4 中的第三項主導。

另外, SCL 還存在兩種正樣本的梯度的 L2 范數的比例不平衡的問題, 如圖 2 所示。當 SC L 的訓練收玫時,??的最優值也受到??的影響, 如公式 7 所示。此外, 如圖 1(a) 和 (b) 所示, 跨類別學習到的特征也不一致。

等式 4 還表明，??SCL???均勻地推開所有負樣本，從而擴大了類間距離。這種策略忽略了不同類別之間有價值的相似性線索。為了尋求更好的方法來優化類內和類間距離，論文提出了解耦監督對比損失（??DSCL???）來解耦兩種正樣本以防止有偏差的優化，以及基于補丁的自蒸餾（??PBSD??）來利用類之間的相似性線索。

Decoupled Supervised Contrastive Loss

??DSCL???的提出是為了確保不同類別的類內距離進行更平衡的優化，將兩種正樣本解耦并添加不同的權重，使梯度??L2??范數比和的最優值不受類別的樣本數量影響。

??DSCL??可表示為：

其中??是預定義的超參數。DSCL 是 SCL 在平衡環境和不平衡環境的統一范式。如果數據集是平衡的, 通過設置??可以使得 DSCL 與 SCL 相同。

訓練開始時，兩種正樣本的梯度L2范數比為：

當 DSCL 收玫時, z 的最優條件概率為??。

如公式 10 可以看出，兩種正樣本的梯度比不受??的影響。DSCL 也保證了??的最優值不受??的影響, 從而緩解了頭部類和尾部類之間特征學習不一致的問題。

Patch-based Self Distillation

視覺模式可以在不同的類之間共享，例如視覺模式“車輪”在“卡車”、“汽車”和“公共汽車”共享。因此，尾類中的許多視覺特征也可以從共享這些視覺模式的頭類中學習，從而降低了尾類表征學習的難度。??SCL???將來自不同類的兩個實例在特征空間中推開，不管它們是否共享有意義的視覺模式。如圖 4 所示，從黃色邊界框中提取查詢塊特征，并從數據集中檢索前 3 個相似樣本。由??w/o PBSD???標記的??SCL???檢索結果在語義上與查詢塊無關，表明??SCL??在學習和利用圖像塊級語義線索方面無效。

受細粒度圖像識別中基于圖像塊的方法的啟發, 論文引入了基于圖像塊的特征來編碼視覺模式。給定主干提取的圖像??的全局特征圖?, 首先隨機生成塊?, 其中??是塊的數量。根據這些塊的坐標應用 ROI 池化并將池化特征發送到投影頭中, 得到歸一化的嵌入特征??：

然后，類似于公式 2 利用條件概率計算實例之間的相似關系：

如果??對應的圖像與基于塊的特征共享視覺模式, 則??和??將具有很高的相似度。因此, 使用公式 12 可對每對實例之間的相似性線索進行編碼。

基于上述定義, 將相似性線索作為知識來監督訓練過程。為了保持這些知識, 論文還根據??額外從圖像中裁剪多個圖像塊（前面直接從整圖的全局特征做 ROI, 這里剪圖過網絡），并使用主干網絡提取其特征嵌入??:

??PBSD??強制圖像塊的特征嵌入通過以下損失，產生與基于塊的特征相同的相似度分布，

請注意,??與計算圖分離以阻止梯度。

物體的局部視覺模式可以由不同類共享, 因此可以使用基于塊的特征來表示視覺模式。?是為了挖掘圖像之間共享模式的關系而計算的, 通過最小化公式 14 來傳遞知識給?, 緩解尾類表征性不足的問題。圖 4 所示的檢索結果表明, PBSD 有效地加強了塊級特征和圖像塊與圖像相似性的學習, 使得挖掘不同類別的共享視覺模式成為可能。

??Multi-crop???技巧通常用于自監督學習中以生成更多錨圖像的增強樣本，采用低分辨率截圖以降低計算復雜性。與??Multi-crop???策略不同，??PBSD???的動機是利用頭類和尾類之間的共享模式來幫助尾類的學習，通過??ROI???池化得到基于塊的特征來獲得共享模式。公式 14 執行自蒸餾以維持共享模式。論文通過用??Multi-crop???技巧代替??PBSD???進行了對比實驗，??ImageNet-LT???上的性能從 57.7% 下降到 56.1% ，表明??PBSD???比??Multi-crop??策略更有效。

Training Pipeline

整體訓練邏輯如圖 3 所示，為了維護內存隊列，使用動量更新模型。訓練由兩個損失來監督，即解耦監督對比損失和基于塊的自蒸餾損失：

論文的方法專注于表征學習，并且可以通過添加對應的損失來在不同的任務中使用。在主干訓練之后，丟棄學習的投影頭?并使用標準交叉熵損失在預訓練的主干之上基于類平衡抽樣策略訓練線性分類器。

Experiments

#QuadMix

首個統一圖像與視頻的領域自適應語義分割框架：QuadMix 刷新多項基準性能

本文提出首個統一圖像與視頻的無監督領域自適應語義分割框架 QuadMix，通過四向混合機制和光流引導的時空聚合，在四大基準上全面刷新 SOTA，實現跨域、跨模態的泛化分割能力。

論文標題：Unified Domain Adaptive Semantic Segmentation

第一作者：張哲（東北大學）

通訊作者：柴天佑、吳高昌

合作作者：張敬、朱霞天、陶大程

合作單位：東北大學、武漢大學、英國薩里大學、新加坡南洋理工大學

項目主頁：??https://github.com/ZHE-SAPI/UDASS??

視頻demo:???https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view???

一、導語：從無監督域適應任務挑戰到統一突破?

1.1任務背景

在語義分割領域，無監督領域自適應（Unsupervised Domain Adaptive Semantic Segmentation，UDA-SS）旨在將有標簽的源域知識遷移到無標簽的目標域。隨著數據規模和多樣性的迅速提升，該任務日益重要。

目前主流研究集中于圖像 UDA-SS，而視頻 UDA-SS 近年來也開始受到關注。然而，兩者的研究路徑幾乎完全割裂，存在如下挑戰：

(a) 研究割裂：圖像與視頻任務各自為政，導致方法碎片化、認知零散；

(b)方法難遷移：圖像方法無法有效遷移到視頻，視頻方法無法泛化至圖像；

(c)知識利用低效：兩類任務間經驗難以共享，降低整體研究效率。?

1.2核心突破

本文首次提出統一處理圖像與視頻UDA-SS的框架，通過統一特征空間建模和統一訓練路徑，有效解決上述割裂與低效問題。

為此，我們設計了全新機制QuadMix（四向混合），構建連續、穩健、豐富的中間域表示，從而大幅縮小跨域差異。并進一步引入光流引導的時空聚合模塊，用于細粒度特征的分布對齊。

統一不是簡單地“通用化”，而是一種深入語義建模的能力提升。QuadMix作為橋梁，不僅使圖像和視頻任務共享表征基礎，更通過可擴展的路徑結構，有望實現跨模態、跨場景的泛化能力，從而為未來多模態感知系統奠定了范式基礎。

圖 1. 相較于分別研究圖像和視頻的無監督域適應語義分割（UDA-SS），我們提出了統一研究二者的研究框架。

圖 1. 相較于分別研究圖像和視頻的無監督域適應語義分割（UDA-SS），我們提出了統一研究二者的研究框架。?

二、方法詳解：從四向混合到時空對齊

我們將圖像視為無時間依賴的視頻特例，提出統一建模圖像與視頻的視覺感知領域自適應語義分割新范式。?

2.1 QuadMix：首創四向混合機制，跨域特征更穩定

我們在顯式特征空間中同時引入以下四種混合路徑：

(a) S → S：源域內部混合；

(b) T → T：目標域內部混合；

(d) S → (T → T)：源域融合到目標內部混合中。

這種設計不僅打破了傳統一階/雙向Mixup的限制，更是首次在特征空間中引入交叉式路徑結構，最大限度地提升了域內連續性與語義對齊能力。實驗表明，四向混合路徑在 t-SNE 可視化中呈現更緊致、更均衡的分布，顯著提升了遷移穩定性與泛化魯棒性。

圖 2. 不同領域混合范式的對比。與現有方法相比（存在如域內不連續性，特征泛化性差，以及特征分布不一致問題），我們提出的 QuadMix 方法在空間（時間）維度的像素級與特征級上，同時對域內混合和跨域混合進行了泛化與增強。其中符號“*”表示樣本模板。

圖 3. 所提出的 QuadMix 用于 UDA-SS 的整體框架概覽。圖像領域自適應語義分割（Image UDA-SS）遵循一條并行流程，唯一的區別在于不包含時間線索，如圖中虛線所示。

(i) 圖 (a)：QuadMix 包含四條全面的域內/跨域混合路徑，在時空像素層與特征層上橋接域間差異。像素級混合作用于相鄰幀、光流和標簽/偽標簽，旨在迭代生成兩個增強的跨域中間域：T→(S→S) 和 S→(T→T)。這些中間域克服了源域 S 與目標域 T 內部的非連續性，并展現出更具泛化性的特征，從而有效彌合域間差異。此外，在 quad-mixed 域之間進行的特征級混合，有助于緩解因不同視頻上下文導致的特征不一致問題。

(ii) 圖 (b)：光流引導的時空特征聚合模塊將跨域視頻特征壓縮至一個緊湊的類別感知空間中，有效最小化類內差異，并提升類間判別能力，從而增強目標域的語義表征能力。

(iii) 整個訓練過程是端到端的。在圖 (c) 中，目標域測試階段需要輸入相鄰幀堆疊的序列和光流。?

2.2 類別感知Patch模板生成

QuadMix 的混合質量高度依賴于 Patch 模板的生成機制。為此，我們創新性地引入“在線類別感知Patch模板”機制：

(a)針對圖像和視頻，分別提取語義一致的類別區域作為模板；

(b)在每個訓練迭代中自適應更新，避免固定模板帶來的標簽漂移問題；

(c)Patch模板不僅包含像素，還包括偽標簽和光流信息，覆蓋圖像+視頻兩個維度；

這些模板為每個iteration中QuadMix 路徑構建提供高質量輸入，確保跨域混合具備一致的語義表征。

圖 4. 展示了在視頻 UDA-SS 中，QuadMix 的多種混合策略示例：(a) 為源域 S 和目標域 T 的原始樣本（QuadMix 之前）；(b) 顯示了源模板 S*（如人物、騎手）與目標模板 T*（如交通標志、天空）；(c) 展示了域內混合路徑 S→S 與 T→T 的結果；(d) 展示了進一步的跨域混合路徑 S→(T→T) 與 T→(S→S)，即 QuadMix 后的結果。這些混合策略分別作用于視頻幀、光流與標簽/偽標簽。需要特別說明的是，每一輪訓練中所需的 Patch 模板均通過在線機制根據前一輪（n?1）自適應生成。請放大查看細節。

2.3 像素級 + 特征級雙層混合

輸入級混合解決圖像構成層次的差異，特征級混合則進一步對語義表征層進行融合與對齊。

(a)輸入級 QuadMix：通過 Hadamard 運算疊加幀、標簽與光流模板；

(b)特征級 QuadMix：構建共享類別掩碼區域，在特征圖中動態拼接并共享表示；

我們還使用輕量化的1x1卷積模塊實現特征融合，從而減少語義漂移區域，提高模型魯棒性，并有效降低了計算成本。?

三、時空聚合機制：讓視頻特征對齊更加細粒度

與圖像不同，視頻數據包含時序信息，如何充分利用時間結構進行語義對齊，是提升視頻UDA性能的關鍵。

本文提出的“光流引導的時空聚合模塊”，圍繞三個維度展開：?

3.1 光流引導的偽標簽傳播

(a)使用 ACCEL 網絡結構獲取光流；

(b)將光流用于偽標簽warp操作，獲得跨幀偽標簽；

(c)保證語義一致性與時序魯棒性；

該模塊顯著提高了偽標簽在視頻中的質量，為后續聚合與對齊奠定基礎。?

3.2 類別感知的空間聚合

(a)按類別構建特征子空間；

(b)對每類特征進行平均聚合，獲得“類別代表向量”；

(c)使用該向量進行空間重構，提升類別判別力；?

3.3 ?時間維度的信息聚合

(a)多幀空間聚合結果通過信息熵加權方式融合；

(b)構建時序一致的語義表示；

最終，整個模塊實現類別–空間–時間三重維度的精細化特征對齊，為目標域提供了堅實的泛化支持。

$圖 5. 展示了用于領域對齊的光流引導時空特征聚合過程，其中 t′ 表示前一時間步，ω^T_{t′→t}表示目標幀的時間聚合權重。𝑓?{t′→t} 表示從前一時間步 t′ 通過光流引導 warp 得到的幀特征，其中 “→” 表示沿時間維度的 warp 方向。$

圖 5. 展示了用于領域對齊的光流引導時空特征聚合過程，其中 t′ 表示前一時間步，ω^T_{t′→t}表示目標幀的時間聚合權重。𝑓?{t′→t} 表示從前一時間步 t′ 通過光流引導 warp 得到的幀特征，其中 “→” 表示沿時間維度的 warp 方向。?

四、實驗驗證：全面評估四大數據集，全面領先

我們在四個經典的 UDA-SS benchmark 上進行了嚴格驗證，涵蓋圖像與視頻兩大類任務：

具體實驗結果如下：?

4.1 視頻域適應語義分割任務

4.2 圖像域適應語義分割任務

在各種任務上，我們的方法均顯著超過現有 SOTA 方法，如 DACS、ProDA、DAFormer、SAC、CMOM 等。其中最引人注目的是：在 SYNTHIA-Seq → Cityscapes-Seq 視頻遷移任務上，我們使用 Vision Transformer 架構（QuadMix ViT）實現了 67.2 的 mIoU，刷新歷史最好結果，領先前 SOTA（PAT、TPL-SFC）近 12 個百分點。此外，在 GTAV → Cityscapes 圖像遷移任務中，QuadMix 實現 66.8 的 mIoU，超過 DAFormer、SePiCo 等先進方法，展現統一方法在圖像上的強大適應能力。?

4.3 消融實驗

4.4 可視化結果分析

圖 6. 來自 Cityscapes-Seq 驗證集的三個連續幀的定性結果。結果展示順序如下：目標圖像、真實標簽、僅源域模型的語義分割結果、DA-VSN [16]、TPS [17]、CMOM [2] 以及本文提出的方法。我們的方法在分割精度上表現最佳，邊緣更平滑、細節更精細。請放大查看細節。

更多可視化結果請參考視頻demo: https://drive.google.com/file/d/1OT5GtsbC0CcW6aydBL27ADjve95YE5oj/view?

4.5 特征空間分布TSNE分析

圖 7. 展示了不同混合范式在 t-SNE 空間中的可視化效果，分別以 sign（第一行）和 pole（第二行）兩個類別為例。子圖 (a) 到 (e) 的實驗設置對應表 VI 中的消融實驗編號：Exp.ID 0*、ID 6、ID 1、ID 3 和 ID 12。請注意，子圖 (b)、(d) 和 (e) 中的點數相同。子圖 (b) 展示的是域內混合（intra-mixed）后的特征嵌入，呈現出較為連續的分布；而子圖 (e) 展示的四向混合（quad-mixed）域則表現出更具泛化性的特征分布，而非聚集式的形式。這種分布更有效地緩解了域內不連續性問題，并更好地實現知識遷移中的細粒度特征分布拉近。