基于金字塔視覺變換的類引導網絡高分辨率遙感圖像高效語義分割

Class-Guidance Network Based on the Pyramid　Vision Transformer for Ef?cient Semantic
Segmentation of High-Resolution　Remote Sensing Images

摘要

多分類語義分割中類之間的小差異和類內的大變化是全卷積神經網絡的“編碼器-解碼器”結構沒有完全解決的問題，導致對容易混淆的類別的不精確感知。為了解決這個問題，在本文中，我們認為足夠的上下文信息可以為模型提供更多的解釋線索。此外，如果我們能夠挖掘每個語義類的類特定感知信息，我們可以在解碼過程中增強屬于相應類的信息。因此，我們提出了基于金字塔視覺變壓器（PVT）的類引導網絡。具體來說，以PVTA為編碼器網絡，接下來的解碼過程由三個階段組成。首先，我們設計了一個ＲＦＢ，利用并行分支處理和不同的擴張率將接收場擴展到不同的程度。其次，我們提出了一個語義引導塊ＳＧＢ，利用高級特征來引導低級特征的通道增強。第三，我們提出了類引導塊來實現相鄰特征的類感知引導ＣＧＢ，并通過漸進方法實現細化分割。根據波茨坦和瓦辛根數據集的實驗發現，該方法的總體準確率分別為88.91%和88.87%。

一、導言

????????隨著高分辨率遙感地球觀測的快速發展和衛星數據分辨率的不斷提高，遙感影像的魯棒語義分割對于地球觀測[1]、土地利用[2]、土地覆蓋[3]和城市規劃[4]、[5]至關重要．

????????在更早的時代，傳統的machine-learning-based技術試圖利用少量的手工特征（即形狀、紋理和顏色）來實現分割遙感影像中地物的數字對象標識符。然而，各種地物的復雜分布使得保持魯棒性和泛化變得困難，導致精度和移動性差[6]、[7]、[8]。很久以前，由于特征表示能力強，以卷積神經網絡（CNN）為代表的深度學習方法被引入遙感影像的語義分割，并取得了巨大的進展。 [9]受限于初始CNN的固定輸入大小，全卷積神經網絡（FCN[10]）被提出來成功地解決了這一問題，同時FCN的"編碼器-解碼器"結構已經成為當前深度學習方法的主流框架，詳細來說，編碼器旨在通過執行一系列卷積運算來產生多級特征，解碼器專注于聚合編碼特征的有用信息并將其融合以輸出最終分割結果．

????????基于這樣的“編碼器-解碼器”框架，近年來出現了眾多網絡，它們總是采用公共骨干網作為編碼器，如VGG[11]、ResNet[12]和DenseNet[13]，并在解碼器中采用各種策略來克服巨大的類內方差和較小的類間差異帶來的挑戰。起初，由于只有光譜信息不足以區分地面物體和復雜的周圍環境，因此利用多尺度背景信息來輔助地面物體的識別[14]，一些研究人員已經嘗試了很多通過多尺度訓練或特征融合來有效獲取和融合多尺度信息，這可以解決場景物體大小不一帶來的問題。隨后，一些研究[15]、[16]試圖從全局角度建立遠距離依賴，以獲取足夠的全局上下文信息。

????????此外，由于卷積運算的感受域有限，已經提出了許多擴展感受域和豐富上下文信息的工作。HRNet[17]采用并行方法來保持高分辨率表示并融合多個特征。U-Net[18]通過跳過連接將深層語義信息與淺層詳細信息結合起來，然而，它只能從單個尺度輸出特征。一些網絡利用擴張卷積或反卷積以在各個級別擴展感受野，以提供更全面的空間上下文建模，以改進多尺度特征表示[19]、[20]、[21]、[22]。DeepLabV3+[23]開發了atous空間金字塔池（ASPP）以捕獲各種尺度的上下文信息，并使用具有不同擴張率的多個平行層atous卷積允許atous卷積生成的特征圖具有與輸入相同的分辨率，使每個輸出神經元在不增加核參數數量的情況下具有更大的感受野大小。為了建立局部和全局的關系，并獲得更多的尺度上下文信息，用更高層次的語義學對模型進行編碼，以獲得不同的接收域信息。PSPNet[24]引入金字塔池模塊（PPM）來聚合來自多個接收域大小的信息，并對不同區域的全局上下文信息進行整合，通過上采樣將其分配給每個像素獲得了優秀的像素和預測結果，但計算效率相對較差。 ABCNet[25]通過雙邊架構捕捉高分辨率遙感圖像中豐富的空間細節和全局上下文信息，并設計特征聚合模塊來融合兩條路徑獲得的特征，但上下文路徑呈現復雜的參數和計算。MANet[26]采用不同擴張率和全局平均池化（GAP）的兩層無角卷積并行提取多尺度上下文信息，以解決遙感圖像中目標大小差異大的問題，并嵌入通道注意機制來融合語義特征。變壓器[27]，[28]，[29]以其通過自聚焦獲得全局上下文知識的能力在最近的視野中大放異彩。一般來說，CNN的成功取決于其兩個固有的歸納偏差，即平移不變性和局部相關性。視覺轉換器的結構中通常不存在這一特征，導致需要大量數據來超越CNN的性能。一般來說，CNN可以獲得更有效的局部特征。[30]然而，CNN有限的接收場使得獲取全局信息具有挑戰性，而轉換器可以捕獲長距離依賴關系。因此，通過組合CNN和變壓器，網絡結構可以最好地保留局部和全局特征，同時繼承每個特征的好處。 STransFus[31]將swin變換器模型與預訓練的Resnet34相結合作為CNN主干，并使用分段模型提供豐富的粗粒度和細粒度特征表示。ICTNet[32]解碼設計swin變換器塊和卷積塊（CB）部署和交錯提取特征，以及編碼器階段的編碼特征聚合。CCTNet[30]結合了CNN和變換器分支捕獲的本地和全局上下文信息，以避免破壞它們各自的特征。基于前述，我們將金字塔結構引入變換器框架（PVT，金字塔視覺變換器）[33]以生成多尺度特征圖。 PVT仍然生成一個全局感受場，它更適合語義分割等內涵預測任務。與ViT[34]相比，[35]，它也使用非卷積模型來代替CNN主干，具有學習高分辨率表示的優勢，同時還開發了漸進收縮金字塔和空間縮減注意力層，以降低計算成本和資源消耗[33]。

????????與前人的工作不同，我們認為由于遙感圖像中存在較小的類間方差和大的類內方差，更容易出現誤分類和遺漏。為了解決這個問題，在本文中，我們從兩個角度進行探討。一方面，我們認為遙感圖像覆蓋的地物范圍很廣，足夠的上下文信息可以為模型提供更多的解釋線索。另一方面，如果我們能夠挖掘每個語義類的類特定感知信息，我們就可以在解碼過程中增強屬于相應類的信息。因此，我們提出了基于PVT的類-導網絡。詳細地說，PVT-v2-b2作為編碼器網絡，CNN作為解碼器，將避免破壞CNN和變壓器各自的特性。下面的解碼過程由三個階段組成。首先，參考實踐[36]，多尺度上下文信息對增強編碼特征具有重要意義。一般情況下，每一層的感受域是固定的，這會丟失一些信息，失去區分不同視域的能力，例如中心附近的重要部分。此外，根據[20]，感受野中的像素對神經節點輸出的貢獻是不一樣的，更具體地說，感受野中心的像素的貢獻更大。因此，基于這些，我們使用類似于inception[37]和ASPP[23]的思想設計了一個感受野塊（RFB），我們利用不同核大小的多分支池化結構，并利用對偏心的無定形卷積。第二，由于粗糙的上采樣操作，地理對象的空間位置和邊界信息嚴重丟失，導致結構不完整和邊界粗糙。同時，大多數網絡的特征表示能力不足以應對容易混淆的地理對象。[16]然而，高級語義特征和低級視覺特征之間存在固有的語義差異，直接融合不同級別的特征會導致表示錯誤。鑒于上述問題，我們提出了語義引導塊（SGB），利用高級特征來引導通道中低級特征的增強。并為每個通道學習一個自適應權重，以確定哪些通道需要更多關注。第三，當發現對高層特征進行直接多層卷積運算得到的分割結果比較粗糙時，我們建立了一種類感知引導機制，通過一種新穎的類引導塊（CGB）挖掘類感知信息，即利用粗分割結果引導融合兩個相鄰特征進行更精細的分割。

????????在本文中，將變換器的全局上下文與CNN的局部細節相結合將有助于提高遙感圖像語義分割模型的質量，本文的結果具有以下三個明顯的特點。

1）設計了多尺度感受野擴展模塊，以獲得更豐富的上下文信息。

2）通過類別關系矩陣提高前景的感知；

3）CGB逐層引導特征融合和增強，輸出更精細的分割結果。

二、方法

????????如圖1所示，我們提出的基于PVT的類制導網絡的總體架構基于典型的編碼器-解碼器結構。特別是，我們采用預訓練的PVT-v2-b2作為編碼器網絡，從輸入的遙感圖像中提取多級編碼特征。之后，我們開發了一套新穎而強大的解碼策略來解釋多級編碼特征。

整個解碼過程可以分為以下三個階段。

1）在第一階段，為了實現多尺度上下文信息的提取，我們引入了一個RFB來擴展感受域，豐富每一層特征的多尺度上下文信息。

2）在第二階段，我們提出了SGB來利用最高級別的語義信息來實現對其他低級特征的增強。

3）在第三階段，在分割結果相對粗糙的情況下，我們提出了CGB來實現相鄰特征的類感知引導，并輸出精細的分割結果。

表I提議網絡的詳細架構

基于漸進式策略，我們最終可以獲得詳細的分割結果。表I描述了提議網絡的詳細架構。通過全局自適應池化獲得擴展感受野的四層特征圖，以獲得信道響應圖，然后，與前一層特征相乘相加，完成高級特征和低級特征的融合。

A.金字塔視覺變壓器（PVT）

PVT繼承了CNN和變壓器的優點，在那里它可以作為CNN骨干網的直接替代品。PVT的整體架構如圖所示?

圖2. PVT的整體架構：設置細粒度圖像塊（4×4像素）作為輸入，整個金字塔架構分為四個階段，以產生各種尺度的特征圖，輸出分辨率從高到低逐漸降低，從4條到32條。所有階段的架構相似，由貼片嵌入和變壓器編碼器層組成。[33]。

????????圖2。它不僅可以在圖像的密集分區上訓練以實現高輸出分辨率，還可以使用漸進收縮金字塔來減少大型特征圖的計算。并采用空間縮減注意力（SRA）來進一步減少學習高分辨率特征時的資源消耗。計算公式如下：[33]

B.接受野阻滯（Receptive Field Block，RFB）?

????????如前所述，在PVT-v2-b2實現特征提取后，我們嘗試引入足夠的上下文信息，我們設計了RFB。如圖3所示，所提出的RFB由四個并行分支組成。在每個分支的開頭，我們都使用1×1卷積來降低輸入特征的原始通道維數。對于第一個和第二個分支，我們將它們視為輸入特征的原始信息，分別用于最終的殘差結構和級聯。對于最后三個分支，我們使用三個連續的卷積操作，具有不同的核大小和atware速率。我們使用四個并行分支的原因是我們試圖構建一個并行結構接受域呈指數變化。詳細地說，1×7、7×1處理的接受域和1×5、5×1處理的接受域是1×3、3×1處理的接受域的四倍和兩倍。此外，1×1卷積的使用是為了降低輸入特征的原始維數，我們使用元素加法和級聯來嘗試對空間和通道方面的原始信息進行聚合。

????????具體來說，我們首先使用核大小為1×（2k?3）和（2k?3）×1的兩個卷積從兩個垂直方向捕獲信息，然后我們利用2k?3（k>2）的3×3卷積來擴展輸入特征的感受野。隨后，我們將最后四個分支（b2、b3、b4、b5）連接在一起。最后，我們使用殘差連接添加第一個分支的特征和連接的特征，并伴隨ReLU激活函數來進一步增加處理后特征的非線性。在這一系列操作下，通過擴大感受域和豐富多尺度上下文信息來增強輸入特征。

????????ASPP模塊結構[21]、[38]作為本文并行卷積多尺度上下文提取方法的基礎。許多模塊使用atous卷積或大型卷積以粗略地增加感受野。ASPP使用不同的擴張速率將多個Atrous卷積特征連接到最終的特征表示。我們的輸入圖像具有高分辨率。要在ASPP中實現足夠大的感受野，必須采用足夠大的擴張比。然而，隨著擴張速率的增加（例如，d>24），atous卷積變得越來越無效[20]。因此，我們對ASPP的改進是使用多個卷積，改變atous速率，并且每個分支都是一個字符串而不僅僅是一個簡單的卷積操作，這可以捕獲更多的上下文信息。然后連接每個分支的輸出結果以創建多尺度特征圖。

C.語義指導塊（Semantic Guidance Block，SGB）

????????眾所周知，最高級別的特征總是擁有足夠多的語義信息，這些語義信息與關于類和屬性的抽象信息相關。為了抑制較高的誤報率（一般分割容易將背景中的一些物體判斷為前景），本文設計了SGB來加強前景之間的聯系，增強前景和背景之間的差異。具體來說，我們提取網絡中最深的全局特征向量，計算當前特征中場景和目標之間的語義關系，從而得到關系矩陣，可以進一步用于增強圖像中的前景特征，并減少誤報。本文通過GAP從全局特征中生成通道權重，全連接層自適應學習這些權重，最后通過乘以這些權重，調整融合特征，對于每個金字塔級別，關系建模的流程細節如圖3所示。

對于更高級別的特征圖：　　低級特征圖：

????????這里，H、W、C分別表示圖像的高度、寬度、通道數，我們首先對深層特征圖Fh使用全局自適應池化，得到通道響應圖R為

????????然后，我們進行1×1卷積來降低R的維數，我們可以得到R0。R0的通道數是R的一半。然后，我們對R0使用sigmoid函數，并將其替換為概率R1作為?

????????讓每個通道的權重范圍從0到1，即這些C通道的權重值，這樣我們就可以在訓練過程中從關系矩陣中知道哪個通道更重要，哪個通道不太重要。我們可以通過關聯空間場景的相關上下文來提高前景特征的識別能力。然后，我們將R1與降維F l相乘，完成高級特征和低級特征的融合，得到最終融合特征的特征圖F。?

D.班級指導塊（Class Guidance Block，CGB）

????????密集金字塔網絡[39]將金字塔池模塊與兩個卷積層相結合，以實現多分辨率（高水平和低水平）特征融合。此外，特征金字塔網絡[40]，[41]被設計為通過向上采樣后將更高級別的特征與更低級別的特征相結合，并將額外的語義信息從上到下整合到具有足夠空間信息的更低級別的特征中，從而連接較低級別和更高級別的語義信息。基于此，我們通過使用shallogh空間細節和深度強語義學來改進特征圖，這有利于恢復對象的細節和多尺度上下文建模。隨后，設計了CGB。

????????在所提出的CGB中，較高層次的特征由CB處理得到粗分割結果。粗分割結果用于指導兩個相鄰特征的融合，隨后的解碼輸出更加準確。具體來說，對于前一層預測的使用，我們提出了一種漸進式引導策略，利用前一層預測幫助特征的相鄰層學習相對確定的空間關系。關于前者的預測，它已經對每個像素擁有相對特定的語義類，我們使用Sigmoid函數將每個像素與每個類的相應概率分配，由此產生的誤差將被融合過程大大消除，我們可以清楚地增強特征并輸出更精細的分割結果。根據這種策略，逐層引導特征增強，得到四個輸出結果（四個特征的融合對應四個輸出，最后一個輸出結果是最精確的輸出）。具體步驟如下。

對于更高級別的特征圖　　低級特征圖：

首先，對F l進行上采樣，使其大小變為RB×C×H×W，然后，我們將高級特征和低級特征逐個元素相加，得到：M屬于RB×C×H×W。?

然后，我們將最后一個粗略分割結果的通道分離出來，得到Pi： Pi　RB×1×H×W，i=1,2，…，N。

對Pi進行sigmoid運算，Pi上每一點的概率值表示該點的像素屬于該類別的概率，然后，將M乘以，得到每個類別的增強特征：MiλRB×C×H×W， i=1,2，…，N。

逐個元素添加每個類別元素的特征，得到特征圖O為

最后，可以通過三個卷積輸出最終結果。?

三、實驗結果和分析

A.數據說明

????????本文選取ISPRS官網鏈接的Potsdam和Vaihingen數據集作為實驗數據樣本．兩個數據集的圖像及其對應的標簽如圖4所示。

????????1）波茨坦：波茨坦數據集圖像具有5厘米的空間分辨率。數據集中的每個圖像都包含一個仿射變換文件，可用于根據需要將其分解為更小的圖像。數據采集由GeoTIFF的三個波段組成。該數據集還提供tiff存儲形式的圖像通道組合，包括IR-G、R-G-B和R-G-B-IR。

????????在本實驗中，選擇帶有邊界標簽的圖像作為標簽圖像，包括六類：不透水表面、建筑物、低矮植被、樹木、汽車和雜波。我們使用圖像2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15和7_13作為測試集，2_10作為驗證集，其余的作為訓練集。

????????2）Vaihingen：Vaihingen數據集圖像空間分辨率為9 cm，包括33個真正射照片，平均空間尺寸為2494×2064。地面實景包括與ISPRS Potsdam基準相同的七個類別。我們使用4、8、12、14、20、24、29、33和38作為測試集，30作為驗證集，其余作為訓練集。根據與Postdam相同的數據切割方法，實驗中僅使用紅色、綠色和藍色通道。

B.實驗參數設置

????????參數集應在實驗前精確建立和識別。我們在NVIDIA GeForce RTX3090 GPU上訓練網絡，它們完全具有24GB RAM。對于這兩個數據集中的每一個，我們分別訓練我們提出的網絡。表II描述了一些數據描述和訓練細節。訓練環境是Pytorch1.8.1和cuda11.1，使用Adam優化器。我們根據訓練紀元調整學習率。初始學習率設置為10-4，每50個紀元衰減十次，共100個紀元。因為經過實驗，精度達到飽和100個時期的狀態。以多類交叉熵作為損失函數，用語義分割中常用的另外兩個損失函數（Dice損失和NLLLoss）進行消融實驗，證明其有效性。

C.評估指標

????????選擇整體準確度（OA）、平均intersection-over-union（mIoU）和F1-mark（F1）作為我們的評估標記，以充分評估該方法的語義分割結果。此外，對于像素級分類任務，當類別不均勻時，利用精度和召回進行預測，分別由（8）和（9）計算

OA表示整體像素的整體評估結果，公式如下：?

?F1分數是召回率和準確率的綜合衡量標準，其公式如下：

IoU是指類別與真實標簽的預測結果之間的交集和并集之間的比率。mIoU是指所有類別的IoU平均值，其公式如下：

在所有公式中，N代表類別的數量，N+1代表所有類別加上背景。許多指標是基于混淆矩陣計算的，其中一些定義如下：真正、真負、假正和假負（TP、TN、FP和FN）。TP和FP分別是正確和錯誤預測為前景的前景像素數；TN和FN分別是正確和錯誤預測為背景的背景像素數。

D.與現有作品的比較

????????如前所述，我們設計的基于PVT的前景感知網絡模型是PVT與傳統卷積解碼器相結合的分割網絡，目的是豐富具有長期依賴關系和局部模式的全局上下文信息，以提高分割精度。因此，對分割精度的數值評估進行了實驗研究，包括UNet（2015）、PSPNet（2017）、DeepLabV3+（2018）、HRNet（2020）、ABCNet（2021）、MANet（2020）和SegNet（2017）。?

????????1）波茨坦數據實驗結果：波茨坦數據集用于第一系列實驗，可視化比較結果如圖5所示，分別表示裁剪后和裁剪前的可視化結果。

????????很明顯，PSPNet產生了低精度的分割結果，并且不夠魯棒性以保留微妙的前景邊緣，這導致提取的建筑物形狀不規則和邊界模糊。本文中使用的策略導致建筑物的邊緣線更直，直角更明顯。幾乎所有預測區域都與參考標簽匹配。由于變壓器對全局關系進行建模的能力，PVT可以比CNN模型更準確地分割巨大的對象（如建筑物）。此外，其他模型方法在低植被和樹木方面表現出嚴重下降的性能。在本文中，通過計算相關性得到權重矩陣，并對特征值進行自適應增強或衰減，使類的像素值表示更加準確，從而可以看到樹木和低植被之間的小類之間的差異。所提出的方法在這些具有挑戰性的類別中顯示了更平滑的結果。我們計算了每個類別的IoU以及每個被檢查模型的其他指標的平均值。表III提供了調查結果的摘要。

????????從結果可以看出，本文提出的基于PVT的前景感知網絡在F1 Ave、OA、mIoU中排名第一，在F1平均中獲得85.79%的結果，在OA中獲得88.91%的結果，在mIoU中獲得77.32%的結果。UNet是所有使用CNN作為骨干的網絡中最好的。與我們的方法相比，F1 Ave、OA和mIoU分別提高了0.95%、1.33%和1.49%。雖然在比較五種技術時考慮了特征融合，但沒有考慮特征融合的權重。我們提出的方法可以通過學習融合特征的權重來進行修改。結果，我們的方法可能會對數據進行分類．

更準確地，消除誤報，更有效地解決容易混淆類別的錯誤感知問題。例如，很容易對低植被和高樹木進行錯誤分類。但是我們的方法在這兩個類別中表現更好，IoU分別上升了1.95%和2.76%。這些結果證明了我們解碼器設計的有效性。此外，與其他類別相比，車輛類別是一個小目標，不透水表面類別是一個大目標。這兩個類別的IoU值分別增加了0.46%和2.28%，這表明我們提出的多尺度上下文提取方法（PVT）可以解決兩個對象的大小和形狀懸殊過大的問題，并在大規模數據集中獲得更大的收益。因此，基于變壓器的網絡在語義分割方面提供了與大多數基于ResNet的方法相比具有競爭力的準確性。為了驗證我們的整個過程，我們驗證了預測1-4的準確性，結果如表四所示。通過我們的CGB獲得了四層特征融合輸出結果。最后的輸出結果是最詳細的。與第一次粗分割結果相比，mIoU可以提高4.58%，證明本文設計的編解碼結構可以更準確地提取特征，有效地融合特征，從而提高分割性能。

2）Vaihingen數據實驗結果：第二組實驗是在Vaihingen數據集上進行的。視覺比較結果如圖6所示。觀察到其他方法分割結果中的汽車是粘附的和不完整的，識別出的汽車邊界信息不夠準確。我們的方法可以在沒有粘度的情況下準確地繪制完整的形狀和區分小地物，如汽車。此外，在HRNet、DeeplabV3+和PSPNet產生的數據中可能會看到一些缺失和錯誤提取的區域，建筑物邊緣周圍有明顯的失真。UNet和ABCNet減少了不正確劃分和缺失劃分的發生。比較表明，我們的方法提取了更全面的較小建筑，對于所有比較模型，我們計算了每個類別的F1和其他指標的平均值。結果總結在表五中。

????????? ? 結果表明，我們的方法對Vaihingen數據集的OA為88.87%，F1的平均值為82.05%，mIoU為71.79%，分別比其最接近的競爭對手UNet高出1.48%、3.5%和3.73%。雖然Vaihingen的數據量相對小于Potsdam，但我們的方法仍然取得了更好的性能。特別是對于車輛類別，IoU增加了3.59%。由于樹木和建筑物阻擋了占訓練圖像像素一小部分的汽車，因此很容易被錯誤劃分或遺漏。網絡模型我們提出使用PVT提取不同尺度的特征，解碼器設計部分自適應融合不同層次的語義信息。因此，即使前景對象在圖像中占據很小的區域，也可以對其進行恢復和組合，以生成有效的特征并進行準確的分割。在實驗結果中，盡管類別分布不均勻，但平均準召在所有類別中分別上升了0.79%和3.63%。數值結果和可視化結果證實了我們方法的有效性。此外，我們還驗證了Predic1-4的準確性，如表VI所示。與第一次粗分割的結果相比，類別引導到最后一次的輸出結果可以提高16.07%。這證明我們提出的網絡架構顯示出比其他五種模型更好的分割性能。

E.計算和參數效率

我們在表VII中報告了在兩個數據集上進行訓練和測試的運行時間以及不同模型的參數數量。在這個表中，有兩個指標，具體如下。

1）參數是指模型中包含的參數數量，用于度量模型的大小（計算空間復雜度）。與其他大規模網絡如HRNet（70M參數）、MANet（59M參數）、SegNet（29M參數）相比，我們的架構（25M參數）的參數明顯更少。

2）每秒幀數（FPS）表示網絡每秒可以處理的圖像數量或處理圖像以評估檢測速度所需的時間，時間越短，速度越快，我們的架構有比絕大多數傳統CNN更低的時間復雜度。

F.消融實驗

????????消融實驗結果：本文選用PVT作為編碼器，在解碼部分以UNet結構的U形結構為基線，由RFB、SGB、CGB三組分組成，在ISPRS Potsdam和Vaihingen數據集上對燒蝕實驗進行了評估，并對燒蝕研究進行了定量檢驗，以證明本研究中解碼器三階段技術的功效，表VIII顯示了消融實驗結果。?

?1）基線：我們選擇PVT作為特征提取的編碼器，并將輸出的四層特征圖輸入到解碼器，解碼部分以UNet結構的U形結構作為“基線”，基線可以作為評估網絡組件性能的標準。

2）基線+RFB：在解碼器中，RFB被設計為捕獲全局上下文信息，分支和處理每一層的特征，并獲得不同的特征圖．因此，一個簡單的變體更能捕捉多尺度上下文信息。與基線相比，“基線+RFB”的性能將證明RFB的有效性。

3）Baseline+SGBandBaseline+RFB+SGB：豐富的空間信息對于語義分割至關重要，因此需要創建具有多尺度和高級語義信息的特征圖。為了利用最高級別的特征為其他低級特征提供語義指導，我們提出了SGB。該表顯示，“基線+SGB”在mIoU方面比“基線”高出0.76%和0.25%，而“基線+RFB+SGB”比“基線+RFB”高出0.67%和0.43%，證明了SGB在特征融合方面的功效。

4）基線+CGB和基線+RFB+CGB： CGB通過逐層特征增強、每個類別逐個元素特征添加以及上下文和空間信息融合來實現四層特征融合。在mIoU方面，“基線+CGB”比“基線”高1.79%和0.77%，而“基線+RFB+CGB”比“基線+RFB”高0.67%和0.60%，證明了這種分段融合方法的有效性。

5）Baseline+RFB+SGB+CGB：結合工作解碼器設計的三個組件的方法實現了更高的精度。與“基線”相比，“Baseline+RFB+SGB+CGB”的分割性能在mIoU中提高了3.02%和1.23%，證明本文提供了最佳融合方案。

此外，我們在Vaihingen數據集中通過燒蝕實驗比較不同損失函數的性能，以證明本文中用作損失函數的多類交叉熵的可靠性，實驗數據結果和可視化結果如表IX和圖7所示．本文中使用多類交叉熵作為損失函數對于大多數類別的分割效果和準確性是最好的。

IV.結論

????????引入PVT作為編碼器，成為像素級密集預測任務設計的純變壓器骨干，顯示了多尺度建模在遠距離視覺依賴方面的優勢。在有限的計算和存儲資源下，PVT可以靈活學習多尺度和高分辨率的細粒度特征，并將其與流行的ResNet提取的特征圖進行比較，證明其具有比CNN更強大的特征表達能力。它還可以幫助區分容易混淆的地理對象。

????????我們利用CNN開發了一種特殊的解碼和分割方法，稱為類引導網絡，并設計了三個模塊來高精度和高效率地恢復特征。在獲得精確的多尺度特征時，我們使用相關性來監控各種場景中像素之間的關系。然后，我們建立了類感知引導機制來挖掘類感知信息，并通過漸進方法實現精細分割。我們使用燒蝕研究來證明每個模塊的有效性。

????????本研究僅限于研究如何提高網絡模型的分割精度。PVT對于高分辨率輸入的計算復雜度仍然很高。未來，我們鼓勵進一步研究變壓器和CNN的深度集成。在此基礎上，我們討論如何計算復雜度并獲得高效的分割方法。