SpectralGPT: Spectral Foundation Model 論文翻譯2

遙感領域的通用大模型 2023.11.13在CVPR發表

原文地址:[2311.07113] SpectralGPT: Spectral Foundation Model (arxiv.org)

實驗

? 在本節中,我們將嚴格評估我們的SpectralGPT模型的性能,并對其進行基準測試SOTA基礎模型:ResNet50 [36]、SeCo [37]、ViT[22]和SatMAE[30]。此外,我們評估了其在四個下游EO任務中的能力,包括單標簽場景分類多標簽場景分類語義分割變化檢測,以及廣泛的消融研究。

? 我們定量評估了預訓練基礎模型在4個下游任務中的性能,包括單標簽RS場景分類任務的識別精度、多標簽RS場景分類任務的宏觀和微觀平均精度(mAP),即宏觀mAP (micro-mAP)、語義分割任務的總體精度(OA)和平均交聯(mIoU),以及變化檢測的精度、召回率和F1分數。此外,我們還進行了有見地的消融研究,探索了掩蔽比、解碼器深度、模型大小、補丁大小和訓練時代等關鍵因素。利用4個NVIDIA GeForce RTX 4090 gpu的計算能力,我們精心微調下游任務和消融研究的預訓練基礎模型,從而提供對SpectralGPT在RS域中的能力和適應性的全面見解。

A. EuroSAT上的單標簽RS場景分類

? 對于下游單標簽RS場景分類任務,我們使用EuroSAT數據集[38]。這個數據集包括從34個歐洲國家收集的27000張哨兵2號衛星圖像。這些圖像被分為10個土地使用類別,每個類別包含2000到3000個標記圖像。該數據集中的每張圖像分辨率為64 × 64像素,包含13個光譜帶。值得注意的是,為了與之前的數據處理保持一致,所有圖像都排除了B10波段。此外,我們遵循[39]中建議的訓練/驗證分割。在EuroSAT數據集上,這些預訓練的模型經過微調,跨越150個epoch,批量大小為512。這一微調過程采用了基本學習率為2 × 1 0 ? 4 10^{-4} 10?4AdamW優化器,并結合了與先前工作[24]一致的數據增強,包括權重衰減(0.05)、drop path(0.1)、repb(0.25)、mixup(0.8)和cutmix(1.0)。利用預訓練模型的基礎編碼器,將其輸出通過平均池化層進行預測。訓練目標是最小化交叉熵損失。圖4給出了下游單標簽場景分類任務的網絡架構。

image-20231124180143113

? 預訓練模型的編碼器作為基礎骨干,其輸出服從于平均池化層以生成預測。訓練目標包括最小化交叉熵損失。在表1中,我們對我們提出的方法與其他預訓練模型進行了比較分析,報告了驗證集上最高的Top 1 精度。獲得的結果突出了所提出方法的有效性,實現了令人印象深刻的精度99.15%。此外,當模型在fMoW-S2和BigEarthNet數據集上進行預訓練時,可以觀察到顯著的性能提升,最終達到99.21%的顯著準確率。這強調了利用不同數據源來改進模型性能的優勢

B. BigEarthNet上的多標簽遙感場景分類

? 對于多標簽RS場景分類任務,我們使用bigearth - s2數據集[34]。這個廣泛的數據集由125個Sentinel-2 tiles組成,包括590,326張12波段圖像,跨越19個類別,用于多標簽分類。這些圖像的分辨率從10米到60米不等,12%的低質量圖像被排除在外。訓練和驗證集與先前的研究[39]一致,有354,196個訓練樣本和118,065個驗證樣本。為了準備模型訓練,使用雙線性插值將不同分辨率的圖像標準化為128 × 128像素的統一尺寸。

? 在bigearth - s2數據集上,這些基礎模型使用10%的訓練數據子集進行微調,遵循與EuroSAT微調實驗中應用的設置相似的設置,除了學習率提高了2× 1 0 ? 4 10^{-4} 10?4,這與先前的研究結果一致[30],[37]。大多數現有方法,包括那些使用預訓練基礎模型的方法,通常使用bigearth - s2數據集中的所有可用圖像進行訓練。相比之下,我們提出的SpectralGPT即使只利用10%的訓練樣本,也能實現更高的分類性能。考慮到這個的多標簽分類性質任務中,我們的訓練目標涉及多標簽軟邊際損失,性能評估基于mAP度量。值得注意的是,我們使用macro和micro mAP測量來計算mAP。這種方法特別適用于bigearth - s2數據集,它顯示了類的不平衡。多標簽分類框架如圖4所示。

image-20231124183142881

? 表2給出了我們的預訓練模型與其他提出的預訓練模型和從零開始訓練的模型的比較分析,展示了提出的方法的卓越性能。特別是,與在ImageNet-22k和SatMAE相比,我們的SpectralGPT模型的性能macro-mAP(micro-mAP)比它們高出0.84% (0.82%)和0.71%(0.68%)。值得注意的是,引入了額外的預訓練數據(BigEarthNet),即SpectralGPT+,導致了顯著的性能提升,模型取得了令人印象深刻的成績macro-mAP(micro-mAP) 為88.22%(87.50%) ,比僅在fMoW-S2上訓練的模型高出2.19%(1.86%)。這種實質性的改善可歸因于兩個關鍵因素。首先,模型在BigEarthNet上的初始預訓練(即使沒有標簽)使其對數據集的分布有了很強的掌握,加速了微調過程中的收斂,增強了mAP。其次,采用MIM方法作為預訓練 pretext 任務,再加上龐大的數據規模,需要與訓練策略保持一致,強調隨機掩膜框架和90%掩膜比的重要性,以促進更魯棒的表示學習。此外,由于我們的評估集中在一個多標簽分類任務上,并且只使用了10%的訓練數據,結果強調了我們提出的模型在處理具有挑戰性的下游任務時的優越泛化和少量學習能力

C.基于SegMunich的RS語義分割

? 對于語義分割任務,我們創建了一個新的SegMunich數據集,該數據集來自Sentinel-2光譜衛星[41]。該數據集由10波段最佳像素合成,尺寸為3,847 × 2,958像素,空間分辨率為10米。它在2020年4月之前的三年內捕捉了慕尼黑的城市景觀,并包括一個分割掩模,精心描繪了13個土地利用和土地覆蓋(LULC)類別。這個掩碼的數據來自不同的地方,包括OpenStreetMap的街道網絡數據和OSMLULC 平臺數據為其余12個類別,均以相同的10米空間分辨率獲得。為了創建語義分割的綜合特征表示,數據集將10米光譜帶(B1、B2、B3和B4)與重采樣的20米光譜帶(B5、B6、B7、B8A、B11、B12)結合起來,并將其上采樣以匹配10米分辨率。這種譜帶的融合確保了數據集為語義分割任務提供了豐富和信息豐富的數據。

? 在SegMunich數據集上,我們將UperNet框架[40]與預訓練的基礎模型結合使用,最初將編碼器最后一層的每個像素的四個token合并為一個token。圖像數據被分成128 x 128像素的標記,重疊50%。然后將數據集分成8:2的訓練驗證比,并進行數據增強技術,包括隨機翻轉和旋轉。在對該數據集進行微調期間,我們使用96個批處理大小,并將基本學習率設置為5 x 1 0 ? 4 10^{-4} 10?4。優化函數和損失函數與EuroSAT實驗中使用的函數保持一致,確保對模型訓練和評價采取連貫統一的方法。分割架構如圖5所示。

image-20231124184341972

image-20231124190239833

? 表III列出了語義分割任務的OAmloU的定量結果。我們的SpectralGPT (SpectralGPT+)表現優于其他所有產品,mIoU比第二名(即SatMAE)高出1.1% (2.3%)。圖6(a)提供了分割任務所研究的慕尼黑地區的視覺描述,以及13個類別的比例。如**圖6(b)所示,幾個roi的定性比較表明,在大多數情況下,與競爭模型相比,我們的模型在識別更廣泛的土地利用類別方面具有優越的能力。此外,當考慮將ViT-22k 作為性能比較的基線時,我們的模型在所有分割類別中始終表現出色,如圖6?**所示,特別是對于作物、牧場、開放空間、植被等類別。通過將類別統計數據與分類IoU結果相結合,我們的SpectralGPT模型在減輕類別不平衡分類帶來的挑戰方面表現出色。與其他基礎模型相比,這將大大提高性能

D.對OSCD的RS變化檢測

? 對于變化檢測任務,我們使用OSCD數據集[42]。圖7(a)顯示了幾個城市規模的例子。該數據集包括24個城市的Sentinel-2圖像,其中14張用于訓練,10張用于評估。這些圖像拍攝于2015年至2018年之間,包含13個光譜波段,分辨率分別為10米、20米和60米。該數據集在像素級進行了注釋,以表明變化,特別是關注城市發展。在OSCD數據集上,我們執行圖像裁剪以創建大小為128 × 128像素的斑塊,重疊率為50%,并且我們應用隨機翻轉和旋轉作為數據增強技術。對于每一對圖像,兩者都通過共享編碼器同時處理,并計算其特征之間的差異,然后傳遞給UperNet。每個特征像素由4個標記組成,類似于分割方法,我們使用線性層將這4個標記合并為1個標記。該模型以負對數似然損失為訓練目標,以批大小為64個,學習率設置為1× 1 0 ? 3 10^{-3} 10?3,訓練60個epoch。在變更檢測任務中利用預訓練的SpectralGPT模型的整個框架如圖5所示。

image-20231124191757541

? 模型性能通過精度、召回率和F1分數來評估,其定量結果如表4所示,在OSCD數據集上,我們提出的模型獲得了最高的F1分數,超過了第二好的模型(即SatMAE) 0.75%(1.53%)。然而,值得注意的是,我們的模型在F1得分和召回率方面表現出色,但與其他模型相比,精度相對較低。這種現象可以歸因于兩個主要因素。首先,變化檢測任務內固有數據的極度不平衡(見圖7(b)),其中陽性和陰性樣本的數量差異顯著,可能導致模型將陰性案例分類為陽性,以犧牲精度為代價提高召回率。其次,ViT架構的復雜性需要大量的數據來緩解過擬合。模型可能會與過擬合作斗爭,并且對域外數據的適應性變差。解決這一挑戰可能需要提供額外的微調數據或者降低模型的等級。在定性結果方面,我們的模型在**圖7(d)**的選定roi中預測變化像素方面表現出色,假陰性較少。值得注意的是,**圖7?**強調了SpectralGPT的卓越性能,其中我們的模型在一半的測試城市中取得了最好的結果。此外,被比較的模型在10個不同的的城市表現趨勢一致,Lasvegas 和 Montpellier分別在F1中獲得了最高和第二高的分數

image-20231124190518417image-20231124190551414

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/167395.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/167395.shtml
英文地址,請注明出處:http://en.pswp.cn/news/167395.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

kubernetesr進階--Security Context之為容器設置Security Context

容器的定義中包含 securityContext 字段,該字段接受 SecurityContext 對象。通過指定該字段,可以為容器設定安全相關的配置,當該字段的配置與 Pod 級別的 securityContext 配置相沖突時,容器級別的配置將覆蓋 Pod 級別的配置。容器…

03.依賴倒置原則(Dependence Inversion Principle)

概述 高層模塊不應依賴低層模塊,二者都應該依賴其抽象。而抽象不應依賴細節,細節應該依賴抽象。依賴倒置原則的中心思想其實就是面向接口編程。 相對于細節的多變性,抽象的東西會穩定的多,所以以抽象為基礎搭建的架構自然也會比以…

EMG肌肉電信號處理合集(二)

本文主要展示常見的肌電信號特征的提取說明。使用python 環境下的Pysiology計算庫。 目錄 1 肌電信號第一次burst的振幅, getAFP 函數 2 肌電信號波長的標準差計算,getDASDV函數 3 肌電信號功率譜頻率比例,getFR函數 4 肌電信號直方圖…

Day41:198.打家劫舍、213.打家劫舍II、337.打家劫舍 III

文章目錄 198.打家劫舍思路代碼實現 213.打家劫舍II思路代碼實現 337.打家劫舍 III思路代碼實現記憶化遞歸法(其他解法) 198.打家劫舍 題目鏈接 思路 確定dp數組(dp table)以及下標的含義 dp[i]:考慮下標i以內的房屋…

華清遠見嵌入式學習——網絡編程——小項目

項目要求&#xff1a; 代碼實現&#xff1a; 服務器端&#xff1a; #include <myhead.h>//定義協議包 struct proto {char type;char name[20];char text[128]; };int main(int argc, const char *argv[]) {//判斷從終端輸入的字符串的個數if(argc ! 3){printf("…

mysql中TIMESTAMP 和DATETIME數據類型的區別

在MySQL中&#xff0c;TIMESTAMP和DATETIME都用于表示日期和時間&#xff0c;但是它們之間存在一些關鍵區別。下面我們通過幾個關鍵點來詳細了解這兩種數據類型的使用&#xff1a; 存儲范圍 TIMESTAMP類型的存儲范圍從1970-01-01 00:00:01 UTC到2038-01-19 03:14:07 UTC。DAT…

Django之importlib模塊

【1】介紹 import importlib importlib模塊是Python中用于動態加載和導入模塊的內置模塊 它提供了一組函數和類&#xff0c;使得我們可以在運行時根據需要加載模塊&#xff0c;并且可以對已導入的模塊進行操作和管理 【2】importlib模塊中的import_module方法 【2.1】導入模塊…

無需API開發,錢方QFPay連接營銷系統和廣告推廣平臺

隨著電子商務市場的不斷發展&#xff0c;企業需要集成各種業務系統&#xff0c;以提高業務效率和降低運營成本。錢方QFPay提供了一種創新的解決方案&#xff0c;幫助企業實現系統間的連接和集成&#xff0c;無需進行復雜的API開發。除了電商系統和客服系統&#xff0c;錢方還能…

武漢光庭公司地圖引擎開發工程師24秋招三場面試完整流程

本文介紹2024屆秋招中&#xff0c;武漢光庭信息技術股份有限公司的智能駕駛地圖引擎開發工程師崗位一面、二面、三面的面試基本情況、提問問題等。 10月投遞了武漢光庭信息技術股份有限公司的智能駕駛地圖引擎開發工程師崗位&#xff0c;暫時并不清楚所在的部門。目前完成了全部…

mysql:修改密碼的幾種方式

背景 當我們 brew install mysql 新安裝 mysql 的時候&#xff0c;是沒有密碼的&#xff0c;我們可以直接通過 mysql -u root 連接上。但是密碼還是要設置的&#xff0c;一是為了安全&#xff0c;二是有些數據庫軟件如 Sequel 連接都是必須要密碼的&#xff0c;接下來我們來看…

電磁建模的分布式并行計算技術

本文提出了一種新的分布式并行電磁建模技術&#xff0c;以加快電磁結構的神經網絡建模過程。現有的電磁建模技術通常需要反復改變微波器件的參數&#xff0c;驅動電磁模擬器以獲得足夠的訓練和測試樣本。隨著電磁建模問題復雜性的增加&#xff0c;由于單臺計算機的性能有限&…

DP好題總結

LCIS最長公共上升子序列 題解&#xff1a;https://blog.csdn.net/weixin_50624971/article/details/116892236 概括&#xff1a; 決策優化DP 考慮LCS可以寫成 O ( n 4 ) O(n^4) O(n4) 的如果我們把狀態設為 f [ i , j ] f[i,j] f[i,j] 表示考慮到 a [ i ] , b [ j ] a[i]…

機器學習【00】pycharm使用遠程服務器

我們使用conda在服務器上創建虛擬環境&#xff0c;遠程使用pycharm進行編程 pycharm版本2023.1.3 一.首先在服務器上創建虛擬環境 注&#xff1a;anaconda的安裝可以參考ubuntu系統miniconda的安裝 conda create --name tac python3.7二.pycharm 連接 點擊add interpreter …

查企業聯系電話的方法

對于銷售來說&#xff0c;獲取準確、全面的企業聯系方式&#xff0c;無疑是開發客戶的基礎與保障&#xff0c;因為任憑能力再高&#xff0c;說服能力多強&#xff0c;沒有與客戶接觸的機會&#xff0c;這些都是無稽之談。但是大家都知道&#xff0c;道理都懂&#xff0c;但是要…

.yaml文件的簡介

文章目錄 YAML文件簡介YAML文件的示例 YAML文件簡介 YAML是一種人類可讀的數據序列化標準。它常被用于配置文件、數據交換格式、以及在一些編程語言中的數據結構描述。 YAML 文件的主要特點有如下四點&#xff1a; 可讀性&#xff1a;YAML 的語法結構簡潔明了&#xff0c;容…

報錯AttributeError: module ‘cv2‘ has no attribute ‘ximgproc‘

報錯AttributeError: module ‘cv2’ has no attribute ‘ximgproc’ 首先查看是否安裝opencv-contrib-python pip list | grep opencv顯示 opencv-contrib-python 4.4.0.46 opencv-python 4.8.1.78 opencv-pyt…

【2023.11.24】Mybatis基本連接語法學習?

基本配置 1.如果使用Maven管理項目&#xff0c;需要在pom.xml中配置依賴。 2.安裝Mybatis-3.5.7.jar包 3.進行XML配置&#xff1a;這里將文件命名為mybatis-config.xml 配置數據庫連接XML文件 <?xml version"1.0" encoding"UTF-8" ?> <!DO…

Crypto(10)BUUCTF-RSA3(共模攻擊)

一.共模攻擊的現實意義 好奇一個問題&#xff0c;即共模攻擊有什么現實意義&#xff1f; 發現也沒有什么現實意義&#xff0c;因為&#xff08;n,e&#xff09;是已知的&#xff0c;通常每個用戶的n是不同的&#xff0c;除非特殊情況吧 二.共模攻擊的數學原理&#xff1a; 通…

最重要的BI測試-適用于任何BI和分析平臺

為什么 BI 測試是答案 相信你的數據可視化是成功執行商業智能 (BI) 和分析項目的關鍵因素。我敢肯定&#xff0c;你遇到過以下情況&#xff1a;業務主管或業務用戶反饋說他們的分析看起來不對&#xff0c;他們的 KPI 看起來有問題&#xff0c;或者速度太慢而無法使用。要問自己…

SQL 通配符:用于模糊搜索和匹配的 SQL 關鍵技巧

SQL通配符字符 通配符字符用于替代字符串中的一個或多個字符。通配符字符與LIKE運算符一起使用。LIKE運算符用于在WHERE子句中搜索列中的指定模式。 示例 返回所有以字母 ‘a’ 開頭的客戶&#xff1a; SELECT * FROM Customers WHERE CustomerName LIKE a%;通配符字符 符…