【FineGrip】全光學感知:一種新的通用遙感圖像解釋任務和細粒度數據集(IEEE TGRS 2024)

摘要

  • 目前的遙感解譯模型通常集中于單一的任務,如檢測、分割或字幕。但是,針對特定任務設計的模型無法實現綜合多層次解譯。該領域也缺乏多任務聯合解譯數據集。
  • 本文提出Panoptic Perception,一個新的任務和一個新的細粒度數據集(FineGrip)實現一個更全面和普遍的RSIs解譯。該新任務:
    • 集成了像素級、實例級和圖像立面信息,用于通用圖像感知;
    • 從粗粒度到細粒度捕獲圖像信息,實現更深層次的場景理解和描述;
    • 通過多任務學習,使各種獨立任務相互補充和增強。
  • 通過強調多任務交互和感知結果的一致性,該任務能夠同時處理細粒度前景實例分割、背景語義分割和全局細粒度圖像字幕。具體地說,FineGrip數據集包括2649張遙感圖像,12054個細粒度實例分割掩碼,有20個前景事物類別,7599個背景語義掩碼和13245個字幕句子。
  • 此外,提出了一個基于聯合優化的全視覺感知模型。對FineGrip的實驗結果證明了全視覺感知任務的可行性,以及多任務聯合優化對個體任務有益的效果。
  • 論文鏈接:https://arxiv.org/abs/2404.04608
  • 代碼鏈接:FineGrip

動機

  • RSI解譯在圖像分類、目標檢測、語義分割、實例分割、圖像字幕生成、多種任務中呈現了快速發展趨勢。然而,這些任務只涵蓋了單個任務的解釋。然而,這些任務的模型通常是獨立設計的,而忽略了RSIs中豐富的語義和上下文關系。因此,期望實現對RSIs的多層次、細粒度、感知解譯。
  • 最近,出現了新的研究來促進更全面的RSI解釋。然而,關于RSI全光學分割的數據集和研究卻很少,并且,全光學分割仍然關注于像素級和實例級的解譯。另外,細粒度對象識別是識別目標對象的特定子類別的關鍵任務。然而,這些任務不能處理從像素級到圖像級的多模態解釋,缺乏綜合感知能力和跨多模態任務的通用解釋模型。

方法

  • 引言

    • 本文引入Panoptic Perception(全景感知),如圖1所示,可以同時處理多層次解譯中的各種子任務,包括前景實例的細粒度實例分割、背景區域的語義分割和圖像字幕生成。這一創新任務和傳統任務不同,不僅關注個人解譯水平,而且促進互相強化和交互優化。多任務的協同處理要求模型在不同層次上全面理解全局上下文關系和語義信息。反過來又增強了模型提取和利用RSIs中豐富信息的能力。提出的全景感知集成了像素級、實例級和圖像級理解來構建一個通用的解釋框架。
    • 構建了FineGrip數據集支持新任務的開發。包括2,649張遙感圖像,具有細粒度的飛機實例分割注釋、不同的背景語義和細粒度的句子描述注釋。據我們所知,這是第一個為RSIs集成細粒度檢測、實例分割、語義分割和細粒度圖像字幕注釋的數據集。此外,還利用SAM構建了一個半自動的分割標注系統。它充分利用了SAM魯棒的零樣本能力,顯著提高了前景分割的標注效率。
    • 為了驗證所提出的全景感知的可行性和數據集的有效性,提出了一個端到端全景感知基礎模型。實驗結果證實了全景感知任務的可行性以及多任務聯合優化對個體任務增強的有益影響。
  • 任務內容

    • 本文提出一個細粒度、統一的框架來同時實現像素級、實例級和圖像級的解譯。如圖1所示,本文提出的任務超過了傳統的單任務,需要模型來提取更全面的上下文特征,并能夠在不同層次上聯合解譯多個任務:
      • 圖像級別上,該任務要求模型生成整個圖像的簡明描述,并使用自然語言輸出此概述
      • 實例級別上,模型識別所有前景對象的細粒度類別,區分同一類別內的不同實例,并為每個實例預測準確的輪廓。該任務還要求模型在其描述性句子中指定所有前景實例的數量和特定類別。
      • 像素級別上,該任務要求為圖像中的每個像素分配一個不同的前景或背景類別。此外,必須為與不同前景實例相關聯的像素分配一個唯一的標識符。
    • 給定一個圖像I\in \mathbb{R}^{H\times W\times 3},定義一組單詞Wds=\{wd_1,wd_2,...,wd_W\}和一組類別C^P=\{c_1,c_2,...,c_C\},其中W、C分別為單詞和類別的總數。C^P可以進一步分為前景類別C^{Th}和背景類別C^{St},其中C^{Th}\cap C^{St}=\varnothing。細粒度全景感知任務的目標定義如下:
      • 對于圖像中的任何給定的像素(x,y),模型需要同時預測像素的類別和實例id,記為(c_{x,y},id_{x,y})。同一實例中的所有像素都應該共享相同的類別和數字標識。當一個像素屬于一個背景類別時,預測的實例id應該為\varnothing
      • 考慮最大句子長度L,模型應該為圖像生成一個描述性句子,表示為\{w_1,w_2,...,w_L|w_i\in Wds\}。這個句子必須包含關于圖像中前景對象的數量和類型的信息。
    • 細粒度的全景感知要求跨子任務的感知結果的一致性。如圖1(a)所示,關于前景實例的數量和類型的標題應與分割結果相一致。
    • 對于分割子任務,采用Panoptic Quality(PQ)來評估性能,并且利用PQ^{th}PQ^{st}來測量前景和背景類別的分割質量。此外,還應用Recognition Quality (RQ) 和Segmentation Quality (SQ)對其識別和分割性能進行了分析。至于圖像字幕的生成,使用BLEU來評估字幕質量。
  • 數據集構造

    • 新任務缺乏數據集,因此,開發樂一種基于新型半自動標注系統的細粒度全景感知基準數據集。
    • FineGrip數據集
      • FineGrip中樣本主要來自MAR20,如表1所示,原始MAR20只包含邊界框注釋,需要擴展注釋。
      • FineGrip包括2649張遙感圖像,12054個實例分割覆蓋20個前景類別,7599個背景語義掩模覆蓋5個背景類別,以及13,245句具有細粒度類別指示的句子。前景類別包括SU-35, C-130, C-17, C-5, F-16, TU-160, E-3, B-52,P-3C, B-1B, E-8, TU-22, F-15, KC-135, F-22, FA-18, TU-95,KC-10, SU-34,?SU-24。為了方便表示,類別分別用A1~A20表示。而背景類別包含Land, Runway, Hardstand, Parking-apron, Building。圖2顯示了在training/testing中,每個類別的分割掩模數量。該數據集901張用于訓練和1748張用于測試。
      • FineGrip聚焦機場場景,主要前景類別為各種飛機。圖3展示了一些前景類別和背景類別的例子。在背景類別下,優先考慮和飛機目標密切相關的區域。將Runway定義為一條有線標記的長直線;Parking-apron是一個值得注意的區域;Hardstand是指除上述兩種以外的飛機可以滑行的區域;Buildings被歸類為背景而不是前景,因為我們不關心在這個場景中建筑的具體實例分割。我們只需要確定圖像中的哪些區域與建筑有關。
      • 對于細粒度的圖像標題任務,強調了前景目標的精確數量等信息。五個不同的注釋者分別為每個圖像注釋1個不同的描述,以促進標題的多樣性。最終,通過集成細粒度的實例分割、背景語義分割和細粒度的字幕注釋,建立了FineGrip數據集。圖4顯示了從FineGrip中獲得的一些完整的注釋示例。
      • 與傳統的解釋任務和最近提出的RSI全光學分割數據集相比,FineGrip在以下方面表現出了顯著的特征:
        • Abundant fine-grained semantic categories:FineGrip包含了20個細粒度的前景類別和5個背景類別來自不同類別的樣本具有不同的語義、廣泛的地形場景和復雜的語義關系等特點。此外,它還滿足了類間差異小和類內差異大的實際挑戰。
        • Broader granularity of caption sentences:字幕注釋從一般粒度擴展到特定粒度,提供了圖像的全面視圖。它也很細粒度化,并與像素級注釋相一致。此外,還詳細描述了復雜的語義關系,從全局的角度實現了類人的感知。它給出了圖像的一般概述,并確定了主要目標的精確計數和模型。
        • Affinity exploration of foreground-background relationships:在FineGrip中,前景類別和背景類別有著密切的關系。例如,飛機主要停在停機坪或硬架區域,但很少出現在陸地地區。此外,建筑區域通常被硬看臺區域分開。這些客觀因素表明,全景感知模型應考慮這些語義關系,即前景識別和背景分割具有相互增強的潛力。
        • Synergized multi-tasking:協調實例分割和圖像字幕任務,既可以識別目標數量和子類別,又可以相互提高它們的性能。
    • 半自動注釋系統
      • SAM有魯棒的泛化能力以及很強的零樣本分割能力,當提供高質量的提示時,基于SAM的注釋系統可以生成高質量的無標簽分割掩碼。此外,利用少量標注數據對SAM進行微調,可以在各種下游分割任務中產生良好的性能。如圖5所示,使用SAM進行RSI分割標注主要有兩種方法:(a)直接輸入圖像;(b)使用手動注釋的邊界框作為提示。然而,(a)方法正在努力解決自然圖像和RSIs之間的實質性領域差異;方法(b)并沒有消除邊界框注釋所需的手動工作。
      • 為了彌補SAM缺乏RSI特定知識的不足,提高標注效率,設計了一種新的基于SAM的半自動標注系統,并輔以了一個監督檢測和分割模型,如圖5(c)所示。手動注釋了一組小的圖像的邊界框,以訓練一個檢測器。為了確保不可見圖像的注釋質量,對檢測模型生成的邊界框進行手動檢查。隨后,預測的框結果作為提示,并輸入SAM,對圖像中的某些目標進行分割。在細化這些分割結果后,訓練一個有監督的分割模型。所描述的過程是迭代的,即當前步驟得到的檢測和分割結果直接輸入到下一步的訓練數據中。
      • 為了注釋未看到的圖像,首先使用檢測模型來獲取方框提示。然后,利用SAM和訓練后的分割模型對分割結果進行預測。通過合并來自SAM和訓練過的模型的結果來實現最終的分割注釋。在實際應用中,簡單地獲得交叉區域可以有效地結合分割結果。
  • 基于聯合優化的全景感知方法

    • 模型架構如圖6所示。由像素級模塊、全景分割模塊和圖像字幕模塊三部分組成,分別負責編碼圖像特征、預測對象掩碼和生成標題。在優化過程中,使用分割和字幕任務的損失函數進行梯度計算。
      • Pixel-level Module:由圖像編碼器和解碼器組成。采用ResNet-50作為圖像編碼器,帶卷積層的transformer解碼器作為圖像解碼器。
      • Segmentation Module
        • 將實例分割和語義分割視為掩碼分類問題,并使用基于transformer的方法。首先,初始化N個可學習查詢 Q\in \mathbb{R}^{C_Q\times N},其中 C^Q是查詢維數。從像素級模塊中獲得的特征F被用作鍵(K)和值(V)。使用一個標準的transformer解碼器迭代的更新Q。類似于DETR,保存每個解碼器層的結果。
        • 一個典型的transformer解碼器層計算由三個部分組成:Q上的自注意力;Q、K和V之間的交叉注意力,和一個前饋神經網絡。本文沒有使用隱藏的注意,因為在查詢之間沒有時間關系。
        • 通過其他查詢和圖像編碼特征的交互,該查詢可以學習不同目標的特征及其在圖像中的位置信息。隨后,使用這些包含豐富信息的查詢來進行掩碼分類和生成。
        • 在掩碼分類分支中,編碼的查詢經過線性變換,得到 N\times (C+1)個分類結果,其中C是前景和背景類別的總數。類別?代表沒有對象對象。
        • 在掩碼生成分支中,查詢被投影到掩碼嵌入 Q_{mask}\in \mathbb{R}^{N\times C_E}中,它與每像素特征嵌入具有相同的信道維度。然后,在第i個掩模嵌入與矩陣E之間進行點積,然后應用s型函數生成第i個掩模預測結果。
        • 采用 Hungarian matching,在掩模預測結果和地面真實值之間生成一個一對一的映射。
      • Caption module
        • 如圖7所示,我們使用一個基于模型無關的transformer解碼器來執行標題生成。???????
      • Overall Objective
        • ??????????????總損失函數為Lseg和Lcap的加權和

實驗

Quantitative Analysis

Ablation Study

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/44517.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/44517.shtml
英文地址,請注明出處:http://en.pswp.cn/web/44517.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

apache Kylin系列介紹及配置

Apache Kylin是一個開源的分布式分析引擎,用于OLAP(聯機分析處理)數據處理。它專門設計用于處理大規模的數據集,并提供快速的查詢和分析能力。 apache Kylin架構: Apache Kylin是一個開源的分布式分析引擎,旨在提供高性能、低延遲的OLAP(聯機分析處理)能力。下面是Ap…

nvim工具介紹

1. **seoul256.vim**: 一個基于首爾色彩的低對比度 Vim 顏色方案,適用于 256 色終端或 GVim。 2. **vim-easy-align**: Vim 插件,用于對齊文本。 3. **vim-go**: Vim 的 Go 語言插件,支持語法高亮、自動縮進等。 4. **coc.nvim**: 集成了 LSP…

GESP CCF C++ 二級認證真題 2024年6月

第 1 題 小楊父母帶他到某培訓機構給他報名參加CCF組織的GESP認證考試的第1級,那他可以選擇的認證語言有幾種?( ) A. 1 B. 2 C. 3 D. 4 第 2 題 下面流程圖在yr輸入2024時,可以判定yr代表閏年,并輸出 2月…

介紹一款數據準實時復制(CDC)中間件 `Debezium`

簡介 文章開頭先介紹一下什么是CDC。數據準實時復制(CDC)是目前行內實時數據需求大量使用的技術。常用的中間件有Canal、Debezium、Flink CDC等 下面我們做一下對比 各有優缺點吧,本主要介紹一下Debezium中間件。 Debezium是什么 Debezium是一個為變更數據捕獲(CDC)提供…

Windows圖形界面(GUI)-SDK-C/C++ - 列表框(List)

公開視頻 -> 鏈接點擊跳轉公開課程博客首頁 -> 鏈接點擊跳轉博客主頁 目錄 列表框(List) 控件樣式 創建控件 初始控件 消息處理 示例代碼 列表框(List) 控件樣式 列表框(ListBox)是Windows圖形界面開發中常用的控件,允許用戶從…

力扣第230題“二叉搜索樹中第K小的元素”

在本篇文章中,我們將詳細解讀力扣第230題“二叉搜索樹中第K小的元素”。通過學習本篇文章,讀者將掌握如何使用中序遍歷來找到二叉搜索樹中的第K小的元素,并了解相關的復雜度分析和模擬面試問答。每種方法都將配以詳細的解釋,以便于…

OpenAI終止對中國提供API服務,對國內AI市場產生重大沖擊?

6月25日,OpenAI突然宣布終止向包括中國在內的國家地區提供API服務,本月9日這一政策已經正式生效了! 有人說,這個事件給中國AI行業帶來很大沖擊!是這樣嗎?在展開討論前,我們先來看看什么是API服務…

會話固定攻擊

會話固定攻擊(Session Fixation Attack)是一種網絡攻擊,攻擊者試圖誘騙受害者使用攻擊者指定的會話ID,以便在受害者登錄后,攻擊者能夠竊取受害者的會話并冒充受害者進行操作。下面是一個形象的例子來解釋會話固定攻擊&…

8080端口映射外網不成功的原因

最近因為需要將群暉nas的8080端口映射到外網,但是路由器已經成功設置,群暉nas上對應端口的服務也已經部署好,可是如論如何也從外網訪問不到群暉服務器上,但是同樣是5000端口,群暉的外網管理端口就可以,最后…

在linux x86服務器安裝jdk

安裝JDK(Java Development Kit)在Linux x86 服務器上可以按照以下步驟進行操作。以下步驟假設你有root權限或者sudo權限。 1. 下載JDK安裝包 首先,你需要從Oracle官網或者OpenJDK官網下載JDK的安裝包。可以選擇對應的版本,比如J…

jmeter-beanshell學習8-for循環

一個稍微有點難度的東西 要把響應結果的所有名字都取出來,然后怎么處理看自己需求。比如找某個人是不是在這里,或者把所有人都寫進一個文檔,我就不編場景了 第一步想要取出所有名字,還得靠萬能的正則表達式提取器,jso…

【開源 Mac 工具推薦之 1】gibMacOS:方便快捷的 macOS 完整包下載 Shell 工具

簡介 gibMacOS 是由 GitHub 開發者 corpnewt 編寫的一款 Shell 工具。它采用 Python 編程語言,可以讓用戶打開后在純文本頁面中輕松選擇并下載來源于 Apple 官方的 macOS 完整安裝包。 Repo 地址:https://github.com/corpnewt/gibMacOS (其…

【簡歷】某電子科技大學:前端實習簡歷指導,面試通過率低

注:為保證用戶信息安全,姓名和學校等信息已經進行同層次變更,內容部分細節也進行了部分隱藏 簡歷說明 這是一份一本某電子科技大學的同學簡歷,投遞的職位就是我們前端,但是因為學校是一本,我們說主要主體在…

路由協議的優先級,以及管理距離 AD 和 metric 的區別

路由協議的優先級(Preference,即管理距離 Administrative Distance )一般為一個 0 到 255 之間的數字,數字越大則優先級越低。表一是通常情況下各路由協議的優先級規定: 表一:一般路由協議優先級 路由協議…

Mybatis-plus 集成 PostgreSQL 數據庫自增序列問題記錄

1.創建序列并綁定id CREATE SEQUENCE biz_factory_seq START WITH 1 INCREMENT BY 1 NO MINVALUE NO MAXVALUE CACHE 1;"id" int4 NOT NULL DEFAULT nextval(sys_user_seq::regclass), 2.實體設置KeySequence和TableId注解 注意IdType.INPUT 和 KeySequence(value …

debian 12 PXE Server 批量部署系統

pxe server 前言 PXE(Preboot eXecution Environment,預啟動執行環境)是一種網絡啟動協議,允許計算機通過網絡啟動而不是使用本地硬盤。PXE服務器是實現這一功能的服務器,它提供了啟動鏡像和引導加載程序,…

STM32的TIM1之PWM互補輸出_死區時間和剎車配置

STM32的TIM1之PWM互補輸出_死區時間和剎車配置 1、定時器1的PWM輸出通道 STM32高級定時器TIM1在用作PWM互補輸出時,共有4個輸出通道,其中有3個是互補輸出通道,如下: 通道1:TIM1_CH1對應PA8引腳,TIM1_CH1N對應PB13引…

LDAPWordlistHarvester:基于LDAP數據的字典生成工具

關于LDAPWordlistHarvester LDAPWordlistHarvester是一款功能強大的字典列表生成工具,該工具可以根據LDAP中的詳細信息生成字典列表文件,廣大研究人員隨后可以利用生成的字典文件測試目標域賬號的非隨機密碼安全性。 工具特征 1、支持根據LDAP中的詳細信…

STM32F103RC使用HAL庫配置USART進行數據收發

目錄 STM32F103RC使用HAL庫配置USART進行數據收發(代碼模塊) 一、USART初始化 二、USART使用的GPIO初始化 三、USART的接收中斷配置 四、USART的數據發送 五、補充 STM32F103RC使用HAL庫配置USART進行數據收發(代碼模塊) 一…

JavaDS —— 棧 Stack 和 隊列 Queue

棧的概念 棧是一種先進后出的線性表,只允許在固定的一端進行插入和刪除操作。 進行插入和刪除操作的一端被稱為棧頂,另一端被稱為棧底 棧的插入操作叫做進棧/壓棧/入棧 棧的刪除操作叫做出棧 現實生活中棧的例子: 棧的模擬實現 下面是Jav…