【FineGrip】全光學感知:一種新的通用遙感圖像解釋任務和細粒度數據集(IEEE TGRS 2024)
摘要
- 目前的遙感解譯模型通常集中于單一的任務,如檢測、分割或字幕。但是,針對特定任務設計的模型無法實現綜合多層次解譯。該領域也缺乏多任務聯合解譯數據集。
- 本文提出Panoptic Perception,一個新的任務和一個新的細粒度數據集(FineGrip)實現一個更全面和普遍的RSIs解譯。該新任務:
- 集成了像素級、實例級和圖像立面信息,用于通用圖像感知;
- 從粗粒度到細粒度捕獲圖像信息,實現更深層次的場景理解和描述;
- 通過多任務學習,使各種獨立任務相互補充和增強。
- 通過強調多任務交互和感知結果的一致性,該任務能夠同時處理細粒度前景實例分割、背景語義分割和全局細粒度圖像字幕。具體地說,FineGrip數據集包括2649張遙感圖像,12054個細粒度實例分割掩碼,有20個前景事物類別,7599個背景語義掩碼和13245個字幕句子。
- 此外,提出了一個基于聯合優化的全視覺感知模型。對FineGrip的實驗結果證明了全視覺感知任務的可行性,以及多任務聯合優化對個體任務有益的效果。
- 論文鏈接:https://arxiv.org/abs/2404.04608
- 代碼鏈接:FineGrip
動機
- RSI解譯在圖像分類、目標檢測、語義分割、實例分割、圖像字幕生成、多種任務中呈現了快速發展趨勢。然而,這些任務只涵蓋了單個任務的解釋。然而,這些任務的模型通常是獨立設計的,而忽略了RSIs中豐富的語義和上下文關系。因此,期望實現對RSIs的多層次、細粒度、感知解譯。
- 最近,出現了新的研究來促進更全面的RSI解釋。然而,關于RSI全光學分割的數據集和研究卻很少,并且,全光學分割仍然關注于像素級和實例級的解譯。另外,細粒度對象識別是識別目標對象的特定子類別的關鍵任務。然而,這些任務不能處理從像素級到圖像級的多模態解釋,缺乏綜合感知能力和跨多模態任務的通用解釋模型。
方法
-
引言
- 本文引入Panoptic Perception(全景感知),如圖1所示,可以同時處理多層次解譯中的各種子任務,包括前景實例的細粒度實例分割、背景區域的語義分割和圖像字幕生成。這一創新任務和傳統任務不同,不僅關注個人解譯水平,而且促進互相強化和交互優化。多任務的協同處理要求模型在不同層次上全面理解全局上下文關系和語義信息。反過來又增強了模型提取和利用RSIs中豐富信息的能力。提出的全景感知集成了像素級、實例級和圖像級理解來構建一個通用的解釋框架。

- 構建了FineGrip數據集支持新任務的開發。包括2,649張遙感圖像,具有細粒度的飛機實例分割注釋、不同的背景語義和細粒度的句子描述注釋。據我們所知,這是第一個為RSIs集成細粒度檢測、實例分割、語義分割和細粒度圖像字幕注釋的數據集。此外,還利用SAM構建了一個半自動的分割標注系統。它充分利用了SAM魯棒的零樣本能力,顯著提高了前景分割的標注效率。
- 為了驗證所提出的全景感知的可行性和數據集的有效性,提出了一個端到端全景感知基礎模型。實驗結果證實了全景感知任務的可行性以及多任務聯合優化對個體任務增強的有益影響。
-
任務內容
- 本文提出一個細粒度、統一的框架來同時實現像素級、實例級和圖像級的解譯。如圖1所示,本文提出的任務超過了傳統的單任務,需要模型來提取更全面的上下文特征,并能夠在不同層次上聯合解譯多個任務:
- 圖像級別上,該任務要求模型生成整個圖像的簡明描述,并使用自然語言輸出此概述
- 實例級別上,模型識別所有前景對象的細粒度類別,區分同一類別內的不同實例,并為每個實例預測準確的輪廓。該任務還要求模型在其描述性句子中指定所有前景實例的數量和特定類別。
- 像素級別上,該任務要求為圖像中的每個像素分配一個不同的前景或背景類別。此外,必須為與不同前景實例相關聯的像素分配一個唯一的標識符。
- 給定一個圖像
,定義一組單詞
和一組類別
,其中W、C分別為單詞和類別的總數。
可以進一步分為前景類別
和背景類別
,其中
。細粒度全景感知任務的目標定義如下: - 對于圖像中的任何給定的像素(x,y),模型需要同時預測像素的類別和實例id,記為
。同一實例中的所有像素都應該共享相同的類別和數字標識。當一個像素屬于一個背景類別時,預測的實例id應該為
。 - 考慮最大句子長度L,模型應該為圖像生成一個描述性句子,表示為
。這個句子必須包含關于圖像中前景對象的數量和類型的信息。
- 細粒度的全景感知要求跨子任務的感知結果的一致性。如圖1(a)所示,關于前景實例的數量和類型的標題應與分割結果相一致。
- 對于分割子任務,采用Panoptic Quality(PQ)來評估性能,并且利用
和
來測量前景和背景類別的分割質量。此外,還應用Recognition Quality (RQ) 和Segmentation Quality (SQ)對其識別和分割性能進行了分析。至于圖像字幕的生成,使用BLEU來評估字幕質量。
-
數據集構造
- 新任務缺乏數據集,因此,開發樂一種基于新型半自動標注系統的細粒度全景感知基準數據集。
- FineGrip數據集
- FineGrip中樣本主要來自MAR20,如表1所示,原始MAR20只包含邊界框注釋,需要擴展注釋。
- FineGrip包括2649張遙感圖像,12054個實例分割覆蓋20個前景類別,7599個背景語義掩模覆蓋5個背景類別,以及13,245句具有細粒度類別指示的句子。前景類別包括SU-35, C-130, C-17, C-5, F-16, TU-160, E-3, B-52,P-3C, B-1B, E-8, TU-22, F-15, KC-135, F-22, FA-18, TU-95,KC-10, SU-34,?SU-24。為了方便表示,類別分別用A1~A20表示。而背景類別包含Land, Runway, Hardstand, Parking-apron, Building。圖2顯示了在training/testing中,每個類別的分割掩模數量。該數據集901張用于訓練和1748張用于測試。
- FineGrip聚焦機場場景,主要前景類別為各種飛機。圖3展示了一些前景類別和背景類別的例子。在背景類別下,優先考慮和飛機目標密切相關的區域。將Runway定義為一條有線標記的長直線;Parking-apron是一個值得注意的區域;Hardstand是指除上述兩種以外的飛機可以滑行的區域;Buildings被歸類為背景而不是前景,因為我們不關心在這個場景中建筑的具體實例分割。我們只需要確定圖像中的哪些區域與建筑有關。
- 對于細粒度的圖像標題任務,強調了前景目標的精確數量等信息。五個不同的注釋者分別為每個圖像注釋1個不同的描述,以促進標題的多樣性。最終,通過集成細粒度的實例分割、背景語義分割和細粒度的字幕注釋,建立了FineGrip數據集。圖4顯示了從FineGrip中獲得的一些完整的注釋示例。
- 與傳統的解釋任務和最近提出的RSI全光學分割數據集相比,FineGrip在以下方面表現出了顯著的特征:
-
Abundant fine-grained semantic categories:FineGrip包含了20個細粒度的前景類別和5個背景類別, 來自不同類別的樣本具有不同的語義、廣泛的地形場景和復雜的語義關系等特點。此外,它還滿足了類間差異小和類內差異大的實際挑戰。
-
Broader granularity of caption sentences:字幕注釋從一般粒度擴展到特定粒度,提供了圖像的全面視圖。它也很細粒度化,并與像素級注釋相一致。此外,還詳細描述了復雜的語義關系,從全局的角度實現了類人的感知。它給出了圖像的一般概述,并確定了主要目標的精確計數和模型。
-
Affinity exploration of foreground-background relationships:在FineGrip中,前景類別和背景類別有著密切的關系。例如,飛機主要停在停機坪或硬架區域,但很少出現在陸地地區。此外,建筑區域通常被硬看臺區域分開。這些客觀因素表明,全景感知模型應考慮這些語義關系,即前景識別和背景分割具有相互增強的潛力。
-
Synergized multi-tasking:協調實例分割和圖像字幕任務,既可以識別目標數量和子類別,又可以相互提高它們的性能。
- 半自動注釋系統

- SAM有魯棒的泛化能力以及很強的零樣本分割能力,當提供高質量的提示時,基于SAM的注釋系統可以生成高質量的無標簽分割掩碼。此外,利用少量標注數據對SAM進行微調,可以在各種下游分割任務中產生良好的性能。如圖5所示,使用SAM進行RSI分割標注主要有兩種方法:(a)直接輸入圖像;(b)使用手動注釋的邊界框作為提示。然而,(a)方法正在努力解決自然圖像和RSIs之間的實質性領域差異;方法(b)并沒有消除邊界框注釋所需的手動工作。
- 為了彌補SAM缺乏RSI特定知識的不足,提高標注效率,設計了一種新的基于SAM的半自動標注系統,并輔以了一個監督檢測和分割模型,如圖5(c)所示。手動注釋了一組小的圖像的邊界框,以訓練一個檢測器。為了確保不可見圖像的注釋質量,對檢測模型生成的邊界框進行手動檢查。隨后,預測的框結果作為提示,并輸入SAM,對圖像中的某些目標進行分割。在細化這些分割結果后,訓練一個有監督的分割模型。所描述的過程是迭代的,即當前步驟得到的檢測和分割結果直接輸入到下一步的訓練數據中。
- 為了注釋未看到的圖像,首先使用檢測模型來獲取方框提示。然后,利用SAM和訓練后的分割模型對分割結果進行預測。通過合并來自SAM和訓練過的模型的結果來實現最終的分割注釋。在實際應用中,簡單地獲得交叉區域可以有效地結合分割結果。
-
基于聯合優化的全景感知方法

- 模型架構如圖6所示。由像素級模塊、全景分割模塊和圖像字幕模塊三部分組成,分別負責編碼圖像特征、預測對象掩碼和生成標題。在優化過程中,使用分割和字幕任務的損失函數進行梯度計算。
實驗
Quantitative Analysis



Ablation Study



本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/44517.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/44517.shtml
英文地址,請注明出處:http://en.pswp.cn/web/44517.shtml
如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!