一些收獲:
1. 發現這篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也許用得上。等會看看有沒有源代碼。
摘要:RSVLMs在遙感圖像理解任務中取得了很大的進展。盡管在多模態推理和多輪對話中表現良好,現有模型在像素級理解上存在不足,在處理多圖像輸入時也面臨困難。RSUniVLM有變化檢測和變化描述任務。為了增強模型在不同層次捕獲視覺信息的能力,同時不增加模型體積,我們設計了一種名為“粒度導向的專家混合”(Granularity-oriented Mixture of Experts)的新架構,模型參數大約10億。我們還構建了一個大規模的遙感指令跟隨數據集,該數據集基于遙感和通用領域的多種現有數據集,涵蓋了目標定位、視覺問答和語義分割等多種任務。
引言:隨著llms的出現,很多領域顯著發展,通過配備視覺編碼模塊,lvlms(large vlm)將llm的能力擴展到了通用視覺和語言理解,一個突破性的工作是llava,它在多模態對話數據上微調,展示了出色的視覺聊天能力。為了支持廣泛的視覺任務,隨后的研究工作嘗試通過各種方式開發lvlm的潛力,包括利用更大規模的和更高質量的指令微調數據,設計更高效的微調方法(qa-lora),以及采用新的llm架構(moe)。此外,一些研究試圖將多模態感知和生成任務統一起來,采用任務特定的頭部進行處理。「感知任務:檢測 分割 分類定位 問答等。生成任務:圖像生成文本(描述) 圖生圖 文生圖。把這兩類任務統一起來意味著一個模型。底層共享同一個視覺語言backbone,針對不同的任務(分類 分割 問答)最后加上不同的結構進行任務輸出。比如分類的head是softmax分類器,分割head是卷積結構輸出pixel-wise label,文本生成是一個語言模型頭用來生成文字。」通用lvlm在常規領域表現好,但是在rs領域不行,因為rs圖像和自然場景圖像差異大。為了彌合這差距,提出了幾種大規模rs圖像-文本對數據集和指令微調數據集。然而現有的rs領域的lvlm,還是僅限于圖像級和區域級,缺乏像素級理解,無法處理語義分割這樣的任務。為了解決上述問題,本文提出了一個統一的框架RSUniVLM,是首個支持圖像級、區域級和像素級理解與推理任務的rs專用視覺-語言模型,并且具有多圖像分析能力。
RSUniVLM在像素級理解和多圖像分析方面擴展了RS領域的視覺-語言模型。采用Text4Seg方法,把語義分割的mask結果轉成一句描述性的文字,讓語言模型可以“說出”分割的結果,從而統一所有任務為“文本生成任務”。「語言的形式表示mask:」
相關工作?
通用vlm就不說了
RS vlms有很多,包括rsgpt geochat lhrs-bot skyeyeGPT change-agent和changechat等。rsUniVLM是對個統一的遙感視覺-語言模型,能處理 圖像級 區域級和像素級 且是端到端的。
moe(mixture of experts) 主要由兩個組件組成 專家層和路由器,輸入的計算不會全部由一個固定的模型處理,而是通過路由器來選擇不同的專家處理不同的輸入。在這項工作中,作者提出了一種新的稀疏?Granularity-oriented MoE?架構,旨在?提升多模態理解能力。這種架構在 MoE 基礎上進一步創新,專注于不同粒度的任務(例如?圖像級、區域級?和?像素級):
-
粒度導向(Granularity-oriented): MoE 專家不再僅僅根據輸入類型來分配,而是根據任務的粒度(例如,高層次的圖像分類和低層次的像素分割)來選擇相應的專家進行處理。
-
稀疏(Sparse): 這種新架構是稀疏的,即?并非所有專家都參與計算,只有最相關的專家會被激活,從而減少計算量。
方法描述
模型設計:該模型遵循常見的llava風格框架的設計范式,主要包含四個關鍵組件 圖像編碼器、文本嵌入層、多層投影器(mlp)、大語言模型llm。對于具有多張圖像的輸入,我們使用共享權重的圖像編碼器分別提取每張圖像的特征,然后直接在嵌入維度上將它們拼接。「就是說 輸入多張圖像的時候 用同一個image encoder來提取特征,這個圖像編碼器的權重是共享的。在提取完每張圖像的特征向量后,將它們連接在一起,拼成一個大向量。當輸入圖像數量不同導致拼接后的向量維度不同時,模型會通過填充或池化,將不同向量維度變成相同的。」
統一表示:我們將所有任務都轉化為 僅文本生成任務,包括對象定位和分割。視覺定位和指代表示生成的邊界框都是標準化為0-100之間的整數,并以文本格式表示[x1, y1, x2, y2]。對于mask生成的任務,用Text4seg方法。
基于粒度的專家混合(g-moe):三個粒度,圖像級、區域級、像素級。
為了有效整合這些專家,采用了一個無訓練的門控機制(gating mechanism)。該機制根據輸入數據的特點將輸入提示分配給特定的專家,確保模型響應既能考慮上下文又能高效執行。
訓練策略:兩階段的從粗到細訓練策略:首先進行多任務的預訓練階段,然后通過精細調優階段進一步提高模型。第一階段:全參數微調,將遙感領域的知識注入預訓練的視覺語言模型中。為了創建一個強大的指令跟隨數據集,我們整合了十五個不同的公共數據集,涵蓋遙感領域的五個不同任務,并將其轉換為結構化的指令跟隨集合,使用手工編寫的模版。還引入了部分來自rs和通用領域的高質量指令集。這一階段,g-moe層還沒引入到llm中,因此模型重點集中在基礎的對齊任務上。第二階段:我們通過重復三次ffn層(前饋網絡feed-forward network 通常是個全連接層)來初始化專門針對不同類型遙感任務的專家。我們根據任務的粒度和多樣性,從階段1的訓練集中選取了一小部分遙感特定的指令數據,用于進一步微調g-moe層。 ? ? ?這兩個訓練階段的目標是相同的:通過逐步細化模型,增強其對不同任務的理解能力。
實驗
?
局限性:
?多輪對話能力較弱(可以更多更高質量多輪對話數據來改進)、無法執行生成任務如超分辨率和去霧。