RSUniVLM論文精讀

一些收獲:
1. 發現這篇文章的table1中,有CDChat ChangeChat Change-Agent等模型,也許用得上。等會看看有沒有源代碼。


摘要:RSVLMs在遙感圖像理解任務中取得了很大的進展。盡管在多模態推理和多輪對話中表現良好,現有模型在像素級理解上存在不足,在處理多圖像輸入時也面臨困難。RSUniVLM有變化檢測和變化描述任務。為了增強模型在不同層次捕獲視覺信息的能力,同時不增加模型體積,我們設計了一種名為“粒度導向的專家混合”(Granularity-oriented Mixture of Experts)的新架構,模型參數大約10億。我們還構建了一個大規模的遙感指令跟隨數據集,該數據集基于遙感和通用領域的多種現有數據集,涵蓋了目標定位、視覺問答和語義分割等多種任務。

引言:隨著llms的出現,很多領域顯著發展,通過配備視覺編碼模塊,lvlms(large vlm)將llm的能力擴展到了通用視覺和語言理解,一個突破性的工作是llava,它在多模態對話數據上微調,展示了出色的視覺聊天能力。為了支持廣泛的視覺任務,隨后的研究工作嘗試通過各種方式開發lvlm的潛力,包括利用更大規模的和更高質量的指令微調數據,設計更高效的微調方法(qa-lora),以及采用新的llm架構(moe)。此外,一些研究試圖將多模態感知和生成任務統一起來,采用任務特定的頭部進行處理。「感知任務:檢測 分割 分類定位 問答等。生成任務:圖像生成文本(描述) 圖生圖 文生圖。把這兩類任務統一起來意味著一個模型。底層共享同一個視覺語言backbone,針對不同的任務(分類 分割 問答)最后加上不同的結構進行任務輸出。比如分類的head是softmax分類器,分割head是卷積結構輸出pixel-wise label,文本生成是一個語言模型頭用來生成文字。」通用lvlm在常規領域表現好,但是在rs領域不行,因為rs圖像和自然場景圖像差異大。為了彌合這差距,提出了幾種大規模rs圖像-文本對數據集和指令微調數據集。然而現有的rs領域的lvlm,還是僅限于圖像級和區域級,缺乏像素級理解,無法處理語義分割這樣的任務。為了解決上述問題,本文提出了一個統一的框架RSUniVLM,是首個支持圖像級、區域級和像素級理解與推理任務的rs專用視覺-語言模型,并且具有多圖像分析能力。

RSUniVLM在像素級理解多圖像分析方面擴展了RS領域的視覺-語言模型。采用Text4Seg方法,把語義分割的mask結果轉成一句描述性的文字,讓語言模型可以“說出”分割的結果,從而統一所有任務為“文本生成任務”。「語言的形式表示mask:

相關工作?

通用vlm就不說了

RS vlms有很多,包括rsgpt geochat lhrs-bot skyeyeGPT change-agent和changechat等。rsUniVLM是對個統一的遙感視覺-語言模型,能處理 圖像級 區域級和像素級 且是端到端的。

moe(mixture of experts) 主要由兩個組件組成 專家層和路由器,輸入的計算不會全部由一個固定的模型處理,而是通過路由器來選擇不同的專家處理不同的輸入。在這項工作中,作者提出了一種新的稀疏?Granularity-oriented MoE?架構,旨在?提升多模態理解能力。這種架構在 MoE 基礎上進一步創新,專注于不同粒度的任務(例如?圖像級區域級?和?像素級):

  • 粒度導向(Granularity-oriented): MoE 專家不再僅僅根據輸入類型來分配,而是根據任務的粒度(例如,高層次的圖像分類和低層次的像素分割)來選擇相應的專家進行處理。

  • 稀疏(Sparse): 這種新架構是稀疏的,即?并非所有專家都參與計算,只有最相關的專家會被激活,從而減少計算量

方法描述

模型設計:該模型遵循常見的llava風格框架的設計范式,主要包含四個關鍵組件 圖像編碼器、文本嵌入層、多層投影器(mlp)、大語言模型llm。對于具有多張圖像的輸入,我們使用共享權重的圖像編碼器分別提取每張圖像的特征,然后直接在嵌入維度上將它們拼接。「就是說 輸入多張圖像的時候 用同一個image encoder來提取特征,這個圖像編碼器的權重是共享的。在提取完每張圖像的特征向量后,將它們連接在一起,拼成一個大向量。當輸入圖像數量不同導致拼接后的向量維度不同時,模型會通過填充或池化,將不同向量維度變成相同的。」

統一表示:我們將所有任務都轉化為 僅文本生成任務,包括對象定位和分割。視覺定位和指代表示生成的邊界框都是標準化為0-100之間的整數,并以文本格式表示[x1, y1, x2, y2]。對于mask生成的任務,用Text4seg方法。

基于粒度的專家混合(g-moe):三個粒度,圖像級、區域級、像素級。為了有效整合這些專家,采用了一個無訓練的門控機制(gating mechanism)。該機制根據輸入數據的特點將輸入提示分配給特定的專家,確保模型響應既能考慮上下文又能高效執行。

訓練策略:兩階段的從粗到細訓練策略:首先進行多任務的預訓練階段,然后通過精細調優階段進一步提高模型。第一階段:全參數微調,將遙感領域的知識注入預訓練的視覺語言模型中。為了創建一個強大的指令跟隨數據集,我們整合了十五個不同的公共數據集,涵蓋遙感領域的五個不同任務,并將其轉換為結構化的指令跟隨集合,使用手工編寫的模版。還引入了部分來自rs和通用領域的高質量指令集。這一階段,g-moe層還沒引入到llm中,因此模型重點集中在基礎的對齊任務上。第二階段:我們通過重復三次ffn層(前饋網絡feed-forward network 通常是個全連接層)來初始化專門針對不同類型遙感任務的專家。我們根據任務的粒度和多樣性,從階段1的訓練集中選取了一小部分遙感特定的指令數據,用于進一步微調g-moe層。 ? ? ?這兩個訓練階段的目標是相同的:通過逐步細化模型,增強其對不同任務的理解能力。

實驗

?

局限性:

?多輪對話能力較弱(可以更多更高質量多輪對話數據來改進)、無法執行生成任務如超分辨率和去霧。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/78183.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/78183.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/78183.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

低空AI系統的合規化與標準化演進路徑

隨著AI無人機集群逐步參與城市空域治理、物流服務與公共安全作業,其系統行為不再是“技術封閉域”,而需接受法規監管、責任評估與接口協同的多方審查。如何將AI集群系統推向標準化、可接入、可審計的合規體系,成為未來空中交通演進的關鍵。本…

【金倉數據庫征文】從云計算到區塊鏈:金倉數據庫的顛覆性創新之路

目錄 一、引言 二、金倉數據庫概述 2.1 金倉數據庫的背景 2.2 核心技術特點 2.3 行業應用案例 三、金倉數據庫的產品優化提案 3.1 性能優化 3.1.1 查詢優化 3.1.2 索引優化 3.1.3 緩存優化 3.2 可擴展性優化 3.2.1 水平擴展與分區設計 3.2.2 負載均衡與讀寫分離 …

致遠oa部署

文章目錄 環境搭建項目構建 僅供學習使用 環境搭建 準備項目: https://pan.quark.cn/s/04a166575e94 https://pan.xunlei.com/s/VOOc1c9dBdLIuU8KKiqDa68NA1?pwdmybd# 官方文檔: https://open.seeyoncloud.com/v5devCTP/ 安裝時 mysql 數據庫可能出現字符集設置…

移遠通信智能模組助力東成“無邊界智能割草機器人“閃耀歐美市場

2025年4月21日,移遠通信宣布,旗下SC206E-EM智能模組已成功應用于江蘇東成電動工具有限公司旗下的DCK TERRAINA無邊界智能割草機器人。 這款智能模組高度集成計算、通信、定位等多元能力,以小型化、低功耗、實時性強和低成本等綜合優勢&#…

100.HTB-Meow

學習成果 在第一層,您將獲得網絡安全滲透測試領域的基本技能。您將首先學習如何匿名連接到各種服務,例如 FTP、SMB、Telnet、Rsync 和 RDP。接下來,您將發現 Nmap 的強大功能,Nmap 是一個有價值的工具,用于識別目標系統…

大廠面試-redis

前言 本章內容來自B站黑馬程序員java大廠面試題和小林coding 博主學習筆記,如果有不對的地方,海涵。 如果這篇文章對你有幫助,可以點點關注,點點贊,謝謝你! 1.redis的使用場景 1.1 緩存 緩存穿透 在布…

【含文檔+PPT+源碼】基于SpringBoot+vue的疫苗接種系統的設計與實現

項目介紹 本課程演示的是一款 基于SpringBootvue的疫苗接種系統的設計與實現,主要針對計算機相關專業的正在做畢設的學生與需要項目實戰練習的 Java 學習者。 1.包含:項目源碼、項目文檔、數據庫腳本、軟件工具等所有資料 2.帶你從零開始部署運行本套系…

【Pandas】pandas DataFrame dot

Pandas2.2 DataFrame Binary operator functions 方法描述DataFrame.add(other)用于執行 DataFrame 與另一個對象(如 DataFrame、Series 或標量)的逐元素加法操作DataFrame.add(other[, axis, level, fill_value])用于執行 DataFrame 與另一個對象&…

Windows上Tomcat 11手動啟動startup.bat關閉shutdown.bat

發現tomcat11無法手動雙擊startup.bat和shutdown.bat進行開啟和關閉。雙擊startup.bat命令窗口一閃而過就是啟動失敗了,正常啟動成功是cmd命令窗口有全副的執行輸出且不關閉窗口。 解決方法如下:主要更改一個tomcat安裝目錄下的/conf/server.xml配置 1.…

7.9 Python+Click實戰:5步打造高效的GitHub監控CLI工具

Python+Click實戰:5步打造高效的GitHub監控CLI工具 GitHub Sentinel Agent 命令行界面開發實戰 關鍵詞:CLI 開發實踐、Click 框架、API 集成、命令行參數解析、錯誤處理機制 1. 命令行界面技術選型與架構設計 GitHub Sentinel 采用 Click + Requests 技術棧構建 CLI 工具,…

安全框架概述

Java中的安全框架通常是指解決Web應用安全問題的框架,如果開發Web應用時沒有使用安全框架,開發者需要自行編寫代碼增加Web應用安全性。自行實現Web應用的安全性并不容易,需要考慮不同的認證和授權機制、網絡關鍵數據傳輸加密等多方面的問題&a…

配置 C/C++ 語言智能感知(IntelliSense)的 c_cpp_properties.json 文件內容

配置 C/C 語言智能感知(IntelliSense)的 c_cpp_properties.json 文件內容 {"configurations": [{"name": "Linux","includePath": ["${workspaceFolder}/**","/opt/ros/humble/include/**&quo…

【安全掃描器原理】網絡掃描算法

【安全掃描器原理】網絡掃描算法 1.非順序掃描2.高速掃描 & 分布式掃描3.服務掃描 & 指紋掃描 1.非順序掃描 參考已有的掃描器,會發現幾乎所有的掃描器都無一例外地使用增序掃描,即對所掃描的端口自小到大依次掃描,殊不知&#xff0…

理解歐拉公式

1. 歐拉公式中的符號 歐拉公式 e i x cos ? x i sin ? x e^{ix}\cos xi\sin x eixcosxisinx當 x π x \pi xπ時 e i π 1 0 / / 歐拉恒等式 e^{i\:\pi}10 //歐拉恒等式 eiπ10//歐拉恒等式 e e e:自然對數的底 i i i:虛數, i 2 ? 1 i^2 -1 i2?1 cos…

HTML郵件背景圖兼容 Outlook

在 HTML 郵件中設置背景圖片時,Outlook(尤其是桌面版的 Outlook for Windows)經常不會正確顯示背景圖,這是因為outlook 是使用 Word 作為郵件渲染引擎,而不是標準的 HTML/CSS 渲染方式。 推薦的解決方案:使…

杰理ac792開發板按鍵不起效果

按鍵想要起效果需要把UI給注釋掉,排查了半天

Kubernetes 常用運維命令整理

目錄 Kubernetes 常用運維命令整理一、集群管理二、Pod 和容器管理三、Deployment 和應用管理四、Service 和網絡管理五、存儲管理六、ConfigMap 和 Secret 管理七、資源使用與監控八、調度和容錯九、Role 和權限管理十、清理資源 總結 Kubernetes 常用運維命令整理 Kubernete…

在 Debian 12 中恢復被刪除的 smb.conf 配置文件

https://forum.ubuntu.com.cn/viewtopic.php?t494763 本文結合ai輸出,內容中有些錯誤,但確實解決了我的問題,我采取保留完整輸出的方式摘錄。 在 Debian 12 中恢復被刪除的 smb.conf 配置文件,需結合 dpkg 和 ucf(Upd…

GB2312/GBK是字符集嗎

GB2312/GBK 是字符集嗎? 是的,GB2312 和 GBBK 既是字符集(Character Set),也是編碼方式(Encoding)。它們不僅定義了可表示的字符范圍,還規定了這些字符在計算機中的二進制存儲格式。…

BOM與DOM(解疑document window關系)

BOM(瀏覽器對象模型) 定義與作用 BOM(Browser Object Model)提供與瀏覽器窗口交互的接口,用于控制導航、窗口尺寸、歷史記錄等瀏覽器行為 window:瀏覽器窗口的頂層對象,包含全局屬性和方法&am…