Delivering Arbitrary-Modal Semantic Segmentation(CVPR2023)任意模態語義分割論文閱讀

文章目錄

  • 文章研究思路
    • 創建了DeLiVER任意模態分割基準數據集
      • 統計信息
      • 4種模態
      • 25個語義類
    • 提出了任意跨模態分割模型CMNeXt
      • 自查詢中心(Self-Query Hub,SQ-Hub)
      • 并行池化混合器(Parallel Pooling Mixer,PPX)
  • 實驗部分

paper:https://arxiv.org/pdf/2303.01480
Github:https://github.com/jamycheung/DELIVER

文章研究思路

多模態融合可以使語義分割更加魯棒。然而,融合任意數量的模態仍然是一個未充分探索的問題。為了深入研究這一問題,我們

1:創建了DeLiVER任意模態分割基準數據集,涵蓋了深度(Depth)、激光雷達(LiDAR)、多視角(Multiple Views)、事件(Events)和RGB模態。除此之外,我們還提供了四種惡劣天氣條件下的數據集,并包括五種傳感器故障情況,以利用模態間的互補性并解決部分故障問題。

2:提出了任意跨模態分割模型CMNeXt。該模型包含一個自查詢中心(Self-Query Hub,SQ-Hub),旨在從任意模態中提取有效信息,以便隨后與RGB表示進行融合,并且每增加一個模態僅增加極少的參數(約0.01M)。此外,為了高效且靈活地從輔助模態中獲取判別性線索,我們引入了簡單的并行池化混合器(Parallel Pooling Mixer,PPX)。通過在六個基準數據集上的大量實驗,我們的CMNeXt實現了最先進的性能,能夠在DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS數據集上實現從1個模態到80個模態的擴展。在新收集的DeLiVER數據集上,四模態的CMNeXt在mIoU上達到了66.30%,相較于單模態基準提高了9.10%。

創建了DeLiVER任意模態分割基準數據集

統計信息

在這里插入圖片描述

DeLiVER 多模式數據集包括 (a) 5種天氣情況(多云、有霧、夜間、下雨和晴天),含有4種不利條件;6種傳感器情況, 除了正常情況外,有5個傳感器故障情況 (MB:運動模糊、OE: 過度曝光、UE: 曝光不足、LJ: LiDAR-Jitter:LiDAR 抖動、和 EL:事件低分辨率),傳感器安裝在 Ego Car 上的不同位置提供多個視圖,包括前、后、左、右、上和下,因此 每個樣本有 6 個視圖,每個視圖都有4種模態(RGB、Depth、Lidar、Event)和2類標簽(semantic 和 instance)。(b) 是數據統計,共計 47,310 幀,大小為1042*1042 。其中 7,885 個前視圖樣本分為 3,983/2,005/1,897 分別用于訓練/驗證/測試。(c) 是 25 個語義類的數據分布。

在這里插入圖片描述

4種模態

在這里插入圖片描述
在這里插入圖片描述

25個語義類

Building - 建筑物、Fence - 圍欄、Other - 其他、Pedestrian - 行人、Pole - 桿、RoadLine - 路線、Road - 道路、SideWalk - 人行道、Vegetation - 植被、Cars - 汽車、Wall - 墻壁、TrafficSign - 交通標志、Sky - 天空、Ground - 地面、Bridge - 橋梁、RailTrack - 鐵路軌道、GroundRail - 地面鐵路、TrafficLight - 交通燈、Static - 靜態、Dynamic - 動態、Water - 水、Terrain - 地形、TwoWheeler - 兩輪車、Bus - 公共汽車、Truck - 卡車

提出了任意跨模態分割模型CMNeXt

下圖為CMNeXt的整體架構圖,該模型是編碼器-解碼器(Encoder-Decoder)架構。其中,編碼器是一個雙分支和四階段的編碼器,雙分支分為RGB的主要分支和其他模態的次要分支,為了保持模態表示的一致性,Lidar、Event信息按照文章[ ISSAFE: Improving semantic segmentation in accidents by fusing event-based data.][Perception-aware multi sensor fusion for 3D LiDAR semantic segmentation]預處理為類似圖像的表示形式。backbone遵循大多數的CNN/Transformer結構,以用于提取多尺度的金字塔特征,四階段以下只詳細標注第一階段。采用Hub2Fuse范式和不對稱分支設計,RGB圖像通過多頭注意力(MHSA)逐步處理[來自SegFormer],其他M種模態圖像則通過本文提出的自查詢中心(Self-Query Hub)和并行池化混合器(PPX)進行處理:在Hub步驟中,Self-Query Hub從輔助模態中選擇出具有信息量的特征;在融合步驟中,特征修正模塊(FRM)和特征融合模塊(FFM)被用于特征融合[ CMX: Cross-modal fusion for RGB Xsemantic segmentation with transformers],各個階段之間,融合后的特征會通過add的方式疊加到每種模態的特征而后進入下一階段;經過四個階段后,會得到四階段特征,傳遞給MLP解碼器分割頭,進行預測。

在這里插入圖片描述

自查詢中心(Self-Query Hub,SQ-Hub)

為了執行任意模態融合,自查詢中心(SQ-Hub)是一個關鍵設計,用于在與 RGB 特征融合之前選擇補充模態的信息特征,簡單的理解就是用一個類自注意力機制的模塊將不同的模態信息進行融合輸出。隨后,該輸出特征經過PPX模塊進行進一步加工。
在這里插入圖片描述

并行池化混合器(Parallel Pooling Mixer,PPX)

并行池化混合器作用是從上述 SQ-Hub 中的任意模態補充中高效靈活地獲取判別線索。結構如下所示,先是7*7的DW-conv,再通過3種不同核尺度的池化層,殘差連接; 最后通過FFN和SEnet的結構Squeeze-and-Excitation module 跨通道增強信息。
在這里插入圖片描述

與基于卷積的MSCA [27]、基于池化的MetaFormer [86]、全注意力的FAN [99]相比,PPX包含兩項創新:

  • (1) 在注意力部分使用并行池化層進行高效加權;
  • (2) 在特征混合部分進行通道級增強。

PPX模塊的這兩項特點有助于分別在空間和通道維度上突出跨模態融合特征。

實驗部分

表 1 為 CMNeXt 與其它多模態融合領域的 SOTA 方法在六個多模態的分割數據集上的對比。實現結果表明,與HRFuser、TokenFusion以及CMX等眾多前向研究相比,所提方法無論是在任意單模態或多模態下均能發揮出色的分割性能,具備很強的魯棒性。

在這里插入圖片描述

表 2 展示了 CMNeXt 與主流多模式融合范例在不同條件下的比較結果,包括惡劣天氣和部分傳感器故障場景。可以看出,先前的方法在兩大挑戰上均表現不加。受益于所提出的用于選擇有效特征的自查詢中心(SQ-Hub),方法顯著提高了整體的分割性能,平均提升了 9.1 個點。

在這里插入圖片描述

表 3 主要對本文所提的各個模塊進行消融實驗論證。

在這里插入圖片描述

CMNeXt針對RGB-only SegFormer和RGB-X CMX的語義分割結果。可以看出,在曝光不足的黑夜中,僅 RGB 的 SegFormer 幾乎無法分割近處的車輛,而基于 RGB-D 深度估計的 CMNeXt 明顯優于SegFormer。另一方面,結合四種不同模態RGB-D-E-L的CMNeXt方法則進一步提高了性能并產生了更完整的分割效果。同時,在激光雷達抖動的部分傳感器故障場景中,CMX產生了不好的雨景解析結果;而本文所提方法幾乎不受傳感數據未對齊的影響,CMNeXt進一步加強了全場景分割的性能。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84775.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84775.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84775.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

進程控制

一. 進程創建 1.fork的概念與使用 在 Linux 中 fork 可以在一個進程中創建一個新的進程。這個新進程稱為子進程&#xff0c;原進程為父進程。使用前需要包含頭文件 #include <unistd.h> 。在調用 fork 函數時&#xff0c;子進程與父進程會共享數據和代碼&#xff0c;此…

造輪子系列:從0到1打造生產級HTTP客戶端,優雅封裝OkHttp/HttpClient,支持異步、重試與文件操作

TechZhi HTTP Client Starter 源碼特性快速開始1. 添加依賴2. 配置3. 使用 主要功能支持的HTTP方法文件操作功能高級功能配置示例 API使用示例基本請求自定義請求異步請求文件操作示例錯誤處理 構建和測試依賴說明 本文將介紹一款本人開發的高性能Spring Boot HTTP客戶端Starte…

Java過濾器的基本概念

概述 Java 過濾器是 Java EE (Jakarta EE) 中的一種組件&#xff0c;用于在請求到達 Servlet 或 JSP 之前對其進行預處理&#xff0c;或者在響應返回客戶端之前對其進行后處理。過濾器主要應用于以下場景&#xff1a; 請求參數過濾和轉換字符編碼處理身份驗證和授權日志記錄壓…

gbase8s數據庫獲取jdbc/odbc協議的幾種方式

PROTOCOLTRACEFILED:\sqltrace1.log;PROTOCOLTRACE5 jdbc 參數 &#xff0c;明文協議&#xff0c;并發時 會錯亂&#xff0c;適合單線程調試 SQLIDEBUGC:\Users\lenovo\Desktop\sqlidebug.log1 jdbc參數&#xff0c;密文協議&#xff0c;需使用解密工具解析&#xff0c;解析…

【android bluetooth 框架分析 04】【bt-framework 層詳解 7】【AdapterProperties介紹】

前面我們提到了 藍牙協議棧中的 Properties &#xff0c; 這篇文章是 他的補充。 【android bluetooth 框架分析 04】【bt-framework 層詳解 6】【Properties介紹】 在 AOSP&#xff08;Android Open Source Project&#xff09;中&#xff0c;AdapterProperties 是一個 Java…

C盤瘦身?

突然發現回收站底部有橫幅辣眼睛&#xff01; 點擊深度清理跳轉C盤瘦身 點擊一鍵瘦身跳轉支付 回收站右鍵還有菜單 回收站右鍵可以通過設置關閉 回收站底部橫幅關不了&#xff01; 流氓沒人管了嗎&#xff1f;

用戶通知服務,輕松實現應用與用戶的多場景交互

用戶在使用應用時&#xff0c;經常想要了解應用程序在執行的操作&#xff0c;如下載完成、新郵件到達、發布即時的客服支付通知等&#xff0c;這些通知除了攜帶基本的文本圖片信息外&#xff0c;最好還可以支持文件上傳下載進度場景下的進度條通知&#xff0c;以及點擊通知欄可…

蘋果獲智能錢包專利,Find My生態版圖或再擴張:錢包會“說話”還能防丟

蘋果公司近日成功獲批一項突破性專利&#xff0c;揭示了一種支持Find My網絡的全新智能錢包設計方案。該錢包不僅能智能管理用戶的信用卡、身份證等實體卡片&#xff0c;更具備了追蹤定位和通過揚聲器發聲提醒的能力&#xff0c;有望成為蘋果“查找”&#xff08;Find My&#…

當機床開始“思考”,傳統“制造”到“智造”升級路上的法律暗礁

——首席數據官高鵬律師團隊創作&#xff0c;AI輔助 一、被時代推著走的工廠&#xff1a;從“鐵疙瘩”到“智能體”的陣痛 某汽車零部件廠的李廠長至今記得三年前的凌晨。為了趕上新能源車企的訂單&#xff0c;廠里咬牙引進了兩條智能生產線&#xff0c;可調試第三天&#xff…

概率基礎——不確定性的數學

第05篇&#xff1a;概率基礎——不確定性的數學 寫在前面&#xff1a;大家好&#xff0c;我是藍皮怪&#xff01;前幾篇我們聊了統計學的基本概念、數據類型、描述性統計和數據可視化&#xff0c;今天我們要進入統計學的另一個重要基礎——概率論。你有沒有想過&#xff0c;為什…

爬蟲遇到base64編碼(非常規版)

一.特征 從 Base64 的核心特性入手&#xff0c;比如它的編碼原理&#xff08;將二進制數據轉換為 ASCII 字符集&#xff09;和字符集的組成&#xff08;A-Z、a-z、0-9、、/ 和 &#xff09;。這是 Base64 最基礎的特點&#xff0c;幾乎每個回答都應該包括這些內容。基于 64 個…

節拍定時器是什么?

節拍定時器是什么&#xff1f; 節拍定時器&#xff08;SysTick Timer&#xff09;是嵌入式系統中用于提供精確時間基準的核心硬件組件&#xff0c;尤其在ARM Cortex-M系列處理器中廣泛應用。以下是其關鍵特性和應用的綜合說明&#xff1a; ?? 一、核心概念與工作原理 硬件基…

SDPA(Scaled Dot-Product Attention)詳解

SDPA&#xff08;Scaled Dot-Product Attention&#xff09;詳解 SDPA&#xff08;Scaled Dot-Product Attention&#xff0c;縮放點積注意力&#xff09;是 Transformer 模型的核心計算單元&#xff0c;最早由 Vaswani 等人在 2017 年的論文《Attention Is All You Need》提出…

java通過hutool工具生成二維碼實現掃碼跳轉功能

實現&#xff1a; 首先引入zxing和hutool工具依賴 <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.2</version></dependency><dependency><groupId>com.google.zxi…

數據庫數據導出到Excel表格

1.后端代碼 第一步&#xff1a;UserMapper定義根據ID列表批量查詢用戶方法 // 批量查詢用戶信息List<User> selectUserByIds(List<Integer> ids); 第二步&#xff1a;UserMapper.xml寫動態SQL&#xff0c;實現批量查詢用戶 <!--根據Ids批量查詢用戶-->&l…

Altera系列FPGA基于ADV7180解碼PAL視頻,純verilog去隔行,提供2套Quartus工程源碼和技術支持

目錄 1、前言工程概述免責聲明 2、相關方案推薦我已有的所有工程源碼總目錄----方便你快速找到自己喜歡的項目Altera系列FPGA相關方案推薦我這里已有的PAL視頻解碼方案 3、設計思路框架工程設計原理框圖輸入PAL相機ADV7180芯片解讀BT656視頻解碼模塊圖像緩存架構輸出視頻格式轉…

【教程】Windows安全中心掃描設置排除文件

轉載請注明出處&#xff1a;小鋒學長生活大爆炸[xfxuezhagn.cn] 如果本文幫助到了你&#xff0c;歡迎[點贊、收藏、關注]哦~ 目錄 背景說明 解決方法 背景說明 即使已經把實時防護等設置全都關了&#xff0c;但Windows還是會不定時給你掃描&#xff0c;然后把風險軟件給刪了…

OPenCV CUDA模塊立體匹配------對立體匹配生成的視差圖進行雙邊濾波處理類cv::cuda::DisparityBilateralFilter

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 cv::cuda::DisparityBilateralFilter 是 OpenCV CUDA 模塊中的一個類&#xff0c;用于對立體匹配生成的視差圖進行雙邊濾波處理。這種濾波方法可…

自然語言處理期末復習

自然語言處理期末復習 一單元 自然語言處理基礎 兩個核心任務&#xff1a; 自然語言理解&#xff08;NLU, Natural Language Understanding&#xff09; 讓計算機“讀懂”人類語言&#xff0c;理解文本的語義、結構和意圖。 典型子任務包括&#xff1a;分詞、詞性標注、句法分…

黃仁勛在2025年巴黎VivaTech大會上的GTC演講:AI工廠驅動的工業革命(上)

引言 2025年6月12日,在巴黎VivaTech大會上,英偉達創始人兼CEO黃仁勛發表了題為"AI工廠驅動的工業革命"的GTC主題演講。這場持續約1小時35分鐘的演講不僅詳細闡述了英偉達在AI基礎設施、智能體技術、量子計算及機器人領域的最新突破,更系統性地勾勒出了人工智能如…