【論文解讀】MODEST 透明物體 單目深度估計和分割 ICRA 2025

MODEST是一種用于透明物體的單目深度估計和分割的方法,來自ICRA 2025。

它通過單張RGB圖像作為輸入,能夠同時預測透明物體的深度圖分割掩碼

由深度圖生成點云數據,然后采用GraspNet生成抓取位姿,開展透明物體抓取實驗。

?論文地址:Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion

代碼地址:https://github.com/D-Robotics-AI-Lab/MODEST

一、主體框架分析

MODEST 的主體結構,如下圖所示:

  • 1、輸入與編碼階段:?

    • 模型接收一張RGB圖像作為輸入。

    • 使用基于Transformer的編碼器(ViT)對輸入圖像進行處理,提取多層特征,生成視覺tokens。

  • 2、重組階段:?

    • 將視覺tokens轉換為多尺度特征圖。形成兩個特征金字塔,分別用于深度估計和語義分割任務。

  • 3、迭代融合解碼階段:?

    • 融合模塊:通過語義和幾何融合模塊(SGFM),將深度和分割任務的特征進行整合,充分利用兩項任務間的互補信息。

    • 迭代優化:采用迭代策略,通過共享權重解碼器和門控單元,逐步細化初始預測結果,從粗到細地優化深度和分割特征。

  • 4、輸出階段:?

    • 經過多次迭代后,通過深度預測頭和分割預測頭,最終輸出深度圖和分割掩碼。

?????總結:Transformer編碼器提供了全局特征表示,重組模塊將特征轉換為多尺度特征圖,迭代融合解碼器通過語義和幾何信息的融合以及迭代優化,逐步提高預測的準確性和細節。

二、進一步了解MODEST設計思路

問題定義與方法概述?

給定一張RGB圖像 (3×H×W),其中 H 是圖像的高度,W 是圖像的寬度,

目標是獲得透明物體的準確分割掩碼 (S∈N×H×W )和深度圖( D∈H×W),其中 N 是語義類別的數量。

模型學習一個函數 f,將輸入映射到兩個輸出,定義為 (S,D)=f(I)。

整體架構由基于Transformer的編碼器、重組模塊和迭代融合解碼器組成。

Transformer編碼器

與傳統卷積神經網絡不同,modest采用Vision Transformer (ViT)作為骨干網絡提取多層特征。

首先將輸入RGB圖像分割成非重疊的圖像塊,通過線性投影嵌入成tokens,然后添加位置嵌入并經過多個Transformer塊處理。

編碼器由12個Transformer塊組成,從中選擇4層tokens,從淺到深均勻分布,用于后續模塊。

重組模塊

由于ViT將圖像特征編碼為具有相同空間分辨率的tokens,需要將其轉換回特征圖以便后續融合和預測。

按照DPT的方法,通過連接和投影將vision tokens重塑為對應的特征圖。

為了充分利用不同層次的特征,將其表示為多尺度形式,其中較深的特征對應較小的分辨率。

重組模塊的結果是兩個四層金字塔,分別用于深度和分割

迭代融合解碼器

在解碼器中,通過提出的融合模塊將來自兩個金字塔的幾何特征和語義特征整合在一起,然后通過門控單元從同一共享權重解碼器反復更新特征,以獲得更細粒度的預測。

  • 融合解碼器:由于透明物體的光學特性,單獨使用單張RGB圖像預測深度和分割特別困難。為了提高兩項任務的性能,設計了一種基于注意力的融合模塊,充分利用兩項任務的互補信息。在每一層對深度和分割特征金字塔進行語義和幾何融合,整合多尺度特征。通過通道注意力模塊和空間注意力模塊依次提取有意義的線索,然后通過對稱乘法相互作用,實現特征的融合。

  • 迭代優化:面對透明物體,僅進行一次預測的方法往往會產生不清晰的結果。為此,提出了一種迭代優化策略,以粗到細的方式優化深度和分割特征。以多尺度融合結果作為初始特征,通過共享權重解碼器反復更新。通過輕量級門控單元將前一次迭代的結果傳遞到下一次迭代。基于最后一次迭代的特征,通過兩個預測頭獲得最終的深度圖和分割掩碼。為了使模型逐漸學習更多關于透明物體的細節,對每次迭代應用從弱到強的多尺度監督。

三、損失函數

模型采用兩種損失函數進行端到端訓練,分別用于深度和分割任務。

  • 幾何損失:深度估計損失包括:預測深度與真實深度的L2損失、梯度的L1損失、表面法線的L1損失。

  • 語義損失:語義分割采用標準的交叉熵損失。

總體損失函數是幾何損失和語義損失的加權和,通過調整超參數平衡兩項任務的損失。

補充介紹:

梯度的L1損失

  • 梯度的L1損失關注的是深度圖的梯度,也就是深度值在圖像空間中的變化率。
  • 深度圖的梯度可以反映物體的邊界和表面的朝向等幾何信息。
  • 通過讓預測深度圖的梯度盡可能接近真實深度圖的梯度,可以促使模型學習到更準確的物體形狀和邊界信息。

表面法線的L1損失

  • 表面法線的L1損失則關注的是深度圖所隱含的表面法線信息。
  • 表面法線是指垂直于物體表面的向量,它能夠提供關于物體表面朝向的更直接的幾何信息。
  • 通過讓預測深度圖所對應的表面法線盡可能接近真實表面法線,可以進一步約束模型學習到更準確的深度信息。

在深度估計任務中,將深度值的L2損失、梯度的L1損失和表面法線的L1損失結合起來,形成一個綜合的損失函數。

這樣可以充分利用不同損失項的優勢,全面約束模型的學習過程,提升深度估計的準確性。

四、迭代融合解碼器

迭代融合解碼器,通過語義和幾何融合模塊以及迭代優化策略,逐步提高預測的準確性和細節。

在透明物體的感知任務中,僅依靠單張RGB圖像進行深度估計和分割是非常具有挑戰性的,因為透明物體的光學特性使得它們在圖像中缺乏明顯的紋理特征,并且容易與背景融合。

為了解決這一問題,MODEST提出的迭代融合解碼器通過以下兩個核心組件來提升模型性能:

  1. 語義和幾何融合模塊(Semantic and Geometric Fusion Module, SGFM):該模塊通過注意力機制整合深度和分割任務的特征,充分利用兩項任務之間的互補信息。

  2. 迭代優化策略(Iterative Refinement Strategy):通過多次迭代逐步細化初始預測結果,從粗到細地優化深度和分割特征。

語義和幾何融合模塊(SGFM)

SGFM的設計目的是通過注意力機制自適應地交互深度和分割任務的特征,從而充分利用兩項任務之間的互補信息。

具體來說,該模塊在每一層對深度和分割特征金字塔進行語義和幾何融合,整合多尺度特征。

  • 通道注意力模塊(Channel Attention Module, CAM):通過全局平均池化和最大池化操作提取特征的全局信息,然后通過全連接層學習每個通道的重要性權重。這些權重用于強調對當前任務更有意義的通道特征。

  • 空間注意力模塊(Spatial Attention Module, SAM):通過卷積操作和池化操作提取特征的空間信息,生成一個空間注意力圖,用于強調特征圖中更重要的空間區域。

通過通道和空間注意力模塊的結合,SGFM能夠自適應地強調深度和分割特征中有意義的部分,從而實現更有效的特征融合。

對于深度特征 Fd? 和分割特征 Fs?,SGFM通過通道注意力模塊和空間注意力模塊

分別提取通道空間信息,然后通過對稱乘法相互作用實現特征的融合。這一過程可以表示為:

其中,? 表示逐元素相乘,Fd′′? 是融合后的深度特征。分割特征的處理方式類似。

?

迭代優化策略

為了進一步提高預測的準確性和細節,提出了一種迭代優化策略。

該策略通過多次迭代逐步細化初始預測結果,從粗到細地優化深度和分割特征。

  • 初始特征:以多尺度融合結果作為初始特征。

  • 共享權重解碼器:通過同一個解碼器反復更新特征,避免了為每次迭代單獨設計解碼器的復雜性。

  • 門控單元:每次迭代的結果通過輕量級門控單元傳遞到下一次迭代,門控單元包含卷積操作和ReLU函數,用于控制信息的流動和更新。

  • 多尺度監督:為了使模型逐漸學習更多關于透明物體的細節,對每次迭代應用從弱到強的多尺度監督。監督的強度由迭代次數決定,隨著迭代次數的增加,監督的強度逐漸增強。

具體來說,迭代過程可以表示為:

其中,Fn?1? 和 Fn? 分別是第 n?1 次和第 n 次迭代的所有多尺度深度和分割特征,Fe? 是來自重組模塊的特征,fd? 是由共享解碼器表示的函數。

五、實驗與測試

  • 實現細節:模型在PyTorch中實現,使用RTX 4090 GPU進行訓練,批次大小為4,訓練20個epoch。優化器采用Adam,學習率為1e-5。輸入圖像分辨率調整為384×384,未使用隨機翻轉或旋轉等圖像增強策略。

  • 數據集:實驗在合成數據集Syn-TODD和真實世界數據集ClearPose上進行。Syn-TODD包含超過113k張圖像對,支持單目、立體和多視角方法。ClearPose包含超過350k張RGB-深度幀,包含極端場景如嚴重遮擋和非平面配置。

  • 基線方法:與兩種針對透明物體的立體和多視角方法(SimNet和MVTrans)以及兩種通用多任務密集預測方法(InvPT和TaskPrompter)進行對比。

  • 評價指標:深度估計采用均方根誤差(RMSE)、絕對相對差異(REL)和平均絕對誤差(MAE)作為標準指標。語義分割采用交并比(IoU)和平均精度(mAP)作為評價指標。

?

在Syn-TODD數據集上,深度估計和語義分割任務上對比:

在Syn-TODD數據集上對深度和分割進行比較:

在 ClearPose 數據集上進行比較:

下面是 ClearPose 數據集上效果對比

?

論文的可視化效果,確實不錯,但在復現時,發現效果差太多了,一言難盡。。。。

使用預訓練權重ISGNet_clearpose.p,ClearPose中的數據,

?原圖是這樣的:

模型預測的深度圖:

模型預測的分割效果:

后面有空再看看能不能調調參數,優化一下?

論文復現:復現 MODEST 機器人抓取透明物體 單目 ICRA 2025-CSDN博客

分享完成~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897426.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897426.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897426.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【網絡安全工程】任務11:路由器配置與靜態路由配置

目錄 一、概念 二、路由器配置 三、配置靜態路由CSDN 原創主頁:不羈https://blog.csdn.net/2303_76492156?typeblog 一、概念 1、路由器的作用:通過路由表進行數據的轉發。 2、交換機的作用:通過學習和識別 MAC 地址,依據 M…

深入理解隱式類型轉換:從原理到應用

C?持內置類型隱式類型轉換為類類型對象,需要有相關內置類型為參數的構造函數。 構造函數前?加explicit就不再?持隱式類型轉換。 類類型的對象之間也可以隱式轉換,需要相應的構造函數?持。 內置類型隱式類型轉換為類類型對象 在 C 中,如果…

垃圾收集算法與收集器

在 JVM 中,垃圾收集(Garbage Collection, GC)算法的核心目標是自動回收無用對象的內存,同時盡量減少對應用性能的影響。以下是 JVM 中主要垃圾收集算法的原理、流程及實際應用場景的詳細介紹: 一、標記-清除算法&#…

如何為服務設置合理的線程數

1. 首先,要確定最大線程數的限制因素。通常,線程數量受限于內存、CPU和操作系統限制。比如,每個線程都需要一定的棧內存,默認情況下Java線程的棧大小是1MB(64位系統可能更大),所以如果內存不足&…

內容中臺:元數據驅動管理新范式

元數據驅動智能管理中樞 現代企業內容管理正經歷從碎片化存儲向結構化治理的范式轉變,元數據驅動機制在此過程中展現出核心樞紐價值。通過構建多維屬性標簽體系,Baklib等內容中臺解決方案實現了對文本、音視頻等數字資產的精準定義,其動態分…

在mac中設置環境變量

步驟一:打開終端 步驟二:輸入printenv,查看當前已有的環境變量; 步驟三:輸入:nano ~/.zshrc 打開環境變量編輯頁面; 步驟四:輸入新的變量:export DEEPSEEK_API_KEY&qu…

擴散模型的算法原理及其在圖像生成領域的優勢與創新

目錄 一、引言 二、擴散模型的加噪過程 (一)前向擴散過程 (二)噪聲調度策略 三、擴散模型的去噪過程 (一)反向擴散過程 (二)去噪網絡架構 四、擴散模型的訓練和推理機制 &am…

技術領域,有許多優秀的博客和網站

在技術領域,有許多優秀的博客和網站為開發者、工程師和技術愛好者提供了豐富的學習資源和行業動態。以下是一些常用的技術博客和網站,涵蓋了編程、軟件開發、數據科學、人工智能、網絡安全等多個領域: 1. 綜合技術博客 1.1 Medium 網址: ht…

mysql經典試題共34題

1、準備數據 -- drop drop table if exists dept; drop table if exists emp; drop table if exists salgrade;-- CREATE CREATE TABLE dept (deptno int NOT NULL COMMENT 部門編號,dname varchar(14) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci DEFAULT NULL COMM…

2025 - GDB 盲調筆記--調試 “無調試符號“ “無調試信息“ 的三方程序

環境: arm64-ubuntu 相關:strace、ltrace、readelf、patchelf、strings、ldd -v 1). 使用 gdb 啟動目標程序(不能直接用gdb啟動的,可以先單獨啟動,再 gdb attach 強制調試) DIR_APP/opt/test gdb --args env LANGUAGE LD_LIBRA…

OCPP擴展機制與自定義功能開發:協議靈活性設計與實踐 - 慧知開源充電樁平臺

OCPP擴展機制與自定義功能開發:協議靈活性設計與實踐 引言 OCPP作為開放協議,其核心價值在于平衡標準化與可擴展性。面對不同充電樁廠商的硬件差異、區域能源政策及定制化業務需求,OCPP通過**擴展點(Extension Points&#xff09…

【項目】nnUnetv2復現

作者提出一種nnUNet(no-new-Net)框架,基于原始的UNet(很小的修改),不去采用哪些新的結構,如相殘差連接、dense連接、注意力機制等花里胡哨的東西。相反的,把重心放在:預處理(resampling和normalization)、訓練(loss,optimizer設置、數據增廣)、推理(patch-based…

代碼隨想錄算法訓練營第八天|Leetcode 151.翻轉字符串里的單詞 卡碼網:55.右旋轉字符串 字符串總結 雙指針回顧

151.翻轉字符串里的單詞 建議:這道題目基本把 剛剛做過的字符串操作 都覆蓋了,不過就算知道解題思路,本題代碼并不容易寫,要多練一練。 題目鏈接/文章講解/視頻講解:代碼隨想錄 我們這道題的思路是,先將整…

【計算機網絡】計算機網絡的性能指標——時延、時延帶寬積、往返時延、信道利用率

計算機網絡的性能指標 導讀 大家好,很高興又和大家見面啦!!! 在上一篇內容中我們介紹了計算機網絡的三個性能指標——速率、帶寬和吞吐量。用大白話來說就是:網速、最高網速和實時網速。 相信大家看到這三個詞應該就…

Refreshtoken 前端 安全 前端安全方面

網絡安全 前端不需要過硬的網絡安全方面的知識,但是能夠了解大多數的網絡安全,并且可以進行簡單的防御前兩三個是需要的 介紹一下常見的安全問題,解決方式,和小的Demo,希望大家喜歡 網絡安全匯總 XSSCSRF點擊劫持SQL注入OS注入請求劫持DDOS 在我看來,前端可以了解并且防御前…

vue3框架的響應式依賴追蹤機制

當存在一個響應式變量于視圖中發生改變時會更新當前組件的所以視圖顯示,但是沒有視圖中不寫這個響應式變量就就算修改該變量也不會修改視圖,這是為什么?我們能否可以理解寬泛的理解為vue組件的更新就是視圖的更新,單當視圖中不存在…

C#核心(22)string

前言 我們在之前的學習中已經學習過了很多數字類型的數據結構,但一直沒有講解除了char以外的字符串相關的知識點,這也是我們繼繼承,封裝,重載這些知識點之后要補充講解的核心知識點。 你也發現了,其實在密封函數之后我們就已經開始進入更底層的方面為你講解知識點了,這…

Spring Boot 本地緩存工具類設計與實現

在 Spring Boot 應用中,緩存是提升性能的重要手段之一。為了更方便地使用緩存,我們可以設計一套通用的本地緩存工具類,封裝常見的緩存操作,簡化開發流程。本文將詳細介紹如何設計并實現一套 Spring Boot 本地緩存工具類&#xff0…

引領變革!北京愛悅詩科技有限公司榮獲“GAS消費電子科創獎-產品創新獎”!

在2025年“GAS消費電子科創獎”評選中,北京愛悅詩科技有限公司提交的“aigo愛國者GS06”,在技術創新性、設計創新性、工藝創新性、智能化創新性及原創性五大維度均獲得評委的高度認可,榮獲“產品創新獎”。 這一獎項不僅是對愛悅詩在消費電子…

考研英語語法全攻略:從基礎到長難句剖析?

引言 在考研英語的備考之旅中,語法猶如一座燈塔,為我們在浩瀚的英語知識海洋中指引方向。無論是閱讀理解中復雜長難句的解讀,還是寫作時準確流暢表達的需求,扎實的語法基礎都起著至關重要的作用。本文將結合有道考研語法基礎入門課的相關內容,為大家全面梳理考研英語語法…