【論文解讀】MODEST 透明物體單目深度估計和分割 ICRA 2025

MODEST是一種用于透明物體的單目深度估計和分割的方法，來自ICRA 2025。

它通過單張RGB圖像作為輸入，能夠同時預測透明物體的深度圖和分割掩碼。

由深度圖生成點云數據，然后采用GraspNet生成抓取位姿，開展透明物體抓取實驗。

?論文地址：Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion

代碼地址：https://github.com/D-Robotics-AI-Lab/MODEST

一、主體框架分析

MODEST 的主體結構，如下圖所示：

1、輸入與編碼階段：?
- 模型接收一張RGB圖像作為輸入。
- 使用基于Transformer的編碼器（ViT）對輸入圖像進行處理，提取多層特征，生成視覺tokens。

2、重組階段：?
- 將視覺tokens轉換為多尺度特征圖。形成兩個特征金字塔，分別用于深度估計和語義分割任務。
3、迭代融合解碼階段：?
- 融合模塊：通過語義和幾何融合模塊（SGFM），將深度和分割任務的特征進行整合，充分利用兩項任務間的互補信息。
- 迭代優化：采用迭代策略，通過共享權重解碼器和門控單元，逐步細化初始預測結果，從粗到細地優化深度和分割特征。
4、輸出階段：?
- 經過多次迭代后，通過深度預測頭和分割預測頭，最終輸出深度圖和分割掩碼。

?????總結：Transformer編碼器提供了全局特征表示，重組模塊將特征轉換為多尺度特征圖，迭代融合解碼器通過語義和幾何信息的融合以及迭代優化，逐步提高預測的準確性和細節。

二、進一步了解MODEST設計思路

問題定義與方法概述?

給定一張RGB圖像 (3×H×W)，其中 H 是圖像的高度，W 是圖像的寬度，

目標是獲得透明物體的準確分割掩碼 (S∈N×H×W )和深度圖( D∈H×W)，其中 N 是語義類別的數量。

模型學習一個函數 f，將輸入映射到兩個輸出，定義為 (S,D)=f(I)。

整體架構由基于Transformer的編碼器、重組模塊和迭代融合解碼器組成。

Transformer編碼器

與傳統卷積神經網絡不同，modest采用Vision Transformer (ViT)作為骨干網絡提取多層特征。

首先將輸入RGB圖像分割成非重疊的圖像塊，通過線性投影嵌入成tokens，然后添加位置嵌入并經過多個Transformer塊處理。

編碼器由12個Transformer塊組成，從中選擇4層tokens，從淺到深均勻分布，用于后續模塊。

重組模塊

由于ViT將圖像特征編碼為具有相同空間分辨率的tokens，需要將其轉換回特征圖以便后續融合和預測。

按照DPT的方法，通過連接和投影將vision tokens重塑為對應的特征圖。

為了充分利用不同層次的特征，將其表示為多尺度形式，其中較深的特征對應較小的分辨率。

重組模塊的結果是兩個四層金字塔，分別用于深度和分割。

迭代融合解碼器

在解碼器中，通過提出的融合模塊將來自兩個金字塔的幾何特征和語義特征整合在一起，然后通過門控單元從同一共享權重解碼器反復更新特征，以獲得更細粒度的預測。

融合解碼器：由于透明物體的光學特性，單獨使用單張RGB圖像預測深度和分割特別困難。為了提高兩項任務的性能，設計了一種基于注意力的融合模塊，充分利用兩項任務的互補信息。在每一層對深度和分割特征金字塔進行語義和幾何融合，整合多尺度特征。通過通道注意力模塊和空間注意力模塊依次提取有意義的線索，然后通過對稱乘法相互作用，實現特征的融合。
迭代優化：面對透明物體，僅進行一次預測的方法往往會產生不清晰的結果。為此，提出了一種迭代優化策略，以粗到細的方式優化深度和分割特征。以多尺度融合結果作為初始特征，通過共享權重解碼器反復更新。通過輕量級門控單元將前一次迭代的結果傳遞到下一次迭代。基于最后一次迭代的特征，通過兩個預測頭獲得最終的深度圖和分割掩碼。為了使模型逐漸學習更多關于透明物體的細節，對每次迭代應用從弱到強的多尺度監督。

三、損失函數

模型采用兩種損失函數進行端到端訓練，分別用于深度和分割任務。

幾何損失：深度估計損失包括：預測深度與真實深度的L2損失、梯度的L1損失、表面法線的L1損失。
語義損失：語義分割采用標準的交叉熵損失。

總體損失函數是幾何損失和語義損失的加權和，通過調整超參數平衡兩項任務的損失。

補充介紹：

梯度的L1損失

梯度的L1損失關注的是深度圖的梯度，也就是深度值在圖像空間中的變化率。
深度圖的梯度可以反映物體的邊界和表面的朝向等幾何信息。
通過讓預測深度圖的梯度盡可能接近真實深度圖的梯度，可以促使模型學習到更準確的物體形狀和邊界信息。

表面法線的L1損失

表面法線的L1損失則關注的是深度圖所隱含的表面法線信息。
表面法線是指垂直于物體表面的向量，它能夠提供關于物體表面朝向的更直接的幾何信息。
通過讓預測深度圖所對應的表面法線盡可能接近真實表面法線，可以進一步約束模型學習到更準確的深度信息。

在深度估計任務中，將深度值的L2損失、梯度的L1損失和表面法線的L1損失結合起來，形成一個綜合的損失函數。

這樣可以充分利用不同損失項的優勢，全面約束模型的學習過程，提升深度估計的準確性。

四、迭代融合解碼器

迭代融合解碼器，通過語義和幾何融合模塊以及迭代優化策略，逐步提高預測的準確性和細節。

在透明物體的感知任務中，僅依靠單張RGB圖像進行深度估計和分割是非常具有挑戰性的，因為透明物體的光學特性使得它們在圖像中缺乏明顯的紋理特征，并且容易與背景融合。

為了解決這一問題，MODEST提出的迭代融合解碼器通過以下兩個核心組件來提升模型性能：

語義和幾何融合模塊（Semantic and Geometric Fusion Module, SGFM）：該模塊通過注意力機制整合深度和分割任務的特征，充分利用兩項任務之間的互補信息。
迭代優化策略（Iterative Refinement Strategy）：通過多次迭代逐步細化初始預測結果，從粗到細地優化深度和分割特征。

語義和幾何融合模塊（SGFM）

SGFM的設計目的是通過注意力機制自適應地交互深度和分割任務的特征，從而充分利用兩項任務之間的互補信息。

具體來說，該模塊在每一層對深度和分割特征金字塔進行語義和幾何融合，整合多尺度特征。

通道注意力模塊（Channel Attention Module, CAM）：通過全局平均池化和最大池化操作提取特征的全局信息，然后通過全連接層學習每個通道的重要性權重。這些權重用于強調對當前任務更有意義的通道特征。
空間注意力模塊（Spatial Attention Module, SAM）：通過卷積操作和池化操作提取特征的空間信息，生成一個空間注意力圖，用于強調特征圖中更重要的空間區域。

通過通道和空間注意力模塊的結合，SGFM能夠自適應地強調深度和分割特征中有意義的部分，從而實現更有效的特征融合。

對于深度特征 Fd? 和分割特征 Fs?，SGFM通過通道注意力模塊和空間注意力模塊

分別提取通道和空間信息，然后通過對稱乘法相互作用實現特征的融合。這一過程可以表示為：

其中，? 表示逐元素相乘，Fd′′? 是融合后的深度特征。分割特征的處理方式類似。

迭代優化策略

為了進一步提高預測的準確性和細節，提出了一種迭代優化策略。

該策略通過多次迭代逐步細化初始預測結果，從粗到細地優化深度和分割特征。

初始特征：以多尺度融合結果作為初始特征。
共享權重解碼器：通過同一個解碼器反復更新特征，避免了為每次迭代單獨設計解碼器的復雜性。
門控單元：每次迭代的結果通過輕量級門控單元傳遞到下一次迭代，門控單元包含卷積操作和ReLU函數，用于控制信息的流動和更新。
多尺度監督：為了使模型逐漸學習更多關于透明物體的細節，對每次迭代應用從弱到強的多尺度監督。監督的強度由迭代次數決定，隨著迭代次數的增加，監督的強度逐漸增強。

具體來說，迭代過程可以表示為：

其中，Fn?1? 和 Fn? 分別是第 n?1 次和第 n 次迭代的所有多尺度深度和分割特征，Fe? 是來自重組模塊的特征，fd? 是由共享解碼器表示的函數。

五、實驗與測試

實現細節：模型在PyTorch中實現，使用RTX 4090 GPU進行訓練，批次大小為4，訓練20個epoch。優化器采用Adam，學習率為1e-5。輸入圖像分辨率調整為384×384，未使用隨機翻轉或旋轉等圖像增強策略。
數據集：實驗在合成數據集Syn-TODD和真實世界數據集ClearPose上進行。Syn-TODD包含超過113k張圖像對，支持單目、立體和多視角方法。ClearPose包含超過350k張RGB-深度幀，包含極端場景如嚴重遮擋和非平面配置。
基線方法：與兩種針對透明物體的立體和多視角方法（SimNet和MVTrans）以及兩種通用多任務密集預測方法（InvPT和TaskPrompter）進行對比。
評價指標：深度估計采用均方根誤差（RMSE）、絕對相對差異（REL）和平均絕對誤差（MAE）作為標準指標。語義分割采用交并比（IoU）和平均精度（mAP）作為評價指標。

在Syn-TODD數據集上，深度估計和語義分割任務上對比：