論文筆記（八十六）V-HOP: Visuo-Haptic 6D Object Pose Tracking

V-HOP: Visuo-Haptic 6D Object Pose Tracking

文章概括
摘要
1. 引言
2.背景
- A. 問題定義
- B. 觸覺表示
- - 基于單元陣列的傳感器
  - 基于視覺的傳感器
3. 方法學
- A. 手爪表示
- B. 物體表示
- C. 網絡設計
- D. 訓練范式
IV. 實驗
- A. 多形態數據集
- B. 位姿跟蹤比較
- C. 模態消融
- D. 融合策略消融
- E. 遮擋對性能的影響
- F. 在 FeelSight 上的位姿跟蹤
V. 仿真到現實遷移實驗
- A. 位姿跟蹤實驗
- B. 雙臂移交實驗
- C. 杯中插罐實驗
- D. 各模態貢獻
VI. 相關工作
VII. 局限性
VIII. 結論
致謝

文章概括

引用：

@article{li2025v,title={V-HOP: Visuo-Haptic 6D Object Pose Tracking},author={Li, Hongyu and Jia, Mingxi and Akbulut, Tuluhan and Xiang, Yu and Konidaris, George and Sridhar, Srinath},journal={arXiv preprint arXiv:2502.17434},year={2025}
}

Li, H., Jia, M., Akbulut, T., Xiang, Y., Konidaris, G. and Sridhar, S., 2025. V-HOP: Visuo-Haptic 6D Object Pose Tracking. arXiv preprint arXiv:2502.17434.

主頁：
原文： https://arxiv.org/abs/2502.17434
代碼、數據和視頻： https://ivl.cs.brown.edu/research/v-hop

系列文章：
請在 $《$ 文章 $》$ 專欄中查找

宇宙聲明！

引用解析部分屬于自我理解補充，如有錯誤可以評論討論然后改正！

摘要

人類在操作過程中自然而然地融合視覺和觸覺，以實現對物體的魯棒感知。任一感知模態的缺失都會顯著降低性能。受這種多感官融合的啟發，先前的物體位姿估計研究嘗試將視覺與觸覺/觸感反饋結合。盡管這些方法在受控環境或合成數據集上取得了性能提升，但在真實世界場景中，往往因手爪類型、傳感器布局或仿真到現實差異的泛化能力不足，而不如僅視覺的方法表現優異。此外，它們通常對每一幀獨立估計物體位姿，導致在真實序列跟蹤時連貫性較差。

為了解決這些局限，我們提出了一種新穎的統一觸覺表示，該表示能夠有效處理多種手爪形態。在此基礎上，我們引入了一種基于可視-觸覺 Transformer 的物體位姿跟蹤器，能夠無縫融合視覺和觸覺輸入。我們在自有數據集和 Feelsight 數據集上驗證了該框架，在具有挑戰性的序列上取得了顯著的性能提升。值得注意的是，我們的方法在新的手爪形態、物體和傳感器類型（包括基于單元陣列的觸覺傳感器和基于視覺的觸覺傳感器）上均表現出優異的泛化性和魯棒性。在真實世界實驗中，我們的方法較最先進的視覺跟蹤器大幅領先。此外，我們還展示了如何將我們的實時物體跟蹤結果整合到運動規劃中，以實現精確的操作任務，進一步凸顯了可視-觸覺感知的優勢。項目網站：https://ivl.cs.brown.edu/research/v-hop。

1. 引言

精確跟蹤物體位姿是機器人操控的核心能力，將使基于高效模仿學習或強化學習的接觸豐富和靈巧操作成為可能 [68,31,23]。最近的最先進物體位姿估計方法，如 FoundationPose [70]，通過利用大規模數據集顯著推進了視覺跟蹤。但僅依賴視覺信息感知物體在接觸豐富或手中操作場景中，尤其是在存在嚴重遮擋和快速動態變化時，仍然具有挑戰性。

認知科學研究表明，人類在操作過程中自然而然地融合視覺和觸覺信息，以實現對物體的魯棒感知 [46,12,28]。例如，Gordon 等人 [15] 證明了人類使用視覺來假設物體屬性，再利用觸覺來優化精確抓取。人類的“觸覺”由兩種不同的感受組成 [42,6]：皮膚感受（cutaneous sense），用于檢測皮膚表面的刺激；以及本體感受（kinesthesis），提供靜態和動態的身體姿態信息。這種融合被稱為觸覺感知，使人類能夠有效地感知和操控物體 [28]。在機器人領域，類似能力通過觸覺傳感器（皮膚感受）和關節傳感器（本體感受）來實現 [46]。

受人類觸覺感知能力的啟發，研究者幾十年來一直探索視覺與觸覺在機器人中的集成。早在 1988 年，Allen [1] 就提出了結合這兩種模態的物體識別系統。最近，數據驅動方法出現，用于利用視觸信息進行物體位姿估計 [32,54,8,61,50,59,14,33]。盡管這些方法前景可觀，但它們面臨兩大障礙，限制了更廣泛的應用：

跨手爪適配性： 大多數方法過擬合于特定的手爪或觸覺傳感器布局，降低了適應性。
域泛化能力： 與僅視覺基線相比，視觸方法在泛化方面表現不佳，受到數據多樣性不足和模型可擴展性差的限制。

此外，它們通常對每一幀獨立處理，這會導致在現實序列跟蹤中位姿連貫性較差。因此，現有方法難以廣泛部署，往往需要針對特定機器人平臺進行大量定制。

為了解決這些挑戰，我們提出了 V-HOP（圖1）：一種可泛化的可視-觸覺 6D 物體位姿跟蹤的雙重解決方案。

在這里插入圖片描述圖1：用于6D物體位姿跟蹤的可視-觸覺感知。我們融合自我中心視覺和觸覺感知，實現精確的實時手內物體跟蹤。

首先，我們引入了一種新穎的統一觸覺表示，以促進跨手爪形態的學習。我們將觸覺和本體感受以點云的形式結合，解決了可視-觸覺學習中一個關鍵但常被忽視的方面。其次，我們提出了一種基于 Transformer 的物體位姿跟蹤器，用于融合視覺和觸覺特征。我們利用視覺基礎模型捕捉到的魯棒視覺先驗，同時引入觸覺信息。V-HOP 能夠適應多種手爪形態和不同物體，并能夠泛化到新的手爪形態和物體。

我們使用 NVIDIA Isaac Sim 仿真器構建了一個包含八種手爪形態的多形態數據集，用于訓練和評估。在我們的數據集中，與 FoundationPose [70] 相比，我們的方法在 ADD-S [72] 指標上實現了 5% 的位姿估計精度提升。這些結果突顯了融合視覺與觸覺傳感的優勢。

在 FeelSight 數據集 [54] 上，我們以 NeuralFeels [54]（一種基于優化的可視-觸覺物體位姿跟蹤器）為基準測試，ADD-S 指標提升了 32%，運行速度提升了十倍。最后，我們使用 Barrett Hands 進行了仿真到現實的遷移實驗。我們的方法表現出卓越的魯棒性，并顯著優于 FoundationPose，后者在一些情況下會完全丟失物體跟蹤（圖5）。將我們的位姿跟蹤結果集成到運動規劃中后，我們的方法實現了平均成功率提高 40%。據我們所知，V-HOP 是首個在基于單元陣列的觸覺傳感器（如 Barrett Hand）和基于視覺的觸覺傳感器（如 DIGIT 傳感器），以及在新的手爪形態和物體上均展示出魯棒泛化能力的數據驅動可視-觸覺方法。

總之，本文的貢獻有兩方面：

統一的觸覺表示：我們引入了一種新穎的觸覺表示，支持跨手爪形態學習，通過提升對不同手爪形態和物體的適應性來應對跨形態挑戰。
可視-觸覺 Transformer：我們提出了一種融合視覺與觸覺數據的 Transformer 模型，提升了位姿跟蹤的一致性，并解決了領域泛化的難題。

2.背景

在本節中，我們首先給出問題的正式定義，然后回顧現有觸覺表示及我們提出的統一表示。

A. 問題定義

我們研究基于模型的可視-觸覺 6D 物體位姿跟蹤問題，假設可獲取：

視覺觀測：環境中由 RGB-D 傳感器觀測到的物體。
觸覺反饋：由安裝有觸覺傳感器的剛性機械手操控的物體。

我們的方法以以下內容作為輸入：

1. 物體的 CAD 模型 $\mathcal{M}_o$ 。
1. 一系列 RGB-D 圖像 $\mathcal{O}=\{\mathrm{O}_i\}_{i=1}^t$ ，其中每個觀測 $\mathrm{O}_i=[\mathrm{I}_i,\mathrm{D}_i]$ 包含 RGB 圖像 $\mathrm{I}_i$ 和深度圖 $\mathrm{D}_i$ 。
1. 初始 6D 位姿 $\mathrm{T}_0=(\mathrm{R}_0,\mathrm{t}_0)\in \mathrm{SE}(3)$ ，其中 $\mathrm{R}_0\in \mathrm{SO}(3)$ 表示三維旋轉， $\mathrm{t}_0\in\mathbb R^3$ 表示三維平移。

在實踐中，真實初始位姿 $\mathrm{T}_0$ 難以獲取，只能通過位姿估計方法 [72,62,48,36,63,30,70,27,18,40,37,57,67] 來估計。因此，以下我們將估計值 $\hat{\mathrm{T}}_0$ 視為 $\mathrm{T}_0$ 。在每個時間步 $i$ ，模型根據所有輸入估計物體位姿 $\hat{\mathrm{T}}_i$ ，其中初始位姿取前一時間步的估計 $\hat{\mathrm{T}}_{i-1}$ 。

以上輸入為基于模型的視覺位姿跟蹤問題中的標準輸入 [66,7]，下面的輸入將用于我們的觸覺表示，并將在后續章節中詳細說明。

1. 機械手在統一機器人描述格式（URDF）中的描述。
1. 機械手關節位置 $j=\{j_1,j_2,\dots,j_{DoF}\}$ 。
1. 觸覺傳感器數據 $\mathcal{S}$ ，包括觸覺傳感器的位置 $\mathcal{S}_p$ 和讀數 $\mathcal{S}_r$ ，將在下一節中正式定義。
1. 通過手眼標定 [44] 獲得的相機與機器人坐標系之間的變換。

B. 觸覺表示

觸覺學習的有效性取決于其表示方式。以原始數值 [38]、圖像 [16] 或基于圖的 [75,33,50] 表示為特征的先前方法，常常難以在多種手爪形態上實現泛化。例如，Wu 等 [71] 和 Guzey 等 [16] 將 Xela 傳感器的觸覺信號投影為二維圖像形式。這雖然能利用現有視覺模型高效處理，但要擴展到不同手爪或傳感器布局卻十分困難。同樣地，Li 等 [33] 和 Rezazadeh 等 [50] 采用基于圖的映射，將單元視為圖頂點。然而，傳感器布局的差異導致圖的分布不同，從而產生顯著的泛化差距。

與此相反，我們采用點云表示，該表示天然編碼了三維位置，并且能夠靈活適應多種手爪形態。我們將觸覺傳感器大致分為基于單元陣列（taxel-based）和基于視覺（vision-based）兩類。有關觸覺傳感器的更全面綜述，請參見 [74]。下面，我們概述了先前工作 [8,54,64,13] 中如何將它們轉換為點云，為我們的統一框架鋪路。

基于單元陣列的傳感器

觸覺數據定義為
$\mathcal{S}=\{s_i\}_{i=1}^{n_t}$
，包含 $n_t$ 個單元， $s_i$ 表示單個單元。觸覺數據由 $\mathcal{S}=(\mathcal{S}_p,\mathcal{S}_r)$ 構成：

位置 ( $\mathcal{S}_p$ )：在機械手坐標系中定義，并通過正向運動學轉換到相機坐標系。
讀數 ( $\mathcal{S}_r$ )：捕捉接觸值。通常根據閾值 $\tau$ 將讀數二值化為接觸或非接觸狀態 [78,73,32,8,34]。

與機械手接觸的單元集合：
$\mathcal{S}_c=\{s_i\in \mathcal{S}\mid \mathcal{S}_r(s_i)>\tau\},$
對應的觸覺點云 $\mathcal{S}_{p,c}$ 定義為：
$\mathcal{S}_{p,c}=\{\mathcal{S}_p(s_i)\mid s_i\in \mathcal{S}_c\}.$

基于視覺的傳感器

對于基于視覺的觸覺傳感器 [29,79,10,56]，觸覺數據包括 $\mathcal{S}=(\mathcal{S}_p,\mathcal{S}_I)$ ：

位置 ( $\mathcal{S}_p$ )：在相機坐標系中的傳感器位置，與基于單元陣列的情況類似。
圖像 ( $\mathcal{S}_I$ )：使用常規 RGB 圖像表示捕捉接觸狀態。利用觸覺深度估計模型 [3,54,26,53,52,2]，我們可以將 $\mathcal{S}_I$ 轉換為觸覺點云 $\mathcal{S}_{p,c}$ 。

先前工作 [8,54,64,13] 雖然也采用點云表示進行觸覺學習，但它們只關注單一類型傳感器，忽略了機械手姿態。我們的關鍵貢獻是提出一個跨基于單元陣列和基于視覺傳感器、覆蓋多種手爪形態的統一表示，并借助我們的多形態數據集來賦能這一表示。我們在真實世界實驗中演示了該表示在 Barrett 手（基于單元陣列）上的泛化能力，并在 Feelsight 數據集 [54] 上演示了在 Allegro 手（基于視覺的 DIGIT 傳感器）上的泛化能力。我們新穎的觸覺表示無縫整合了觸覺信號與機械手姿態，使機械手與物體的交互推理更加有效。在后續章節中，我們將描述方法并提供實驗證據，證明我們的表示能夠提升泛化能力，彌合異構觸覺傳感模態之間的差距。

3. 方法學

我們提出 V-HOP，一種數據驅動方法，用于融合視覺和觸覺模態，實現精確的 6D 物體位姿跟蹤。我們的目標是構建一個可泛化的可視-觸覺位姿跟蹤器，以適應多種手爪形態和物體。我們首先概述觸覺模態中使用的核心表示：手爪表示和物體表示。我們對表示的選擇遵循渲染-比較范式 [35] 的思路。隨后，我們介紹可視-觸覺模型及其訓練方式。

A. 手爪表示

觸覺信號僅代表皮膚感受，而觸覺感知結合了觸覺和本體感受，以提供更全面的空間接觸與操控信息。我們提出了一種新穎的觸覺表示，將觸覺信號和手爪姿態集成為統一的點云表示。該以手爪為中心的表示能夠高效地推理空間接觸和手爪–物體交互。

通過 URDF 定義和關節位置 $\text{j}$ ，我們利用正向運動學生成手爪網格 $\mathcal{M}_h$ 并計算其表面法線。

想象一下，你有一個機器人的 3D 模型文件（比如 OBJ 文件），它描述了機器人在“標準姿態”（比如所有關節都伸直）時的樣子。這個模型是靜止的。現在，機器人手爪動起來了，它的關節會彎曲、伸展。“當前手爪姿態”就是指手爪所有關節（比如手指關節、腕部關節）在某一瞬間的具體角度或位置。

“當前手爪姿態對應的三維網格模型 $\mathcal{M}_h$ ? ” 的意思就是：當機器人手爪的關節處于某個特定的配置（即當前的關節角度 j）時，通過正向運動學（Forward Kinematics），我們可以計算出手爪上所有部分（比如手掌、每個手指、每個指節）在三維空間中的精確位置和方向。然后，我們用這些計算出的位置和方向，“組裝”出整個手爪在當前姿態下的完整 3D 幾何模型。這個模型就是實時“擺出”當前姿勢的機器人手爪的三維形狀。

它是什么樣子的？

它就是一個和你看上去的 3D 機器人手爪一模一樣的模型，但它的姿態（手指彎曲、手腕傾斜等）是根據當前的關節角度實時變化的。你可以把它看作：像一個 3D 打印模型：但這個模型是虛擬的，而且可以瞬間改變姿勢。像游戲里的 3D 角色模型：當角色揮拳、踢腿時，它的 3D 模型會根據骨骼關節的運動而變化形狀，這里的機器人手爪模型也是類似。
與 OBJ 文件的關系：

手爪的原始幾何形狀（比如指節的圓柱體、手掌的方塊等）可能確實存儲在 OBJ 文件中。但 OBJ 文件只描述了部件本身的形狀。 $\mathcal{M}_h$ 是將這些部件根據關節角度“拼裝”起來，得到的一個完整的、當前姿態下的、統一的 3D 網格模型

下采樣（Downsampling）就是減少數據點的數量，同時盡量保留數據的主要特征。對于三維網格，這意味著減少構成網格的頂點（vertices）和面（faces）的數量。

然后對網格進行下采樣，以生成 9 維手爪點云（ $\mathcal{P}_h$ 整體代表手爪的形狀）
$\mathcal{P}_h=\{\text{p}_i\}_{i=1}^{n_h},\quad \text{p}_i=(x_i,y_i,z_i,n_{ix},n_{iy},n_{iz},\text{c})\in\mathbb R^9, \tag{3}$
其中 $x_i,y_i,z_i$ 表示點的三維坐標， $n_{ix},n_{iy},n_{iz}$ 表示三維法向量， $c\in\mathbb R^3$ 是一個獨熱編碼的點標簽：

$[1, 0, 0]$ ：接觸中的手爪點；
$[0, 1, 0]$ ：未接觸的手爪點；
$[0, 0, 1]$ ：物體點（用于后續與物體點云的融合）。

為了獲得每個點的接觸狀態，我們將表示觸覺傳感器檢測到的接觸點的觸覺點云 $\mathcal{S}_{p,c}$ （見第 II-B 節）映射到下采樣的手爪點云 $\mathcal{P}_h$ 。具體地，對于 $\mathcal{S}_{p,c}$ 中的每個點，我們尋找其在半徑 $r$ 范圍內的 $\mathcal{P}_h$ 鄰域點。這些鄰域點被標記為“接觸中”，其余點標記為“未接觸”。半徑 $r$ 在訓練過程中隨機選擇，而在機器人部署時根據每個單元的實際有效半徑確定。最終得到的觸覺點云 $\mathcal{P}_h$ 作為觸覺和本體感受數據的統一表示（圖 2）。

在這里插入圖片描述圖2：V-HOP 的網絡設計。視覺模態基于 FoundationPose [70]，使用視覺編碼器將 RGB-D 觀測（真實與渲染）轉換為特征圖，然后通過一個 ResBlock 進行拼接和精煉，以生成視覺嵌入 [11]。觸覺模態將統一的手爪–物體點云（由 9 維手爪點云 $\mathcal{P}_h$ 和物體點云 $\mathcal{P}_o$ 導出）編碼為觸覺嵌入，以捕捉手爪與物體的交互。圖中紅點表示激活的觸覺傳感器。這些視覺和觸覺嵌入由 Transformer 編碼器處理，用于估計三維平移和旋轉。

B. 物體表示

我們將物體模型點云表示為
$\mathcal{P}_Φ=\{\text{q}_i\}_{i=1}^{n_o}.$
與手爪點云類似， $\text{q}_i$ 也遵循相同的 9 維定義（式(3)）：
$\text{q}_i=(x_i,y_i,z_i,n_{ix},n_{iy},n_{iz},\text{c})\in\mathbb R^9,$
其中對于所有物體點， $\text{c}=[0,0,1]$ 。在每個時間步 $i > 0$ ，我們根據上一步的位姿 $\text{T}_{i-1}$ 將模型點云轉換為假設點云
$\mathcal{P}_o=\{\text{q}'_i\}_{i=1}^{n_o},$
對于假設點云中的每個點 $\text{q}'_i$
$\text{q}'_i=(x'_i,y'_i,z'_i,n'_{ix},n'_{iy},n'_{iz},\text{c}), \tag{4}$
其空間坐標和法向量變換為：
$\begin{bmatrix} x'_i\\ y'_i\\ z'_i \end{bmatrix} =\text{R}_{i-1} \begin{bmatrix} x_i\\ y_i\\ z_i \end{bmatrix} +\text{t}_{i-1}, \quad \begin{bmatrix} n'_{ix}\\ n'_{iy}\\ n'_{iz} \end{bmatrix} = \text{R}_{i-1} \begin{bmatrix} n_{ix}\\ n_{iy}\\ n_{iz} \end{bmatrix}. \tag{5}$

系統會取物體的“理想”模型點云 ( $\mathcal{P}_Φ$ )，并應用這個估計的位姿 $T_{i?1}$ ，將其從物體自身坐標系轉換到相機坐標系（或世界坐標系，如果相機坐標系就是世界坐標系）。轉換后的點云就是 $\mathcal{P}_o$ ? 。因此， $\mathcal{P}_o$ 代表了：如果物體處于 $T_{i?1}$ 這個位姿，那么它在相機視野中看起來會是怎樣的點云。

為了能夠推理手爪–物體的交互，我們將手爪點云 $\mathcal{P}_h$ 與假設物體點云 $\mathcal{P}_o$ 融合，創建手爪–物體點云
$\mathcal{P}=\mathcal{P}_h\cup \mathcal{P}_o.\tag{6}$

這一新穎的統一表示遵循視覺方法中的“渲染-比較”范式 [35,66,27,70,58]：渲染圖像（基于位姿假設）與視覺觀測進行對比。假設物體點云 $\mathcal{P}_o$ 相當于“渲染”的位姿假設（見圖2），而手爪點云 $\mathcal{P}_h$ 則代表使用觸覺反饋得到的真實觀測。通過利用這一表示，模型能夠學習在觸覺反饋指導下的可行物體位姿，從而捕捉手爪與物體之間豐富的接觸交互。

C. 網絡設計

視覺模態。 與以往從頭訓練整套可視-觸覺網絡的方法不同，我們的方法能夠有效利用預訓練的視覺基礎模型。我們的設計擴展了 FoundationPose [70] 的框架，因為該模型在未見過的物體上具有出色的泛化能力，并且仿真到現實的差距很小。為了利用其捕捉到的高質量視覺先驗，我們使用其視覺編碼器 $f_v$ 并在訓練過程中將其參數凍結。利用該編碼器，我們將 RGB-D 觀測 $O$ 轉換為視覺嵌入 $\text{Z}_v=f_v(\text{O})$ 。

觸覺模態。 與此同時，我們使用觸覺編碼器 $f_h$ 對手爪–物體點云 $\mathcal{P}$ 進行編碼，得到觸覺嵌入 $\text{Z}_h=f_h(\mathcal{P})$ 。通過在點云空間中表示所有交互，我們的新型觸覺表示提供了使用任何基于點云的網絡進行編碼的靈活性。為此，我們選擇 PointNet++ [49] 作為觸覺編碼器 $f_h$ 。為了提高學習效率，我們使用手爪點的質心對點云進行規范化，確保在處理過程中 $\mathcal{P}$ 空間上圍繞手爪中心。

可視-觸覺融合。 然而，融合視覺和觸覺模態存在重大挑戰。現有方法常常采用固定或偏置的權重來平衡這兩種模態 [32,54,8,59]，但在特定情況下可能失效。例如，當沒有接觸時，應僅依賴視覺模態；當遮擋嚴重時，應更多依賴觸覺。受人類多感官“最優整合”原則的啟發 [12,19,28,55,20]，即大腦會動態調整視覺和觸覺輸入的權重以最大化感知可靠性，我們采用自注意力機制 [60] 來自適應地融合視覺和觸覺嵌入。這確保了在無論物體處于接觸狀態還是清晰可見時模型的魯棒性。

為實現這種融合，我們提出了“觸覺指令微調”方法，靈感來自視覺指令微調 [39]。在保持視覺編碼器 $f_v$ 凍結的同時，我們將視覺嵌入 $\text{Z}_v$ 和觸覺嵌入 $\text{Z}_h$ 一同輸入到原有的僅視覺 Transformer 編碼器 [60,70] 中，這些編碼器以 FoundationPose 的預訓練權重初始化。然后，我們對 Transformer 編碼器和觸覺編碼器 $f_h$ 進行聯合微調。通過這種方式，視覺和觸覺信息在自注意力模塊中被自適應地融合，模型能夠根據上下文動態調整各模態的權重（見圖9）。

遵循 FoundationPose，我們將 6D 位姿拆分為 3D 平移和 3D 旋轉，并分別通過兩個輸出頭來估計它們（見圖2）。

D. 訓練范式

我們通過向真實位姿 $\text{T}=(\text{R},\text{t})$ 添加噪聲 $(\text{R}_\epsilon,\text{t}_\epsilon)$ 來生成假設位姿 $\tilde{\text{T}}=(\tilde{\text{R}},\tilde{\text{t}})$ ：
$\tilde{\text{R}}=\text{R}_\epsilon^{-1}\cdot \text{R},\quad \tilde{\text{t}}=-\text{t}_\epsilon+\text{t}. \tag{7}$
渲染圖像使用 $\tilde{\text{T}}$ 生成，而物體點云也根據 $\tilde{\text{T}}$ 進行變換；相比之下，RGB-D 圖像和機械手點云表示真實觀測。模型估計假設位姿與觀測之間的相對位姿 $\Delta \hat{\text{T}}=(\Delta \hat{\text{R}},\Delta \hat{\text{t}})$ 。模型通過以下 $L_2$ 損失進行優化：
$\mathcal{L}_\text{T}=\|\Delta \hat{\text{R}} - \text{R}_\epsilon\|_2 + \|\Delta \hat{\text{t}} - \text{t}_\epsilon\|_2, \tag{8}$
其中旋轉使用四元數表示。估計得到的位姿 $\hat{\text{T}}=(\hat{\text{R}}, \hat{\text{t}})$ 為：
$\hat{\text{R}} =\Delta \hat{\text{R}} \cdot \tilde{\text{R}},\quad \hat{\text{t}}=\Delta \hat{\text{t}} +\tilde{\text{t}} \tag{9}$

制造誤差：首先，人為地給一個真實位姿引入一個已知的“誤差”或“噪聲”，得到一個“不那么準確”的假設位姿。
生成假設觀測：根據這個假設位姿，生成模型所期望的物體點云和渲染圖像（即“渲染”）。
比較與學習：模型接收假設觀測、真實的傳感器觀測（手爪點云、RGB-D 圖像），然后學習如何估計從假設姿態到真實姿態的“校正量”（即 $\Delta \hat{\text{T}}$ ）。
優化：通過最小化 $\Delta \hat{\text{T}}$ 和最初添加的噪聲之間的差異，模型學會了如何從一個不準確的假設姿態出發，逐步逼近物體的真實姿態。

我們進一步引入吸引損失 $\mathcal{L}_a$ 和穿透損失 $\mathcal{L}_p$ ，以鼓勵物體與觸覺點云 $\mathcal{S}_{p,c}$ 接觸并避免穿透機械手點云 $\mathcal{P}_h$ 。

觸覺傳感器實際檢測到接觸的地方，物體真的在那里。 (吸引損失)
物體不會不合理地穿透機械手。 (穿透損失）

首先，使用估計的位姿將初始假設物體點云 $\mathcal{P}_o$ 變換為
$\hat{\mathcal{P}}_o = \hat{\text{T}}\,\tilde{\text{T}}^{-1}\,\mathcal{P}_o,$
其中 $\mathcal{P}_o$ 以齊次坐標形式表示。

吸引損失強制每個激活的單元必須與物體接觸：
$\mathcal{L}_a = \frac{1}{|\mathcal{S}_{p,c}|} \sum_{\mathcal{s}_{p,c}\in \mathcal{S}_{p,c}} \min_{p\in \hat{\mathcal{P}}_o}\|\mathcal{s}_{p,c} - p\|^2, \tag{10}$
該項可視為觸覺點云與物體點云之間的單向 Chamfer 距離。

1. 目的：這個損失的目的是強制每個被觸覺傳感器激活的單元（即 $\mathcal{S}_{p,c}$ 中的點）必須與物體模型點云（ $\hat{\mathcal{P}}_o$ ）發生接觸。換句話說，如果傳感器說“這里碰到了”，那么模型預測的物體就必須真的在那個地方。
2. $\mathcal{S}_{p,c}$ ：這是真實觸覺點云，包含了所有被機械手觸覺傳感器檢測到有接觸的點的三維位置。
3. 求和符號 ( $\sum_{\mathcal{s}_{p,c}\in \mathcal{S}_{p,c}}$ )：這表示對 $\mathcal{S}_{p,c}$ 集合中的每一個觸覺接觸點 $\mathcal{s}_{p,c}$ 都進行計算。
4. $\min_{p\in \hat{\mathcal{P}}_o}\|\mathcal{s}_{p,c} - p\|^2$ ：

對于 $\mathcal{S}_{p,c}$ 中的每一個點 $\mathcal{s}_{p,c}$ ，它都會在模型預測的物體點云 $\hat{\mathcal{P}}_o$ 中尋找距離它最近的點 $p$ 。
$\|\mathcal{s}_{p,c} - p\|^2$ ：計算這兩個點之間的歐幾里得距離的平方。
含義：這一項確保每個真實觸覺接觸點 $\mathcal{s}_{p,c}$ 必須非常靠近模型預測的物體表面上的某個點。

5. $\frac{1}{|\mathcal{S}_{p,c}|}$ ：這是對損失進行歸一化，除以觸覺接觸點的總數。這確保了損失值不會因為觸覺接觸點的數量變化而劇烈波動，使得不同樣本的損失具有可比性。
6. 總結： $\mathcal{L}_a$ 是所有真實觸覺接觸點到模型預測的物體點云之間最短距離平方的平均值。當這個損失很小時，就意味著模型預測的物體姿態使得物體的表面與真實觸覺傳感器檢測到的接觸點非常吻合。
?

1. Chamfer 距離是一種衡量兩個點云之間相似性的指標。它通常是雙向的：計算點云 A 中每個點到點云 B 的最近距離之和，再加上點云 B 中每個點到點云 A 的最近距離之和。
2. 單向 Chamfer 距離：這里 $\mathcal{L}_a$ 僅僅計算了觸覺點云 $\mathcal{S}_{p,c}$ 中的每個點到物體點云 $\hat{\mathcal{P}}_o$ 的最近距離。它沒有反過來計算 $\hat{\mathcal{P}}_o$ 中的點到 $\mathcal{S}_{p,c}$ 的最近距離。
3. 含義：這種單向性強調的是覆蓋性：確保所有被激活的觸覺傳感器都“碰到了”物體模型。它不強制物體模型上的所有點都必須有對應的觸覺接觸（這在真實世界中也是不現實的，因為傳感器只覆蓋手爪表面的一小部分）。

吸引損失的目的和意義
吸引損失確保了模型的姿態估計與實際的物理接觸信息保持一致。如果模型預測的物體位姿與觸覺反饋不符（比如物體移開了，但傳感器顯示仍在接觸），這個損失就會很大，從而“吸引”模型調整其估計的物體姿態，使其與觸覺反饋對齊。這對于提高物體位姿跟蹤的精度和魯棒性至關重要，特別是在物體與機械手發生接觸時。

穿透損失用于避免物體與機械手之間的穿透 [76,77,4]：
$\text{p}_o = \arg\min_{\text{q}\in \hat{\mathcal{P}}_o}\|\text{q} - \text{p}_h\|_2,\quad \\ \mathcal{L}_p = \sum_{\text{p}_h\in \mathcal{P}_h}\exp\bigl(\max\{0,-\text{n}_o\cdot(\text{p}_h-\text{p}_o)\}\bigr) - 1, \tag{11}$
其中 $\text{p}_o$ 表示機械手點云 $\mathcal{P}_h$ 中點 $\text{p}_h$ 的最近鄰。

穿透損失的目的很直接： 防止模型估計出的物體姿態導致物體與機械手模型發生不合理的重疊或穿透。

1. 找到最近的物體點 ( $\text{p}_o$ )
$\text{p}_o = \arg\min_{\text{q}\in \hat{\mathcal{P}}_o}|\text{q} - \text{p}_h|_2$

對于機械手點云 ( $\mathcal{P}_h$ ) 中的每一個點 $\text{p}_h$ （這些點代表機械手幾何體的真實觀測），我們會在模型估計的物體點云 ( $\hat{\mathcal{P}_o}$ ? ) 中，找到離 $\text{p}_h$ 最近的那個點 $\text{q}$ 。這個最近點就是 $\text{p}_o$ 。
作用：這一步是為后續計算準備的，它找到了機械手表面上每個點對應的物體表面上最近點。

2. 計算穿透懲罰
$\mathcal{L}_p = \sum_{\text{p}_h\in \mathcal{P}_h}\exp\bigl(\max\{0,-\text{n}_o\cdot(\text{p}_h-\text{p}_o)\}\bigr) - 1$

遍歷所有機械手點：這個求和符號 $\sum_{\text{p}_h\in \mathcal{P}_h}$ 表示對機械手點云中的所有點 $\text{p}_h$ 都進行一次計算。
$\text{n}_o$ ：這是物體在 $\text{p}_o$ 點處的表面法向量。它指明了物體表面在該點“朝向哪個方向”。
$\text{p}_h-\text{p}_o$ : 這是一個從物體點 $\text{p}_o$ 指向機械手點 $\text{p}_h$ 的向量。
點積 $-\text{n}_o\cdot(\text{p}_h-\text{p}_o)$ :
這個點積項是核心。它衡量了從物體到手爪的向量與物體法向量方向的反向一致程度。
如果機械手點 $\text{p}_h$ 穿透到物體內部：那么向量 ( $\text{p}_h-\text{p}_o$ ) 通常會指向物體內部。如果 $\text{n}_o$ 指向外部（物體表面通常向外），那么 $\text{n}_o\cdot(\text{p}_h-\text{p}_o)$ 會是負值。前面的負號會使整個項變為正值。正值表示有穿透。
如果機械手點 $\text{p}_h$ 在物體外部：那么向量 ( $\text{p}_h-\text{p}_o$ ) 通常指向外部，點積 $\text{n}_o\cdot(\text{p}_h-\text{p}_o)$ 為正，前面負號使整個項變為負值。負值表示沒有穿透。

$\max\{0, \text{value}\}$ ：這個函數確保只有當點積項為正（即有穿透跡象）時才會有懲罰，否則為 0。這意味著只懲罰穿透，不懲罰分離。
$\exp(\text{value}) - 1$ ：使用指數函數是為了讓懲罰隨著穿透深度的增加而快速增長。即使是很小的穿透，懲罰也會迅速變大，迫使模型避免穿透。 $? 1$ 是為了在沒有穿透時 (value=0)，損失項也為 0 (exp(0)-1 = 0)。

我們的總體損失為：
$\mathcal{L} = \mathcal{L}_\text{T} + \alpha\,\mathcal{L}_a + \beta\,\mathcal{L}_p, \tag{12}$
我們經驗性地設置 $\alpha=1$ 、 $\beta=0.001$ 。模型使用初始學習率為 0.0004 的 AdamW [43] 優化器訓練 20 個 epoch。

總體損失 ( $\mathcal{L}$ ) $\mathcal{L} = \mathcal{L}_\text{T} + \alpha\,\mathcal{L}_a + \beta\,\mathcal{L}_p,$

這是 V-HOP 模型在訓練時試圖最小化的總損失函數。它是三個獨立損失分量的加權和。

$\mathcal{L}_\text{T}$ ? (變換損失)：
主要目的：這是最主要的損失，它驅動模型去預測正確的物體位姿變換。
測量：模型預測的相對位姿與最初添加到真實位姿上的噪聲之間的差異。

$\mathcal{L}_a$ (吸引損失)：
主要目的：確保模型估計出的物體姿態與實際的觸覺接觸信息吻合。
測量：所有被觸覺傳感器激活的真實接觸點，到模型估計的物體表面上的最近距離。它將物體模型“吸引”到檢測到的接觸點。

$\mathcal{L}_p$ (穿透損失)：
主要目的：防止模型估計出的物體姿態導致物體與機械手模型之間發生不合理的物理重疊。
測量：機械手點云中所有點與模型估計物體表面之間，指示穿透程度的特定距離。它將物體模型“推開”機械手。

$α$ 和 $β$ (權重)：
它們是超參數，用來控制吸引損失和穿透損失在總損失中的相對重要性。
$α = 1$ ：表示吸引損失與主變換損失具有相同的權重。
$β = 0.001$ ：表示穿透損失的權重非常小。這很常見，因為穿透損失通常比較敏感，過大的權重可能導致訓練不穩定，而一個小權重通常足以阻止穿透。

IV. 實驗

A. 多形態數據集

在本工作完成時，現有的可視-觸覺數據集尚未公開[8,33,61]，且大多只關注單一手爪[54]，因此其在新形態泛化能力方面仍未得到驗證。因此，我們使用 NVIDIA Isaac Sim 構建了一個多形態數據集（圖3），以支持跨形態學習和全面評估。我們的數據集包含來自八種手爪和十三種物體的約155萬張圖像，其中85%用于訓練，其余用于驗證。相機軌跡在手爪周圍的半球面上隨機采樣，半徑在0.5米到2.5米之間。我們選擇了可抓取的YCB物體[5]和先前工作中使用的手爪[9,45]。更多數據集的詳細信息可參見附錄。

在這里插入圖片描述圖3：數據集樣本可視化。（頂行）Barrett 機械手、Shadow 機械手、Allegro 機械手、SHUNK SVH。（底行）D’Claw、LEAP 機械手、Inspire 機械手、Robotiq 三指夾爪。

在本文中，我們遵循仿真到現實的范式，僅使用合成數據進行訓練。雖然增加真實世界訓練數據確實可以緩解仿真到現實的差距，但如最新研究所示[70]，利用富含域隨機化的大規模合成數據集，往往能在現實中取得優于小規模真實數據集的性能。我們的合成數據集即體現了這一原則，并支撐了我們在現實場景中的魯棒表現。收集具有同等規模和多樣性的真實數據既具有挑戰性，又耗費資源。此外，我們的統一觸覺表示利用點云保持了不同觸覺傳感器之間的表示不變性。因此，我們的仿真到現實實驗（第V節）展示了出色的性能，并無需昂貴的真實數據收集。

B. 位姿跟蹤比較

在以下實驗中，我們使用以下指標評估性能：

ADD 和 ADD-S [21,72] 下的曲線下面積（AUC）；
ADD(-S)-0.1d [18]：小于物體直徑 10% 的 ADD/ADD-S。

我們將 V-HOP 與當前最先進的視覺位姿跟蹤方法 FoundationPose [70]（簡稱 FP）和視觸覺位姿估計方法 ViTa [8] 進行對比。為了保證公平，我們對 FoundationPose 進行了微調，并在我們的多形態數據集上訓練了 ViTa。為驗證對新物體和新手爪的泛化能力，我們在訓練中剔除了一種物體（布丁盒）和一種手爪（D’Claw）。

由于尚無可視-觸覺位姿跟蹤方法，我們以實例級的 ViTa 作為對比，該方法在不同設置下單獨對每個物體訓練模型，并使用真實分割信息。相比之下，FoundationPose 和 V-HOP 都可一次性訓練，直接泛化到新物體。為公平起見，兩種方法均在每個跟蹤步運行兩次迭代：V-HOP 為一次可視-觸覺迭代加一次純視覺迭代。

在表 I 中，我們展示了按物體分類的性能對比。V-HOP 在大多數物體的 ADD 指標上以及所有物體的 ADD-S 指標上均優于 ViTa 和 FP。平均來看，相較于 FP，我們的方法在 ADD 上提升了 4%，在 ADD-S 上提升了 5%。尤其是在未見過的物體上，V-HOP 依然表現出強大的泛化能力。

在這里插入圖片描述表 I：按物體劃分的 ADD 和 ADD-S AUC 指標比較。新物體所在行為灰色。指標值越高越好，最優結果以加粗表示。

在表 II 中，我們給出了按手爪分類的性能。與物體結果一致，V-HOP 在大多數手爪的 ADD 指標以及所有手爪的 ADD-S 指標上均優于其他方法，并且在未見過的手爪上仍保持穩健表現，進一步驗證了我們統一觸覺表示的跨形態泛化能力。

在這里插入圖片描述表 II：按手爪劃分的 ADD 和 ADD-S AUC 指標比較。數據集中包含八種手爪，訓練時剔除 D’Claw 作為未見手爪。

C. 模態消融

我們對輸入模態進行了消融研究，以評估觸覺表示的有效性。具體而言，我們訓練了兩種 V-HOP 的消融版本：一種去除觸覺反饋，另一種去除視覺輸入，如表 III 所示。為排除觸覺輸入，我們移除了所有“接觸中”點標簽（式(3)）。結果表明，視覺輸入對性能有顯著貢獻，這可能歸因于視覺信息的豐富性，包括紋理和空間細節。這一發現與以往關于人類感知系統的研究一致，表明視覺在視觸整合中起主導作用[24]。同樣，觸覺反饋也至關重要；在沒有觸覺反饋的情況下，性能顯著下降，因為在交互過程中推理手爪–物體接觸變得更加困難。

在這里插入圖片描述表 III 對輸入模態進行了消融研究，結果確認了視覺與觸覺模態結合的有效性。

D. 融合策略消融

我們對不同的模態融合策略進行了消融研究：早期融合和后期融合。早期融合指在輸入或特征層面進行融合，如圖2所示；后期融合策略則在結果層面融合視覺和觸覺模態，每個模態擁有獨立分支來估計其結果[59]。如表 IV 所示，后期融合的平均 ADD 得分為 47.56，ADD-S 得分為 70.43，分別比我們的早期融合設計在 ADD 上低 30.97%、在 ADD-S 上低 18.69%。結果證明了在特征層面融合視覺和觸覺模態的必要性。

在這里插入圖片描述表 IV 對融合策略進行了消融研究，評估了早期融合與晚期融合策略的性能。

E. 遮擋對性能的影響

我們評估 V-HOP 和 FoundationPose 在不同遮擋比例下的性能（圖4）。遮擋比例定義為基于真實位姿渲染的物體圖像中，分割掩碼像素數占總像素數的比例。我們的結果表明，在不同的遮擋程度下，V-HOP 在 ADD 和 ADD-S 指標上均始終優于 FoundationPose。這些結果強調了在高遮擋場景中融合視覺與觸覺信息以提升性能的重要性。

在這里插入圖片描述圖4：在不同遮擋比例下的性能。在本實驗中，我們使用直接的 ADD 和 ADD-S 指標（單位：米）。

F. 在 FeelSight 上的位姿跟蹤

為評估 V-HOP 的泛化能力，我們使用 Feelsight 數據集中的遮擋子集（FeelSight-Occlusion）與 NeuralFeels [54] 進行對比，后者是一種基于優化的可視-觸覺位姿跟蹤方法。該子集具有顯著挑戰性——包含新的手爪形態（配備 DIGIT 指尖的 Allegro 手）、新傳感器類型（基于視覺的觸覺傳感器）和新物體（魔方）。為保證公平，我們對比的方法都使用與 V-HOP 幾乎相同的輸入，但 NeuralFeels 使用真實分割掩碼（GT Seg）。

表 V 中展示了結果。與 NeuralFeels 相比，V-HOP 在 ADD-S 指標上誤差降低了 32%，在 ADD-S-0.1d 上也取得相近成績。值得注意的是，NeuralFeels 利用真實分割掩碼來獲得更準確的物體定位，而 V-HOP 并不依賴此輸入，這進一步突顯了其魯棒性和適應性。

在計算效率方面，V-HOP 在 NVIDIA RTX 4070 GPU 上以 32 FPS 的速度運行，約為 NeuralFeels（3 FPS）速度的十倍。這一顯著的速度提升突出了 V-HOP 在真實世界操作應用中的實用價值，如后續章節所示。

在這里插入圖片描述表V：Feelsight 數據集上的性能。為與 NeuralFeels [54] 中使用的指標保持一致，本實驗報告直接的 ADD-S 指標 [72]（單位：毫米），而非其他實驗中使用的 ADD-S AUC。

V. 仿真到現實遷移實驗

為了驗證我們方法在真實環境中的有效性，我們在機器人平臺上進行了仿真到現實的遷移實驗（圖1）。我們的雙臂平臺由兩臺 Franka Research 3 機械臂[17]和 Barrett Hands BH8-282 組成。所用 Barrett Hand 具有 4 個自由度（DoF）和 96 個陣元（taxel）：每個指尖 24 個，手掌 24 個。每個陣元由電容單元構成，能夠以 0.01?N 的分辨率檢測 10?N/cm2 范圍內的力。對于第一人稱視覺輸入，我們使用 MultiSense SLB RGB-D 相機，該相機結合了 MultiSense S7 立體相機和 Hokuyo UTM-30LX-EW 激光掃描儀。我們使用 FoundationPose 提供初始幀的位姿估計，并使用 CNOS [47,25] 完成分割任務。

A. 位姿跟蹤實驗

在本實驗中（圖5），機械爪穩健地抓取物體，同時由人工操作員以隨機軌跡引導機械臂移動。此過程引入了嚴重遮擋和高速動態運動，以模擬具有挑戰性的真實操作場景。在這種條件下，由于僅依賴視覺輸入，FoundationPose 經常丟失跟蹤。相比之下，V-HOP 在整個軌跡中保持穩定的物體跟蹤，展示了其可視-觸覺感知的魯棒性。

在這里插入圖片描述 圖5：位姿跟蹤序列的定性結果。 我們在真實世界中使用YCB物體驗證性能。圖中突出顯示了杯子和電鉆，更多物體的結果見附錄。

B. 雙臂移交實驗

在此實驗中（圖6），一個物體被放置在機器人右臂可觸及的桌面上。該任務要求機器人執行以下操作序列：

使用右臂抓取物體并將其移至桌面中心。
使用左臂從右夾爪接管物體并將其放入指定的箱子中。

機器人采用基于模型的抓取策略，該策略依賴于實時物體位姿估計。此任務提出了兩個關鍵挑戰：

如果抓取嘗試失敗，機器人必須根據實時位姿檢測失敗并重新嘗試抓取。
在將物體運輸到中心的過程中，機器人必須保持對物體位姿的精確跟蹤，以確保左臂能夠準確抓取，否則跟蹤不準確可能導致移交時發生碰撞。

在這里插入圖片描述圖6：雙臂移交實驗。在此實驗中，機器人執行雙臂操作，將目標物體移動到箱內。V-HOP融合視覺和觸覺輸入，實時精確跟蹤手內物體的位姿，從而實現穩定的移交性能。更多物體的結果見附錄。

V-HOP使運動規劃器能夠處理隨機位置的物體并適應動態場景，例如人為干擾。例如，在任務執行過程中，操作者可能會移動物體、將其從夾爪中移出或重新放置在桌面上（圖7）。由于融合了觸覺反饋，V-HOP能夠準確跟蹤物體位姿，使機器人能夠及時檢測并響應這些變化，如物體離開夾爪。相反，FoundationPose在移交或抓取失敗過程中會丟失跟蹤（圖6），并導致碰撞。

在表VI中，我們展示了每個物體在五次試驗中的成功率。與FoundationPose相比，V-HOP的平均成功率提高了40%。

在這里插入圖片描述表七：Can-in-Mug 任務的成功率。

在這里插入圖片描述圖7：雙臂移交任務的魯棒性測試。（左）物體被放置在不同隨機位置。（右）在機器人嘗試抓取時，人為干擾物體，將其移動到另一個位置。

C. 杯中插罐實驗

“杯中插罐”任務（圖8）涉及抓取一個番茄罐并將其插入杯中。雙臂版本要求機器人同時抓取杯子，并將罐子插入杯子中央。任務成功的關鍵在于對兩個物體的精確位姿估計，因為位姿的任何噪聲都會導致任務失敗。我們的結果（表VII）表明，通過融合視覺和觸覺輸入，V-HOP 提供了更穩定的跟蹤并獲得了更高的整體成功率。

在這里插入圖片描述圖8：“杯中插罐”任務。（頂）機器人抓取罐子并將其插入杯中。（底）機器人使用雙臂分別抓取罐子和杯子，并將罐子插入杯中央。

D. 各模態貢獻

在本研究中，我們考察了視覺和觸覺輸入對最終預測的貢獻。我們采用 Grad-CAM [51]，以 Transformer 編碼器的最終歸一化層作為目標層。圖9 展示了視覺和觸覺模態的權重分布。我們的發現表明：當機械爪未與物體接觸時，模型主要依賴視覺輸入；而當機械爪建立接觸并且遮擋變得更嚴重時，模型越來越依賴觸覺輸入。這一發現驗證了我們采用自注意力機制以模擬人類“最優整合”原則的選擇。

在這里插入圖片描述圖9：視覺和觸覺模態對最終預測的權重分布。圖中右上角疊加了使用 Grad-CAM [51] 計算的模態權重。

VI. 相關工作

在本研究中，我們關注于 6D 物體位姿跟蹤問題，該問題已作為視覺問題被廣泛研究 [66,35,70,7]。我們尤其聚焦于基于模型的跟蹤方法，這類方法假設可以獲取物體的 CAD 模型。雖然存在無模型方法 [65,69,54]，但它們超出了本文的研究范圍。視覺位姿跟蹤在已有基準（如 BOP [22]）上取得了顯著進展。盡管如此，在高遮擋和動態交互（如手中操作）等真實機器人應用場景中部署此類系統仍具有挑戰性。

為應對這些挑戰，先前的研究探索了將視覺和觸覺信息結合以提高位姿跟蹤魯棒性的方法 [32,54,8,61,50,59,14,33]。這些方法利用學習技術，通過融合視觸輸入來估計物體位姿。然而，它們通常在每幀獨立估計位姿，缺乏時間一致性。此外，跨手爪形態泛化和領域泛化依然是顯著障礙，限制了它們的大規模部署和實用性。

更近的工作旨在克服其中一些局限。例如，Liu 等人 [41] 提出了一種基于優化的方法，使用專門的滑移檢測器和速度預測器，將觸覺數據與視覺位姿跟蹤結合。Suresh 等人 [54] 在位姿圖優化框架中，將視覺和觸覺點云融合，擴展了無模型跟蹤框架 BundleTrack [65] 和 BundleSDF [69]。然而，這些方法僅在單一手爪形態上進行了驗證，且存在計算效率低下的問題 [54]，難以滿足動態操作任務的實時部署需求。

VII. 局限性

我們遵循基于模型的物體位姿跟蹤設置，假設可以獲得物體的 CAD 模型。雖然這種假設可能限制在野外應用中的泛化能力，但在倉庫或裝配線等工業環境中，這是一個成熟并被廣泛采用的前提 [3,54]。克服此局限的一個潛在方向是同時進行物體重建和位姿跟蹤，如 BundleSDF [69] 和 NeuralFeels [54] 等方法所示，它們為我們的方法提供了兼容且前景良好的模型獲取方式。

VIII. 結論

我們提出了 V-HOP，一種可視-觸覺 6D 物體位姿跟蹤器，集成了統一的觸覺表示和可視-觸覺 Transformer。實驗證明，V-HOP 能有效泛化到新的傳感器類型、手爪形態和物體上，超越了最先進的純視覺和可視-觸覺方法。消融研究強調了視覺和觸覺模態在框架中的關鍵作用。在仿真到現實的遷移實驗中，V-HOP 展現出魯棒性，在高遮擋和動態環境下提供穩定跟蹤。此外，將 V-HOP 的實時位姿跟蹤集成到運動規劃中，可實現如雙臂移交和插入等準確操作任務，展示了其實用性和有效性。

致謝

本工作由美國國家科學基金會（NSF）CAREER 項目 #2143576、項目 #2346528 及美國海軍研究辦公室（ONR）項目 #N00014-22-1-259 資助。感謝 Ying Wang、Tao Lu、Zekun Li 和 Xiaoyan Cong 的寶貴討論，也感謝領域主席和審稿人對提升本文質量和清晰度所提供的建設性反饋。本研究使用了布朗大學計算與可視化中心的計算資源和服務。