【論文解讀】CVPR2023 PoseFormerV2：3D人體姿態估計（附論文地址）

論文鏈接：https://arxiv.org/pdf/2303.17472

源碼鏈接：https://github.com/QitaoZhao/PoseFormerV2

Abstract

本文提出了 PoseFormerV2，通過探索頻率域來提高 3D 人體姿態估計的效率和魯棒性。PoseFormerV2 利用離散余弦變換（DCT）將骨骼序列轉換為低頻系數，顯著減少了計算量并提高了對噪聲的抵抗力。實驗表明，PoseFormerV2 在速度-精度權衡和魯棒性方面顯著優于 PoseFormer 和其他 Transformer 方法。

Introduction

目標：3D 人體姿態估計（HPE）旨在通過單目視頻或 2D 關節序列估計人體關節的三維位置。
主流方法：隨著 2D 姿態檢測器的普及和 2D 表示的輕量性，2D-to-3D lifting 方法成為主流。
Transformer 的優勢：Transformer 方法因其在建模離散關節和長時序依賴方面的優勢，成為 3D 姿態估計的首選。
現有問題：
- 處理長序列時計算負擔重。
- 對噪聲 2D 檢測缺乏魯棒性。
具體問題示例：PoseFormer 在 Human3.6M 數據集上使用真實 2D 檢測時 MPJPE 為 31.3 mm，而使用 CPN 檢測時性能下降至 44.3 mm。
解決方案：PoseFormerV2 引入頻率域表示，通過離散余弦變換（DCT）將長序列壓縮為低頻系數，顯著減少計算量并增強魯棒性。
實驗結果：PoseFormerV2 在速度和精度上優于其他方法，包括原始 PoseFormer 和其他 Transformer 變體。

Related Work

Transformer-based 3D Human Pose Estimation

oseFormer：首個將 Transformer 應用于 3D 人體姿態估計的方法，通過時空編碼器提取特征，顯著優于傳統卷積方法。
效率問題：PoseFormer 在處理長序列時效率低下，計算負擔隨幀數增加而顯著增加。
魯棒性問題：PoseFormer 對噪聲 2D 關節檢測敏感，性能受 2D 檢測質量影響較大。
后續改進：
- MHFormer：引入多假設生成技術，模擬身體部位的深度模糊和 2D 檢測器的不確定性，提升魯棒性。
- P-STMO：采用掩碼關節建模技術，通過自監督學習提高性能。
- StridedTransformer：通過步進卷積減少計算量，但犧牲了部分性能。
- Einfalt et al.：通過下采樣輸入視頻幀減少計算量，但可能影響精度。
現存問題：盡管有改進，但現有方法仍未同時解決效率和魯棒性問題。

Frequency Representation in Vision

頻率域表示：在計算機視覺中已有廣泛應用，如 JPEG 圖像壓縮和基于 DCT 的特征提取。
低頻系數的作用：
- 捕捉輸入序列的主要特征。
- 過濾高頻噪聲，提升模型對噪聲的抵抗力。
PoseFormerV2 的創新：
- 將頻率域表示應用于 3D 人體姿態估計。
- 通過離散余弦變換（DCT）將骨骼序列轉換為低頻系數，顯著減少計算量。
- 提出時間-頻率特征融合模塊，結合時間域和頻率域特征，提升模型性能。

Method

Preliminaries of PoseFormerV1

特征提取分階段：PoseFormerV1 將 2D 關節序列的特征提取分為兩個階段：
- 空間編碼器：用于建模單幀內關節關系，捕捉幀內關節的相互依賴。
- 時間編碼器：用于建模跨幀人體運動，捕捉幀間的時間依賴。
計算復雜度：PoseFormerV1 在處理長序列時計算復雜度高，因為自注意力機制對所有幀進行密集建模。
對噪聲敏感：PoseFormerV1 對 2D 關節檢測噪聲敏感，性能受輸入質量影響較大。

PoseFormerV2

Frequency Representation of Skeleton Sequence

離散余弦變換（DCT）：PoseFormerV2 通過 DCT 將骨骼序列轉換為低頻系數，利用少量低頻系數表示整個序列。
減少輸入長度：低頻系數顯著減少了輸入長度，降低了計算復雜度。
過濾高頻噪聲：低頻系數過濾了高頻噪聲，增強了模型對噪聲的抵抗力。
實驗驗證：實驗表明，僅需少量低頻系數即可捕捉序列的主要特征，同時保持較高的精度。

Architecture

空間 Transformer 編碼器：
- 僅處理少量中心幀，減少計算量。
- 提取幀內關節的高維特征。
時間-頻率特征融合模塊：
- 結合時間域和頻率域特征，增強模型對長序列的處理能力。
- 使用 FreqMLP 調整頻率特征權重，補充時間域特征的細節信息。
回歸頭：
- 通過 1D 卷積層聚集時間信息。
- 輸出中心幀的 3D 姿態。
整體優勢：PoseFormerV2 在時間域和頻率域之間進行有效的特征融合，顯著減少了計算量，同時保持了更好的速度-精度權衡。

Experiments

Datasets and Evaluation Metrics

數據集

Human3.6M：最常用的室內 3D 姿態估計數據集，包含 11 名演員的 15 種動作，從 4 個不同視角拍攝，共 360 萬幀。

MPI-INF-3DHP：更具挑戰性的室內外場景數據集，包含復雜背景和多種動作，提供 6 個不同場景的測試集。

評價指標

MPJPE（Mean Per Joint Position Error）：預測的 3D 姿態與真實值之間的平均歐幾里得距離。

P-MPJPE（Procrustes Mean Per Joint Position Error）：對預測的 3D 姿態進行剛性對齊后的 MPJPE。

PCK（Percentage of Correct Keypoints）：在 150mm 范圍內的正確關節點的百分比。

AUC（Area Under Curve）：曲線下面積。

Implementation Details and Analysis

實現框架

基于 PyTorch，使用 AdamW 優化器，學習率設置為 8e-4，并采用指數衰減策略。

超參數調整

輸入幀數（f）和 DCT 系數數量（n）是關鍵超參數，實驗中通過調整這些參數展示了模型在速度和精度之間的靈活權衡。

例如，當 f = 3、n = 3 時，模型在 Human3.6M 數據集上達到了 47.9 mm 的 MPJPE，計算量為 117.3 MFLOPs。

硬件配置

實驗在單個 NVIDIA RTX 3090 GPU 上進行，支持高效的訓練和推理。

Comparisons with State-of-the-art Methods

Human3.6M 數據集

PoseFormerV2

81 幀輸入，77.2 MFLOPs，MPJPE 為 47.6 mm。

243 幀輸入，1054.8 MFLOPs，MPJPE 為 45.2 mm。

其他方法

PoseFormerV1：81 幀輸入，1.36 GFLOPs，MPJPE 為 47.0 mm。

MHFormer：81 幀輸入，342.9 MFLOPs，MPJPE 為 47.8 mm。

P-STMO：243 幀輸入，493 MFLOPs，MPJPE 為 45.6 mm。

結論

PoseFormerV2 在速度和精度之間取得了更好的權衡，尤其是在處理長序列時表現出更高的效率。

MPI-INF-3DHP 數據集

PoseFormerV2

PCK 為 97.9%，AUC 為 78.8%，MPJPE 為 27.8 mm。

其他方法

PoseFormerV1：PCK 為 95.4%，AUC 為 63.2%，MPJPE 為 57.7 mm。

P-STMO：PCK 為 97.9%，AUC 為 75.8%，MPJPE 為 32.2 mm。

結論

PoseFormerV2 在 MPI-INF-3DHP 數據集上也取得了最佳性能，驗證了其在復雜場景下的魯棒性和準確性。

Ablation Study

逐步改進

原始 PoseFormerV1：9 幀輸入，MPJPE 為 49.9 mm。

引入低頻 DCT 系數：81 幀輸入，MPJPE 降低到 47.1 mm。

引入 FreqMLP：MPJPE 進一步降低到 46.0 mm。

輸入幀數和 DCT 系數數量的影響

實驗證明，增加輸入幀數和 DCT 系數數量可以顯著提高精度。例如，使用 3 個中心幀和 9 個 DCT 系數時，MPJPE 為 47.9 mm，計算量為 117.3 MFLOPs。

結論

僅需少量中心幀和低頻系數即可顯著提高精度和魯棒性，同時保持較低的計算量。

Generalization Ability

推廣到其他方法

MixSTE：引入低頻 DCT 系數后，MPJPE 從 46.2 mm 降低到 45.3 mm，計算量從 30.8 GFLOPs 降低到 15.4 GFLOPs。

MHFormer：引入低頻 DCT 系數后，魯棒性顯著提升，計算量減少。

結論

PoseFormerV2 的頻率域表示方法可以推廣到其他 Transformer 基方法，顯著提升效率和魯棒性。

Conclusion

PoseFormerV2 通過引入頻率域表示，顯著提高了 3D 人體姿態估計的效率和魯棒性。具體貢獻如下：

效率提升：PoseFormerV2 利用離散余弦變換（DCT）將長骨骼序列壓縮為低頻系數，顯著減少了輸入長度和計算量。實驗表明，PoseFormerV2 在處理長序列時的計算效率遠高于其他方法，例如在 81 幀輸入下僅需 77.2 MFLOPs，而 MHFormer 需要 342.9 MFLOPs。

魯棒性增強：低頻系數過濾了高頻噪聲，增強了模型對噪聲 2D 關節檢測的抵抗力。實驗表明，PoseFormerV2 在噪聲環境下仍能保持較高的估計精度。

性能提升：在 Human3.6M 和 MPI-INF-3DHP 兩個基準數據集上，PoseFormerV2 均取得了優于其他 Transformer 基方法的性能，驗證了其在速度和精度之間的良好權衡。

通用性：PoseFormerV2 的方法可以推廣到其他 Transformer 基方法，如 MixSTE 和 MHFormer，通過引入低頻 DCT 系數，這些方法在效率和魯棒性方面也得到了提升。