【論文解讀】CVPR2023 PoseFormerV2:3D人體姿態估計(附論文地址)

論文鏈接:https://arxiv.org/pdf/2303.17472

源碼鏈接:https://github.com/QitaoZhao/PoseFormerV2

Abstract

本文提出了 PoseFormerV2,通過探索頻率域來提高 3D 人體姿態估計的效率和魯棒性。PoseFormerV2 利用離散余弦變換(DCT)將骨骼序列轉換為低頻系數,顯著減少了計算量并提高了對噪聲的抵抗力。實驗表明,PoseFormerV2 在速度-精度權衡和魯棒性方面顯著優于 PoseFormer 和其他 Transformer 方法。

Introduction

  • 目標:3D 人體姿態估計(HPE)旨在通過單目視頻或 2D 關節序列估計人體關節的三維位置。

  • 主流方法:隨著 2D 姿態檢測器的普及和 2D 表示的輕量性,2D-to-3D lifting 方法成為主流。

  • Transformer 的優勢:Transformer 方法因其在建模離散關節和長時序依賴方面的優勢,成為 3D 姿態估計的首選。

  • 現有問題

    • 處理長序列時計算負擔重。

    • 對噪聲 2D 檢測缺乏魯棒性。

  • 具體問題示例:PoseFormer 在 Human3.6M 數據集上使用真實 2D 檢測時 MPJPE 為 31.3 mm,而使用 CPN 檢測時性能下降至 44.3 mm。

  • 解決方案:PoseFormerV2 引入頻率域表示,通過離散余弦變換(DCT)將長序列壓縮為低頻系數,顯著減少計算量并增強魯棒性。

  • 實驗結果:PoseFormerV2 在速度和精度上優于其他方法,包括原始 PoseFormer 和其他 Transformer 變體。

Related Work

Transformer-based 3D Human Pose Estimation

  • oseFormer:首個將 Transformer 應用于 3D 人體姿態估計的方法,通過時空編碼器提取特征,顯著優于傳統卷積方法。

  • 效率問題:PoseFormer 在處理長序列時效率低下,計算負擔隨幀數增加而顯著增加。

  • 魯棒性問題:PoseFormer 對噪聲 2D 關節檢測敏感,性能受 2D 檢測質量影響較大。

  • 后續改進

    • MHFormer:引入多假設生成技術,模擬身體部位的深度模糊和 2D 檢測器的不確定性,提升魯棒性。

    • P-STMO:采用掩碼關節建模技術,通過自監督學習提高性能。

    • StridedTransformer:通過步進卷積減少計算量,但犧牲了部分性能。

    • Einfalt et al.:通過下采樣輸入視頻幀減少計算量,但可能影響精度。

  • 現存問題:盡管有改進,但現有方法仍未同時解決效率和魯棒性問題。

Frequency Representation in Vision

  • 頻率域表示:在計算機視覺中已有廣泛應用,如 JPEG 圖像壓縮和基于 DCT 的特征提取。

  • 低頻系數的作用

    • 捕捉輸入序列的主要特征。

    • 過濾高頻噪聲,提升模型對噪聲的抵抗力。

  • PoseFormerV2 的創新

    • 將頻率域表示應用于 3D 人體姿態估計。

    • 通過離散余弦變換(DCT)將骨骼序列轉換為低頻系數,顯著減少計算量。

    • 提出時間-頻率特征融合模塊,結合時間域和頻率域特征,提升模型性能。

Method

Preliminaries of PoseFormerV1

  • 特征提取分階段:PoseFormerV1 將 2D 關節序列的特征提取分為兩個階段:

    • 空間編碼器:用于建模單幀內關節關系,捕捉幀內關節的相互依賴。

    • 時間編碼器:用于建模跨幀人體運動,捕捉幀間的時間依賴。

  • 計算復雜度:PoseFormerV1 在處理長序列時計算復雜度高,因為自注意力機制對所有幀進行密集建模。

  • 對噪聲敏感:PoseFormerV1 對 2D 關節檢測噪聲敏感,性能受輸入質量影響較大。

PoseFormerV2

Frequency Representation of Skeleton Sequence

  • 離散余弦變換(DCT):PoseFormerV2 通過 DCT 將骨骼序列轉換為低頻系數,利用少量低頻系數表示整個序列。

  • 減少輸入長度:低頻系數顯著減少了輸入長度,降低了計算復雜度。

  • 過濾高頻噪聲:低頻系數過濾了高頻噪聲,增強了模型對噪聲的抵抗力。

  • 實驗驗證:實驗表明,僅需少量低頻系數即可捕捉序列的主要特征,同時保持較高的精度。

Architecture

  • 空間 Transformer 編碼器

    • 僅處理少量中心幀,減少計算量。

    • 提取幀內關節的高維特征。

  • 時間-頻率特征融合模塊

    • 結合時間域和頻率域特征,增強模型對長序列的處理能力。

    • 使用 FreqMLP 調整頻率特征權重,補充時間域特征的細節信息。

  • 回歸頭

    • 通過 1D 卷積層聚集時間信息。

    • 輸出中心幀的 3D 姿態。

  • 整體優勢:PoseFormerV2 在時間域和頻率域之間進行有效的特征融合,顯著減少了計算量,同時保持了更好的速度-精度權衡。

Experiments

Datasets and Evaluation Metrics

數據集

Human3.6M:最常用的室內 3D 姿態估計數據集,包含 11 名演員的 15 種動作,從 4 個不同視角拍攝,共 360 萬幀。

MPI-INF-3DHP:更具挑戰性的室內外場景數據集,包含復雜背景和多種動作,提供 6 個不同場景的測試集。

評價指標

MPJPE(Mean Per Joint Position Error):預測的 3D 姿態與真實值之間的平均歐幾里得距離。

P-MPJPE(Procrustes Mean Per Joint Position Error):對預測的 3D 姿態進行剛性對齊后的 MPJPE。

PCK(Percentage of Correct Keypoints):在 150mm 范圍內的正確關節點的百分比。

AUC(Area Under Curve):曲線下面積。

Implementation Details and Analysis

實現框架

基于 PyTorch,使用 AdamW 優化器,學習率設置為 8e-4,并采用指數衰減策略。

超參數調整

輸入幀數(f)和 DCT 系數數量(n)是關鍵超參數,實驗中通過調整這些參數展示了模型在速度和精度之間的靈活權衡。

例如,當 f = 3、n = 3 時,模型在 Human3.6M 數據集上達到了 47.9 mm 的 MPJPE,計算量為 117.3 MFLOPs。

硬件配置

實驗在單個 NVIDIA RTX 3090 GPU 上進行,支持高效的訓練和推理。

Comparisons with State-of-the-art Methods

Human3.6M 數據集

PoseFormerV2

81 幀輸入,77.2 MFLOPs,MPJPE 為 47.6 mm。

243 幀輸入,1054.8 MFLOPs,MPJPE 為 45.2 mm。

其他方法

PoseFormerV1:81 幀輸入,1.36 GFLOPs,MPJPE 為 47.0 mm。

MHFormer:81 幀輸入,342.9 MFLOPs,MPJPE 為 47.8 mm。

P-STMO:243 幀輸入,493 MFLOPs,MPJPE 為 45.6 mm。

結論

PoseFormerV2 在速度和精度之間取得了更好的權衡,尤其是在處理長序列時表現出更高的效率。

MPI-INF-3DHP 數據集

PoseFormerV2

PCK 為 97.9%,AUC 為 78.8%,MPJPE 為 27.8 mm。

其他方法

PoseFormerV1:PCK 為 95.4%,AUC 為 63.2%,MPJPE 為 57.7 mm。

P-STMO:PCK 為 97.9%,AUC 為 75.8%,MPJPE 為 32.2 mm。

結論

PoseFormerV2 在 MPI-INF-3DHP 數據集上也取得了最佳性能,驗證了其在復雜場景下的魯棒性和準確性。

Ablation Study

逐步改進

原始 PoseFormerV1:9 幀輸入,MPJPE 為 49.9 mm。

引入低頻 DCT 系數:81 幀輸入,MPJPE 降低到 47.1 mm。

引入 FreqMLP:MPJPE 進一步降低到 46.0 mm。

輸入幀數和 DCT 系數數量的影響

實驗證明,增加輸入幀數和 DCT 系數數量可以顯著提高精度。例如,使用 3 個中心幀和 9 個 DCT 系數時,MPJPE 為 47.9 mm,計算量為 117.3 MFLOPs。

結論

僅需少量中心幀和低頻系數即可顯著提高精度和魯棒性,同時保持較低的計算量。

Generalization Ability

推廣到其他方法

MixSTE:引入低頻 DCT 系數后,MPJPE 從 46.2 mm 降低到 45.3 mm,計算量從 30.8 GFLOPs 降低到 15.4 GFLOPs。

MHFormer:引入低頻 DCT 系數后,魯棒性顯著提升,計算量減少。

結論

PoseFormerV2 的頻率域表示方法可以推廣到其他 Transformer 基方法,顯著提升效率和魯棒性。

Conclusion

PoseFormerV2 通過引入頻率域表示,顯著提高了 3D 人體姿態估計的效率和魯棒性。具體貢獻如下:

效率提升:PoseFormerV2 利用離散余弦變換(DCT)將長骨骼序列壓縮為低頻系數,顯著減少了輸入長度和計算量。實驗表明,PoseFormerV2 在處理長序列時的計算效率遠高于其他方法,例如在 81 幀輸入下僅需 77.2 MFLOPs,而 MHFormer 需要 342.9 MFLOPs。

魯棒性增強:低頻系數過濾了高頻噪聲,增強了模型對噪聲 2D 關節檢測的抵抗力。實驗表明,PoseFormerV2 在噪聲環境下仍能保持較高的估計精度。

性能提升:在 Human3.6M 和 MPI-INF-3DHP 兩個基準數據集上,PoseFormerV2 均取得了優于其他 Transformer 基方法的性能,驗證了其在速度和精度之間的良好權衡。

通用性:PoseFormerV2 的方法可以推廣到其他 Transformer 基方法,如 MixSTE 和 MHFormer,通過引入低頻 DCT 系數,這些方法在效率和魯棒性方面也得到了提升。

Future Work

自動優化超參數:目前,PoseFormerV2 的超參數(如輸入幀數和 DCT 系數數量)是基于實驗結果手動調整的。未來工作將探索如何將這些參數設置為可學習的,從而自動優化模型性能。

擴展到其他任務:PoseFormerV2 的頻率域表示方法不僅適用于 3D 人體姿態估計,還可以推廣到其他需要處理長序列的任務,如動作識別和行為分析。

理論分析:進一步理論分析頻率域表示在 3D 姿態估計中的優勢,為未來的研究提供更深入的理論支持。

PoseFormerV2 為 3D 人體姿態估計領域提供了新的視角,通過頻率域表示解決了效率和魯棒性問題,為實際應用提供了更強大的工具。

硬性的標準其實限制不了無限可能的我們,所以啊!少年們加油吧!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83292.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83292.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83292.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DRW - 加密市場預測

1.數據集描述 在本次比賽中,數據集包含加密市場的分鐘級歷史數據。您的挑戰是預測未來的加密貨幣市場價格走勢。這是一項kaggle社區預測競賽,您可以以 CSV 文件的形式或通過 Kaggle Notebooks 提交您的預測。有關使用 Kaggle Notebooks 的更多詳細信息&a…

嵌入式Linux系統中的啟動分區架構

在嵌入式Linux系統架構中,Linux內核、設備樹(Device Tree)與引導配置文件構成了系統啟動的基礎核心。如何安全、高效地管理這些關鍵文件,直接影響到系統的穩定性與可維護性。近年來,越來越多的嵌入式Linux開發者選擇將啟動相關文件從傳統的“混合存放”方式,轉向采用獨立…

用戶資產化視角下開源AI智能名片鏈動2+1模式S2B2C商城小程序的應用研究

摘要:在數字化時代,平臺流量用戶尚未完全轉化為企業的數字資產,唯有將其沉淀至私域流量池并實現可控、隨時觸達,方能成為企業重要的數字資產。本文從用戶資產化視角出發,探討開源AI智能名片鏈動21模式S2B2C商城小程序在…

Spring是如何實現屬性占位符解析

Spring屬性占位符解析 核心實現思路1?? 定義占位符處理器類2?? 處理 BeanDefinition 中的屬性3?? 替換具體的占位符4?? 加載配置文件5?? Getter / Setter 方法 源碼見:mini-spring 在使用 Spring 框架開發過程中,為了實現配置的靈活性&#xf…

【大模型面試每日一題】Day 31:LoRA微調方法中低秩矩陣的秩r如何選取?

【大模型面試每日一題】Day 31:LoRA微調方法中低秩矩陣的秩r如何選取? 📌 題目重現 🌟🌟 面試官:LoRA微調方法中低秩矩陣的秩r如何選取?: #mermaid-svg-g5hxSxV8epzWyP98 {font-family:"…

字節golang后端二面

前端接口使用restful格式,post與get的區別是什么? HTTP網絡返回的狀態碼有哪些? go語言切片與數組的區別是什么? MySQL實現并發安全避免兩個事務同時對一個記錄寫操作的手段有哪些? 如何實現業務的冪等性(在…

Spring Security安全實踐指南

安全性的核心價值 用戶視角的數據敏感性認知 從終端用戶角度出發,每個應用程序都涉及不同級別的數據敏感度。以電子郵件服務與網上銀行為例:前者內容泄露可能僅造成隱私困擾,而后者賬戶若被操控將直接導致財產損失。這種差異體現了安全防護需要分級實施的基本原則: // 偽…

Leetcode第451場周賽分析總結

題目鏈接 競賽 - 力扣&#xff08;LeetCode&#xff09;全球極客摯愛的技術成長平臺 題目解析 A. 3560. 木材運輸的最小成本 AC代碼 class Solution { public:long long minCuttingCost(int n, int m, int k) {if (n > m) swap(n, m); // n < m;using ll long lon…

Linux中的shell腳本

什么是shell腳本 shell腳本是文本的一種shell腳本是可以運行的文本shell腳本的內容是由邏輯和數據組成shell腳本是解釋型語言 用file命令可以查看文件是否是一個腳本文件 file filename 腳本書寫規范 注釋 單行注釋 使用#號來進行單行注釋 多行注釋 使用 : " 注釋內容…

PHP與MYSQL結合中中的一些常用函數,HTTP協議定義,PHP進行文件編程,會話技術

MYSQL&#xff1a; 查詢函數: 執行查詢語句: 1.mysql_query("SQL語法"); 凡是執行操作希望拿到數據庫返回的數據進行展示的(結果返回: 數據結果); 2.執行結果的處理:成功為結果集&#xff0c;失敗為false; 成功返回結果:SQL指令沒有錯誤&#xff0c;但是查詢結果…

數學分析——一致性(均勻性)和收斂

目錄 1. 連續函數 1.1 連續函數的定義 1.2 連續函數的性質 1.2.1 性質一 1.2.2 性質二 1.2.3 性質三 1.2.4 性質四 2. 一致連續函數 2.1 一致連續函數的定義 2.2 一致連續性定理(小間距定理)(一致連續函數的另一種定義) 2.3 一致連續性判定法 2.4 連…

湖北理元理律師事務所:企業債務優化的科學路徑與人文關懷

湖北理元理律師事務所&#xff1a;企業債務優化的科學路徑與人文關懷 在中小企業經營壓力增大的背景下&#xff0c;如何平衡債務清償與員工生計成為關鍵課題。湖北理元理律師事務所聯合計劃集團公司&#xff0c;為服務企業設計了一套兼顧法律合規性與民生保障的債務解決方案&a…

樹莓派安裝openwrt搭建軟路由(ImmortalWrt固件方案)

&#x1f923;&#x1f449;我這里準備了兩個版本的openwrt安裝方案給大家參考使用&#xff0c;分別是原版的OpenWrt固件以及在原版基礎上進行改進的ImmortalWrt固件。推薦使用ImmortalWrt固件&#xff0c;當然如果想直接在原版上進行開發也可以&#xff0c;看個人選擇。 &…

一鍵凈化Excel數據:高性能Python腳本實現多核并行清理

摘要 本文分享兩個基于Python的Excel數據凈化腳本&#xff0c;通過多進程并行技術清除工作表內不可見字符、批注、單元格樣式等冗余內容&#xff0c;利用OpenPyXL實現底層操作&#xff0c;結合tqdm進度條和進程級任務分配&#xff0c;可快速處理百萬級單元格數據。適用于數據分…

【Netty】EventLoopGroup

在Netty的ServerBootstrap中設置兩個EventLoopGroup的作用是將網絡操作的兩個關鍵階段分離到不同的線程組中處理&#xff0c;從而優化性能并簡化并發控制。具體來說&#xff1a; 1. 兩個EventLoopGroup的角色 第一個EventLoopGroup&#xff08;通常稱為bossGroup&#xff09;&…

【前端】Vue中使用CKeditor作為富文本編輯器

官網https://ckeditor.com/ 此處記錄一下我在使用的時候具體初始化的代碼。 <template><div><textarea :id"id"></textarea></div> </template><script> export default {name: CkEditor,data: function () {return {id:…

前端面經 websocket

應用層協議&#xff0c;實現一個TCP連接上的全雙工通信&#xff0c;實時通訊 之前的實時WEB 實現輪詢 增加輪詢頻率 ws wss 明文版本 和 密文版本 特點 # 1 頭部小 2 更注重實時性

【筆記】suna部署之獲取 Supabase API key 和 project URL

#工作記錄 Supabase | The Open Source Firebase Alternative 一、注冊與登錄 方式一&#xff1a;GitHub 授權登錄 在登錄頁面選擇 “繼續使用 GitHub” &#xff0c;跳轉到 GitHub 授權頁面&#xff08;如圖 5 所示&#xff09;。確認 “Supabase 的想要訪問您的 [賬戶名] 帳…

爬蟲工具鏈的詳細分類解析

以下是針對爬蟲工具鏈的詳細分類解析&#xff0c;涵蓋靜態頁面、動態渲染和框架開發三大場景的技術選型與核心特性&#xff1a; &#x1f9e9; 一、靜態頁面抓取&#xff08;HTML結構固定&#xff09; 工具組合&#xff1a;Requests BeautifulSoup 適用場景&#xff1a;目標數…

STM32F407寄存器操作(ADC非連續掃描模式)

1.前言 書接上回&#xff0c;在看手冊的時候我突然發現手冊上還描述了另一種ADC掃描模式&#xff0c;即非連續掃描模式&#xff0c;想著連續掃描模式都已經探索過了&#xff0c;那就順手把非非連續模式研究一下吧。 2.理論 我們先看看手冊&#xff0c;這里我就以規則通道舉例…