基于不確定性感知學習的單圖像自監督3D人體網格重建 (論文筆記與思考)

文章目錄

  • 論文解決的問題
  • 提出的算法以及啟發點

論文解決的問題

首先這是 Self-Supervised 3D Human mesh recovery from a single image with uncertainty-aware learning (AAAI 2024)的論文筆記。該文中主要提出了一個自監督的framework用于人體的姿態恢復。主要是解決了現有的方法對大型數據集的依賴。

提出的算法以及啟發點

論文總體的框架其實相對比較簡單
在這里插入圖片描述
大概思路主要是集中再學習深度與關節之間的連續性。首先深度和2D關節的提取使用的方法都相對較老。整體的自監督模式也之前的方法其實很類似,就是通過2D 圖像提取人體的特征,比如關節特征,然后預測2.5D的特征,比如深度,為連接2D-3D打下基礎。然后依賴SMPL這樣的參數模型將2D 和2.5D特征轉移到3D 空間中。然后將3D的參數模型,2D化(提取關節點,和深度圖。)然后與圖片預測的關節點和3D 圖在 L2 loss的監督下,進行學習。

本文中提到了一個新的概念,就是使用相鄰關節點的深度差距來作為consistancy的一個評判標準是相對比較新的一個概念。 在3D到2D的投影過程中,關節長度(2D骨骼長度)與深度差距(Depth Discrepancy, DD)之間的關系存在反比趨勢, 當骨骼在3D空間中平行于圖像平面(即深度差DD≈0)時,其2D投影長度最大, 當骨骼朝向或遠離相機(DD增大)時,2D投影長度會因透視縮短而變小。例如,若手臂完全朝向相機(DD很大),2D圖像中手臂會顯得非常短(甚至接近一個點)。通過這個約束來作為自監督學習的基礎。

對我當前的研究有什么啟發。我當前通過生成模型將單目照片變成幾何連續的多視角照片。用于提供更加穩定和準確的2D 特征,也可從這些2D圖像中提取出更加穩定的3D cues,用于之后2D-3D 的橋梁。是否使用本文的方式來修正人體姿態的同時修正一些單視角的語義偏差?引入關節和深度的加權不確定性損失來抑制一些高不確定性的輸出。也是抑制人體重建中 不可能姿勢的出現。 該思想可嘗試泛化到語義層面。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904265.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904265.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904265.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Leetcode刷題記錄33——二叉樹的最小深度

題源:https://leetcode.cn/problems/minimum-depth-of-binary-tree/description/ 題目描述: 思路一: 使用 DFS 遞歸遍歷的解法,每當遍歷到一條樹枝的葉子節點,就會更新最小深度,當遍歷完整棵樹后&#x…

有效的括號(20)

20. 有效的括號 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a; class Solution { public:bool isValid(string s) {unordered_map<char, char> m {{), (}, {],[}, {}, {}};stack<char> stk;for (int i 0; i < s.size(); i) {if (s[i] ( || s[i…

電子郵件相關協議介紹

0 Preface/Foreword 1 協議介紹 電子郵件包含的主要協議&#xff1a; SMTPPOPIMAP 1.1 SMPT SMPT: Simple Mail Transfer Protocol&#xff0c;電子郵件傳輸的標準協議&#xff0c;負責將郵件從發送方傳輸到接收方郵件服務器。 1.2 POP POP&#xff1a; Post Office Protoc…

Linux壓縮和解壓類

一、gzip/gunzip 壓縮 1、基本語法 gzip 文件 &#xff08;功能描述&#xff1a;壓縮文件&#xff0c;只能將文件壓縮為*.gz文件&#xff09; gunzip 文件.gz &#xff08;功能描述&#xff1a;解壓縮文件命令&#xff09; 2、經驗技巧 &#xff08;1&#…

力扣hot100 (除自身以外數組的乘積)

238. 除自身以外數組的乘積 中等 給你一個整數數組 nums&#xff0c;返回 數組 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘積 。 題目數據 保證 數組 nums之中任意元素的全部前綴元素和后綴的乘積都在 32 位 整數范圍內。 請 不要使用除…

什么是“系統調用”

一、什么是“系統調用”&#xff1f;用生活中的比喻理解 可以把“系統調用”比作你&#xff08;用戶&#xff09;向“管理員”請求幫助完成某件事情的過程。 舉個例子&#xff1a; 你想借書&#xff0c;去圖書館&#xff08;操作系統&#xff09;找管理員&#xff08;內核&a…

三維重建(二十一)——第二步和第三步

文章目錄 一、上一篇5.3.1 train-185.3.2 test-193二、第二步:自己重新寫一個代碼,利用RTK的參數,成功的和gshell的渲染圖片一樣2.1 只能單獨一個圖片,并且需要調整輸入pose\內參問題描述可能原因2.2 批量輸出問題描述可能原因解決方案重新檢查代碼發現錯誤2.3 成功三、第三…

n8n 中 No Operation 節點說明

n8n 中 No Operation 節點說明 當"什么都不做"也是一種設計:n8n No Operation 節點深度解析一、No Operation節點是什么?二、為什么需要"空節點"?1. 流程可視化注釋2. 調試占位符3. 流程拓撲優化三、實戰應用場景場景1:審批流程占位四、設計哲學思考五…

使用 JavaScript 實現數據導出為 Excel 和 CSV 文件

在 Web 開發中&#xff0c;經常會遇到需要將數據導出為文件的需求&#xff0c;例如將數據導出為 Excel 或 CSV 文件。今天&#xff0c;我們就來探討如何使用 JavaScript 實現這一功能。 一、實現思路 我們通過 HTML 創建一個按鈕&#xff0c;點擊按鈕時&#xff0c;觸發 Java…

青聽音樂 1.0.6| 全網音樂免費聽,無損下載,4條音源,界面簡潔無廣告

一款強大的音樂播放器&#xff0c;內部集成了相當豐富的功能&#xff0c;可以一鍵搜索任何想要的歌曲或歌手專輯&#xff0c;同時還支持下載和收藏&#xff0c;擁有非常流暢的速度&#xff0c;使用起來沒有任何限制&#xff01;軟件自帶有大廠的解析音源&#xff0c;運行非常穩…

動態規劃之子序列問題1

以leetcode300題為例 此題最為經典&#xff0c;所有的算法書在講子序列問題時都以這個為模板題&#xff0c;后面的題可以按照此題的分析方法進行分析 區分子序列和子數組 例如a&#xff0c;b&#xff0c;c&#xff0c;d&#xff0c;e這個數組 子數組是必須連續的&#xff0c;…

android-ndk開發(4): linux開發機有線連接android設備

android-ndk開發(4): linux開發機有線連接android設備 2025/05/05 1. 概要 linux 系統&#xff0c; 例如最常見的 ubuntu&#xff0c; 在通過 USB 線把 android 設備連接到開發機上時&#xff0c; 僅僅是 ”物理上的連接”。 這時候 adb 是無法識別到 android 設備的。 需要…

NOI 2025 大綱更新:算法競賽的新風向標

《NOI 2025 大綱更新&#xff1a;算法競賽的新風向標》 在信息學奧林匹克競賽&#xff08;NOI&#xff09;的賽場上&#xff0c;每一次大綱的更新都如同一場風暴的前奏&#xff0c;它預示著競賽知識體系的變革&#xff0c;也引領著選手們備戰的方向。2025 年的 NOI 大綱已經正…

Spring Boot 集成 Solr 的詳細步驟及示例

環境準備 安裝 Solr &#xff1a;從 Solr 官網&#xff08;Welcome to Apache Solr - Apache Solr&#xff09;下載并安裝最新版本&#xff0c;然后通過命令 bin/solr start 啟動 Solr 服務&#xff0c;使用 bin/solr create -c mycore 創建一個新的 Solr 核心。 安裝 JDK &am…

【自然語言處理與大模型】LlamaIndex的數據連接器和對話引擎

LlamaIndex 是領先的開發框架&#xff0c;專為結合大型語言模型&#xff08;LLM&#xff09;與個性化工作流打造高效的數據驅動型智能代理而設計。一般我們用它來做RAG檢索增強生成。 &#xff08;1&#xff09;RAG的介紹 大型語言模型&#xff08;LLM&#xff09;雖然在海量數…

【實戰教程】React Native項目集成Google ML Kit實現離線水表OCR識別

前言 在移動應用開發中&#xff0c;OCR&#xff08;光學字符識別&#xff09;技術廣泛應用于各類場景。本文將詳細介紹如何在React Native項目中集成Google ML Kit&#xff0c;實現離線水表數字識別功能。全程使用TypeScript&#xff0c;并針對React Native 0.74版本進行適配&a…

全球化電商平臺AWS云架構設計

業務需求&#xff1a; 支撐全球三大區域&#xff08;北美/歐洲/亞洲&#xff09;用戶訪問&#xff0c;延遲<100ms處理每秒50,000訂單的峰值流量混合云架構整合本地ERP系統全年可用性99.99%滿足GDPR和PCI DSS合規要求 以下是一個體現AWS專家能力的全球化電商平臺架構設計方…

jupyter notebook運行簡單程序

一. 使用 cmd 創建虛擬環境 1.創建虛擬環境 &#xff08;1&#xff09;創建新的虛擬環境&#xff08;本項目名設置為zhineng&#xff09;&#xff0c;并設置python版本 conda create -n zhineng python3.6 &#xff08;2&#xff09;查看python版本 python --version &am…

【計算機視覺】語義分割:MMSegmentation:OpenMMLab開源語義分割框架實戰指南

深度解析MMSegmentation&#xff1a;OpenMMLab開源語義分割框架實戰指南 技術架構與設計哲學系統架構概覽核心技術特性 環境配置與安裝指南硬件配置建議詳細安裝步驟環境驗證 實戰全流程解析1. 數據集準備2. 配置文件定制3. 模型訓練與優化4. 模型評估與推理 核心功能擴展1. 自…

計算機圖形學編程(使用OpenGL和C++)(第2版)學習筆記 01.環境搭建

計算機圖形學編程(使用OpenGL和C)(第2版) 這是我學習計算機圖形學編程(使用OpenGL和C)的筆記&#xff0c;主要記錄學習心得及一些學習過程中遇到的問題和解決方案。源代碼存放在github上。 參考資料&#xff1a; 原書資源(程序代碼、模型、紋理、貼圖及圖表)下載ShaderToy學習…