多視圖密集對應學習:細粒度3D分割的自監督革命

原文標題:Multi-view Dense Correspondence Learning (MvDeCor)

引言

在計算機視覺與圖形學領域,3D形狀分割一直是一個基礎且具有挑戰性的任務。如何在標注稀缺的情況下,實現對3D模型的細粒度分割?近期,斯坦福大學視覺實驗室提出的"MvDeCor"方法給我們帶來了啟示:通過多視圖密集對應學習,自監督預訓練2D網絡,并將2D嵌入反投影到3D,實現高精度的細粒度分割。本文將從方法原理、技術細節、實驗驗證及應用場景等多方面進行深入解讀,并給出在CSDN發布的美觀排版建議,幫助大家快速上手并沖上熱搜。

背景與挑戰

  1. 細粒度3D分割需求

    • 將3D模型按更小、更具體的部件分割(如將椅子分割為椅背、椅座、椅腿)。

    • 能夠捕捉微小結構差異,如螺絲、鉚釘等。

  2. 標注數據稀缺

    • 手工標注3D模型成本高昂且耗時。

    • 大規模標注難以推廣到多類別與多場景。

  3. 3D網絡難以表達高分辨率細節

    • 點云/體素網絡在細節捕捉上受限。

    • 普通3D自監督方法(如PointContrast)mIoU提升有限。

  4. 借助2D視覺先驗的潛力

    • 2D圖像領域自監督與對比學習技術成熟:ImageNet預訓練、DenseCL等。

    • 2D CNN具備高分辨率處理能力,可為3D任務提供豐富的特征。

MvDeCor 方法概覽

核心思想:利用多視圖渲染的2D圖像,在像素級別建立密集對應,通過自監督對比學習訓練2D CNN,再將2D嵌入聚合為3D分割

主要流程:

  1. 多視圖渲染:從多個視角渲染3D模型,生成RGB圖、深度圖、法線圖,以及對應的三角形索引。

  2. 密集對應采樣:利用光線追蹤記錄像素對應的3D點,在不同視圖中找到落在同一3D點鄰域內的像素對。

  3. 對比學習預訓練:基于InfoNCE損失,鼓勵匹配像素嵌入相似,不匹配像素嵌入相異。

  4. 少量標注微調:在有限的帶標簽3D模型上,對預訓練網絡添加分割頭,結合交叉熵與輔助自監督正則化訓練。

  5. 多視圖加權投票聚合:計算每個視圖的熵權重,將2D分割結果反投影到3D三角面片,進行加權多數投票,得到最終3D語義標簽。

關鍵技術細節

1. 自監督對比學習
  • 嵌入網絡Φ:基于 DeepLabV3+,輸出 H×W×64 的像素級特征。

  • 正負樣本構造

    • 正樣本:同一3D點投影到兩視圖的像素對 (p,q)。

    • 負樣本:同視圖內其他像素與跨視圖的不匹配像素。

  • InfoNCE損失
    ?

    • 溫度系數τ = 0.07

    • 每對視圖采樣 ≥4K匹配點對,視圖重疊 ≥15%

2. 微調與正則化
  • 監督損失:多視圖交叉熵 ?sl\ell_{sl}。

  • 輔助損失:保留 ?ssl\ell_{ssl} 正則項,權重λ = 0.001。

  • 優化策略:Adam, 初始LR=0.001, 驗證損失飽和時LR衰減0.5,批量歸一化 + ReLU + 雙線性上采樣。

3. 熵加權投票聚合
  • 視圖權重

  • 最終標簽
    lt=arg?max?c∈C∑I∈It,p∈tW(I,p)p(I,p)lt=argmaxcC?IIt?,pt?W(I,p)p(I,p)

實驗驗證

數據集預訓練方式微調方式mIoU (%)相對提升
PartNet (K=10)DenseCL (2D)2D CNN微調30.3+?
PointContrast (3D)3D CNN微調31.0+1.6
MvDeCor (Ours)2D自監督+微調35.9+4.0
RenderPeople (K=5,V=3)ImageNet (RGB)2D微調??
MvDeCor (RGB)2D自監督+微調??

應用與拓展

  • 3D內容編輯:細粒度分割可用于精確選取模型局部進行紋理、變形、物理仿真等處理。

  • 動畫與影視制作:自動分割減少藝術家手工標注成本,加速流水線。

  • 虛擬試衣與電商:人像模型分割助力服裝、配飾的精準試穿效果。

  • 機器人抓取與仿真:識別可抓取部件,實現更精細的操作策略。

結語與展望

MvDeCor 提出了將 2D 自監督對比學習與 3D 分割任務相結合的全新范式,顯著提升了少樣本條件下的細粒度分割性能。未來,可進一步探索:

  • 視圖選擇優化:自動化選擇最具信息量的視角,降低冗余計算。

  • 3D-2D 互補學習:融合 3D 點云/體素的自監督損失,強化空間幾何先驗。

  • 跨域遷移:將 MvDeCor 應用于室內場景、醫療影像、遙感等多領域。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80250.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80250.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80250.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue——前端vue3項目使用漢字轉拼音

在 Vue3 項目中,可以通過以下 第三方 JavaScript 包 實現漢字轉拼音。這些包均兼容 Vue3,且無需依賴后端處理: 推薦方案 1. pinyin-pro 特點:功能強大、支持多音字、聲調、拼音匹配、輕量級(~20KB)。安裝…

批量統計PDF頁數,統計圖像屬性

軟件介紹: 1、支持批量統計PDF、doc\docx、xls\xlsx頁數 2、支持統計指定格式文件數量(不填格式就是全部) 3、支持統計JPG、JPEG、PNG圖像屬性 4、支持統計多頁TIF頁數、屬性 5、支持統計PDF、JPG畫幅 統計圖像屬性 「托馬斯的文件助手」…

LeetCode 每日一題 2025/5/5-2025/5/11

記錄了初步解題思路 以及本地實現代碼;并不一定為最優 也希望大家能一起探討 一起進步 目錄 5/5 790. 多米諾和托米諾平鋪5/6 1920. 基于排列構建數組5/7 3341. 到達最后一個房間的最少時間 I5/8 3342. 到達最后一個房間的最少時間 II5/9 3343. 統計平衡排列的數目5…

pytest自動化測試執行環境切換的兩種解決方案

🍅 點擊文末小卡片,免費獲取軟件測試全套資料,資料在手,漲薪更快 一、痛點分析 在實際企業的項目中,自動化測試的代碼往往需要在不同的環境中進行切換,比如多套測試環境、預上線環境、UAT環境、線上環…

visual studio 2015 安裝閃退問題

參考鏈接: VS2012安裝時啟動界面一閃而過問題解決辦法 visual studio 2015 安裝閃退問題

RocketMQ Kafka區別

架構 ZooKeeper:管理 Broker 注冊、分區 Leader 選舉及消費者組狀態。Broker:存儲 Partition數據,每個 Partition 為獨立日志文件。Producer/Consumer:通過 ZooKeeper獲取路由信息,實現消息分發與消費。 NameServer&am…

MySQL進階篇2_SQL優化、鎖

文章目錄 1 SQL優化1.1插入數據優化1.2主鍵優化頁分裂頁合并主鍵設計原則 1.3order by設計優化1.4group by設計優化小理解 1.5limit設計優化順序IO和隨機IO小疑惑 1.6count設計優化1.7update優化關于隱式事務事務的DML操作 鎖全局鎖表級鎖表鎖元數據鎖意向鎖 行級鎖鎖的釋放條件…

如何測試 esp-webrtc-solution_solutions_doorbell_demo 例程?

軟件準備 esp-webrtc-solution/solutions/doorbell_demo 例程 此例程集成了 WebSocket 傳輸視頻流的應用 硬件準備 ESP32P4-Function-Ev-Board 環境搭建 推薦基于 esp-idf v5.4.1 版本的環境來編譯此例程 若編譯時出現依賴的組件報錯,可進行如下修改&#xff…

TransmittableThreadLocal:穿透線程邊界的上下文傳遞藝術

文章目錄 前言一、如何線程上下文傳遞1.1 ThreadLocal單線程1.2 InheritableThreadLocal的繼承困境1.3 TTL的時空折疊術 二、TTL核心設計解析2.1 時空快照機制2.2 裝飾器模式2.3 采用自動清理機制 三、設計思想啟示四、實踐啟示錄結語 前言 在并發編程領域,線程上下…

【數據結構】——棧

一、棧的概念和結構 棧其實就是一種特殊的順序表,其只允許在一端進出,就是棧的數據的插入和刪除只能在一端進行,進行數據的插入和刪除操作的一端稱為棧頂,另一端稱為棧底。棧中的元素遵循先進后出LIFO(Last InFirst O…

大數據技術全景解析:Spark、Hadoop、Hive與SQL的協作與實戰

引言:當數據成為新時代的“石油” 在數字經濟時代,數據量以每年50%的速度爆發式增長。如何高效存儲、處理和分析PB級數據,成為企業競爭力的核心命題。本文將通過通俗類比場景化拆解,帶你深入理解四大關鍵技術:Hadoop、…

Android13 權限管理機制整理

一、概述 權限機制作為Android 系統安全的保證,很重要,這里整理一下 權限機制中framework 部分,selinux等其他的Android權限機制不在本次討論范圍內 二、個版本差異分類 Android13 Android12 Android11 及以下 拋開版本差異權限機制分為兩大類 一類是之前apk在Android6.0…

MySQL的Order by與Group by優化詳解!

目錄 前言核心思想:讓索引幫你“排好序”或“分好組”Part 1: ORDER BY 優化詳解1.1 什么是 Filesort?為什么它慢?1.2 如何避免 Filesort?—— 利用索引的有序性1.3 EXPLAIN 示例 (ORDER BY) Part 2: GROUP BY 優化詳解2.1 什么是…

awesome-digital-human本地部署及配置:打造高情緒價值互動指南

在數字化交互的浪潮中,awesome-digital-human-live2d項目為我們打開了本地數字人互動的大門。結合 dify 聊天 api,并借鑒 coze 夸夸機器人的設計思路,能為用戶帶來充滿情緒價值的交互體驗。本文將詳細介紹其本地部署步驟、dify 配置方法及情緒…

[ctfshow web入門] web68

信息收集 highlight_file被禁用了,使用cinclude("php://filter/convert.base64-encode/resourceindex.php");讀取index.php,使用cinclude("php://filter/convert.iconv.utf8.utf16/resourceindex.php");可能有些亂碼,不…

計算機網絡:深度解析基于鏈路狀態的內部網關協議IS-IS

IS-IS(Intermediate System to Intermediate System)路由協議詳解 IS-IS(Intermediate System to Intermediate System)是一種基于鏈路狀態的內部網關協議(IGP),最初由ISO為OSI(開放系統互連)模型設計,后經擴展支持IP路由。它廣泛應用于大型運營商網絡、數據中心及復…

SEGGER項目

SystemView 查看版本, 查看SEGGER官網,release時間是2019-12-18日, 而3.12.0的版本日期是2020-05-04 #define SEGGER_SYSVIEW_MAJOR 3 #define SEGGER_SYSVIEW_MINOR 10 #define SEGGER_SYSVIEW_REV 0SEGGER EMBEDDED Studio 根據S…

Linux——Mysql索引和事務

目錄 一,Mysql索引介紹 1,索引概述 1,索引的優點 2,索引的缺點 2,索引作用 3,索引分類 普通索引 唯一索引 主鍵索引 組合索引 全文索引 4,查看索引 5,刪除索引 6&…

【Web】LACTF 2025 wp

目錄 arclbroth lucky-flag whack-a-mole arclbroth 看到username為admin能拿到flag 但不能重復注冊存在的用戶 這題是secure-sqlite這個庫的問題,底層用的是C,沒處理好\0字符截斷的問題 (在 Node.js 中,由于其字符串表示方式…

訪問者模式(Visitor Pattern)詳解

文章目錄 1. 訪問者模式概述1.1 定義1.2 基本思想 2. 訪問者模式的結構3. 訪問者模式的UML類圖4. 訪問者模式的工作原理5. Java實現示例5.1 基本實現示例5.2 訪問者模式處理復雜對象層次結構5.3 訪問者模式在文件系統中的應用 6. 訪問者模式的優缺點6.1 優點6.2 缺點 7. 訪問者…