Depth Anything V2論文速讀

Depth Anything V2論文速讀

pingmian/2025/9/8 16:58:24/文章來源:https://blog.csdn.net/qq_69194611/article/details/151287416

這篇論文主要講了兩方面

1.為了解決模型在正常標注的現實圖像上訓練的缺陷問題、提出了新的模型訓練數據和訓練方法

真實標記圖像存在缺點：標簽噪聲（深度傳感器可能存在空洞、玻璃等物體反射導致精度不準確）、標簽細節粗糙（深度圖邊緣不明確，導致預測可能會過渡平滑）、人工標注費時費力成本高
合成數據的優點：細節標記清晰、深度為真實值、且獲取方便快捷
合成數據的缺陷：與真實圖像之間存在分布差異，合成圖像場景覆蓋范圍有限，場景是單一的，是通過預定義形成的固定場景類型，畢竟最終要部署識別的是真實圖像，所以僅用合成數據不能在真實圖像上得到很好的效果。

針對以上優缺點，作者提出了一種結合了合成圖像和真實圖像的訓練方法，使得模型既能獲得清晰的細節和真實的深度，又能省去人工標注并完美覆蓋真實場景。其訓練流程如下圖

先完全使用生成圖像在最大的模型上進行訓練得到最大的教師模型，這個模型是高度精確的、但和真實世界圖像數據分布不一致、且圖像多樣性有限。
然后使用該模型識別未經標記的真實圖像，得到偽標記的真實圖像。
這些偽標記圖像作為數據集參與最終學生模型的訓練，得到最終高度多樣和精確、很好的粒度細節、真實的世界分布。
這樣訓練的學生模型能更好地處理真實世界的圖像數據，完成深度估計等視覺任務。

2.針對現有評估基準、提出了新的評判標準

現有評估基準使用的圖像數據是存在大量噪聲的，如下圖左所示鏡子內部深度在評估時使用的標注數據錯誤而模型識別出的深度正確，右圖顯示有部分細節處存在噪聲和空洞，而模型則能很好識別這些細節。

新的評估標準中在目標圖像中取大量樣本點，在這些樣本點中取兩兩為一對，使用四個模型對這些點的相對遠近進行投票，如果四個模型所認為的遠近都一致則通過，否則交由人工判斷。
新的評估標準中的圖像多樣性也非常豐富，如右圖所示。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/95793.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/95793.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/95793.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

數據庫原理及應用_數據庫管理和保護_第5章數據庫的安全性_理論部分

數據庫原理及應用_數據庫管理和保護_第5章數據庫的安全性_理論部分

前言 "<數據庫原理及應用>(MySQL版)".以下稱為"本書"中第5章前6節內容引入數據庫的安全性是非常重要的,表現在兩個方面:一數據的訪問權限,二數據的物理安全.本書在這一章前6節基本上都是理論性的內容,選擇其中重要部分進行解讀. 5.1數據庫安全性…

閱讀更多...

QT6 配置 Copilot插件

QT6 配置 Copilot插件

下載項目：解壓 GitHub - github/copilot.vim: Neovim plugin for GitHub Copilot Node.js必須安裝 Node.js — Download Node.js 例如先安裝一個qt6 ,qt Cteatror選擇新版本的設置效果，注釋里面寫要求，tab同意 #include "mainwindow…

閱讀更多...

ArcGIS學習-15 實戰-建設用地適宜性評價

ArcGIS學習-15 實戰-建設用地適宜性評價

選定參評因子高程坡度河流道路土地利用確定因子分析標準以下僅參數僅做展示，并非合理的數值高程 0-100m：100 分，此高程范圍通常地勢較為平坦，建設成本相對較低，適宜建設。100-200m：70 分&#xff…

閱讀更多...

[C/C++學習] 7.“旋轉蛇“視覺圖形生成

[C/C++學習] 7.“旋轉蛇“視覺圖形生成

參考文獻: 童晶. C和C游戲趣味編程[M].人民郵電出版社.2021. 一.弧度制和角度制的轉換弧度制數值和角度對應表: (PI為圓周率，值為3.1415926)弧度制角度制00PI/630PI/360PI/2902*PI/3120PI1802*PI360二.扇形的繪制 easyx的solidpie( )函數用于在一個矩形區域內繪制…

閱讀更多...

自然語言處理之PyTorch實現詞袋CBOW模型

自然語言處理之PyTorch實現詞袋CBOW模型

在自然語言處理（NLP）領域，詞向量（Word Embedding）是將文本轉換為數值向量的核心技術。它能讓計算機“理解”詞語的語義關聯，例如“國王”和“女王”的向量差可能與“男人”和“女人”的向量差相似。而Word2…

閱讀更多...

TCP, 三次握手, 四次揮手, 滑動窗口, 快速重傳, 擁塞控制, 半連接隊列, RST, SYN, ACK

TCP, 三次握手, 四次揮手, 滑動窗口, 快速重傳, 擁塞控制, 半連接隊列, RST, SYN, ACK

目錄 TCP 是什么：面向連接可靠字節流三次握手：為什么不是兩次四次揮手與 TIME_WAIT：誰等誰序列號/確認號與去重、排序、確認重傳機制：超時重傳與快速重傳滑動窗口與流量控制擁塞控制：慢啟動/擁塞避免/快重傳/快恢…

閱讀更多...

CentOS 7.2 虛機 ssh 登錄報錯在重啟后無法進入系統

CentOS 7.2 虛機 ssh 登錄報錯在重啟后無法進入系統

文章目錄前言1. 故障描述2. 故障診斷3. 故障原因4. 解決方案總結前言上周幫用戶處理了一個 linux 虛擬機在重啟后無法正常進入操作系統的故障，覺得比較有意思，在這里分享給大家。 1. 故障描述事情的起因是一臺系統版本為 CentOS 7.2 的 VMware 虛擬機…

閱讀更多...

《從使用到源碼：OkHttp3責任鏈模式剖析》

《從使用到源碼：OkHttp3責任鏈模式剖析》

一從使用開始0.依賴引入implementation ("com.squareup.okhttp3:okhttp:3.14.7")1.創建OkHttpClient實例方式一：直接使用默認配置的Builder//從源碼可以看出，當我們直接new創建OkHttpClient實例時，會默認給我們配置好一個Builder …

閱讀更多...

安裝3DS MAX 2026后，無法運行，提示缺少.net core的解決方案

安裝3DS MAX 2026后，無法運行，提示缺少.net core的解決方案

今天安裝了3DS MAX 2026（俗稱3DMAX），安裝完畢后死活運行不了。提示如下： 大意是找不到所需的.NET Core 8庫文件。后來搜索了下，各種文章說.NET CORE和.NET FRAMEWORK不是一個東西。需要單獨下載安裝。然后根據提示&…

閱讀更多...

FastAPI + LangChain 和 Spring AI + LangChain4j

FastAPI + LangChain 和 Spring AI + LangChain4j

FastAPI+LangChain和Spring AI+LangChain4j這兩個技術組合進行詳細對比。核心區別：特性維度 FastAPI + LangChain (Python棧) Spring AI + LangChain4j (Java棧) 技術棧 Python生態 (FastAPI, LangChain) Java生態 (Spring Boot, Spring AI, LangChain4j) 核心設計哲學靈活…

閱讀更多...

Apache 2.0 開源協議詳解：自由、責任與商業化的完美平衡-優雅草卓伊凡

Apache 2.0 開源協議詳解：自由、責任與商業化的完美平衡-優雅草卓伊凡

Apache 2.0 開源協議詳解：自由、責任與商業化的完美平衡-優雅草卓伊凡引言由于我們優雅草要推出收銀系統，因此要采用開源代碼，卓伊凡目前看好了一個產品是apache 2.0協議，因此我們有必要深刻理解apache 2.0協議避免觸犯版權問題。…

閱讀更多...

自學嵌入式第37天：MQTT協議

自學嵌入式第37天：MQTT協議

一、MQTT（消息隊列遙測傳輸協議Message Queuing Telemetry Transport）1.MQTT是應用層的協議，是一種基于發布/訂閱模式的“輕量級”通訊協議，建構于TCP/IP協議上，可以以極少的代碼和有限的帶寬為連接遠程設備提供實時可…

閱讀更多...

RabbitMQ--延時隊列總結

RabbitMQ--延時隊列總結

一、延遲隊列概念延遲隊列（Delay Queue）是一種特殊類型的隊列，隊列中的元素需要在指定的時間點被取出和處理。簡單來說，延時隊列就是存放需要在某個特定時間被處理的消息。它的核心特性在于“延遲”——消息在隊列中停留一段時間…

閱讀更多...

Java 提取 PDF 文件內容：告別手動復制粘貼，擁抱自動化解析！

Java 提取 PDF 文件內容：告別手動復制粘貼，擁抱自動化解析！

在日常工作中，我們經常需要處理大量的 PDF 文檔，無論是提取報告中的關鍵數據，還是解析合同中的重要條款，手動復制粘貼不僅效率低下，還極易出錯。當面對海量的 PDF 文件時，這種傳統方式更是讓人望而卻步。那…

閱讀更多...

關鍵字 const

關鍵字 const

Flutter 是一個使用 Dart 語言構建的 UI 工具包，因此它完全遵循 Dart 的語法和規則。Dart 中的 const 是語言層面的特性，而 Flutter 因其聲明式 UI 和頻繁重建的特性，將 const 的效能發揮到了極致。Dart 中的 const（語言層面&…

閱讀更多...

Ubuntu22.04中使用cmake安裝abseil-cpp庫

Ubuntu22.04中使用cmake安裝abseil-cpp庫

Ubuntu22.04中使用cmake安裝abseil-cpp庫關于Abseil庫 Abseil 由 Google 的基礎 C 和 Python 代碼庫組成，包括一些正支撐著如 gRPC、Protobuf 和 TensorFlow 等開源項目并一起 “成長” 的庫。目前已開源 C 部分，Python 部分將在后續開放。 Abseil …

閱讀更多...

FreeRTOS項目（序）目錄

FreeRTOS項目（序）目錄

這章是整個專欄的目錄，負責記錄這個小項目的開發日志和目錄。附帶總流程圖。目錄項目簡介專欄目錄開發日志總流程圖項目簡介本項目基于STM32C8T6核心板和FreeRTOS，實現一些簡單的功能。以下為目前已實現的功能。 （1&#xff09…

閱讀更多...

Python 多任務編程：進程、線程與協程全面解析

Python 多任務編程：進程、線程與協程全面解析

目錄一、多任務基礎：并發與并行 1. 什么是多任務 2. 兩種表現形式二、進程：操作系統資源分配的最小單位 1. 進程的概念 2. 多進程實現多任務 2.1 基礎示例：邊聽音樂邊敲代碼 2.2 帶參數的進程任務 2.3 進程編號與應用注意點 2.3.…

閱讀更多...

ADSL技術

ADSL技術

<摘要> ADSL（非對稱數字用戶線路）是一種利用傳統電話線實現寬帶上網的技術。其核心原理是頻率分割：將一根電話線的頻帶劃分為語音、上行數據（慢）和下行數據（快）三個獨立頻道，從…

閱讀更多...

信號衰減中的分貝到底是怎么回事

信號衰減中的分貝到底是怎么回事

問題：在一個低通濾波中，經常會看到一個值-3dB（-3分貝），到底是個什么含義？ 今天我就來粗淺的講解這個問題。在低通濾波器中，我們說的 “截止頻率”（或叫 - 3dB 點）&…

閱讀更多...

最新文章