3D視覺感知

目錄

3D視覺感知任務

單目3D感知

單目3D物體檢測 – 直接預測3D信息

單目3D物體檢測 – 總結

單目深度估計

雙目3D感知

多目3D感知


3D視覺感知任務

? 輸入:單攝像頭或多攝像頭生成的圖像數據
? 單張圖像
? 圖像序列
? 輸出
? 稀疏:物體在3D坐標系中的位置,大小,朝向,速度等
? 稠密:像素點的類別標簽和深度信息
? 算法
? 按輸入來分:單目,雙目,多目
? 按輸出來分:3D物體檢測,場景深度估計
主要難點
? 圖像是真實世界在透視視圖下的投影
? 透視投影導致距離/深度信息丟失
? 圖像上物體的大小隨著距離而變化
? 很難估計物體的實際距離和大小
? 解決方案
? 借助其它傳感器,比如激光雷達
? 借助幾何假設和約束來輔助求解病態問題
? 借助深度學習自動地從圖像中提取 3D 信息
? 借助多個攝像頭和立體視覺算法

單目3D感知

? 單目3D物體檢測
? 反變換
? 關鍵點和3D模型
? 2D/3D幾何約束
? 直接預測 3D 信息
? 單目深度估計
? 監督學習算法
單目 3D 物體檢測 反變換
? 基本思路
? 2D圖像反變換到3D世界坐標,再進行物體檢測
? 病態問題:通過一些額外信息來輔助解決
? 幾何假設:目標位于地面(Oy已知
? 深度估計:目標深度已知(Oz已知)
病態問題:已知[ pox,poy ]和 𝑓 ,求解[o x,oy,oz ]
輔助信息1:目標位于地面
? BEV-IPM:2D圖像變換到BEV視圖
? 假設路面和車輛坐標系都與世界坐標系平行 => 路面高度已知
? 在像素高度值已知的情況下,將圖像轉換到BEV視圖
? 采用YOLO網絡在BEV視圖下檢測目標的下邊框(與路面接觸部分)
助信息2:目標深度已知
? Pseudo-LiDAR
? 依據深度圖將輸入圖像轉換為3D點云數據
? 深度估計不依賴于特定的方法
? 可以采用單目,雙目,甚至低線束激光雷達(Pseudo-LiDAR++)
? 采用點云和圖像融合的算法來檢測3D物體
? 深度估計的精度非常關鍵
Wang et al., Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving, CVPR 2019
輔助信息2:目標深度已知
? 問題:可不可以直接采用類似RGB-D的數據表示呢?
? 遠處物體面積非常小,導致檢測不準確
? 相鄰像素深度差別可能很大( 比如物體邊緣),不適合卷積操作
基本思路
? 待檢測的目標(比如車輛)其大小和形狀相對比較固定
? 將3D模型與2D圖像上檢測的關鍵點進行匹配
單目 3D 物體檢測 關鍵點和 3D 模型
DeepMANTA(3D車輛檢測)
? 2D圖像上的檢測輸出
? 2D邊框 𝑩𝑩
? 2D關鍵點集合 𝑺𝑺 和可見度 𝑽𝑽
? 與3D模型的相似度 𝑻𝑻
? 根據 𝑻𝑻 選擇相似度最高的3D模型(相當于選擇一個車型)
? 匹配3D模型和2D輸出的關鍵點,得到3D關鍵點 𝑺𝑺 𝟑𝟑𝟑𝟑 和邊框 𝑩𝑩 𝟑𝟑𝟑𝟑
? 每一對( 𝑺𝑺 𝟑𝟑𝟑𝟑 , 𝑺𝑺 𝟐𝟐𝟐𝟐 )可以得到一個匹配度
基本思路
? 2D物體框的表示
? 4維變量:2D的中心點和大小
? 3D物體框的表示
? 9維變量:3D的中心點,大小和朝向
? 無法直接通過2D物體框求解
? 大小和朝向與視覺特征相關性強
? 中心點3D位置很難通過視覺特征預測
? 兩步流程
? 采用2D物體框內的圖像特征來估計物體大小和朝向
? 通過2D/3D的幾何約束來求解物體3D中心點的位置
Deep3DBox
? 約束條件:2D物體框的每條邊上都至少能找到一個3D物體框的角點。
? 超約束問題:約束數量(4個)大于未知參數(3個)數量。
? 這個超約束問題的求解過程也可以建模成一個網絡層,進行端到端訓練

單目3D物體檢測 直接預測3D信息

基本思路
? 兩階段檢測,Anchor-based
? 根據先驗知識生成稠密的3D物體候選
? 通過2D圖像上的特征對所有的候選框進行評分
? 評分高的候選框作為最終的輸出
? 單階段檢測,Anchor-free
? 直接從圖像回歸3D信息
? 根據先驗知識設定物體3D參數的初始值
? 神經網絡只需要回歸與實際值的偏差即可
兩階段檢測
? Mono3D
? 基于目標先驗位置(z坐標位于地面)和大小來生成稠密的3D候選框;
? 3D候選框投影到圖像坐標后,通過2D圖像上特征進行評分;
? 特征來自語義分割、實例分割、上下文、形狀以及位置先驗信息;
? 分數較高的候選再通過CNN進行分類和邊框回歸,以得到最終的3D物體框
兩階段檢測,Anchor-based
? TLNet
? 稠密的Anchor帶來巨大的計算量;
? 采用2D圖像上的檢測結果來降低Anchor數量;
? 2D檢測結果形成的3D視錐可以過濾掉大量背
景上的Anchor。
單階段檢測,Anchor-free
? FCOS3D
? 整體網絡結構與2D物體檢測非常相似,只是增加了3D回歸目標
單階段檢測,Anchor-free
? FCOS3D
? 3D回歸目標
? 2.5D中心(ΔX, ΔY,Depth): 3D物體框的中心投影到2D圖像;
? 3D大小(L,W,H)和朝向
單階段檢測,Anchor-free
? FCOS3D
? Centerness的定義
?
3D 中心點的 2D 投影為原點的高斯分布

單目3D物體檢測 總結

單目深度估計

為什么要做深度估計
? 3D物體檢測中經常需要深度估計的輔助
? 3D場景語義分割需要估計稠密的深度圖
? 基本思路
? 輸入:單張圖像
? 輸出:單張圖像(一般與輸入相同大小),每個像素值
對應輸入圖像的場景深度
? 常用的方法
? 傳統方法:利用幾何信息,運動信息等線索,通過手工設計
的特征來預測像素深度
? 深度學習:通過訓練數據學習到比手工設計更加優越的特征
全局和局部線索融合
? 全局分支:將圖像進行多層卷積和下采樣,得到整個場景的描述特征。
? 局部分支:在相對較高的分辨率上提取局部特征,并與全局特征融合。
? 也可以擴展為多個分支,對應不同的分辨率
DORN:回歸問題轉換為分類問題
? 多個分支提取不同尺度的特征:全局+局部
? 將連續的深度值劃分為離散的區間,每個區間作為一個類別
? 非均勻的深度區間劃分(80m范圍劃分大約 40到120個區間)

雙目3D感知

優勢
? 單目3D感知依賴于先驗知識和幾何約束;
? 深度學習的算法非常依賴于數據集的規模、質量以及多樣性;
? 雙目系統解決了透視變換帶來的歧義性;
? 雙目感知不依賴于物體檢測的結果,對任意障礙物均有效。
? 劣勢
? 硬件:攝像頭需要精確配準,車輛運行過程中也要始終保持配準的正確性;
? 軟件:算法需要同時處理來自兩個攝像頭的數據,計算復雜度較高
雙目深度估計
基本原理
? 概念和公式
? B: 基線長度(兩個相機之間的距離)
? f: 相機的焦距
? d: 視差(左右兩張圖像上同一個3D點之間的距離)
? f和B是固定的,要求解深度z,只需要估計視差d (xl-xr)
基本原理
? 視差估計:對于左圖中的每個像素點,需要找到右圖中與其匹配的點。
? 對于每一個可能的視差(范圍有限),計算匹配誤差,因此得到的三維的誤差數據稱為Cost Volume。
? 計算匹配誤差時考慮像素點附近的局部區域,比如對局部區域內所有對應像素值的差進行求和。
? 通過Cost Volume可以得到每個像素處的視差(對應最小匹配誤差的 𝑑𝑑 ),從而得到深度值
PSMNet
? 左右圖像上采用共享的卷積網絡進行特征提取
? 包含下采樣,金字塔結構和空洞卷積來提取多分辨率的信息并且擴大感受野
? 左右特征圖構建Cost Volume
? 3D卷積提取左右特征圖以及不同視差級別之間的信息
? 上采樣到原始分辨率,找到匹配誤差最小的視差值

多目3D感知

Mobileye和ZF的三目系統
? 通過不同焦距的攝像頭來覆蓋不同范圍的場景
? 包含一個150°的廣角攝像頭,一個52°的中距攝像頭和一個28°的遠距攝像頭
? 保證中近距的探測視野和精度,用于檢測車輛周邊的環境
? 最遠探測距離可以達到300米
Foresight的四目感知系統
? 增加不同波段的傳感器,獲取更多的環境信息
? 可見光雙目攝像頭 + 長波紅外(LWIR)雙目攝像頭
? 增強了在夜間環境以及在雨霧天氣下的適應能力
? 雙目紅外攝像頭安裝在擋風玻璃的左右兩側,以增加基線長度
Tesla的多目全景感知系統 FSD(Full Self Driving)
? 不同位置,不同探測范圍的攝像頭,覆蓋360度視場
? 集成了深度學習領域的最新研究成果,在多攝像頭融合方面也很有特點
? “向量空間”的概念
? 環境中的各種目標在世界坐標系中的表示空間;
? 對于物體檢測任務,目標在3D空間中的位置、大小、朝向、速度等描述特性組成了一個向量;
? 對于語義分割任務,車道線或者道路邊緣的參數化描述組成了一個向量;
? 所有描述向量組成的空間就是向量空間。
? 視覺感知系統的任務:將圖像空間轉化為向量空間
? 決策層融合(后融合)
? 在圖像空間中完成所有的感知任務,將結果映射到向量空間,最后融合多攝像頭的感知結果。
? 特征層融合(前融合)
? 將圖像特征轉換到世界坐標系,融合來自多個攝像頭的特征,最后得到向量空間中的感知結果

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86456.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86456.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86456.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

es中常規的根據字段查詢時走什么索引(說明:「常規的根據字段查詢」不包含分詞查詢)

在Elasticsearch中,“常規的根據字段查詢”且不涉及分詞的查詢(如精確匹配、范圍查詢),主要依賴以下索引機制: 一、核心索引類型及適用場景 字段類型索引結構典型查詢方式應用場景keyword倒排索引(未分詞…

MYSQL如何插入數據,效率會更高

在MySQL中,插入數據的效率可以通過多種方式逐步提升。以下是從簡單到復雜的優化路徑,幫助你逐步提高數據插入的性能: 一、基礎插入:逐條插入 這是最基礎的插入方式,適用于少量數據的插入操作。雖然簡單,但…

Rabbitmq的五種消息類型介紹,以及集成springboot的使用

交換機類型 Fanout Exchange 扇型交換機,這個交換機沒有路由鍵概念,就算你綁了路由鍵也是無視的。 這個交換機在接收到消息后,會直接轉發到綁定到它上面的所有隊列 Direct Exchange 直連型交換機,根據消息攜帶的路由鍵將消息投遞…

日語學習-日語知識點小記-進階-JLPT-真題訓練-N2階段(4):2022年12月2023年12月

日語學習-日語知識點小記-進階-JLPT-真題訓練-N2階段(4):2022年12月&2023年12月 1、前言(1)情況說明(2)工程師的信仰(3)真題訓練 2、2個卷的單詞部分1、 真題-2023年…

從代碼學習深度強化學習 - Actor-Critic 算法 PyTorch版

文章目錄 前言算法原理1. 從策略梯度到Actor-Critic2. Actor 和 Critic 的角色3. Critic 的學習方式:時序差分 (TD)4. Actor 的學習方式:策略梯度5. 算法流程代碼實現1. 環境與工具函數2. 構建Actor-Critic智能體3. 組織訓練流程4. 主程序:啟動訓練5. 實驗結果總結前言 在深…

Python 數據分析與可視化 Day 8 - Pandas 高級操作技巧

? 今日目標 掌握 Pandas 的索引體系(Index / MultiIndex)使用 set_index() 和 reset_index() 管理數據索引理解 pivot_table 與 melt、stack/unstack 重塑數據形態初步理解“寬表”與“長表”在數據分析與可視化中的應用場景 📚 一、深入理…

Spring Boot整合百度AI人臉比對實戰

目錄 一、簡述 二、依賴 三、代碼步驟 3.1 實體注入 3.2 服務實現 3.3 其它實現 四、小結 歡迎來到 盹貓(>^ω^<)的博客 本篇文章主要介紹了 [Spring Boot整合百度AI人臉比對實戰] ?博主廣交技術好友&#xff0c;喜歡文章的可以關注一下? 一、簡述 人臉識別在日…

使用 pip 安裝 numpy 包卡在 Preparing metadata 階段問題解決

TOC 1 問題描述 使用 pip 安裝numpy卡在下面最后一行的階段&#xff1a; Collecting numpy1.26.4 (from -r requirements.txt (line 2))Using cached https://mirrors.aliyun.com/pypi/packages/65/6e/09db70a523a96d25e115e71cc56a6f9031e7b8cd166c1ac8438307c14058/numpy-…

新手向:Anaconda3的安裝與使用方法

我們在剛開始接觸Python時使用的是Python的直接編譯器,如果我們需要進行其他的項目編寫往往需要使用另一個版本的Python ,這樣反復的下載很是麻煩并且還會造成系統變量的紊亂.這次我們引入Anaconda3,可創建虛擬的Python環境,滿足不同項目的需要,當不用的時候可以直接放心刪除不…

C#中的設計時構造函數

以下是關于設計時構造函數的詳細整理&#xff0c;包括定義、適用場景、相關概念和實際應用&#xff1a; 一、設計時構造函數的定義 設計時構造函數&#xff08;Design-time Constructor&#xff09;是專門為開發工具&#xff08;如Visual Studio、Blazor Designer等&#xff0…

Spring Boot 2.x 項目搭建 (一)

以下是基于Spring Boot 2.x&#xff08;兼容JDK 1.8&#xff09;的項目搭建指南及Markdown文檔生成方案&#xff0c;整合了多個搜索結果中的最佳實踐&#xff1a; 一、項目初始化 1. 使用Spring Initializr創建項目 步驟&#xff1a; 訪問 start.spring.io 或通過IDE&#x…

Kotlin作用域函數:掌握apply/let/run/with/also精髓

一、作用域函數詳解 1. apply&#xff1a;對調用對象進行配置或操作&#xff0c;并返回該對象本身。 接收者引用&#xff1a;this&#xff08;可省略&#xff0c;直接調用接收者成員&#xff09;返回值&#xff1a;接收者對象本身&#xff08;T&#xff09;核心用途&#xff…

Spring Boot監視器:應用監控終極指南

Spring Boot 監視器詳解 Spring Boot 監視器(Monitor)是用于監控和管理 Spring Boot 應用程序運行狀態的核心組件,主要通過 Spring Boot Actuator 和 Spring Boot Admin 兩大工具實現。 一、核心監視器組件 1. Spring Boot Actuator 功能定位:提供應用程序內部運行狀態的原…

SpringBoot 中 @Transactional 的使用

SpringBoot 中 Transactional 的使用 一、Transactional 的基本使用二、Transactional 的核心屬性三、使用避坑&#xff08;失效場景&#xff09;3.1 自調用問題3.2 異常處理不當3.3 類未被 Spring 管理3.4 異步方法內使用失效 四、工作實踐4.1 事務提交之后執行一些操作4.2 事…

6.26_JAVA_微服務_Elasticsearch

1、ES文檔中keyword意思是&#xff1a;字符串&#xff0c;但不需要分詞 2、ES細節CreateIndexRequest request new CreateIndexRequest("items");會讓你導包&#xff0c;會有兩個選擇&#xff1a; import org.elasticsearch.action.admin.indices.create.CreateInd…

Java 大視界 -- 基于 Java 的大數據可視化在智慧城市能源消耗動態監測與優化決策中的應用(324)

Java 大視界 -- 基于 Java 的大數據可視化在智慧城市能源消耗動態監測與優化決策中的應用&#xff08;324&#xff09; 引言&#xff1a;正文&#xff1a;一、Java 驅動的能源數據采集與預處理基建1.1 多源異構數據合規接入層&#xff08;ISO 50001IEC 61850 雙標準適配&#x…

C++ 快速回顧(二)

C 快速回顧&#xff08;二&#xff09; 前言一、友元類二、友元函數三、深淺拷貝淺拷貝深拷貝 前言 用于快速回顧之前遺漏或者補充C知識 一、友元類 友元的優點是可以快速的輕松的訪問的原本由于私有保護的字段和函數&#xff0c;同時這也是它的缺點這樣破壞了原本封裝性。 …

ldl-DeserializationViewer一款強大的序列化數據可視化工具

ldl-DeserializationViewer 一款強大的序列化數據可視化工具&#xff0c;能夠將Java序列化的緩存數據轉換為可讀的JSON格式&#xff0c;無需原始DTO類定義。 A powerful visualization tool for serialized data that converts Java serialized cache data to readable JSON f…

NetworkSecurity SIG成立,助力國產操作系統安全生態發展

近期&#xff0c;ZeroOnes實驗室團隊成員在OpenAtom openKylin&#xff08;簡稱“openKylin”&#xff09;社區發起成立NetworkSecurity SIG&#xff0c;負責基于openKylin系統開展網絡安全工具的研發與適配&#xff0c;助力國產操作系統安全生態發展。 ZeroOnes實驗室專注于網…

回歸任務與分類任務的區別

回歸任務&#xff08;Regression&#xff09;與分類任務&#xff08;Classification&#xff09;是機器學習的兩大核心任務類型&#xff0c;其根本區別在于輸出變量的性質和任務目標。以下是系統性對比&#xff1a; 1. 本質區別&#xff1a;輸出變量類型 任務類型輸出&#xf…