【BEV Review】論文 Delving into the Devils of Bird’s-eye-view 2022-9 筆記

背景
一般來說,自動駕駛車輛的視覺傳感器(比如攝像頭)安裝在車身上方或者車內后視鏡上。無論哪個位置,攝像頭所得到的都是真實世界在透視視圖(Perspective View)下的投影(世界坐標系到圖像坐標系)。這種視圖與人類的視覺系統很類似,因此很容易被人類駕駛員理解。但是透視視圖有一個致命的問題,就是物體的尺度隨著距離而變化。因此,當感知系統從圖像上檢測到了前方有一個障礙物時,它并不知道這個障礙物距離車輛的距離,也不知道障礙物的實際三維形狀和大小

BEV 優點:
首先,它沒有在二維任務中普遍存在的遮擋或尺度問題。識別閉塞或交叉的車輛可以更好;其次,比檢測分割+跟蹤的方法更直觀,更方便后面融合,規劃,控制模塊的開發部署。

BEV核心問題:
a: 如何從不同的傳感器通過view transform模塊重新構建丟失的3d信息
b: 如何從BEV網格獲取GT標注
c: 如何制定一條從不同sources和views獲得features的pipeline
d: 如何根據不同場景下傳感器適配和泛化算法

Introduction:

自動駕駛的感知識別,本質上是一個從感知傳感器往物理世界重建的過程。
根據輸入數據,我們將BEV感知研究分為三個部分,主要是
1:BEV相機、BEV激光雷達和BEV融合,BEV相機表示以視覺或視覺為中心的算法,用于三維目標檢測或分割;
2:BEV激光雷達描述從點云輸入的檢測或分割任務;
3:BEV融合描述了多個傳感器輸入的融合機制,如相機、激光雷達、GNSS、測程、HD-Map、CAN-總線等。
在這里插入圖片描述在本報告中,我們的目的是總結最近先進的BEV感知研究的一般pipeline和關鍵見解,除了各種輸入組合和任務

Motivation:
主要是三方面,
1 意義:
目前基于視覺和基于Lidar的方案差距過大,這自然促使我們去研究視覺解決方案是否能夠擊敗或與激光雷達方法。
從學術的角度來看,設計一個基于相機的pipeline,使其性能優于激光雷達的本質,是更好地理解從二維視角輸入到三維幾何輸出的視圖轉換過程。如何像點云一樣將相機特征轉換為幾何表示,給學術界留下了有意義的影響。
在工業考慮上,一套激光雷達設備進入SDV的成本很昂貴;OEM(原始設備制造商,如福特、寶馬等)更喜歡一個廉價而準確的軟件算法部署。改進激光雷達的純相機算法自然就符合這一目標,因為一個相機的成本通常比激光雷達低10倍。
此外,基于攝像頭的pipeline可以識別遠距離的物體和基于顏色的道路元素(例如,交通燈),這兩種情況是激光雷達的方法是無法做到的。

盡管基于相機和激光雷達的感知有幾種不同的解決方案,但在優越的性能和工業友好的部署方面,BEV是基于激光雷達的方法的最佳候選方案之一。
此外,最近的趨勢表明,BEV表示在多攝像機輸入方面也取得了巨大的進展。因為相機和激光雷達數據可以投射到BEV空間,BEV的另一個潛力是,我們可以很容易地在統一的表示下融合來自不同模態的特征。

2 (研究)空間:
BEV感知背后的要點是從相機和激光雷達輸入中學習一個魯棒和可一般化的特征表示。
這在激光雷達分支中很容易實現,因為輸入(點云)具有這樣的3D屬性,在相機分支中,這是非常不容易的,因為從單目或多視圖設置中學習三維空間信息是困難的。
另一個關鍵問題是如何在管道的早期或中期階段融合特性。大多數傳感器融合算法將該問題視為一個簡單的對象級融合或沿著blob通道的簡單特征連接。這可能解釋了為什么由于相機和激光雷達之間的不對準或深度預測不準確,一些融合算法的表現低于僅使用激光雷達的解決方案。如何對齊和整合來自多模態輸入的特征是至關重要的作用,從而留下了廣泛的創新空間。

3 準備就緒:
open數據集都給你準備好了,可以盡情測試算法。同時 Transformer , ViT , Masked Auto-encoders (MAE) and CLIP, 我們相信這些工作將有利于和激勵BEV感知研究。

3D感知研究背景
1 基于單目相機的目標檢測:
主要就是預測RGB圖像的深度信息。由于從單個圖像中估計深度是一個不適定的問題,通常的基于單眼攝像機的方法的性能不如基于激光雷達的方法

2 激光雷達的檢測和分割:
激光雷達用三維空間中的一組點來描述周圍的環境,這些點可以捕獲物體的幾何信息。盡管缺乏顏色和紋理信息,而且感知范圍有限,基于激光雷達的方法由于深度先驗的優勢大大優于相機改進的方法。

3 傳感器融合:
相機,激光雷達和毫米波雷達。每個傳感器都有其優缺點。
相機數據包含密集的顏色和紋理信息,但不能捕獲深度信息。
激光雷達提供了準確的深度和結構信息,但其范圍很有限,并且具有稀疏性。
毫米波波雷達比激光雷達更稀疏,但有更長的傳感范圍,可以從移動的物體中捕獲信息。

如何融合來自不同模式的數據仍然是一個具有挑戰性的問題。

數據集和度量標注
對于BEV感知任務,三維邊界框標注和三維分割標注是關鍵,高清地圖配置已成為主流趨勢。

KITTI:
它有7481張訓練圖像和7518張測試圖像用于三維目標檢測任務。它也有相應的點云捕獲從速差激光掃描儀。測試集分為3個部分:簡單、中等和硬,主要由檢測框的大小和遮擋級別決定。目標檢測的評價分為兩種類型:三維目標檢測評價和鳥瞰圖評價。KITTI是第一個用于多個自動駕駛任務的綜合數據集,它吸引了社區的廣泛關注。

Waymo:
Waymo開放數據集有很多版本,以v1.3為例子 ,在訓練、驗證和測試集中分別包含798、202和80個視頻序列。每個序列有5個激光雷達和5個側左SideLeft、前左FrontLeft、前Front、右、右側視圖的圖像分辨率為1920×1280像素或1920×886像素。Waymo是大規模和多樣化的。隨著數據集版本的不斷更新,它正在不斷發展。每年的Waymo開放挑戰都會定義新的任務,并鼓勵社區去解決這些問題。

NuScenes:
NuScenes是一個大型的自動駕駛數據集,它包含了在兩個城市的1000個駕駛場景。850個場景用于訓練/驗證,150個場景用于測試。每個場景都有20秒長。它有4萬個關鍵幀,整個傳感器套件,包括6個攝像頭,1個激光雷達和5個毫米波雷達。相機圖像分辨率為1600×900。同時,發布相應的HD-Map和CANbus數據,探索多種輸入的輔助。由于nuScenes提供了多樣化的多傳感器設置,在學術文獻中越來越流行;數據規模沒有Waymo那么大,這使得在這個基準上快速驗證想法非常有效。
這里介紹一下NuScenes的評估指標NDS:
NuScenes檢測分數(NDS)是幾個指標的組合: mAP, mATE (Average Translation Error),
mASE (Average Scale Error), mAOE (Average Orientation
Error), mAVE (Average Velocity Error) and mAAE (Average
Attribute Error).。
NDS是通過使用上述指標的加權和和來計算的。. The weight of mAP is 5 and 1 for
the rest. In the first step the TPerror is converted to TPscore
as shown below .
在這里插入圖片描述

Methedology of BEV
在本節中,我們將詳細描述來自學術界和工業界對BEV感知的各種方法。
我們根據輸入模式在三種設置中區分了BEV pipeline ,
即1,BEV相機;(僅限相機的3D感知);2,BEV激光雷達;3,BEV融合。

下面對近年重要的BEV相關論文做了一個總結,我認為可以主要關注他們的INPUT格式和貢獻。
在 Input Modality下,
“L”表示激光雷達,
“SC”表示單攝像機,
“MC”表示多攝像機,
“T”表示時間信息。

在Task下,“ODet”用于三維目標檢測,“LDet”用于3D車道檢測,“MapSeg”用于地圖分割,“planning”用于運動規劃,“MOT”用于多目標跟蹤。
Depth Supervision means either camera-only model uses sparse/dense depth map to supervise the model, ? for yes, ? for no, - for LiDAR-input model. 【這一句我不太確定】,應該指的是:深度監督意味著任何一個camer-only的模型使用了稀疏或密集的深度地圖來監督模型, ? 表示用了, ? 表示沒有用,- 表示輸入是Lidar數據,本身就有深度信息所以不考慮這方面。
在數據集下,
“nuS”表示 nuScenes dataset ,
“WOD”表示 Waymo Open Dataset [8],
“KITTI” 表示KITTI dataset [11],
“Lyft” 表示 Lyft Level 5 Dataset [28],
“OpenLane”表示 OpenLane dataset [26],
“AV”表示Argoverse Dataset [24],
“Carla” 表示carla simulator [40],
“SUN” SUN RGB-D dataset [41],
“ScanNet” ScanNet indoor scenes dataset。
在這里插入圖片描述
原文中還有一個表格列舉了上面這些論文的一些性能,我這里不列舉了。

1 BEV Camera-only
camera-only的3D感知可以分為三個領域:單相機設置,立體設置和多相機設置,他們有不同的方法來解決深度問題。
由于多臺相機的方法通常從單臺相機的baseline開始,所以我們也從單目相機的baseline設置開始。我們使用“二維空間”表示帶有相機平面坐標的透視試圖(perspective view),“三維空間”表示帶有世界坐標的三維真實世界空間,“BEV空間”表示以下文的鳥瞰圖。
在這里插入圖片描述
如上圖描述,一個camera-only的3D感知系統可以劃分為三部分,
分別是:2D特征提取器、視圖轉換模塊view transform module(可選),3D解碼器。
下面view transform module都稱為VTM。

通常有兩種方法來執行VTM,一個是執行轉換從三維空間到二維空間,另一種是從二維空間到三維空間進行轉換,這兩者要么在三維空間用物理先驗要么利用三維監督。這種轉換可以表述為:
F 3 D ( x , y , z ) = M t r a n s ( F 2 D ? ( u ^ , v ^ ) , [ R , T ] , K ) F_{3D}(x,y,z)=M_{trans}(F^{*}_{2D}(\hat{u},\hat{v}),[R,T], K) F3D?(x,y,z)=Mtrans?(F2D??(u^,v^),[R,T],K)
其中 F 3 D F_{3D} F3D?KaTeX parse error: Expected '}', got 'EOF' at end of input: F_{2D表示3D特性(或者voxel)和2D特征,x,y,z代表3D空間的坐標, M t r a n s M_{trans} Mtrans?代表VTM, u ^ \hat{u} u^, v ^ \hat{v} v^代表對應的二維坐標的x,y,z(注意,這可能取決于特定的VTM的不同)。
[R, T] 和 代表相機外參和內參,詳見附錄B.1
3D解碼器在2D/3D空間中接收特征,并輸出3D感知結果,如三維bounding boxes,BEV地圖分割、3D車道關鍵點等。
大多數3D解碼器來自基于lidar的方法,它們在voxel空間/BEV空間進行檢測,但仍有一些只有相機的3D解碼器利用二維空間中的特征,直接回歸3D目標的定位。

2 View Transform Module (VTM)
最近的研究主要集中在VTM[3,4,10,26,47,48,49,51,56,59]上,其中三維信息是由二維特征或三維先驗假設構建的.
由于我最近在看VTM相關內容,我把上述文章都列出來

  • 3:E. Xie, Z. Yu, D. Zhou, J. Philion, A. Anandkumar, S. Fidler, P. Luo, and J. M. Alvarez, “M2BEV: Multi-camera joint 3d detection and segmentation with unified birds eye view representation,” arXiv preprint arXiv:2204.05088, 2022
  • 4: Z. Li, W. Wang, H. Li, E. Xie, C. Sima, T. Lu, Q. Yu,
    and J. Dai, “BEVFormer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal
    transformers,” arXiv preprint arXiv:2203.17270, 2022.
  • 10:T. Wang, J. Pang, and D. Lin, “Monocular 3d object detection with depth from motion,” arXiv preprint arXiv:2207.12988, 2022
  • 26:L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li,
    C. He, J. Shi, Y. Qiao, and J. Yan, “PersFormer: 3d lane detection via perspective transformer and the openlane benchmark,” arXiv preprint arXiv:2203.11089, 2022.
  • 47:J. Huang, G. Huang, Z. Zhu, and D. Du, “BEVDet: High performance multi-camera 3d object detection in bird eye-view,” arXiv preprint arXiv:2112.11790, 2021.
  • 48:Y. Liu, T. Wang, X. Zhang, and J. Sun, “Petr: Position embedding transformation for multi-view 3d object detection,” arXiv preprint arXiv:2203.05625, 2022.
  • 49:Y. Li, Z. Ge, G. Yu, J. Yang, Z. Wang, Y. Shi, J. Sun, and Z. Li, “BEVDepth: Acquisition of reliable depth for multiview 3d object detection,” arXiv preprint arXiv:2206.10092, 2022
  • 51:Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.G. Jiang, “Polarformer: Multi-camera 3d object detection with polar transformers,” arXiv preprint arXiv:2206.15398,2022.
  • 56:A. Saha, O. Mendez, C. Russell, and R. Bowden, “Translating images into maps,” in IEEE International Conference on Robotics and Automation, 2022.
  • 59:N. Garnett, R. Cohen, T. Pe’er, R. Lahav, and D. Levi, “3d multiple lanenet: end-to-end 3d multiple lane detection,” in IEEE International Conference on Computer Vision, 2019

總的來說,VTM 可以分為兩個方面,一是利用二維特征構造深度信息和將二維特征“lift 提升”到三維空間;另一種是通過3D-to-2D投影映射將二維特征編碼到三維空間。我們將第一種方法命名為2D- 3D,將第二種方法命名為3D-2D。下圖給出了通過這兩種方法執行VTM的摘要路線圖。
在這里插入圖片描述
在VTM中,有兩個方式編碼3D信息,一種是從2D特征中預測深度信息;另一種是從3D空間中采樣2D特征。
對我個人來說,第一種方式很好理解,就是對于camera采集的的RGB圖像,我們用算法預測它的深度信息就行了。
LSS [“Lift, splat, shoot”]
首先引入了2D-3D方法,預測二維特征上每個網格的深度分布,然后通過相應的深度將每個網格的二維特征“提升”到體素空間,并采用基于lidar激光雷達的方法執行下游任務。這個過程可以表述為

xxxxxxxxxxxxxx 公式

在LSS 之后,還有另一項工作遵循formulating depth as bin-wise distribution 的概念,即CaDDN 。CaDDN采用類似的網絡預測深度分布(分類深度分布),將體素空間特征壓縮到BEV空間,最后進行三維檢測。LSS 和CaDDN 的主要區別在于,CaDDN使用 depth ground truth 來監督其分類深度分布預測,從而有更優秀的深度預測網絡從二維空間中提取三維信息。請注意,當我們聲稱這是“一個更好的深度網絡”時,它實際上是在特征層面上學習路面和透視視圖之間的隱式投影。這條路帶來了隨后的工作,如BEVDet 及其時間版本BEVDet4D ,BEVDepth ,BEVFusion 等。
請注意,在立體設置中,深度值/分布更容易通過強先驗獲得,因為相機之間的距離(即系統的baseline)應該是恒定的。這個過程可以被描述為:
D ( u , v ) = f × b d ( u , v ) D(u,v)=f\times{\frac{b}{d(u,v)}} D(u,v)=f×d(u,v)b?
其中,d (u,v)是在位置(u,v)上的一對圖像的水平視差,視差等于同名點對在左視圖的列坐標減去在右視圖上的列坐標,是像素單位,f為照相機的焦距,見附錄B.1
D (u、v)是(u、v)處的深度值,b是上述提到的系統baseline的長度。
LIGA Stereo [92]和DSGN [65]利用了這種強大的先驗,在KITTI排行榜上的表現與基于激光雷達的替代方案媲美。

而對于3D-2D方案,可以追溯到30年前。當Inverse Perspective Mapping(IPM)將從三維空間到二維空間的投影有條件地假設三維空間中的相應點位于水平平面上。
這種變換矩陣可以從攝像機的內在參數和外在參數[94]的數學上推導出,該過程的細節在附錄B.1
一系列的工作應用IPM,以預處理或后處理的方式將元素從透視視角轉換為鳥瞰視圖。在視圖轉換的背景下,OFTNet 首先引入了3D-2D方法,即從3D到2D的特征投影,它將2D特征投影到體素空間(3D空間),它基于的假設是,在三維空間中,從相機原點沿光線到特定點的深度分布是均勻的。這個假設適用于自動駕駛的大多數場景,但在起伏的道路上,有時不管用。
同時,大量的BEV地圖分割工作利用多層感知器或Transformer架構,在沒有攝像機參數的情況下隱式建模3D-2D投影。
最近,受特斯拉發布了感知系統[6]的技術路線圖的啟發,3D-2D幾何投影和神經網絡的結合成為了流行的[4,26,48,56,86,96]。請注意,Transformer體系結構中的交叉注意機制在概念上滿足了這種幾何投影的需要,可以表達為:

xxxxxx公式8

q, k, v stand for query, key and value, P x , y , z P_{x,y,z} Px,y,z?是體素空間中預定義的錨點,其他值和之前的公式一樣意義,一些[4,48,86]方法利用相機參數將 P x , y , z P_{x,y,z} Px,y,z?投影到圖像平面上,使模型快速收斂。
為了獲得具有魯棒性的檢測結果,BEVFormer[4]利用Transformer中的交叉注意機制來增強3D-2D視圖轉換的建模。其他的[50,97]緩解了網格采樣器,以有效地加速這一過程,以實現大規模生產。然而,這些方法在很大程度上依賴于相機參數的準確性,這些參數在長時間駕駛下容易發生變化。

BEV及透視方法的探討

在僅使用相機的三維感知的初期,主要的焦點是如何從2D感知空間預測三維物體的位置。這是因為二維感知在那個[1,2,98,99]階段發展得很好,所以如何使二維探測器具有感知三維場景的能力成為主流方法[62,82,83,100]。
后來,一些研究涉及了BEV,因為在這種視角下,很容易解決三維空間中相同大小的物體由于與相機的距離而在圖像平面上大小非常不同的問題,包括遮擋問題。
這一系列的工作[43,46,65,89,92]要么預測深度信息,要么利用三維先驗假設來補償攝像機輸入中三維信息的損失。
然而最近基于bev的方法[3,4,5,47,49,91,101]已經席卷了3D感知世界,但值得注意的是,這種成功主要來自于三個部分:

  1. 第一個原因是nuScenes數據集[7],它具有多攝像頭設置,非常適合在BEV下應用多視圖特征聚合。
  2. 第二個原因是,大多數只有相機的BEV感知方法在檢測頭和相應的損失設計上都從基于激光雷達的方法[44,45,67,84,85,102,103])中獲得了很大的幫助。
  3. 第三個原因是,單目方法[82,83,100]的長期發展使基于bev的方法在處理透視視角的特征表達方面蓬勃發展,其核心問題是如何從二維圖像中重建丟失的三維信息。
    為此,基于bev的方法和透視方法是解決同一問題的兩種不同的方法,它們并不相互排除

3.2 BEV Lidar
暫略
3.3 BEV Fusion
暫略

3.4 BEV感知的工業界應用
下面是透視視角方法的pipeline,激光雷達軌跡直接生成三維結果。基于幾何先驗,從二維結果轉換為圖像的三維結果。然后,我們融合了來自圖像和激光雷達的預測,利用一些人工設計的方法在現實的場景中并不總是表現得很好。
在這里插入圖片描述
相反,如下圖,基于BEV的方法,利用神經網絡進行二維到三維轉換,整合特征,而不是來自不同模態的直接檢測輸出,導致手工設計更少,魯棒性更強。
在這里插入圖片描述

4 評估

4.2 BEV Encoder
(a) 2D Feature Extractor
(b) View transformation

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/36711.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/36711.shtml
英文地址,請注明出處:http://en.pswp.cn/news/36711.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ssm柚子云電子商城java圖書購物電子商務管理jsp源代碼

本項目為前幾天收費幫學妹做的一個項目,Java EE JSP項目,在工作環境中基本使用不到,但是很多學校把這個當作編程入門的項目來做,故分享出本項目供初學者參考。 一、項目描述 ssm柚子云電子商城 系統有2權限:前臺、后…

SpringBoot筆記:SpringBoot 集成 Dataway 多數據源配置(二)

文章目錄 前言核心代碼和配置yml 配置注入多數據源常用Spi實現swagger 配置自定義 Udf指定數據源進行查詢 前言 之前簡單介紹了一下 Dataway 使用,本文繼續介紹一下它的多數據源配置和使用。 核心代碼和配置 yml 配置 # springboot多環境配置 #端口,…

JavaScript應用:五子棋游戲實戰開發

🏆作者簡介,黑夜開發者,全棧領域新星創作者?,CSDN博客專家,阿里云社區專家博主,2023年6月csdn上海賽道top4。 🏆數年電商行業從業經驗,歷任核心研發工程師,項目技術負責…

面試熱題(螺旋矩陣)

給你一個 m 行 n 列的矩陣 matrix ,請按照 順時針螺旋順序 ,返回矩陣中的所有元素 一看到這個大家有沒有想到 就是一個螺旋形狀,那這道題我們應該怎么解決? 我們先來仔細的看,它這種螺旋形狀的遍歷是先【右-下-左-上】…

Docker中Tomcat部署步驟

第一次訪問沒有東西。

為什么我不推薦任何人用C語言作為編程啟蒙第一課?

前言 寫了20多年的代碼,之前做過阿里的高級架構師,在技術這條路上跌跌撞撞了很多,我今天分享一些我個人的自學方法給各位。為什么我會說:不推薦任何人用C語言作為編程啟蒙第一課? 這里有很多同學要站出來說了&#x…

實現CP指令

一、文件的打開創建 #include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>int open(const char *pathname, int flags); flags: O_RDONLY 只讀 O_WRONLY 只寫 O_RDWR 可讀可寫 int open(const char *pathname, int flags, mode_t mode); 如果 …

VsCode美化 - VsCode自定義 - VsCode自定義背景圖

VsCode美化 - VsCode自定義 - VsCode自定義背景圖&#xff1a;添加二次元老婆圖到VsCode 前言 作為一個二刺螈&#xff0c;VsCode用久了&#xff0c;總覺得少了些什么。是啊&#xff0c;高效的代碼生產工具中怎么能沒有老婆呢&#xff1f; 那就安裝一個VsCode插件把老婆添加…

章節7:Burp Intruder模塊

章節7&#xff1a;Burp Intruder模塊 參考資料 https://portswigger.net/burp/documentation/desktop/tools/intruder 01 Intruder模塊作用與原理 原理 http://xxx.xx.com/bbs/index.php?namewuyanzu&mottogo 對請求參數進行修改&#xff0c;分析響應內容&#xff0…

Linux 內核第一版 (v0.01) 開源代碼解讀

探索Linux v0.01的內部結構&#xff0c;Linux內核經常被認為是一個龐大的開源軟件。在撰寫本文時&#xff0c;最新版本是v6.5-rc5&#xff0c;包含36M行代碼。不用說&#xff0c;Linux是幾十年來許多貢獻者辛勤工作的成果。 Linux 內核首個開源版本 (v0.01) 的體積非常小&…

四、Dubbo擴展點加載機制

四、Dubbo擴展點加載機制 4.1 加載機制概述 Dubbo良好的擴展性與框架中針對不同場景使用合適設計模式、加載機制密不可分 Dubbo幾乎所有功能組件都是基于擴展機制&#xff08;SPI&#xff09;實現的 Dubbo SPI 沒有直接使用 Java SPI&#xff0c;在它思想上進行改進&#xff…

競賽項目 深度學習的視頻多目標跟蹤實現

文章目錄 1 前言2 先上成果3 多目標跟蹤的兩種方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟蹤過程4.1 存在的問題4.2 基于軌跡預測的跟蹤方式 5 訓練代碼6 最后 1 前言 &#x1f525; 優質競賽項目系列&#xff0c;今天要分享的是 基于深度學習的視頻多目標跟蹤實現 …

全網最牛,Appium自動化測試框架-關鍵字驅動+數據驅動實戰(二)

目錄&#xff1a;導讀 前言一、Python編程入門到精通二、接口自動化項目實戰三、Web自動化項目實戰四、App自動化項目實戰五、一線大廠簡歷六、測試開發DevOps體系七、常用自動化測試工具八、JMeter性能測試九、總結&#xff08;尾部小驚喜&#xff09; 前言 util 包 util 包…

數據可視化工具LightningChart .NET正式發布v10.5.1——擁有全新的3D新功能

LightningChart.NET完全由GPU加速&#xff0c;并且性能經過優化&#xff0c;可用于實時顯示海量數據-超過10億個數據點。 LightningChart包括廣泛的2D&#xff0c;高級3D&#xff0c;Polar&#xff0c;Smith&#xff0c;3D餅/甜甜圈&#xff0c;地理地圖和GIS圖表以及適用于科學…

網絡安全專業術語英文縮寫對照表

因在閱讀文獻過程中經常遇到各種專業縮寫&#xff0c;所以把各種縮寫總結了一下。 因能力有限&#xff0c;錯誤在所難免&#xff0c;歡迎進行糾錯與補充&#xff1a;https://github.com/piaolin/CSAbbr 滲透相關 縮寫全稱解釋備注XSSCross Site Script Attack跨站腳本攻擊為…

ResNet創新點總結

ResNet&#xff08;Residual Networks&#xff09;是深度學習中的一個重要架構&#xff0c;其創新點主要體現在解決了深層神經網絡訓練中的梯度消失和梯度爆炸問題&#xff0c;從而使得可以構建更深的神經網絡。以下是 ResNet 的創新點總結&#xff1a; ??1. 殘差連接&#x…

nlohmann json:通過items遍歷object/array

//官方的例子 #include <iostream> #include <nlohmann/json.hpp>using json = nlohmann::json;int main() {// create JSON valuesjson j_object = {{"one", 1}, {"two", 2}};json j_array = {1, 2, 4, 8, 16};// example for an objectfor (…

java畢業設計-智慧食堂管理系統-內容快覽

首頁 智慧食堂管理系統是一種可以提高食堂運營效率的管理系統。它將前端代碼使用Vue實現&#xff0c;后端使用Spring Boot實現。這個系統的目的是簡化食堂管理&#xff0c;提高食堂服務質量。在現代快節奏的生活中&#xff0c;人們對餐飲服務提出了更高的要求&#xff0c;食堂管…

Flink-間隔聯結

間隔聯結只支持事件時間間隔聯結如果遇到遲到數據&#xff0c;則會關聯不上&#xff0c;比如來了一個5秒的數據&#xff0c;它可以關聯前2秒的數據&#xff0c;后3秒的數據&#xff0c;就是可以關聯3秒到8秒的數據&#xff0c;然后又來了一個6秒的數據&#xff0c;可以關聯4秒到…

Docker安裝elasticsearch分布式搜索

文章目錄 ??安裝elasticsearch??1.部署單點es&#x1f338;1.1.創建網絡&#x1f338;1.2.下載鏡像&#x1f338;1.3.運行 ??2.部署kibana&#x1f338;2.1.部署&#x1f338;2.2.DevTools ??3.安裝IK分詞器&#x1f338;3.1.在線安裝ik插件&#xff08;較慢&#xff0…