【BEV Review】論文 Delving into the Devils of Bird’s-eye-view 2022-9 筆記

背景
一般來說，自動駕駛車輛的視覺傳感器（比如攝像頭）安裝在車身上方或者車內后視鏡上。無論哪個位置，攝像頭所得到的都是真實世界在透視視圖（Perspective View）下的投影（世界坐標系到圖像坐標系）。這種視圖與人類的視覺系統很類似，因此很容易被人類駕駛員理解。但是透視視圖有一個致命的問題，就是物體的尺度隨著距離而變化。因此，當感知系統從圖像上檢測到了前方有一個障礙物時，它并不知道這個障礙物距離車輛的距離，也不知道障礙物的實際三維形狀和大小

BEV 優點：
首先，它沒有在二維任務中普遍存在的遮擋或尺度問題。識別閉塞或交叉的車輛可以更好；其次，比檢測分割+跟蹤的方法更直觀，更方便后面融合，規劃，控制模塊的開發部署。

BEV核心問題：
a: 如何從不同的傳感器通過view transform模塊重新構建丟失的3d信息
b: 如何從BEV網格獲取GT標注
c: 如何制定一條從不同sources和views獲得features的pipeline
d: 如何根據不同場景下傳感器適配和泛化算法

Introduction：

自動駕駛的感知識別，本質上是一個從感知傳感器往物理世界重建的過程。
根據輸入數據，我們將BEV感知研究分為三個部分，主要是
1：BEV相機、BEV激光雷達和BEV融合，BEV相機表示以視覺或視覺為中心的算法，用于三維目標檢測或分割；
2：BEV激光雷達描述從點云輸入的檢測或分割任務；
3：BEV融合描述了多個傳感器輸入的融合機制，如相機、激光雷達、GNSS、測程、HD-Map、CAN-總線等。
在這里插入圖片描述在本報告中，我們的目的是總結最近先進的BEV感知研究的一般pipeline和關鍵見解，除了各種輸入組合和任務

Motivation：
主要是三方面，
1 意義：
目前基于視覺和基于Lidar的方案差距過大，這自然促使我們去研究視覺解決方案是否能夠擊敗或與激光雷達方法。
從學術的角度來看，設計一個基于相機的pipeline，使其性能優于激光雷達的本質，是更好地理解從二維視角輸入到三維幾何輸出的視圖轉換過程。如何像點云一樣將相機特征轉換為幾何表示，給學術界留下了有意義的影響。
在工業考慮上，一套激光雷達設備進入SDV的成本很昂貴；OEM（原始設備制造商，如福特、寶馬等）更喜歡一個廉價而準確的軟件算法部署。改進激光雷達的純相機算法自然就符合這一目標，因為一個相機的成本通常比激光雷達低10倍。
此外，基于攝像頭的pipeline可以識別遠距離的物體和基于顏色的道路元素（例如，交通燈），這兩種情況是激光雷達的方法是無法做到的。

盡管基于相機和激光雷達的感知有幾種不同的解決方案，但在優越的性能和工業友好的部署方面，BEV是基于激光雷達的方法的最佳候選方案之一。
此外，最近的趨勢表明，BEV表示在多攝像機輸入方面也取得了巨大的進展。因為相機和激光雷達數據可以投射到BEV空間，BEV的另一個潛力是，我們可以很容易地在統一的表示下融合來自不同模態的特征。

2 (研究)空間：
BEV感知背后的要點是從相機和激光雷達輸入中學習一個魯棒和可一般化的特征表示。
這在激光雷達分支中很容易實現，因為輸入（點云）具有這樣的3D屬性，在相機分支中，這是非常不容易的，因為從單目或多視圖設置中學習三維空間信息是困難的。
另一個關鍵問題是如何在管道的早期或中期階段融合特性。大多數傳感器融合算法將該問題視為一個簡單的對象級融合或沿著blob通道的簡單特征連接。這可能解釋了為什么由于相機和激光雷達之間的不對準或深度預測不準確，一些融合算法的表現低于僅使用激光雷達的解決方案。如何對齊和整合來自多模態輸入的特征是至關重要的作用，從而留下了廣泛的創新空間。

3 準備就緒：
open數據集都給你準備好了，可以盡情測試算法。同時 Transformer ， ViT , Masked Auto-encoders (MAE) and CLIP, 我們相信這些工作將有利于和激勵BEV感知研究。

3D感知研究背景
1 基于單目相機的目標檢測：
主要就是預測RGB圖像的深度信息。由于從單個圖像中估計深度是一個不適定的問題，通常的基于單眼攝像機的方法的性能不如基于激光雷達的方法

2 激光雷達的檢測和分割：
激光雷達用三維空間中的一組點來描述周圍的環境，這些點可以捕獲物體的幾何信息。盡管缺乏顏色和紋理信息，而且感知范圍有限，基于激光雷達的方法由于深度先驗的優勢大大優于相機改進的方法。

3 傳感器融合：
相機，激光雷達和毫米波雷達。每個傳感器都有其優缺點。
相機數據包含密集的顏色和紋理信息，但不能捕獲深度信息。
激光雷達提供了準確的深度和結構信息，但其范圍很有限，并且具有稀疏性。
毫米波波雷達比激光雷達更稀疏，但有更長的傳感范圍，可以從移動的物體中捕獲信息。
如何融合來自不同模式的數據仍然是一個具有挑戰性的問題。

數據集和度量標注
對于BEV感知任務，三維邊界框標注和三維分割標注是關鍵，高清地圖配置已成為主流趨勢。

KITTI：
它有7481張訓練圖像和7518張測試圖像用于三維目標檢測任務。它也有相應的點云捕獲從速差激光掃描儀。測試集分為3個部分：簡單、中等和硬，主要由檢測框的大小和遮擋級別決定。目標檢測的評價分為兩種類型：三維目標檢測評價和鳥瞰圖評價。KITTI是第一個用于多個自動駕駛任務的綜合數據集，它吸引了社區的廣泛關注。

Waymo：
Waymo開放數據集有很多版本，以v1.3為例子，在訓練、驗證和測試集中分別包含798、202和80個視頻序列。每個序列有5個激光雷達和5個側左SideLeft、前左FrontLeft、前Front、右、右側視圖的圖像分辨率為1920×1280像素或1920×886像素。Waymo是大規模和多樣化的。隨著數據集版本的不斷更新，它正在不斷發展。每年的Waymo開放挑戰都會定義新的任務，并鼓勵社區去解決這些問題。

NuScenes：
NuScenes是一個大型的自動駕駛數據集，它包含了在兩個城市的1000個駕駛場景。850個場景用于訓練/驗證，150個場景用于測試。每個場景都有20秒長。它有4萬個關鍵幀，整個傳感器套件，包括6個攝像頭，1個激光雷達和5個毫米波雷達。相機圖像分辨率為1600×900。同時，發布相應的HD-Map和CANbus數據，探索多種輸入的輔助。由于nuScenes提供了多樣化的多傳感器設置，在學術文獻中越來越流行；數據規模沒有Waymo那么大，這使得在這個基準上快速驗證想法非常有效。
這里介紹一下NuScenes的評估指標NDS：
NuScenes檢測分數（NDS）是幾個指標的組合： mAP, mATE (Average Translation Error),
mASE (Average Scale Error), mAOE (Average Orientation
Error), mAVE (Average Velocity Error) and mAAE (Average
Attribute Error).。
NDS是通過使用上述指標的加權和和來計算的。. The weight of mAP is 5 and 1 for
the rest. In the first step the TPerror is converted to TPscore
as shown below .
在這里插入圖片描述

Methedology of BEV
在本節中，我們將詳細描述來自學術界和工業界對BEV感知的各種方法。
我們根據輸入模式在三種設置中區分了BEV pipeline ，
即1，BEV相機；（僅限相機的3D感知）；2，BEV激光雷達；3，BEV融合。

下面對近年重要的BEV相關論文做了一個總結，我認為可以主要關注他們的INPUT格式和貢獻。
在 Input Modality下，
“L”表示激光雷達，
“SC”表示單攝像機，
“MC”表示多攝像機，
“T”表示時間信息。

在Task下，“ODet”用于三維目標檢測，“LDet”用于3D車道檢測，“MapSeg”用于地圖分割，“planning”用于運動規劃，“MOT”用于多目標跟蹤。
Depth Supervision means either camera-only model uses sparse/dense depth map to supervise the model, ? for yes, ? for no, - for LiDAR-input model. 【這一句我不太確定】，應該指的是：深度監督意味著任何一個camer-only的模型使用了稀疏或密集的深度地圖來監督模型， ? 表示用了, ? 表示沒有用，- 表示輸入是Lidar數據，本身就有深度信息所以不考慮這方面。
在數據集下，
“nuS”表示 nuScenes dataset ,
“WOD”表示 Waymo Open Dataset [8],
“KITTI” 表示KITTI dataset [11],
“Lyft” 表示 Lyft Level 5 Dataset [28],
“OpenLane”表示 OpenLane dataset [26],
“AV”表示Argoverse Dataset [24],
“Carla” 表示carla simulator [40],
“SUN” SUN RGB-D dataset [41],
“ScanNet” ScanNet indoor scenes dataset。
在這里插入圖片描述
原文中還有一個表格列舉了上面這些論文的一些性能，我這里不列舉了。

1 BEV Camera-only
camera-only的3D感知可以分為三個領域：單相機設置，立體設置和多相機設置，他們有不同的方法來解決深度問題。
由于多臺相機的方法通常從單臺相機的baseline開始，所以我們也從單目相機的baseline設置開始。我們使用“二維空間”表示帶有相機平面坐標的透視試圖(perspective view)，“三維空間”表示帶有世界坐標的三維真實世界空間，“BEV空間”表示以下文的鳥瞰圖。
在這里插入圖片描述
如上圖描述，一個camera-only的3D感知系統可以劃分為三部分，
分別是：2D特征提取器、視圖轉換模塊view transform module（可選），3D解碼器。
下面view transform module都稱為VTM。

通常有兩種方法來執行VTM，一個是執行轉換從三維空間到二維空間，另一種是從二維空間到三維空間進行轉換，這兩者要么在三維空間用物理先驗要么利用三維監督。這種轉換可以表述為：
$F_{3D}(x,y,z)=M_{trans}(F^{*}_{2D}(\hat{u},\hat{v}),[R,T], K)$
其中 $F_{3D}$ ， $KaTeX parse error: Expected '}', got 'EOF' at end of input: F_{2D$ 表示3D特性(或者voxel)和2D特征，x，y，z代表3D空間的坐標， $M_{trans}$ 代表VTM， $\hat{u}$ , $\hat{v}$ 代表對應的二維坐標的x，y，z（注意，這可能取決于特定的VTM的不同）。
[R, T] 和代表相機外參和內參，詳見附錄B.1
3D解碼器在2D/3D空間中接收特征，并輸出3D感知結果，如三維bounding boxes，BEV地圖分割、3D車道關鍵點等。
大多數3D解碼器來自基于lidar的方法，它們在voxel空間/BEV空間進行檢測，但仍有一些只有相機的3D解碼器利用二維空間中的特征，直接回歸3D目標的定位。

2 View Transform Module (VTM)
最近的研究主要集中在VTM[3,4,10,26,47,48,49,51,56,59]上，其中三維信息是由二維特征或三維先驗假設構建的.
由于我最近在看VTM相關內容，我把上述文章都列出來

3：E. Xie, Z. Yu, D. Zhou, J. Philion, A. Anandkumar, S. Fidler, P. Luo, and J. M. Alvarez, “M2BEV: Multi-camera joint 3d detection and segmentation with unified birds eye view representation,” arXiv preprint arXiv:2204.05088, 2022
4: Z. Li, W. Wang, H. Li, E. Xie, C. Sima, T. Lu, Q. Yu,
and J. Dai, “BEVFormer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal
transformers,” arXiv preprint arXiv:2203.17270, 2022.
10：T. Wang, J. Pang, and D. Lin, “Monocular 3d object detection with depth from motion,” arXiv preprint arXiv:2207.12988, 2022
26：L. Chen, C. Sima, Y. Li, Z. Zheng, J. Xu, X. Geng, H. Li,
C. He, J. Shi, Y. Qiao, and J. Yan, “PersFormer: 3d lane detection via perspective transformer and the openlane benchmark,” arXiv preprint arXiv:2203.11089, 2022.
47：J. Huang, G. Huang, Z. Zhu, and D. Du, “BEVDet: High performance multi-camera 3d object detection in bird eye-view,” arXiv preprint arXiv:2112.11790, 2021.
48：Y. Liu, T. Wang, X. Zhang, and J. Sun, “Petr: Position embedding transformation for multi-view 3d object detection,” arXiv preprint arXiv:2203.05625, 2022.
49：Y. Li, Z. Ge, G. Yu, J. Yang, Z. Wang, Y. Shi, J. Sun, and Z. Li, “BEVDepth: Acquisition of reliable depth for multiview 3d object detection,” arXiv preprint arXiv:2206.10092, 2022
51：Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.G. Jiang, “Polarformer: Multi-camera 3d object detection with polar transformers,” arXiv preprint arXiv:2206.15398,2022.
56：A. Saha, O. Mendez, C. Russell, and R. Bowden, “Translating images into maps,” in IEEE International Conference on Robotics and Automation, 2022.
59：N. Garnett, R. Cohen, T. Pe’er, R. Lahav, and D. Levi, “3d multiple lanenet: end-to-end 3d multiple lane detection,” in IEEE International Conference on Computer Vision, 2019

總的來說，VTM 可以分為兩個方面，一是利用二維特征構造深度信息和將二維特征“lift 提升”到三維空間；另一種是通過3D-to-2D投影映射將二維特征編碼到三維空間。我們將第一種方法命名為2D- 3D，將第二種方法命名為3D-2D。下圖給出了通過這兩種方法執行VTM的摘要路線圖。
在這里插入圖片描述
在VTM中，有兩個方式編碼3D信息，一種是從2D特征中預測深度信息；另一種是從3D空間中采樣2D特征。
對我個人來說，第一種方式很好理解，就是對于camera采集的的RGB圖像，我們用算法預測它的深度信息就行了。
LSS [“Lift, splat, shoot”]
首先引入了2D-3D方法，預測二維特征上每個網格的深度分布，然后通過相應的深度將每個網格的二維特征“提升”到體素空間，并采用基于lidar激光雷達的方法執行下游任務。這個過程可以表述為

xxxxxxxxxxxxxx 公式

在LSS 之后，還有另一項工作遵循formulating depth as bin-wise distribution 的概念，即CaDDN 。CaDDN采用類似的網絡預測深度分布（分類深度分布），將體素空間特征壓縮到BEV空間，最后進行三維檢測。LSS 和CaDDN 的主要區別在于，CaDDN使用 depth ground truth 來監督其分類深度分布預測，從而有更優秀的深度預測網絡從二維空間中提取三維信息。請注意，當我們聲稱這是“一個更好的深度網絡”時，它實際上是在特征層面上學習路面和透視視圖之間的隱式投影。這條路帶來了隨后的工作，如BEVDet 及其時間版本BEVDet4D ，BEVDepth ，BEVFusion 等。
請注意，在立體設置中，深度值/分布更容易通過強先驗獲得，因為相機之間的距離（即系統的baseline）應該是恒定的。這個過程可以被描述為：
$D(u,v)=f\times{\frac{b}{d(u,v)}}$
其中，d (u，v）是在位置（u，v）上的一對圖像的水平視差，視差等于同名點對在左視圖的列坐標減去在右視圖上的列坐標，是像素單位，f為照相機的焦距，見附錄B.1
D (u、v）是（u、v）處的深度值，b是上述提到的系統baseline的長度。
LIGA Stereo [92]和DSGN [65]利用了這種強大的先驗，在KITTI排行榜上的表現與基于激光雷達的替代方案媲美。

而對于3D-2D方案，可以追溯到30年前。當Inverse Perspective Mapping（IPM）將從三維空間到二維空間的投影有條件地假設三維空間中的相應點位于水平平面上。
這種變換矩陣可以從攝像機的內在參數和外在參數[94]的數學上推導出，該過程的細節在附錄B.1
一系列的工作應用IPM，以預處理或后處理的方式將元素從透視視角轉換為鳥瞰視圖。在視圖轉換的背景下，OFTNet 首先引入了3D-2D方法，即從3D到2D的特征投影，它將2D特征投影到體素空間（3D空間），它基于的假設是，在三維空間中，從相機原點沿光線到特定點的深度分布是均勻的。這個假設適用于自動駕駛的大多數場景，但在起伏的道路上，有時不管用。
同時，大量的BEV地圖分割工作利用多層感知器或Transformer架構，在沒有攝像機參數的情況下隱式建模3D-2D投影。
最近，受特斯拉發布了感知系統[6]的技術路線圖的啟發，3D-2D幾何投影和神經網絡的結合成為了流行的[4,26,48,56,86,96]。請注意，Transformer體系結構中的交叉注意機制在概念上滿足了這種幾何投影的需要，可以表達為：

xxxxxx公式8

q, k, v stand for query, key and value, $P_{x,y,z}$ 是體素空間中預定義的錨點，其他值和之前的公式一樣意義，一些[4,48,86]方法利用相機參數將 $P_{x,y,z}$ 投影到圖像平面上，使模型快速收斂。
為了獲得具有魯棒性的檢測結果，BEVFormer[4]利用Transformer中的交叉注意機制來增強3D-2D視圖轉換的建模。其他的[50,97]緩解了網格采樣器，以有效地加速這一過程，以實現大規模生產。然而，這些方法在很大程度上依賴于相機參數的準確性，這些參數在長時間駕駛下容易發生變化。

BEV及透視方法的探討

在僅使用相機的三維感知的初期，主要的焦點是如何從2D感知空間預測三維物體的位置。這是因為二維感知在那個[1,2,98,99]階段發展得很好，所以如何使二維探測器具有感知三維場景的能力成為主流方法[62,82,83,100]。
后來，一些研究涉及了BEV，因為在這種視角下，很容易解決三維空間中相同大小的物體由于與相機的距離而在圖像平面上大小非常不同的問題，包括遮擋問題。
這一系列的工作[43,46,65,89,92]要么預測深度信息，要么利用三維先驗假設來補償攝像機輸入中三維信息的損失。
然而最近基于bev的方法[3,4,5,47,49,91,101]已經席卷了3D感知世界，但值得注意的是，這種成功主要來自于三個部分：

第一個原因是nuScenes數據集[7]，它具有多攝像頭設置，非常適合在BEV下應用多視圖特征聚合。
第二個原因是，大多數只有相機的BEV感知方法在檢測頭和相應的損失設計上都從基于激光雷達的方法[44,45,67,84,85,102,103])中獲得了很大的幫助。
第三個原因是，單目方法[82,83,100]的長期發展使基于bev的方法在處理透視視角的特征表達方面蓬勃發展，其核心問題是如何從二維圖像中重建丟失的三維信息。
為此，基于bev的方法和透視方法是解決同一問題的兩種不同的方法，它們并不相互排除

3.2 BEV Lidar
暫略
3.3 BEV Fusion
暫略

3.4 BEV感知的工業界應用
下面是透視視角方法的pipeline，激光雷達軌跡直接生成三維結果。基于幾何先驗，從二維結果轉換為圖像的三維結果。然后，我們融合了來自圖像和激光雷達的預測，利用一些人工設計的方法在現實的場景中并不總是表現得很好。
在這里插入圖片描述
相反，如下圖，基于BEV的方法，利用神經網絡進行二維到三維轉換，整合特征，而不是來自不同模態的直接檢測輸出，導致手工設計更少，魯棒性更強。