文件路徑models/view_transformers
父類 是class BiLinearSample(nn.Module)
基于https://github.com/aharley/simple_bev。
函數解析
- 函數
bev_coord_to_feature_coord
的功能
將鳥瞰圖3D坐標通過多相機(針孔/魚眼)內外參投影到圖像特征平面,生成歸一化采樣坐標與有效掩碼,實現多視角特征的空間對齊與融合篩選。
代碼
def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):...
首先:函數接收多個參數,包括特征、塊索引、外參、內參、畸變參數等。
然后:處理不同相機類型(針孔和魚眼)的索引
然后:生成3D點(通過gridcloud3d()
函數實現,非均勻空間采樣),將記憶坐標系中的點轉換到自我車輛坐標系(get_bevgrid()
和matrix_mem_egocar
)。并通過外參矩陣轉換到相機坐標系。對于針孔相機,計算投影點,并進行畸變校正,然后將坐標轉換到特征圖的比例。對于魚眼相機,處理類似,但使用了不同的畸變模型。
最后:合并兩種相機的結果,并根據塊索引屏蔽某些相機的特征。
這里面核心的是“對于針孔/魚眼相機,計算投影點”。
首先,生成相機索引
pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole+ num_cams_fisheye) + self.num_cams * i for i in range(B)])
操作演示,num_cams_pinhole有1個,num_cams_fisheye有4個,num_cams 是5個。
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()
生成的3D點。
然后用內外參數將3D點轉換到圖像2D點
# 投影3D點到2D圖譜 (原始圖像尺寸是 2160x3840)外參逆矩陣 = 外參矩陣.inverse()2D圖像的點 = (內參矩陣 @ 外參逆矩陣)@ 3D點 # 尺寸是(BN,4,K)2D圖像的點 = 2D圖像的點.transpose(2, 1) # 尺寸是(BN, k, 4)2D深度檢測Mark = (2D圖像的點[:, :, 2] > 0.0).bool() # 投影點的深度(z坐標)是否為正值,排除位于相機后方的點(不可見)# (X, Y, Z, 1)-> (X/Z, Y/Z, 1, 1)2D圖像的點 = 2D圖像的點[0:2]/2D圖像的點[2]# 增加一個維度2D圖像的點 = torch.cat(2D圖像的點,ones)# 通過 ida_pinhole(圖像坐標系轉移矩陣)將歸一化坐標映射到圖像像素坐標。該矩陣通常包含焦距和主點偏移,完成從相機坐標系到圖像平面的投影。2D圖像的點 = 圖像坐標系轉移矩陣 @ 2D圖像的點# 縮放2D圖像的點 = 2D圖像的點/下采樣系數# 濾除無效區域的Mark2D的X軸檢測Mark = (2D圖像的點> -0.5).bool() & (2D圖像的點< float(寬度 - 0.5)).bool()2D的Y軸檢測Mark = (2D圖像的點> -0.5).bool() & (2D圖像的點< float(寬度 - 0.5)).bool()有效性Mark = (2D深度檢測Mark& 2D的X軸檢測Mark & 2D的Y軸檢測Mark)
對于魚眼相機
3D相機的點 = 外參逆矩陣 @ 3D點 #
內參矩陣的仿射部分 = 內參[:2,:2] # (焦距和軸間縮放),用于將歸一化坐標映射到圖像平面
內參矩陣中的主點坐標 = 內參[0:2, 2](圖像中心偏移),用于投影時的平移校正。
計算徑向距離 = X2 + Y2 的平方根
入射角 = torch.atan2(3D相機的點, 計算徑向距離)
徑向畸變系數 = self.polyval(畸變系數, 入射角, Kannala-Brandt模型) # 根據入射角 theta 計算徑向畸變系數 rho
歸一化的3D點 = 3D相機的點 × rho ÷ 計算徑向距離
2D魚眼點 = (內參矩陣的仿射部分 @ 歸一化的3D點) + 內參矩陣中的主點坐標# 通過 ida_fisheye(圖像坐標系轉移矩陣)將歸一化坐標映射到圖像像素坐標。該矩陣通常包含焦距和主點偏移,完成從相機坐標系到圖像平面的投影。
2D魚眼點 = ida_fisheye @ 2D魚眼點 # 從相機坐標系到圖像平面的投影
2D魚眼點 = 魚眼點/下采樣系數# 和針孔相機一樣
有效性Mark = (2D深度檢測Mark& 2D的X軸檢測Mark & 2D的Y軸檢測Mark)
最后返回的是:點
和 有效性Mark
補充:Kannala-Brandt模型介紹–點擊這里
- 函數
gridcloud3d()
功能是:
函數通過非均勻采樣生成三維網格點云,每個網格位置對應一個點,但不同區域的點密度可能不同。具體來說:
- 函數
forward_kestrel()
,功能是:
該函數通過多相機特征采樣與體素聚合,將鳥瞰圖特征映射到3D空間并壓縮生成統一表征。
def forward_kestrel(self, input):# 獲得Neck傳過來的特征features = input["bev_neck_features"]# features 復制Z次并在通道維度拼接features = torch.cat([features] * Z, 1)# 特征尺寸調整features = features.reshape(self.num_cams * Z, -1, 60, 128)# 得到 unproject_image_to_mem() 計算的xyz_pix 和 有效性Markxyz_pix , valid_mask= ...# 將2D特征映,通過xyz_pix ,利用GridSampleFuction映射函數,映射到3D特征trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear","zeros", None)# 有效性Mark 刪除values = trans_feats* valid_mask# 特征被重塑values = values.reshape(B, self.num_cams, -1, X, Y)# 通道相加feat_mem = torch.sum(values, dim=1)# 通過 conv_norm 壓縮成鳥瞰圖特征feat_bev = self.bev_z_compressor(feat_mem)return feat_bev
首先是:輸入的features被復制Z次并在通道維度拼接,使用reshape將特征調整為(num_cams * Z, -1, 60, 128),這里num_cams可能代表相機數量,Z是體素深度層數。
然后:GridSampleFuction應用雙線性采樣,將特征映射到新的坐標,生成trans_feats。
然后:特征被重塑為(B, num_cams, -1, X, Y)。feat_mem 是將多個相機視角的3D特征沿相機數量維度(dim=1)求和后的融合特征,目的是整合不同視角的信息,得到feat_mem。
最后: 最后通過bev_z_compressor壓縮成鳥瞰圖特征feat_bev。
- 函數
unproject_image_to_mem()
,功能是:得到xyz_pix, valid_mask,用于后續的GridSampleFuction采用。
def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):BN, C, H, W = features.shape# get proj point on the feature map and then normalize to [-1, 1]xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]x_norm, y_norm = self.normalize_grid2d(x, y, W, H)xyz_pix = torch.stack([x_norm, y_norm], axis=1)#import pdb; pdb.set_trace()xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)return xyz_pix, valid_mask
首先通過 bev_coord_to_feature_coord()
得到 2D點和有效性Mark
按照前述分析 2D 尺寸應該是類似(bn, k, 2)
,這里bn是批處理大小,k是柵格的數量(通過gridcloud3d()
獲得),2是xy坐標。
對2D點的x和y進行歸一化到[-1,1],分別除以寬和高,組成新的 2D點。
最后,將三維空間中的點按高度(Z軸)分層,每層對應一個二維網格(X-Y平面)
問文心一言的問題:LSS(Lift-Splat-Shoot)和BEVDepth在3D點處理上有以下核心區別
回答:
LSS(Lift-Splat-Shoot)和BEVDepth在3D點處理上有以下核心區別:
LSS的3D點
- 全體視錐體柵格:LSS將圖像特征提升到整個相機視錐體對應的3D體素網格中,覆蓋所有可能的深度層(如0-100米,按固定間隔分層)。
- 概率分布:每個像素的特征會被分配到多個深度層,形成概率分布(通過深度預測或幾何計算),而非單一深度值。
- 目的:構建全局3D場景表示,適用于復雜場景理解(如多物體遮擋、非地面目標檢測)。
BEVDepth的柵格
- BEV平面聚焦:BEVDepth通常將特征投影到鳥瞰圖(BEV)平面的柵格中(如地面區域),每個柵格對應一個位置,深度預測用于確定該位置是否存在有效特征。
- 單一深度假設:每個柵格可能僅保留最可能的深度值(如通過深度網絡預測),或基于幾何投影選擇有效層。
- 目的:高效生成BEV空間特征,尤其適合自動駕駛中地面目標檢測(如車輛、行人),減少計算冗余。
柵格點數量減少
- LSS:在全體視錐體空間生成三維體素網格(如 100 層深度 × X×Y),覆蓋整個相機視野的 3D 空間。
- BEVDepth:將特征投影到二維 BEV 平面柵格(如地面區域),僅保留與地面感知相關的位置,深度維度被壓縮為單層(通過深度預測或幾何投影篩選)。
- 結論:BEVDepth 的柵格點數量顯著減少(從三維到二維),降低了顯存占用和計算復雜度。
總結:
- LSS的3D點是全體視錐體的分層柵格,強調3D空間的完整建模。
- BEVDepth的柵格是BEV平面的深度預測結果,側重地面區域的緊湊表示。
- 兩者均可結合使用(如BEVDepth可能用LSS作為 backbone),但核心差異在于對3D空間的覆蓋范圍和深度建模方式。