Simple-BEV的bilinear_sample 作為view_transformer的解析，核心是3D-2D關聯點生成

文件路徑models/view_transformers

父類是class BiLinearSample(nn.Module)基于https://github.com/aharley/simple_bev。

函數解析

函數bev_coord_to_feature_coord的功能

將鳥瞰圖3D坐標通過多相機（針孔/魚眼）內外參投影到圖像特征平面，生成歸一化采樣坐標與有效掩碼，實現多視角特征的空間對齊與融合篩選。
代碼

def bev_coord_to_feature_coord(self, features, block_idxs, extrin_camera_to_ego, intrinsic, dist, ida, dist_type='KB'):...

首先：函數接收多個參數，包括特征、塊索引、外參、內參、畸變參數等。
然后：處理不同相機類型（針孔和魚眼）的索引
然后：生成3D點（通過gridcloud3d()函數實現，非均勻空間采樣），將記憶坐標系中的點轉換到自我車輛坐標系（get_bevgrid()和matrix_mem_egocar）。并通過外參矩陣轉換到相機坐標系。對于針孔相機，計算投影點，并進行畸變校正，然后將坐標轉換到特征圖的比例。對于魚眼相機，處理類似，但使用了不同的畸變模型。
最后：合并兩種相機的結果，并根據塊索引屏蔽某些相機的特征。

這里面核心的是“對于針孔/魚眼相機，計算投影點”。
首先，生成相機索引

pinhole_index = torch.cat([torch.arange(num_cams_pinhole) + self.num_cams * i for i in range(B)])
fisheye_index = torch.cat([torch.arange(num_cams_pinhole, num_cams_pinhole+ num_cams_fisheye) + self.num_cams * i for i in range(B)])

操作演示，num_cams_pinhole有1個，num_cams_fisheye有4個，num_cams 是5個。
在這里插入圖片描述
然后用pinhole_index 和fisheye_index 索引取get_bevgrid()生成的3D點。
然后用內外參數將3D點轉換到圖像2D點

        # 投影3D點到2D圖譜 (原始圖像尺寸是 2160x3840)外參逆矩陣 = 外參矩陣.inverse()2D圖像的點 = （內參矩陣 @ 外參逆矩陣）@ 3D點  # 尺寸是（BN，4，K）2D圖像的點 = 2D圖像的點.transpose(2, 1)  #  尺寸是(BN, k, 4)2D深度檢測Mark = (2D圖像的點[:, :, 2] > 0.0).bool() # 投影點的深度（z坐標）是否為正值，排除位于相機后方的點（不可見）# （X, Y, Z, 1）-> （X/Z, Y/Z, 1, 1）2D圖像的點 = 2D圖像的點[0:2]/2D圖像的點[2]# 增加一個維度2D圖像的點 = torch.cat(2D圖像的點,ones)# 通過 ida_pinhole（圖像坐標系轉移矩陣）將歸一化坐標映射到圖像像素坐標。該矩陣通常包含焦距和主點偏移，完成從相機坐標系到圖像平面的投影。2D圖像的點 = 圖像坐標系轉移矩陣 @ 2D圖像的點# 縮放2D圖像的點 = 2D圖像的點/下采樣系數# 濾除無效區域的Mark2D的X軸檢測Mark = (2D圖像的點> -0.5).bool() & (2D圖像的點< float(寬度 - 0.5)).bool()2D的Y軸檢測Mark = (2D圖像的點> -0.5).bool() & (2D圖像的點< float(寬度 - 0.5)).bool()有效性Mark = (2D深度檢測Mark& 2D的X軸檢測Mark & 2D的Y軸檢測Mark)

對于魚眼相機

3D相機的點 = 外參逆矩陣 @ 3D點  # 
內參矩陣的仿射部分 = 內參[:2,:2]  # （焦距和軸間縮放）,用于將歸一化坐標映射到圖像平面
內參矩陣中的主點坐標 = 內參[0:2, 2]（圖像中心偏移），用于投影時的平移校正。
計算徑向距離 = X2 + Y2 的平方根
入射角  = torch.atan2(3D相機的點, 計算徑向距離)
徑向畸變系數 = self.polyval(畸變系數, 入射角, Kannala-Brandt模型) # 根據入射角 theta 計算徑向畸變系數 rho
歸一化的3D點 = 3D相機的點 × rho ÷ 計算徑向距離
2D魚眼點 = (內參矩陣的仿射部分 @ 歸一化的3D點) + 內參矩陣中的主點坐標# 通過 ida_fisheye（圖像坐標系轉移矩陣）將歸一化坐標映射到圖像像素坐標。該矩陣通常包含焦距和主點偏移，完成從相機坐標系到圖像平面的投影。
2D魚眼點 = ida_fisheye @ 2D魚眼點 # 從相機坐標系到圖像平面的投影
2D魚眼點 = 魚眼點/下采樣系數# 和針孔相機一樣
有效性Mark = (2D深度檢測Mark& 2D的X軸檢測Mark & 2D的Y軸檢測Mark)

最后返回的是：點 和 有效性Mark

補充：Kannala-Brandt模型介紹–點擊這里
在這里插入圖片描述

函數gridcloud3d()功能是：

函數通過非均勻采樣生成三維網格點云，每個網格位置對應一個點，但不同區域的點密度可能不同。具體來說：

函數forward_kestrel()，功能是：

該函數通過多相機特征采樣與體素聚合，將鳥瞰圖特征映射到3D空間并壓縮生成統一表征。

    def forward_kestrel(self, input):# 獲得Neck傳過來的特征features = input["bev_neck_features"]# features 復制Z次并在通道維度拼接features = torch.cat([features] * Z, 1)# 特征尺寸調整features = features.reshape(self.num_cams * Z, -1, 60, 128)# 得到 unproject_image_to_mem() 計算的xyz_pix 和 有效性Markxyz_pix , valid_mask= ...# 將2D特征映,通過xyz_pix ，利用GridSampleFuction映射函數，映射到3D特征trans_feats = self.GridSampleFuction().apply(features, xyz_pix, "bilinear","zeros", None)# 有效性Mark 刪除values = trans_feats* valid_mask# 特征被重塑values = values.reshape(B, self.num_cams, -1, X, Y)# 通道相加feat_mem = torch.sum(values, dim=1)# 通過 conv_norm 壓縮成鳥瞰圖特征feat_bev = self.bev_z_compressor(feat_mem)return feat_bev

首先是：輸入的features被復制Z次并在通道維度拼接，使用reshape將特征調整為(num_cams * Z, -1, 60, 128)，這里num_cams可能代表相機數量，Z是體素深度層數。
然后：GridSampleFuction應用雙線性采樣，將特征映射到新的坐標，生成trans_feats。
然后：特征被重塑為(B, num_cams, -1, X, Y)。feat_mem 是將多個相機視角的3D特征沿相機數量維度（dim=1）求和后的融合特征，目的是整合不同視角的信息，得到feat_mem。
最后：最后通過bev_z_compressor壓縮成鳥瞰圖特征feat_bev。

函數unproject_image_to_mem()，功能是：得到xyz_pix, valid_mask，用于后續的GridSampleFuction采用。

    def unproject_image_to_mem(self, features, block_idxs, extrinsic, intrinsic, dist_mat, dist_type, ida_mat, X, Y, Z):BN, C, H, W = features.shape# get proj point on the feature map and then normalize to [-1, 1]xyz_feat, valid_mask = self.bev_coord_to_feature_coord(features, block_idxs, extrinsic, intrinsic, dist_mat, ida_mat, dist_type)x, y = xyz_feat[:, :, 0], xyz_feat[:, :, 1]x_norm, y_norm = self.normalize_grid2d(x, y, W, H)xyz_pix = torch.stack([x_norm, y_norm], axis=1)#import pdb; pdb.set_trace()xyz_pix = rearrange(xyz_pix, "n d (x y z) -> n (z d) x y", x=X, y=Y, z=Z)valid_mask = rearrange(valid_mask, "n (x y z) -> n z x y", x=X, y=Y, z=Z)return xyz_pix, valid_mask

首先通過 bev_coord_to_feature_coord()得到 2D點和有效性Mark
按照前述分析 2D 尺寸應該是類似(bn, k, 2),這里bn是批處理大小，k是柵格的數量（通過gridcloud3d()獲得），2是xy坐標。
對2D點的x和y進行歸一化到[-1,1]，分別除以寬和高，組成新的 2D點。
最后，將三維空間中的點按高度（Z軸）分層，每層對應一個二維網格（X-Y平面）