KITTI數據集是由德國卡爾斯魯厄理工學院 Karlsruhe Institute of Technology (KIT) 和美國芝加哥豐田技術研究院 Toyota Technological Institute at Chicago (TTI-C) 于2012年聯合創辦,是目前國際上最為常用的自動駕駛場景下的計算機視覺算法評測數據集之一。該數據集用于評測立體圖像(stereo),光流(optical flow),視覺測距(visual odometry),3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的性能。KITTI數據集包含市區、鄉村和高速公路等場景采集的真實圖像數據,每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。 KITTI數據集針對3D目標檢測任務提供了14999張圖像以及對應的點云,其中7481組用于訓練,7518組用于測試,針對場景中的汽車、行人、自行車三類物體進行標注,共計80256個標記對象。
一、核心任務 1:視覺 / 激光雷達里程計(Odometry)
里程計任務的核心是評估算法通過傳感器數據(圖像、LiDAR)估計車輛相對位姿(平移 + 旋轉)?的精度,重點關注累計誤差。KITTI 提供了 00-10 共 11 個序列的標注(包含真實軌跡的 6DoF 位姿),評價指標分為平移誤差(Translational Error)?和旋轉誤差(Rotational Error)?,且按不同軌跡長度(段)統計,以反映誤差隨距離的累積特性。
1. 平移誤差(關鍵指標)
衡量估計軌跡與真實軌跡在三維空間中的位置偏差,通常以 “每 100 米軌跡的平均平移誤差” 為核心報告指標,具體計算方式如下:
- 公式:對軌跡中連續的關鍵幀,計算估計位置?T^i??與真實位置?Ti??的歐氏距離,再按軌跡段長度(如 10m、20m、50m、100m、200m、500m)統計平均誤差。
- 報告形式:
- 表格中常以?t100m?(每 100 米平均平移誤差,單位:m)作為核心指標,誤差越小表示精度越高;
- 同時提供不同段長(如 10m→500m)的誤差曲線,反映誤差累積速度(如 SLAM 算法的漂移程度)。
2. 旋轉誤差
衡量估計軌跡與真實軌跡在姿態(角度)上的偏差,同樣按軌跡段長度統計:
- 公式:計算估計旋轉矩陣?R^i??與真實旋轉矩陣?Ri??的夾角(通過矩陣跡運算:θ=arccos(2tr(R^iT?Ri?)?1?)),再轉換為 “每 100 米軌跡的平均旋轉誤差”(單位:°/100m)。
- 意義:旋轉誤差直接影響車輛航向估計的準確性,對路徑規劃和避障至關重要。
3. 軌跡可視化
除數值指標外,KITTI 要求將估計軌跡與真實軌跡在三維 / 二維平面(如 x-y 平面)疊加可視化,直觀展示算法的漂移趨勢(如是否隨距離逐漸偏離真實軌跡)。
二、核心任務 2:3D 目標檢測(3D Object Detection)
3D 目標檢測的核心是評估算法從傳感器數據中檢測并定位三維目標(如汽車、行人、 cyclists)?的精度,需同時考慮 “檢測是否準確” 和 “定位是否精準”,KITTI 采用平均精度(Average Precision, AP)?作為核心指標,并按目標類別和難度分級。
1. 目標類別與難度分級
KITTI 將目標分為 3 類,且每類按 “遮擋程度” 和 “截斷程度” 分為 3 個難度等級(Easy/Moderate/Hard):
- 類別:Car(汽車)、Pedestrian(行人)、Cyclist(騎行者);
- 難度標準:
- Easy:遮擋率<10%,截斷率<15%;
- Moderate:遮擋率 10%-40%,截斷率 15%-40%;
- Hard:遮擋率 40%-60%,截斷率 40%-50%(最接近真實復雜場景)。
2. 核心指標:3D AP 與 BEV AP
KITTI 不直接使用 2D 檢測的 IoU(交并比),而是定義3D IoU?和?BEV IoU(鳥瞰圖 IoU),并基于此計算 AP:
- 3D IoU:計算預測的 3D bounding box 與真實 3D bounding box 的體積交并比(反映三維空間中的定位精度);
- BEV IoU:將 3D bounding box 投影到地面平面(x-y 平面),計算投影后 2D 框的面積交并比(反映平面位置精度,對自動駕駛路徑規劃更關鍵);
- AP 計算:
- 對每個類別和難度,按 “預測置信度” 從高到低排序檢測結果;
- 設定 IoU 閾值(KITTI 標準:Car→0.7,Pedestrian/Cyclist→0.5),統計 “真陽性(TP)” 和 “假陽性(FP)”;
- 繪制 “精確率 - 召回率(Precision-Recall, PR)曲線”,計算 PR 曲線下的面積(即 AP)。
- 報告形式:需分別報告 3 類目標在 3 個難度等級下的?3D AP?和?BEV AP,AP 越高表示檢測與定位精度越好(如 “Car Moderate 3D AP=85%” 表示汽車中等難度場景下的 3D 檢測平均精度為 85%)。
3. 輔助指標:定位誤差
除 AP 外,KITTI 還會統計3D bounding box 的定位誤差,包括:
- 平移誤差(Δx, Δy, Δz):預測框中心與真實框中心在 x/y/z 軸上的偏差(單位:m);
- 旋轉誤差(Δθ):預測框航向角與真實框航向角的偏差(單位:°);
- 尺寸誤差(Δl, Δw, Δh):預測框長 / 寬 / 高與真實框的偏差(單位:m)。
三、核心任務 3:立體匹配(Stereo Matching)
立體匹配的核心是評估算法從雙目圖像中計算視差圖(Disparity Map)?的精度(視差用于推導深度),KITTI 提供了高分辨率雙目圖像的真實視差標注(通過 LiDAR 數據校準),評價指標聚焦 “視差估計誤差”。
1. 核心指標:視差誤差率(Disparity Error Rate)
統計 “估計視差與真實視差的偏差超過閾值” 的像素比例,按像素的 “有效性” 和 “視差范圍” 分級:
- 有效像素定義:排除遮擋區域、無紋理區域、邊界區域等 “無效像素”,僅統計 “有效像素” 的誤差;
- 誤差閾值:
- 相對誤差:d∣d^?d∣?>0.05(d 為真實視差,d^為估計視差);
- 絕對誤差:∣d^?d∣>3(單位:像素);
- 滿足任一閾值即判定為 “誤差像素”。
- 報告形式:按視差范圍(如 d<10、10≤d<20、d≥20)統計誤差率,誤差率越低表示視差估計越精準。
2. 輔助指標:平均絕對誤差(MAE)
計算所有有效像素的 “估計視差 - 真實視差” 的絕對值的平均值,反映整體視差估計的偏差程度(單位:像素)。
四、其他任務的評價指標
KITTI 還支持光流估計、語義分割等任務,其指標與領域通用標準一致:
- 光流估計:采用端點誤差(Endpoint Error, EPE)—— 估計光流向量與真實光流向量的歐氏距離,統計平均 EPE 和 EPE>3 的像素比例;
- 語義分割:采用交并比(mIoU,均值交并比)—— 計算每個類別的 IoU,再取所有類別的平均值,反映分割結果與真實標簽的重合度。