自動駕駛數據集綜述:統計特征、標注質量與未來展望
A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook
得益于硬件和深度學習技術的快速進步,自動駕駛近年來迅速發展并展現出良好的性能。高質量的數據集是構建可靠自動駕駛算法的基礎。以往的數據集綜述要么關注的數據集數量有限,要么缺乏對數據集特征的深入研究。為此,本文從多個角度對265個自動駕駛數據集進行了全面研究,包括傳感器類型、數據規模、任務類型和環境上下文等方面。我們提出了一種用于評估數據集影響力的新指標,該指標也可作為構建新數據集的參考。此外,本文還分析了數據集的標注流程、現有標注工具以及標注質量,強調了建立標準化標注流程的重要性。另一方面,我們深入探討了地理因素和對抗性環境條件對自動駕駛系統性能的影響。同時,還展示了多個關鍵數據集的數據分布情況,并分別討論了它們的優劣。最后,本文總結了當前面臨的挑戰,并對未來自動駕駛數據集的發展趨勢進行了展望。
一、引言
自動駕駛(Autonomous Driving,簡稱 AD)旨在通過打造能夠準確感知環境、做出智能決策并在無需人工干預的情況下安全行駛的車輛,徹底變革交通系統。隨著技術的飛速發展,自動駕駛產品已在多個領域得到了實際應用,例如無人出租車等。這些迅猛進展在很大程度上依賴于大量的數據集,正是這些數據集幫助自動駕駛系統在復雜駕駛環境中保持魯棒性與可靠性。
近年來,自動駕駛數據集在質量和多樣性方面有了顯著提升。第一個顯著的現象是數據采集策略的多樣化,包括使用仿真器生成的合成數據集以及來自真實世界的實景采集數據集。其次,數據集在構成上也表現出豐富性,不僅涵蓋了多種傳感器模態,如攝像頭圖像和激光雷達點云,還包含了面向不同任務的多種標注類型及數據分布情況。
下圖展示了六個知名真實世界數據集(Argoverse 2、KITTI、nuScenes、ONCE、Waymo 和 ZOD)中三維目標邊界框在鳥瞰圖視角下的分布,突出表現了各數據集在標注特性上的差異。此外,傳感器的安裝位置也反映了不同的數據感知域,包括車載、車聯網(V2X)以及無人機等。數據集在幾何結構上的多樣性以及不同天氣條件下的采集,也進一步提升了其在自動駕駛應用中的泛化能力。
(一)研究空白與研究動機
我們通過下圖展示了每年發布的感知類數據集數量,以說明自動駕駛數據集的發展趨勢。隨著公開數據集數量的迅速增長和體量不斷擴大,全面梳理這些資源對于推動自動駕駛領域的學術研究和工業應用具有重要價值。
在此前的工作中,Yin 等人總結了 27 個在公共道路上采集的公開數據集。隨后的一項工作對數據集數量進行了擴展。Guo 等人和 Janai 等人則從應用角度對已有數據集做了系統性的介紹。除了描述已有數據集,Liu 等人還探討了合成數據與真實數據之間的領域適應問題以及自動標注方法。Li 等人則對現有數據集進行了總結,并深入分析了下一代數據集的關鍵特征。
然而,這些綜述大多僅覆蓋了數量較少的數據集,導致研究覆蓋范圍不夠廣泛。AD-Dataset 雖然收集了大量數據集,但在數據集屬性的深入分析方面存在不足。與這些通用數據集研究不同,也有研究者專注于某一類特定的自動駕駛數據集進行調研,如異常檢測、合成數據集、三維語義分割或決策任務等。此外,也有一些針對具體任務的綜述中整理了相關的自動駕駛數據集。
在本研究中,我們對自動駕駛領域中大量數據集進行了全面且系統性的綜述。我們在上表中將本綜述與其他研究進行了比較。我們的綜述涵蓋了從感知到控制的所有任務,包含了真實世界數據和合成數據,并對多個關鍵數據集在數據模態和數據質量方面提供了深入的見解。
(二)主要貢獻
本文的主要貢獻總結如下:
- 我們呈現了迄今為止最為全面的自動駕駛數據集綜述,盡可能全面地展示了公開可用的數據集,并記錄了它們的核心特征,如發布年份、數據規模、傳感器模態、感知域、幾何與環境條件、支持的任務等。
- 我們系統性地闡述了用于采集自動駕駛數據的傳感器種類和感知域。此外,還介紹了自動駕駛中的主要任務,包括任務目標、所需數據模態以及評估指標。
- 我們依據感知域和相關任務對數據集進行了分類,幫助研究人員高效地識別并整合其目標數據集的信息,從而促進更有針對性和高效的研究與開發工作。
- 我們還引入了一種影響力評分指標,用于衡量已發布感知類數據集的影響程度,該指標也可為未來數據集的開發提供指導。我們對高影響力評分的數據集進行了深入分析,突出了其優勢和實際應用價值。
- 我們調查了自動駕駛各類任務中數據集的標注質量和現有的標注流程。
- 我們通過詳細的數據統計,從多個維度展示了不同數據集的數據分布情況,揭示了它們的固有限制與適用場景。
- 我們分析了最新的技術趨勢與下一代數據集的發展方向,包括將語言引入自動駕駛數據、使用視覺語言模型生成自動駕駛數據、推動數據標準化,以及建設開放的數據生態系統。
(三)范圍與局限性
我們的目標是對現有的自動駕駛數據集進行詳盡的綜述,以推動該領域未來算法和數據集的發展。我們收集了與自動駕駛五個基本任務相關的數據集:感知、預測、規劃、控制以及端到端(E2E)駕駛。為保持清晰性并避免冗余,我們僅在所支持的主要任務范疇中描述多用途數據集。
此外,我們整理了大量數據集,并在表格中展示了它們的主要特征。然而,為了使本綜述更有效地服務于研究人員,我們將詳細討論重點放在影響力最大的部分數據集上,而非對所有數據集進行廣泛描述。
(四)綜述結構
本綜述的其余部分結構如下:第二部分介紹了用于收集公共數據集的方法以及相應的評估指標。第三部分展示了自動駕駛中使用的主要傳感器及其數據模態。第四部分討論了自動駕駛的各項任務、相關挑戰以及所需的數據類型。第五部分對若干重要數據集進行了深入討論。第六部分探討了數據標注的流程及影響標注質量的因素。第七部分對各類數據集中的數據分布進行了統計分析。第八部分展望了自動駕駛數據集的未來發展趨勢及潛在研究方向。第九部分為全文總結。綜述的分類結構如上圖所示。
二、方法
本節包括兩個部分:1)數據集的收集與篩選;2)用于評估數據集在自動駕駛領域影響力的指標。
(一)數據集收集
借鑒既有研究,我們進行了系統性回顧,以盡可能全面地收集已發布的自動駕駛數據集。為保證信息來源的多樣性,我們使用了多個知名搜索引擎,包括 Google、Google Scholar 和百度,搜索相關數據集。
為了確保涵蓋來自不同國家和地區的數據集,我們使用了英文、中文和德文等多種語言進行檢索,關鍵詞包括“autonomous driving dataset/benchmark(自動駕駛數據集/基準)”“intelligent vehicle dataset/benchmark(智能車輛數據集/基準)”,以及與目標檢測、分類、跟蹤、分割、預測、規劃、控制和端到端駕駛等任務相關的術語。
此外,我們還在 IEEE Xplore、Paperswithcode 以及與自動駕駛和智能交通系統相關的主流會議中查找論文及其附帶的數據集,并通過關鍵詞搜索和人工標題篩選來驗證這些數據集的有效性。
最后,為確保涵蓋一些較為專業或不太知名的數據集,我們還檢索了 Github 上的開源項目倉庫。與數據庫檢索類似,我們結合關鍵詞搜索和人工篩查的方法,以盡可能完整地收集相關數據集。
(二)數據集評估指標
我們引入了一個新的評估指標——影響力評分(impact score),用于衡量已發布數據集的重要性,同時也可以為新數據集的設計提供參考。在本節中,我們將詳細介紹如何計算自動駕駛數據集的影響力評分。
為了實現公平且可比的對比,我們僅考慮感知領域相關的數據集,因為這類數據集在自動駕駛中占據了很大比例。為保證評分系統的客觀性與可理解性,我們綜合考慮多個因素,包括引用分數、數據維度和環境多樣性。所有數據均來自官方論文或開源數據集官網。
三、自動駕駛中的傳感器與感知技術
在本節中,我們將介紹自動駕駛中主要使用的傳感器及其數據模態。隨后,我們將分析數據采集方式與協同感知技術。
(一)傳感器數據模態
高效且精準地采集周圍環境的數據,是構建可靠自動駕駛感知系統的關鍵。為了實現這一目標,各類傳感器被部署在自動駕駛車輛與相關基礎設施上。上圖展示了一些常用的傳感器示例。其中,使用最廣泛的傳感器包括攝像頭、激光雷達(LiDAR)和毫米波雷達(Radar),此外,還會在車載或路側設備上安裝事件相機和熱成像攝像頭,以進一步提升感知能力。
RGB 圖像:
RGB 圖像通常由單目、雙目或魚眼攝像頭采集。單目攝像頭提供無深度信息的二維圖像;雙目攝像頭通過兩個鏡頭實現立體視覺獲取深度信息;魚眼攝像頭則通過廣角鏡頭捕捉更廣闊的視野。
如圖 (a) 所示,二維圖像可捕捉顏色信息、豐富紋理、圖案和環境視覺細節。憑借這些特性,RGB 圖像常用于車輛和行人的檢測,以及交通標志的識別。然而,RGB 圖像對光照變化敏感,在弱光、雨霧或強光環境下性能會受到影響。
激光雷達點云(LiDAR Point Clouds):
激光雷達通過激光束測量傳感器與目標之間的距離,從而構建三維環境模型。如圖 (b) 所示,LiDAR 點云提供高分辨率的精確空間信息,能在遠距離內檢測目標。然而,點的密度會隨著距離增加而降低,使遠處目標的表示更稀疏。此外,惡劣天氣(如濃霧)也會影響激光雷達的性能。通常,LiDAR 適用于對三維信息有較高要求的場景。
毫米波雷達點云(Radar Point Clouds):
毫米波雷達通過發射無線電波并分析其反射來檢測目標、距離和相對速度。其優勢在于對各種天氣條件具有良好的魯棒性。如圖 ? 所示,雷達點云通常比激光雷達粗糙,缺乏目標的詳細形狀或紋理信息,因此常作為輔助傳感器使用。
事件相機(Event-based Camera):
事件相機以非同步方式捕捉數據,僅當像素亮度發生變化時才產生輸出。所采集的數據被稱為“事件”(見圖 (d))。由于其獨特的數據生成方式,事件相機具有極高的時間分辨率,能夠無模糊地捕捉快速運動。
熱成像圖像(Thermal Camera):
熱成像攝像頭通過捕捉紅外輻射檢測熱信號(見圖 (e))。其基于溫度差成像的特性使其能在全黑環境下工作,且不受煙霧或霧氣影響。然而,它無法呈現顏色和細致的視覺圖案,圖像分辨率也低于普通光學攝像頭。
慣性測量單元(IMU):
IMU 是一種電子設備,用于測量并報告物體的特定加速度、角速度,有時還包括磁場信息。在自動駕駛中,IMU 用于跟蹤車輛的位置變化與姿態方向。
上圖展示了我們所收集數據集中各類傳感器的分布情況。由于成本低廉且性能穩定,超過一半的數據集使用單目攝像頭(52.79%)。另有 93 個數據集(25.98%)包含 LiDAR 數據,因其高分辨率與空間精度受到青睞,但其高成本限制了普及。此外,有 29 個數據集使用雙目攝像頭獲取深度信息。另有 5.31%、3.35%、1.68% 的數據集分別包含毫米波雷達、熱成像相機和魚眼攝像頭。鑒于事件相機在動態場景采集方面的時間效率,共有 10 個數據集(2.79%)基于事件相機生成數據。
(二)感知域與協同感知系統
傳感數據的采集以及自動駕駛車輛與周邊實體之間的協同,對于確保自動駕駛系統的安全性、效率和整體功能至關重要。因此,傳感器的部署位置尤為關鍵,它決定了可采集數據的質量、角度與范圍。通常,自動駕駛中的感知域可分為四類:車載(Onboard)、車路協同(V2X)、無人機(Drone-based)以及其他(Others)。
車載(Onboard)
車載傳感器直接安裝在自動駕駛車輛上,通常包括攝像頭、激光雷達、毫米波雷達和慣性測量單元(IMU)。這些傳感器提供車輛視角下的直接感知,能快速反饋周圍環境信息。然而,由于探測范圍有限,車載傳感器在應對盲區障礙物預警或急彎路段的感知時,可能存在局限性。
車路協同(V2X)
V2X(Vehicle-to-Everything)指的是車輛與交通系統中其他組成部分之間的通信,包括車與車(V2V)、車與基礎設施(V2I)以及車與網絡(V2N)。這種協同系統超越了車輛本身的感知能力,實現多方實體的協同工作。
-
車與車(V2V):
V2V 通信允許附近車輛共享關鍵信息,如位置、速度及其采集的傳感數據(例如攝像圖像或激光雷達掃描)。這些共享信息有助于形成對駕駛場景的更全面理解。 -
車與基礎設施(V2I):
V2I 通信使車輛能夠與交通基礎設施(如紅綠燈、交通標志或路側傳感器)之間進行信息交互。部署在道路基礎設施上的傳感器與車輛協作,拓展感知范圍,增強環境感知能力。在本綜述中,我們將單車或多車與單個或多個基礎設施設備之間的交互,或多個基礎設施之間的協作,均歸入 V2I。 -
車與網絡(V2N):
V2N 指車輛與更大范圍的網絡基礎設施之間的信息交換,通常依賴蜂窩通信網絡,為車輛提供云端數據訪問。V2N 可輔助 V2V 和 V2I 感知系統,通過共享跨區域數據或提供實時交通擁堵、道路封閉等信息,實現更廣域的感知協同。
無人機(Drone)
無人機(或稱無人飛行器 UAV)提供俯視視角,為軌跡預測與路徑規劃提供重要數據。例如,無人機采集的實時數據可被集成進交通管理系統中,用于優化交通流、提前向自動駕駛車輛預警前方事故等。
其他(Others)
不屬于以上三類的數據采集方式歸為“其他”,包括安裝在非車輛對象上的設備采集的數據,或涉及多個感知域的復合型數據采集方式。
四、自動駕駛中的任務
本章節將深入探討自動駕駛中的關鍵任務,包括感知與定位、行為預測以及路徑規劃與控制。上圖展示了自動駕駛整體流程的概覽,我們將詳細說明每一任務的目標、所依賴的數據類型以及面臨的核心挑戰。下圖則概括了自動駕駛中的若干主要任務。
(一)感知與定位
感知側重于基于傳感數據理解環境,而定位則確定自動駕駛車輛在該環境中的具體位置。
2D/3D 目標檢測:2D或3D目標檢測旨在識別駕駛環境中其他實體的位置和類別。盡管檢測技術已顯著進步,但仍存在一些挑戰,如目標遮擋、光照變化和目標外觀多樣性等。通常,平均精度(Average Precision,AP)指標用于評估目標檢測性能。AP指標可表示為:
AP=∫01max?r′≥rp(r′)drAP = \int_0^1 \max_{r' \ge r} p(r') \, dr AP=∫01?r′≥rmax?p(r′)dr
其中,p(r)p(r)p(r)是精確率-召回率曲線。
2D/3D 語義分割:語義分割涉及將圖像的每個像素或點云的每個點分類到對應的語義類別。從數據集角度來看,保持細粒度的目標邊界同時處理大量標注需求,是這項任務的重要挑戰。常用的評估指標包括平均像素準確率(mean Pixel Accuracy,mPA):
mPA=1k+1∑i=0kpii∑j=0kpijmPA = \frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{ii}}{\sum_{j=0}^{k} p_{ij}} mPA=k+11?i=0∑k?∑j=0k?pij?pii??
以及平均交并比(mean Intersection over Union,mIoU):
mIoU=1k+1∑i=0kpii∑j=0kpij+∑j=0kpji?piimIoU = \frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{ii}}{\sum_{j=0}^{k} p_{ij} + \sum_{j=0}^{k} p_{ji} - p_{ii}} mIoU=k+11?i=0∑k?∑j=0k?pij?+∑j=0k?pji??pii?pii??
其中,k∈Nk \in \mathbb{N}k∈N 表示類別數,piip_{ii}pii?、pijp_{ij}pij?、pjip_{ji}pji?分別代表真正例、假正例和假負例。
目標跟蹤:目標跟蹤是監控單個或多個目標隨時間的軌跡,通常需要時序的RGB數據、LiDAR或雷達序列。目標跟蹤包括單目標跟蹤和多目標跟蹤(MOT)。
多目標跟蹤精度(Multi-Object-Tracking Accuracy,MOTA)是廣泛使用的評估指標,結合了假負例、假正例和匹配錯誤率,計算公式為:
MOTA=1?∑t(fpt+fnt+et)∑tgttMOTA = 1 - \frac{\sum_t (fp_t + fn_t + e_t)}{\sum_t gt_t} MOTA=1?∑t?gtt?∑t?(fpt?+fnt?+et?)?
其中,fptfp_tfpt?、fntfn_tfnt?、ete_tet?分別是時間點(t)的假正例數、假負例數和匹配錯誤數,gttgt_tgtt?是對應的真實目標數。
此外,平均MOTA(Average MOTA,AMOTA)基于所有目標置信度閾值計算,體現了更全面的性能。
高清地圖(HD Map):高清地圖旨在構建包含道路結構、交通標志和地標信息的詳細、高精度地圖。數據集通常應提供LiDAR數據以保證精確的空間信息,以及攝像頭數據以補充視覺細節,確保地圖的準確性。高清地圖的質量通常用準確率指標評估。
同步定位與建圖(SLAM):SLAM任務是在構建環境地圖的同時實現車輛定位。因此,來自攝像頭、慣性測量單元(IMU)用于位置跟蹤,以及實時LiDAR點云的數據非常關鍵。評估SLAM結果時,常用的指標包括相對位姿誤差(Relative Pose Error,RPE)和絕對軌跡誤差(Absolute Trajectory Error,ATE),用以衡量輸入RGB-D圖像估計軌跡的質量。
(二)預測
預測(Prediction)指的是對周圍交通參與者未來狀態或行為的預測。這一能力對于在動態環境中實現更安全的導航至關重要。常用于評估預測性能的指標包括:
均方根誤差(Root Mean Squared Error,RMSE):用于衡量預測軌跡與真實軌跡之間的誤差,計算公式如下:
RMSE=1N∑n=1N(Tpredn?Tgtn)2RMSE = \sqrt{\frac{1}{N} \sum_{n=1}^{N} (T_{\text{pred}}^n - T_{\text{gt}}^n)^2} RMSE=N1?n=1∑N?(Tpredn??Tgtn?)2?
其中,NNN 表示樣本總數,TprednT_{\text{pred}}^nTpredn? 和 TgtnT_{\text{gt}}^nTgtn? 分別表示第 nnn 個樣本的預測軌跡和真實軌跡。
負對數似然(Negative Log Likelihood,NLL):用于判斷預測軌跡的正確性,同時可用于比較不同模型的預測不確定性,計算公式為:
NLL=?∑c=1Cnclog?(n^c)NLL = - \sum_{c=1}^{C} n_c \log(\hat{n}_c) NLL=?c=1∑C?nc?log(n^c?)
其中,CCC 是類別總數,ncn_cnc? 是預測正確性的二值指標,n^c\hat{n}_cn^c? 是相應的預測概率。
軌跡預測(Trajectory Prediction)
軌跡預測基于來自攝像頭和 LiDAR 等傳感器的時序數據,用于推測其他實體(如行人、自行車騎行者或其他車輛)的未來路徑或運動模式。
行為預測(Behavior Prediction)
行為預測旨在預測其他道路使用者可能采取的具體行動(例如,一輛車是否將變道)。由于實體在不同場景下可能采取的動作種類繁多,因此訓練行為預測模型通常需要大量標注數據。
意圖預測(Intention Prediction)
意圖預測關注的是推斷對象行為背后的高層次目標,涉及對人類物理或心理活動的語義理解。由于該任務的復雜性,通常需要綜合攝像頭、交通信號燈、手勢等感知傳感器提供的數據。
(三)規劃與控制
規劃(Planning) 規劃是指自動駕駛系統根據感知結果和預測信息進行決策的過程。一個經典的三層級規劃框架包括路徑規劃、行為規劃和運動規劃:
-
路徑規劃(Path Planning):也稱為路線規劃,負責設定長遠目標,是一個高層次過程,用于確定到達目的地的最佳路徑。
-
行為規劃(Behavior Planning):處于中層級,涉及具體的決策行為,如變道、超車、并道、通過路口等。該過程依賴于對其他交通參與者行為的正確理解與交互。
-
運動規劃(Motion Planning):負責實時生成車輛應遵循的具體軌跡,需綜合考慮障礙物、路況以及其他交通參與者的行為預測。與路徑規劃不同,運動規劃專注于局部目標的實現。
控制(Control) 控制是自動駕駛系統中用于執行運動規劃所決定的路徑或行為,并對跟蹤誤差進行修正的機制。它將高層的決策指令轉化為可執行的油門、剎車和轉向控制指令,從而實現對車輛的精準操控。
(四)端到端自動駕駛
端到端方法是指由單一的深度學習模型完成從感知到控制的全部流程,跳過傳統的模塊化處理管線。這類模型通常更具適應性,因為它們依賴于對整體模型進行統一學習與調整。
端到端方法的核心優勢在于其結構簡單、效率高,減少了對手工設計模塊的依賴。然而,實際應用中仍面臨諸多挑戰,例如:
- 需要大量訓練數據;
- 可解釋性較低;
- 模塊間無法靈活調優。
針對端到端自動駕駛的大規模評估方法主要分為兩類:
- 閉環評估(Closed-loop Evaluation):基于仿真環境進行測試,評估系統在控制回路中的實際駕駛表現。
- 開環評估(Open-loop Evaluation):利用真實世界數據集,通過與專家駕駛行為對比,評估系統的決策合理性和性能表現。
五、高影響力數據集
本節介紹了自動駕駛領域中具有里程碑意義的高影響力數據集,涵蓋以下幾個方面:感知任務相關的數據集;預測、規劃與控制任務相關的數據集;端到端自動駕駛任務相關的數據集。
(一)感知類數據集
感知類數據集對于開發和優化自動駕駛系統至關重要。它們通過提供豐富的多模態感知數據,提升了車輛的可靠性與魯棒性,確保對周圍環境的有效感知和理解。
我們利用前述提出的數據集評估指標對收集到的感知數據集進行了影響力評分,隨后基于評分選取排名前 50 的數據集,構建了按時間排序的概覽(如上圖所示)。同時,我們將數據集按傳感來源劃分為車載(onboard)、車路協同(V2X)、無人機(drone)和其他類別,并從每一類別中挑選部分代表數據集,構建出包含 50 個數據集的綜合表格(下表)。需要注意的是,表中數據集按各自類別內的影響力得分排序,并不代表整體前 50。以下章節中,我們從每個感知來源中選取若干影響力最高的數據集,結合其發布年份進行介紹。
1)車載(Onboard)
KITTI:自 2012 年發布以來,KITTI 對自動駕駛領域的發展起到了關鍵作用。其數據包括攝像頭、LiDAR 和 GPS/IMU 采集的信息,支持目標檢測、追蹤、光流估計、深度估計和視覺里程計等任務。但其數據主要采集于德國城市理想天氣條件下,地理和環境多樣性有限,限制了其真實場景適應能力。
Cityscapes:Cityscapes 專注于復雜城市環境圖像采集,已成為語義分割任務中的標準基準。其為 30 個物體類別(包括車輛、行人、道路、交通標志等)提供像素級標簽。但其采集范圍局限于德國城市,缺乏氣候多樣性。
VIPER:VIPER 是基于虛擬世界構建的合成數據集,提供超過 25 萬幀視頻圖像,支持多種視覺任務。它涵蓋多種天氣和光照場景,是評估算法魯棒性的理想資源。然而,其與真實世界存在領域差異,算法需跨域泛化。
SemanticKITTI:SemanticKITTI 含有超過 43,000 幀 LiDAR 點云,是最全面的室外 3D 語義分割數據集之一。其標注涵蓋 28 個類別(如汽車、道路、建筑物等)。但其在環境多樣性和地理覆蓋上仍有限。
nuScenes:nuScenes 提供多模態傳感器數據(如 LiDAR、雷達、攝像頭),涵蓋波士頓和新加坡的城市駕駛行為及布局。其六個攝像頭提供多視角數據,廣泛應用于多視圖檢測任務。但對如事故等極端場景的覆蓋較少。
Waymo:Waymo Open Dataset 于 2019 年發布,提供大規模高質量多模態數據,相較其他數據集具有更好的標注精度和駕駛條件多樣性,增強了任務魯棒性和泛化能力。但對特定極端條件的探索仍可加強。
BDD100K:BDD100K 以其數據規模和多樣性著稱,包含 10 萬個視頻片段,涵蓋全天候及多氣候情況,支持檢測、跟蹤、語義分割、車道檢測等任務。但部分標注質量不穩定,影響其在真實場景中的表現。
Argoverse 2:作為 Argoverse 1 的升級版,Argoverse 2 引入更多復雜場景,支持 3D 檢測、分割和跟蹤等任務。其覆蓋六個城市,但仍可提升對極端或邊緣駕駛條件的適應能力。
2)車路協同(V2X)
TUMTraf:TUMTraf 數據集家族共計 50,253 幀數據(含 9,545 幀點云和 40,708 張圖像),涵蓋德國慕尼黑的多種交通情境,傳感器包括 RGB、事件相機、LiDAR、GPS 和 IMU。數據源自基礎設施和車輛視角,支持協同感知任務,尤其包含事故、險情、違規等邊緣案例。
DAIR-V2X:DAIR-V2X 致力于車輛-基礎設施協同場景,提供大規模、多模態、多視角的真實世界數據,解決傳感器時間不同步和傳輸成本問題,為 V2X 感知任務設定了標桿。
3)無人機(Drone)
UAVDT:UAVDT 數據集包含 80,000 幀精確標注圖像,涵蓋天氣、視角、飛行姿態、遮擋等 14 類屬性,主要用于城市環境下的目標檢測與跟蹤,挑戰在于密集小目標與攝像機快速運動。
DroneVehicle:DroneVehicle 提供 28,439 對 RGB-紅外圖像,專注于低照明條件下的檢測任務,涵蓋城市道路、居民區、停車場等場景,拓展了從無人機視角下的自動駕駛研究。
4)其他(Others)
Pascal3D+:作為 PASCAL VOC 的擴展數據集,Pascal3D+ 為 12 類剛性物體(如汽車、公交、自行車)提供 3D 姿態注釋,并引入 ImageNet 圖像增強多樣性,但其局限于剛性目標,難以適配包含非剛體如行人的動態場景。
Mapillary Vistas:該數據集提出于 2017 年,旨在街景語義分割任務,包含 25,000 張圖像,標注 66 個類別及 37 類實例標簽,涵蓋不同天氣、時間和地理區域,有助于緩解數據偏向性。
(二)預測、規劃與控制類數據集
預測、規劃與控制類數據集是推動自動駕駛系統開發的基礎。這些數據集對于預測交通動態、行人行為以及其他影響駕駛決策的關鍵因素至關重要。因此,我們根據數據規模、數據模態以及引用次數,詳細展示了若干具有高影響力的相關數據集,并將其分為特定任務數據集與多任務數據集兩類進行總結。
1)特定任務數據集:
highD:highD 是一個基于無人機的大規模自然駕駛軌跡數據集,采集于德國高速公路,包含11萬條汽車和卡車的處理后軌跡。它彌補了傳統測量技術在場景安全驗證中無法捕捉真實道路行為和缺乏高質量數據的問題。但其拍攝環境為理想天氣,限制了其在惡劣天氣下的應用能力。
PIE:PIE(Pedestrian Intention Estimation)數據集致力于理解城市環境中行人的行為。該數據集采集于多倫多市中心,在多種光照條件下記錄了超過6小時的駕駛視頻,并提供豐富的感知和視覺推理標注信息,包括帶遮擋標記的邊框、過街意圖置信度和行人動作文本標簽。
Argoverse:Argoverse 是用于3D目標跟蹤和運動預測的重要數據集,提供7個攝像頭的360°圖像、前視雙目圖像及激光雷達點云。其包含超過30萬條車輛軌跡,覆蓋290公里已標注車道。得益于豐富的傳感器數據和語義地圖,Argoverse 在預測系統研發中發揮了關鍵作用,但在不同地理區域的泛化性仍有局限。
nuPlan:nuPlan 是全球首個基于閉環機器學習的自動駕駛規劃評測基準。該多模態數據集包含約1500小時的人類駕駛數據,覆蓋美國和亞洲四個城市,涵蓋合流、變道、與行人/騎行者交互、施工區駕駛等多種交通模式,為構建更具適應性和上下文感知的規劃系統提供了強大支持。
exiD:exiD 是2022年發布的高速公路交互場景軌跡數據集,由無人機采集交通流以避免遮擋,保證了數據質量與采集效率。它優于以往數據集,在出入口變道等交互場景的多樣性方面尤為突出。未來可通過引入不同天氣和夜間場景進一步擴展。
MONA:MONA(Munich Motion Dataset of Natural Driving)為慕尼黑市自然駕駛數據集,包含702K條軌跡、130小時視頻,覆蓋城市道路與城內高速轉換段。其平均位置精度為0.51米,表明通過高精度定位與激光雷達采集的數據質量極高。但因采集地局限于單一城市,其泛化性可能受限。
2)多任務數據集:
INTERACTION:INTERACTION 是一個多功能平臺,包含豐富復雜的駕駛場景與語義地圖,支持運動預測、模仿學習及決策規劃驗證等任務。其數據涵蓋多個國家與大洲,有助于研究不同文化背景下的駕駛行為。然而,該數據集未對環境條件影響進行顯式建模,可能存在泛化限制。
rounD:rounD 數據集專注于環形交叉口下的場景分類、交通參與者行為預測與駕駛員建模。該數據集利用4K無人機視頻記錄了13K余個道路使用者,持續時長超6小時。其高質量、多樣化的交通情況采集,使其成為研究自然駕駛行為的重要資源。但因采集均在良好天氣下進行,模型在復雜氣候下的性能可能受限。
Lyft Level 5:Lyft Level 5 是目前最大規模的運動預測數據集之一,包含超過1000小時數據,17,000段25秒的駕駛片段,配套高清語義地圖和15,000個手工標注點、8,500個車道段以及高分辨率航拍圖像。它支持運動預測、規劃與仿真等多任務研究。盡管標注詳細,但在處理不常見交通狀況或稀有行人行為方面仍有提升空間。
LOKI:LOKI(Long Term and Key Intentions)是一個用于多智能體軌跡與意圖預測的重要數據集。該數據集專為異構交通參與者(如行人與車輛)設計,結合圖像與激光雷達點云,為復雜交通場景提供多維度視角,適用于智能系統與安全關鍵任務。
DeepAccident:DeepAccident 是首個可提供直接解釋的安全評估指標的合成數據集,包含57K幀標注圖像與28.5萬條標注樣本,支持端到端運動與事故預測,對于避免碰撞與安全評估至關重要。此外,其多模態數據也適用于V2X感知任務如3D目標檢測、追蹤與BEV語義分割。不同環
(三)端到端類數據集
端到端已成為自動駕駛領域中替代模塊化架構的一種重要趨勢。多個多功能數據集(如 nuScenes 和 Waymo)以及仿真平臺(如 CARLA)為端到端自動駕駛的開發提供了可能。同時,也有一些研究專門提出了用于端到端學習的數據集。
DDD17:DDD17 數據集的顯著特點在于使用了事件相機。該數據集同時提供標準有源像素傳感器(APS)圖像和動態視覺傳感器(DVS)所采集的時序對比事件流,構建出一種獨特的視覺數據融合形式。此外,DDD17 包含豐富的駕駛場景,如高速公路、城市道路以及多種天氣條件,為訓練和測試端到端自動駕駛算法提供了詳盡而真實的數據支持。
四、自動駕駛數據標注過程
成功和可靠的自動駕駛算法不僅依賴于海量數據,還依賴于高質量的標注。本節首先介紹數據標注的方法,然后分析確保標注質量的重要方面。
(一)標注生成
不同的自動駕駛任務需要特定類型的標注。例如,目標檢測需要實例的邊界框標注,分割依賴于像素級或點級的標注,連續的軌跡標注對于軌跡預測至關重要。另一方面,如圖下所示,標注流程可分為三類:人工標注、半自動標注和全自動標注。本節將詳細介紹不同標注類型的標注方法。
2D/3D 邊界框標注:
邊界框標注的質量直接影響感知系統(如目標檢測)在真實場景中的有效性和魯棒性。通常,標注過程包括在圖像中繪制矩形框,或在點云中使用立方體精確地包圍目標對象。
Labelme 是一個早期用于圖像目標檢測標注的工具。然而,專業人員手動繪制邊界框也存在成本高、效率低的問題。Wang 等提出了一種基于 VATIC 開源視頻標注系統的半自動標注工具;Manikandan 等人則提出了一個自動視頻標注工具用于自動駕駛場景。夜間標注比白天更具挑戰性,Schorkhuber 等人提出了一種基于軌跡的半自動方法來解決該問題。
相較于 2D 標注,3D 邊界框包含更豐富的空間信息,如精確位置、物體的長寬高和朝向。因此,標注高質量的 3D 數據需要更復雜的框架。例如,Meng 等人提出了一種基于人類反饋的弱監督學習框架用于 LiDAR 點云標注;ViT-WSS3D 則通過建模 LiDAR 點與弱標簽之間的全局交互生成偽邊界框;Apolloscape 數據集采用雙分支框架(3D 和 2D 分支)處理靜態與動態目標;3D BAT 開發了一個注釋工具箱以協助 2D 與 3D 半自動標注。
分割數據標注:
分割標注的目標是為圖像中每個像素或點云中的每個點賦予所屬物體或區域的標簽。手工標注通常需先繪制邊界再填充區域或直接涂抹像素,但該過程耗時且效率低。
為提升效率,許多研究提出了全自動或半自動分割標注方法。例如,Barnes 等人提出一種基于弱監督的全自動分割方法,用于圖像中可行駛區域的提取;另一種方法利用目標先驗生成分割掩碼;Polygon-RNN++ 是一種交互式標注工具;此外,還有方法嘗試將 3D 信息轉移至 2D 圖像域生成語義分割標注;也有研究提出圖像輔助的 3D 標注流程,或利用主動學習選取部分點進行訓練以避免標注整個點云場景。Liu 等人進一步提出結合弱監督與半監督的高效標注框架用于室外點云。
軌跡標注:
軌跡是反映目標在時間和空間中路徑的一系列點。軌跡標注涉及為不同實體(如車輛、行人、自行車等)標注其在駕駛環境中的移動軌跡。該過程通常依賴于目標檢測與追蹤結果。
早期方法如在線生成動作并標注入軌跡;還有基于眾包+專家整合的兩步標注流程;Jarl 等人開發了一個主動學習框架用于軌跡標注;Styles 等人提出了一種無需人工的可擴展機器標注方案專用于行人軌跡標注。
合成數據標注:
由于現實世界數據標注昂貴且耗時,利用計算機圖形或仿真器生成的合成數據提供了一種替代方案。此類數據生成過程可控,場景中每個物體的位置、尺寸和運動信息都已知,因此可以自動、精準地完成標注。
生成的合成場景模擬現實世界的多目標、多地形、天氣與光照條件。選擇合適的仿真工具至關重要。早期如 Torcs 和 DeepDriving 缺乏多模態信息與行人等對象。當前廣泛使用的開源仿真平臺包括 CARLA、SUMO 與 AirSim,可定制化強。而商業平臺如 NVIDIA 的 Drive Constellation 受限于非開源,難以創建特殊場景。游戲引擎如 GTA5 和 Unity 也被用于合成數據構建。
具體地,有研究利用 GTA5 引擎構建數據集;也有研究基于多個游戲構建實時系統用于多任務數據生成。SHIFT、CAOS、FedBEVT 和 V2XSet 等數據集基于 CARLA 仿真器生成,V2XSim 更進一步結合多個仿真平臺以構建 V2X 感知任務數據集;CODD 進一步利用 CARLA 生成 3D LiDAR 數據用于協同駕駛。還有部分研究基于 Unity 開發平臺生成合成數據集。
(二)標注質量
基于監督學習的自動駕駛(AD)算法在很大程度上依賴于大量高質量、標注精確的數據集。優質數據集確保系統能夠準確感知并理解復雜的駕駛環境,從而提升道路安全性和系統的可靠性。這不僅增強了用戶的信任感,也是自動駕駛汽車廣泛應用的關鍵前提。相反,低質量的數據集可能導致系統錯誤和安全風險,進而削弱用戶信心、阻礙技術接受度,且無法滿足值得信賴的人工智能的標準。
因此,在現實復雜駕駛場景中,提高標注質量對于提升感知準確性至關重要。相比于微調模型結構,更重要的是優化數據質量并使用主動學習方法對數據集進行篩選與完善,以在測試集上獲得穩健的性能表現。
研究指出,影響標注質量的因素包括一致性、正確性、精確性和驗證機制。
- 一致性 是評估標注質量的首要標準,要求在整個數據集中保持統一。例如,如果某一類型的車輛被標注為“car”,那么所有同類對象在數據集中都應保持一致標注,避免模型學習混淆。
- 精確性 指標注是否真實反映了物體或場景的實際狀態,是另一個關鍵指標。
- 正確性 表示標注內容是否符合數據集目標與標注規范。
- 驗證機制 是保障標注數據準確與完整的最后一道防線。驗證過程可以通過專家人工審查或算法完成,有效防止低質量數據影響自動駕駛系統性能,降低潛在安全風險。
例如,KITTI 數據集中存在標注錯誤的案例(上圖):圖像左側紅圈部分的車輛邊界框并未完整覆蓋整輛車,導致標注不準確;綠色框部分的兩輛清晰可見的汽車在圖像與點云中均未被標注。此外,像 IPS300+ 這樣的數據集雖然平均每幀有 319.84 個標注對象,但整體標注質量較差。
相比之下,諸如 Pandaset、Oxford、CADC、nuScenes 和 Lyft Level 5 等大型數據集則由專業標注公司(如 Scale AI)負責標注,保證了標注質量。例如,標注 nuScenes 數據集花費了大約 7,937 小時和 10 萬美元的成本。
另一類標注方式是使用自定義標注工具,如 3D BAT(被用于創建 TUMTraf 數據集)、Waymo 和 KITTI 數據集均使用自研工具完成標注;V2V4Real 則使用了 SUSTechPoints 工具生成標注數據。
五、數據分析
本節中,我們從多個角度對自動駕駛相關數據集進行了系統分析,包括全球范圍內的數據分布、時間上的發展趨勢,以及數據分布情況。
(一)全球分布情況
我們在上圖中展示了191個自動駕駛數據集的全球分布概覽。圖表顯示,美國以40個數據集(占比21%)位居領先地位,凸顯其在自動駕駛領域的領導地位。德國擁有24個數據集,中國緊隨其后,有16個數據集。相比之下,加拿大、韓國、英國、日本和新加坡等發達國家所占份額較小。盡管有11個數據集為全球采集、24個來自除德國外的歐洲地區,但這些國家或地區都屬于高收入區域。美國、西歐和東亞的主導地位反映出自動駕駛技術在全球范圍內的發展極為不平衡。
具體來看,最經典的數據集之一KITTI是在德國卡爾斯魯厄的城市區域采集的。相比之下,Waymo 和 Argoverse 2 數據集則分別來自美國六個不同城市的廣泛采集。Apolloscapes 和 DAIRV2X 數據集采集于中國。而nuScenes數據集并非只基于某一個國家的數據,而是基于美國波士頓和新加坡兩個城市的數據,這兩個地區以其復雜且具有挑戰性的交通環境而著稱。其他廣為人知的自動駕駛數據集也均采集自上述提到的國家。值得一提的是,由于地域多樣性,nuScenes 和 Waymo 數據集在遷移學習中被廣泛使用,以驗證自動駕駛算法的泛化能力。
此外,不同的地理區域面臨著獨特的自動駕駛挑戰。若僅依賴單一來源的數據,可能會引入偏差,導致自動駕駛車輛在多樣化或未見過的區域和場景中表現不佳。例如,中國的電動滑板車種類和數量遠超德國,這意味著若算法僅在德國數據上訓練,可能難以準確識別中國的目標。因此,從不同大洲和國家采集數據,有助于解決地理位置所帶來的獨特挑戰。這種多樣化的區域分布增強了數據集的魯棒性,也體現了學術界與工業界在全球范圍內的努力與合作。
此外,還有35個由模擬器(如CARLA)生成的合成數據集,占比18.32%。由于現實世界駕駛環境采集存在諸多限制,這些合成數據集有效克服了這些問題,對于開發更具魯棒性和可靠性的駕駛系統至關重要。然而,從合成數據到真實數據的領域適配仍是一項具有挑戰性的研究課題,這在一定程度上限制了合成數據及相關模擬器的廣泛應用。
(二)感知數據集的時間發展趨勢
上圖中,我們展示了從2009年到2024年(截至本文撰寫時)感知數據集的時間軸概覽,這些數據集為影響力得分排名前50的數據集。圖中按數據集的來源領域進行顏色編碼,合成數據集則用紅色外框標注,從而清晰地展現出數據采集策略日益多樣化的發展趨勢。可以明顯看出,隨著自動駕駛領域的不斷進步,數據集的數量和類型逐年增加,反映出對高質量數據集日益增長的需求。
總體而言,大多數數據集提供的是來自自動駕駛車輛本體(onboard)上安裝的傳感器的感知視角,這是因為自動駕駛車輛需要具備高效且精準地感知周圍環境的能力。另一方面,由于現實世界數據采集成本較高,一些研究者提出了高影響力的合成數據集,如2016年發布的VirtualKITTI,以緩解對真實數據的依賴。在模擬器技術的有效推動下,近年來也涌現出許多新穎的合成數據集。
在時間軸中,我們還可以看到V2X數據集(如DAIR-V2X和TUMTraf系列)展現出向協同駕駛系統發展的趨勢。此外,得益于無人機所提供的非遮擋視角,基于無人機的數據集(例如2018年發布的UAVDT)在推動感知系統發展方面也占據著重要地位。
(三)數據分布情況
我們在下圖中展示了這些數據集中每幀物體數量的概覽。值得注意的是,Waymo 數據集在幀數量少于 50 個物體的區間內占據了極大比例,同時又廣泛分布于整個圖表中,說明它涵蓋了從低密度到高密度場景的廣泛場景分布。相比之下,KITTI 數據集的分布更為集中,且數據規模有限。Argoverse 2 數據集包含大量物體數量較多的幀,其峰值出現在約 70 個物體附近,說明其整體場景較為復雜。對于 ONCE 數據集,其物體密度在支持的感知范圍內分布較為均勻。
像 nuScenes 和 ZOD 這樣的數據集展示了類似的曲線:快速上升后緩慢下降,表明其場景復雜度適中,且每幀物體數量的變化范圍較大。
除了每幀的物體數量之外,根據物體與自車距離進行的分布分析也是揭示數據集多樣性和差異性的關鍵因素,如圖15所示。Waymo 數據集標注了大量近距和中距離的物體;相比之下,Argoverse 2 和 ZOD 展示了更廣泛的探測范圍,有些幀甚至包含超過 200 米之外的邊界框。
nuScenes 數據集的曲線表明它在近距離場景中物體豐富,這與城市駕駛場景的特點一致。但隨著距離增加,其標注物體數量迅速下降。ONCE 數據集在不同距離上物體分布更為平均,而 KITTI 數據集則更多集中于近距離目標。
(四)不利環境條件的影響
我們進一步研究了對抗性環境條件(如低照度和下雨)對自動駕駛系統中 3D 目標檢測器性能的影響。實驗結果如下表所示。我們使用了 nuScenes 數據集,并選擇了三種當前最先進的方法:VoxelNext、UTVR 和 Transfusion。為了公平比較,我們直接使用了各自開源庫中提供的預訓練模型。在 nuScenes 驗證集中,我們手動篩選出了雨天和夜間的子集用于實驗。
這三種方法在不同環境條件下表現出相似的趨勢。具體而言,與在完整驗證集上的評估結果相比,在低照度條件下的檢測精度顯著下降。此外,在 nuScenes 記錄的非強降雨天氣條件下,所有模型的性能也都有輕微下滑。而在更嚴重的降雨條件下,檢測器在真實環境中的可靠性可能會更加惡化。
因此,在攝像頭或傳感器融合的方法中,考慮圖像增強或還原處理是應對這些挑戰的一種有前景的方向。
總之,增加在各種類型與強度天氣條件下采集的數據量,對于訓練一個魯棒且可靠的自動駕駛系統至關重要。
六、數據分析討論與未來工作
隨著技術的快速發展、強大的計算資源以及卓越的人工智能算法,下一代自動駕駛數據集呈現出許多新的發展趨勢,同時也帶來了新的挑戰和需求。
端到端駕駛數據集:相比于模塊化設計的自動駕駛流程,端到端架構簡化了整體設計過程,減少了系統集成的復雜性。UniAD 的成功驗證了端到端模型的潛在能力。然而,現有專門面向端到端自動駕駛的數據集數量仍較少。因此,構建專注于端到端駕駛的數據集對推動自動駕駛發展至關重要。另一方面,在數據引擎中實現自動標注流程將顯著促進端到端駕駛框架和數據的開發。
自動駕駛數據集的潛在應用:未來的自動駕駛數據集應提供豐富的真實世界環境和交通數據,支持自車及車輛與基礎設施協作之外的更廣泛應用。例如,自動駕駛車輛與智能基礎設施之間的交互數據可以引導物聯網設備(如智能交通燈)的發展。此外,不同時間和條件下的交通模式、擁堵情況和車輛行為的深入分析將有助于城市規劃、交通流優化以及整體交通管理策略的提升。
在自動駕駛數據集中引入語言信息:近年來,視覺語言模型(VLM)在多個領域取得顯著進展。它在視覺任務中引入語言信息的優勢,使得自動駕駛系統更加可解釋和可信。相關研究指出,多模態大語言模型在感知、運動規劃和運動控制等自動駕駛任務中發揮了重要作用。當前已有部分自動駕駛數據集包含語言標注。整體而言,將語言納入自動駕駛數據集已成為未來的重要發展方向。
通過 VLM 生成數據:VLM 的強大能力也可用于數據生成。例如,DriveGAN 可在無監督條件下解耦各個組成部分生成高質量自動駕駛數據。借助世界模型對駕駛環境的理解,一些研究使用世界模型生成高質量駕駛視頻,如 DriveDreamer 基于真實世界場景提出,克服了傳統游戲或仿真環境的局限。最新的文本生成視頻技術,如 Sora,可以根據簡單描述生成逼真的自動駕駛場景數據,顯著增強了數據增強能力,尤其適用于交通事故等稀有事件的數據擴展。這將有力推動自動駕駛系統的訓練與評估,提升其安全性與可靠性。
領域自適應問題:領域自適應是自動駕駛發展中的關鍵挑戰,指模型在一個數據集(源域)上訓練后能否在另一個數據集(目標域)上穩定運行。這一挑戰體現在多方面,如駕駛條件多樣性、傳感器設置差異,或從合成到真實數據的遷移。因此,下一代數據集應更多融合異質數據源。首先,數據集應涵蓋多種環境條件(如不同天氣、晝夜變化)及地理區域。其次,融合多種傳感器數據類型對于解決領域自適應問題也至關重要。此外,平衡使用高質量合成數據與真實數據,也是提升模型泛化能力的一種解決方案。
自動駕駛中的不確定性問題:在機器學習領域,不確定性通常以概率方式建模,包括:a)源自數據的隨機性(即“不可避免的不確定性”);b)因對最佳模型缺乏了解而產生的認知不確定性。自動駕駛中的主要不確定性來源于訓練數據的不足。數據無法完整覆蓋駕駛環境,導致自動駕駛車輛在稀有場景下表現不穩定。因此,提升數據集的多樣性、涵蓋稀有事件和邊界情況,有助于模型更好理解和量化不確定性,從而安全應對突發情況。
數據創建的標準化問題:數據創建的標準化對新數據集開發至關重要,直接影響模型的準確性、效率與可靠性。數據標準化包括數據屬性、術語結構與數據存儲三個方面。統一不同傳感器類型與源域之間的數據格式有助于集成處理與分析。制定全面的標注指南可保障數據標注的一致性和高質量,從而增強模型在多數據集上的訓練效果與穩定性。同時,建立標準化的數據存儲與訪問協議,支持不同來源數據集的共享與整合,促進研究社區之間的協作與發展。
數據隱私問題:自動駕駛的發展依賴于大量數據以保障行車安全,但數據越多,越容易引發隱私泄露的擔憂。早期的數據集如 KITTI,并未進行圖像匿名處理,存在泄露私人信息的風險。隨著各國相關法規的引入與完善,越來越多新數據集開始采用數據匿名化處理。但即便去除了個人信息和車牌號,專業機構仍可通過分析車輛類型、行人穿著等信息,間接推斷出數據采集地點的基礎設施、城市建設等特征。因此,隱私保護仍需持續關注。
開放數據生態(ODE):自動駕駛領域的開放數據生態旨在促進創新、提升透明度,并推動政府、企業與研究社區的協作。這通過數據集的自由交換,打破了傳統的數據訪問壁壘,使更多創新者參與其中,構建多元化與包容性的創新生態。此外,ODE 建立了動態反饋機制,用戶可報告問題、提出改進建議、參與數據集優化。但完全開放的數據訪問也帶來安全與隱私風險。因此,構建并不斷完善相應的法律框架,保障敏感信息安全的同時,推動 ODE 的健康發展,成為關鍵所在。
七、總結
在本文中,我們對現有的 265 個自動駕駛數據集進行了全面而系統的回顧。我們首先從傳感器類型與模態、感知域以及與自動駕駛相關的任務出發,梳理了數據集的基本構成。我們引入了一種名為“影響力分數(impact score)”的新型評估指標,用于衡量感知類數據集的影響力與重要性。我們深入分析了在感知、預測、規劃、控制以及端到端自動駕駛任務中具有代表性的數據集的屬性與價值。
此外,我們探討了數據集的標注方式及影響標注質量的關鍵因素,并從時間軸與地理分布兩個維度分析了數據集的發展趨勢。我們還通過實驗驗證了在復雜環境條件下多樣化數據的重要性,并從數據分布角度提供了理解不同數據集差異性的獨特視角。
我們的研究結果強調了多樣性和高質量數據集在塑造自動駕駛未來中的關鍵作用。展望未來,我們提出了自動駕駛數據集面臨的主要挑戰與發展方向,包括引入視覺語言模型(VLM)、解決領域自適應問題、應對不確定性挑戰、推動數據創建的標準化、加強數據隱私保護,以及構建開放數據生態。
這些方向不僅為未來研究提供了明確路徑,也對推動自動駕駛技術的發展至關重要,為這一快速演進的領域注入更多創新動力。
參考文獻
- A Survey of Autonomous Driving from a Deep Learning Perspective
- End-to-End Autonomous Driving: Challenges and Frontiers
- Autonomous driving system: A comprehensive survey
- Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey
- A Survey of Autonomous Driving: Common Practices and Emerging Technologies
- A Survey on Autonomous Driving Datasets_Statistics, Annotation Quality, and a Future Outlook
- https://github.com/HaoranZhuExplorer/World-Models-Autonomous-Driving-Latest-Survey?tab=readme-ov-file