(論文速讀)ViDAR:視覺自動駕駛預訓練框架

論文題目:Visual Point Cloud Forecasting enables Scalable Autonomous Driving(視覺點云預測實現可擴展的自動駕駛)

會議:CVPR2024

摘要:與對通用視覺的廣泛研究相比,可擴展視覺自動駕駛的預訓練很少被探索。視覺自動駕駛應用需要同時包含語義、3D幾何和時間信息的功能,以進行聯合感知、預測和規劃,這對預訓練提出了巨大的挑戰。為了解決這個問題,我們提出了一種新的預訓練任務,稱為視覺點云預測-從歷史視覺輸入預測未來的點云。該任務的關鍵優點是捕獲語義,3D結構和時間動態的協同學習。因此,它在各種下游任務中顯示出優勢。為了解決這個新問題,我們提出了一種通用的預訓練下游視覺編碼器的模型ViDAR。它首先通過編碼器提取歷史嵌入。然后通過一種新的潛在渲染算子將這些表示轉換為3D幾何空間,用于未來的點云預測。實驗表明,在下游任務中有顯著的增益,例如,3D檢測的NDS降低3.1%,運動預測的誤差降低~ 10%,規劃的碰撞率降低~ 15%。

源碼鏈接:https://github.com/OpenDriveLab/ViDAR


前言

自動駕駛技術正在快速發展,但面臨著一個關鍵挑戰:如何在減少對昂貴3D標注依賴的同時,訓練出既能感知環境、又能預測未來、還能做出安全規劃決策的智能系統?

背景:自動駕駛預訓練的困境

現有方法的局限性

在計算機視覺領域,預訓練已經取得了巨大成功,但在視覺自動駕駛領域卻面臨獨特挑戰:

  1. 多維度需求:自動駕駛系統需要同時理解語義信息(這是什么)、3D幾何結構(在哪里)和時序動態(如何運動)
  2. 數據標注昂貴:3D邊界框、占用網格、軌跡等標注成本極高,難以大規模獲取
  3. 時序建模缺失:現有預訓練方法如深度估計僅處理單幀,缺乏時序信息

傳統預訓練方法對比

方法多視圖幾何時序建模標注需求
深度估計??中等
場景渲染??中等
ViDAR??極低

ViDAR:創新的解決方案

核心思想:視覺點云預測

ViDAR的核心創新在于提出了一個全新的預訓練任務——視覺點云預測

給定歷史的多視圖圖像序列,預測未來的3D點云

這個看似簡單的任務實際上非常巧妙:

  • 語義理解:需要識別場景中的物體和結構
  • 3D幾何建模:需要理解物體的三維空間關系
  • 時序動態學習:需要建模物體的運動模式

系統架構詳解

ViDAR包含三個核心組件:

1. History Encoder(歷史編碼器)
  • 這是預訓練的目標結構
  • 可以是任何視覺BEV編碼器(如BEVFormer)
  • 將多視圖圖像序列編碼為BEV特征
2. Latent Rendering(潛在渲染算子)

這是ViDAR最關鍵的創新組件,解決了一個重要問題:

問題:直接使用可微光線投射會導致"射線形狀特征"——同一射線上的網格趨向于學習相似特征,缺乏判別性。

解決方案

特征期望函數:F?(i) = Σ p?(i,k) * F(k)_bev
幾何特征計算:F?_bev = p? · F?

通過條件概率函數為每個網格分配權重,確保學習到有判別性的幾何特征。

3. Future Decoder(未來解碼器)

  • 基于Transformer的自回歸架構
  • 包含時序交叉注意力機制
  • 處理自車運動導致的坐標系變化

技術深度解析

Latent Rendering的數學原理

傳統的可微光線投射使用以下公式:

條件概率:p?(i,j) = (∏(1-p(i,k))) * p(i,j)  [k=1到j-1]
距離期望:λ?(i) = Σ p?(i,j) * λ(j)

ViDAR的創新在于在潛在空間中進行類似操作:

特征期望:F?(i) = Σ p?(i,k) * F(k)_bev
權重分配:F?_bev = p? · F?

這種設計使得模型能夠:

  1. 避免射線形狀特征問題
  2. 學習更有判別性的幾何表示
  3. 保持3D結構的一致性

多組并行設計

為了增強特征多樣性,ViDAR采用了多組并行的Latent Rendering:

  • 將256維特征分為16組,每組16維
  • 每組獨立進行潛在渲染
  • 最后拼接得到完整的幾何特征

實驗表明,隨著組數增加,性能持續提升:

組數124816
NDS39.1843.3645.5347.0147.58

實驗結果:全面的性能提升

點云預測能力

ViDAR在點云預測任務上顯著超越現有方法:

時間范圍4D-Occ (LiDAR)ViDAR (視覺)改進
1s預測1.88 m21.25 m2-33%
3s預測2.11 m21.73 m2-18%

令人驚喜的是,僅使用視覺輸入的ViDAR竟然超越了使用LiDAR的方法!

下游任務全面提升

ViDAR在所有自動駕駛任務上都帶來了顯著提升:

感知任務
  • 3D目標檢測:NDS提升3.1%,mAP提升4.3%
  • 語義占用預測:mIoU提升5.2%
  • 地圖分割:lane IoU提升1.9%
  • 多目標跟蹤:AMOTA提升6.1%
預測任務
  • 運動預測:minADE減少10.7%,minFDE減少8.3%
  • 未來占用預測:近距離VPQ提升2.7%,遠距離VPQ提升2.5%
規劃任務
  • 碰撞率:降低14.8%
  • 規劃精度:L2誤差減少18.8%

數據效率革命

ViDAR最令人印象深刻的優勢在于大幅減少了對標注數據的依賴:

  • 使用一半監督數據,ViDAR預訓練的模型仍能超越全監督基線1.7% mAP
  • 隨著可用標注減少,ViDAR的優勢越來越明顯
  • 在1/8數據量時,性能提升達到7.3% mAP

這意味著通過ViDAR,我們可以用一半的標注數據達到更好的性能

技術亮點與創新

1. 統一的預訓練范式

ViDAR首次提出了能夠同時提升感知、預測和規劃的統一預訓練方法,這是端到端自動駕駛的重要突破。

2. 幾何感知的特征學習

通過Latent Rendering,ViDAR學習到的特征具有更強的3D幾何感知能力,這對自動駕駛至關重要。

3. 可擴展的數據利用

僅需Image-LiDAR序列,無需精確標注,使得大規模預訓練成為可能。

4. 即插即用的架構

ViDAR可以與任何BEV編碼器結合,具有良好的通用性。

實際應用價值

產業影響

  1. 降低開發成本:減少對昂貴3D標注的依賴
  2. 加速模型訓練:提供更好的初始化權重
  3. 提升系統性能:在所有關鍵任務上都有顯著提升

研究意義

  1. 新的預訓練范式:為視覺自動駕駛提供了新的研究方向
  2. 理論創新:Latent Rendering為3D視覺任務提供了新的技術路徑
  3. 基準設定:為未來相關研究提供了強基線

局限性與未來方向

當前局限

  1. 數據規模:主要在nuScenes數據集上驗證,規模相對有限
  2. 計算復雜度:多組Latent Rendering增加了計算開銷
  3. 泛化能力:跨數據集的泛化能力有待進一步驗證

未來發展

研究團隊計劃:

  1. 擴大預訓練數據規模
  2. 研究跨數據集的視覺點云預測
  3. 構建視覺自動駕駛的基礎模型

總結:邁向可擴展的自動駕駛

ViDAR代表了視覺自動駕駛預訓練的重大進步。通過巧妙的任務設計和技術創新,它解決了長期困擾該領域的核心問題:

? 統一建模:同時處理語義、幾何和時序信息
? 數據高效:大幅減少對標注數據的依賴
? 性能優異:在所有關鍵任務上都有顯著提升
? 可擴展性:為大規模預訓練奠定基礎

隨著自動駕駛技術的快速發展,ViDAR這樣的創新方法將為構建更安全、更智能的自動駕駛系統提供強有力的技術支撐。我們有理由相信,這一研究將推動整個行業向著更加成熟和實用的方向發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96010.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96010.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96010.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

《Unity Shader入門精要》學習筆記二

1、基礎光照(1)看世界的光模擬真實的光照環境來生成一張圖像,需要考慮3種物理現象。光線從光源中被發射出來。光線和場景中的一些物體相交:一些光線被物體吸收了,而另一些光線被散射到其他方向攝像機吸收了一些光&…

Windchill 11.0使用枚舉類型自定義實用程序實現生命周期狀態管理

一、Enumerated Type Customization Utility 枚舉類型自定義實用程序,可用于添加或編輯枚舉類型的值,在Windchill 12.0+中可直接在類型和屬性管理中編輯,如下圖所示,而在Windchill 11.0中只能通過windchill shell啟動程序,下面將詳細介紹Windchill 11.0中啟動并使用枚舉類…

UGUI源碼剖析(10):總結——基于源碼分析的UGUI設計原則與性能優化策略

UGUI源碼剖析(第十章):總結——基于源碼分析的UGUI設計原則與性能優化策略 本系列文章對UGUI的核心組件與系統進行了深入的源代碼級分析。本章旨在對前述內容進行系統性總結,提煉出UGUI框架最核心的設計原則,并基于這些…

STM32N6引入NPU,為邊緣AI插上“隱形的翅膀”

2025年的春天格外特別。伴隨著人形機器人、DeepSeek的強勢刷屏,AI成了最有前景的賽道。萬物皆可AI,萬物也在尋覓用上AI或者讓AI“轉正”的“aha moment”。 幫助機器更好地“思考”,讓更多的AI走向邊緣,是AI發展的重要趨勢之一。…

演練:使用VB開發多智能體協作的榮格八維分析器

在大語言模型高速發展的時代,我們面對困難的語義分析任務,通過構建智能體進行處理是一個流行趨勢。本文將介紹如何使用 Visual Basic .NET 開發一個多智能體協作系統,用于分析聊天記錄中特定人物的榮格八維人格類型。 本文使用 CC-BY-NC-SA …

llamafactory使用qlora訓練

llamafactory使用qlora訓練 1.環境搭建 conda create -n qlora python3.10 -y conda activate qlora# 克隆LLaMA-Factory倉庫 git clone https://github.com/hiyouga/LLaMA-Factory.git# 進入倉庫目錄 cd LLaMA-Factory# 切換到0.9.4版本 git checkout v0.9.4pip install -e .2…

模型微調/量化技術整理

一、模型微調技術1.模型微調簡介大模型微調(Fine-tuning),是指在已經預訓練好的大語言模型基礎上(基座模型),使用特定的數據集進行進一步訓練,讓模型適應特定任務或領域。通常LLM的預訓練是無監督的,但微調…

實踐筆記-VSCode與IDE同步問題解決指南;程序總是進入中斷服務程序。

一、VSCode 修改文件后,IDE 未同步如果你在 VSCode 中異步修改了項目文件內容,但 S32DS 或 Keil(等集成開發環境)中的項目沒有同步更新,有兩個解決方法:檢查文件是否已保存:確保 VSCode 中修改的…

C#WPF實戰出真汁04--登錄功能實現

1、登錄功能實現要點對于登錄系統,應該注意幾個要點:用戶認證流程設計,密碼存儲與驗證,會話管理,防暴力破解措施,錯誤處理與提示2、登錄功能的視圖模型首先在xaml文件中必須指定該頁面使用的視圖模型&#…

鴻蒙入門簡化版

第一步: 首先下載DEVStudio https://developer.huawei.com/consumer/cn/deveco-studio/ 第二步: 了解基本的ArkTs語言 https://developer.huawei.com/consumer/cn/doc/harmonyos-guides/introduction-to-arkts 第三步 : 教學視頻有兩個途徑&a…

day25|學習前端js

函數聲明,被提升(hoisting)。函數表達式必須先定義才能用。對象解構,按屬性名數組解構按順序點運算符. 對象.屬性名哪些可迭代(可以被for..of循環的東西):array,string,m…

quic協議與應用開發

quic為什么出現?quic主要是為了解決TCP協議的局限性而提出的,具體來說是要解決如下問題:1. 加密連接建立時間長TCP協議是傳輸層協議,而TLS是會話層協議,在Linux等主流操作系統中TCP在內核實現而TLS一般在用戶態實現&am…

【淺學】tflite-micro + ESP32S3 + VScode + ESP-IDF 基于例程快速實現自己的圖像分類模型訓練部署全流程

如果你用Pytorch訓練的模型那么可以參考我的步驟,使用的是Tensorflow的話參考官方文檔即可,但流程都是一樣的,每一步我都會提到部分操作細節及注意事項 官方教程 要詳細學習的話tflite-micro里的微控制器章節下都詳細看(頁面左側…

【HarmonyOS】應用設置全屏和安全區域詳解

【HarmonyOS】應用設置全屏和安全區域詳解 一、前言 IDE創建的鴻蒙應用,默認采取組件安全區布局方案。頂部會預留狀態欄區域,底部會預留導航條區域。這就是所謂的安全區域。 如果不處理,界面效果很割裂。所以業內UI交互設計,都會設…

openfeign 只有接口如何創建bean的

OpenFeign 能夠為純接口創建 Spring Bean,其核心機制是通過動態代理和 Spring 的 FactoryBean 機制實現的。以下是詳細的工作原理:1. EnableFeignClients 注解的啟動在 Spring Boot 主類上添加 EnableFeignClients 注解:SpringBootApplicatio…

【展廳多媒體】互動地磚屏怎么提升展廳互動感的?

在數字化展廳設計中,互動地磚屏 正成為提升觀眾參與度的重要工具。這種融合視覺科技與交互體驗的裝置,通過動態影像與即時反饋,讓參觀者從被動觀看轉變為主動探索,從而大幅增強展廳的互動感。 Led地面互動屏的優勢在于其強大的視…

AI賦能電力巡檢:變壓器漏油智能檢測系統全解析

🔥 AI賦能電力巡檢:變壓器漏油智能檢測系統全解析 📖 前言 在電力系統的日常運維中,變壓器作為核心設備,其安全運行直接關系到整個電網的穩定性。傳統的人工巡檢方式不僅效率低下,還存在安全隱患和漏檢風險…

GitHub上值得Star的計算機視覺項目

GitHub上值得Star的計算機視覺項目 前言 一、OpenCV:計算機視覺領域的瑞士軍刀 1.1 項目簡介 1.2 核心功能與技術特點 1.3 代碼示例 二、YOLO 系列:實時目標檢測的領導者 2.1 項目簡介 2.2 核心功能與技術特點 2.3 代碼示例 三、Detectron2:Facebook AI Research 的目標檢測…

【深度學習】pytorch深度學習框架的環境配置

文章目錄1. 配置cuda環境2. 配置conda環境3. 配置pytorch gpu環境1. 配置cuda環境 在命令行輸入以下命令可以查看當前顯卡驅動版本和最高支持的cuda版本 nvidia-smi根據cuda版本去官網下載并安裝cuda 下載鏈接:https://developer.nvidia.com/cuda-toolkit-archive…

數據處理與統計分析 —— 房源數據集分析案例

數據集網盤下載: 鏈接:https://pan.quark.cn/s/0e577858dba3?pwdFJnb 提取碼:FJnb代碼僅供參考具體可打開ipynb文件進行學習和練習:鏈接:https://pan.quark.cn/s/8efbe3061fad?pwdT47B 提取碼:T47Bimport…