WiseAD:基于視覺-語言模型的知識增強型端到端自動駕駛——論文閱讀

《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》2024年12月發表,來自新加坡國立和浙大的論文。

在快速發展的視覺語言模型(VLM)中,一般人類知識和令人印象深刻的邏輯推理能力的出現,促使人們越來越有興趣將VLM應用于高級自動駕駛任務,如場景理解和決策。然而,對知識水平(尤其是基本駕駛專業知識)與閉環自動駕駛性能之間關系的深入研究需要進一步探索。在這篇論文中,我們研究了基礎駕駛知識的深度和廣度對閉環軌跡規劃的影響,并介紹了WiseAD,這是一種專為端到端自動駕駛量身定制的專用VLM,能夠進行駕駛推理、動作論證、對象識別、風險分析、駕駛建議和跨不同場景的軌跡規劃。我們對駕駛知識和規劃數據集進行聯合訓練,使模型能夠相應地執行知識對齊的軌跡規劃。大量實驗表明,隨著駕駛知識多樣性的擴大,嚴重事故顯著減少,在卡拉閉環評估中,駕駛分數和路線完成率分別提高了11.9%和12.4%,達到了最先進的性能。此外,WiseAD在域內和域外數據集的知識評估方面也表現出了顯著的性能。

研究背景與動機

自動駕駛技術近年來從傳統規則系統轉向端到端解決方案,但仍面臨場景理解不足和駕駛知識利用不充分的問題。視覺語言模型(VLM)在通用知識和邏輯推理方面表現出色,但直接應用于自動駕駛時存在兩大挑戰:

  1. 駕駛導向知識不足:通用VLM缺乏對駕駛場景、經驗和因果推理的深度理解。

  2. 知識與軌跡規劃未對齊:現有方法多模仿預定義駕駛行為,缺乏對知識(如“減速以規避行人突然出現”)的顯式嵌入,導致決策透明度低。

核心貢獻

提出?WiseAD,一種專為自動駕駛設計的知識增強VLM,具備以下能力:

  • 多任務支持:場景描述、物體識別、風險分析、駕駛建議、軌跡規劃等。

  • 聯合訓練策略:結合駕駛知識(LingoQA、DRAMA等)與軌跡規劃(Carla數據集)進行聯合學習,避免知識遺忘。

  • 性能提升:在Carla閉環評估中,駕駛分數(DS)提升11.9%,路線完成率(RC)提升12.4%,關鍵事故(碰撞、闖紅燈)顯著減少。


方法細節
  1. 模型架構

    • 視覺編碼:基于CLIP ViT-L/14提取視頻幀特征,投影為與文本對齊的視覺標記。

    • 語言模型:采用輕量級MobileLLaMA(1.7B參數),支持多模態輸入(視頻+文本)。

    • 輸出對齊:軌跡規劃結果以文本形式表達(如“下一個五個路徑點為(x1, y1), (x2, y2)…”),便于利用VLM的邏輯推理能力。

  2. 數據構建

    • 駕駛知識:整合LingoQA(駕駛推理、物體識別)、DRAMA(風險分析、駕駛建議)、BDDX(動作解釋)等數據集,覆蓋多樣化場景與任務。

    • 軌跡規劃:使用Carla模擬器采集軌跡數據,目標點以文本形式輸入(如“目標點為(x, y),生成后續五個路徑點”)。

  3. 訓練策略

    • 聯合學習:混合知識問答與軌跡規劃數據,避免分階段訓練導致的知識遺忘。

    • 注意力前綴提示:在推理階段加入提示(如“注意周圍環境,遵守交規”),顯式引導模型調用駕駛知識。


實驗結果
  1. 閉環駕駛性能(Carla評估)

    • SOTA對比:WiseAD在駕駛分數(69.88 vs 65.26)和路線完成率(93.79% vs 88.24%)上超越Roach、VAD等模型。

    • 關鍵事故減少:碰撞次數從2.35降至1.43,闖紅燈次數從2.60降至2.14。

  2. 知識評估(零樣本測試)

    • LingoQA:L-Judge評分60.4(對比LLaVA-7B的38.0),顯示對駕駛知識的深度掌握。

    • 跨數據集泛化:在BDDX(動作識別)、DriveLM(物體識別)、HAD(駕駛注意力)任務中均表現優異。

  3. 消融實驗

    • 注意力前綴提示:移除后路線完成率下降8.4%(93.79→85.35),驗證其關鍵作用。

    • 知識廣度影響:引入DRAMA風險分析數據后,駕駛分數提升3.08(66.02→69.88)。


創新點與意義
  1. 知識驅動的端到端框架:首次將VLM與駕駛知識深度融合,提升決策可解釋性與安全性。

  2. 輕量化與高效性:基于MobileVLM(1.7B參數),適合實時自動駕駛場景。

  3. 數據與訓練范式創新:通過混合訓練與注意力提示,實現知識與規劃的高效對齊。


未來方向
  • 擴展知識邊界:引入更多長尾場景(如極端天氣、復雜路口)的知識標注。

  • 多模態融合:結合激光雷達等多傳感器數據,增強環境感知魯棒性。

  • 實際部署驗證:在真實道路測試中驗證模型泛化能力與實時性。

WiseAD為自動駕駛領域提供了一種知識增強的新范式,通過顯式嵌入駕駛邏輯與經驗,推動端到端系統向“類人類駕駛”邁進。

如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80574.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80574.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80574.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

NestJS 知識框架

一、核心概念 1. 架構基礎 基于 Express/Fastify 的 Node.js 框架 采用模塊化設計 使用 TypeScript 構建(也支持 JavaScript) 借鑒 Angular 的設計理念 2. 主要組件 模塊 (Module): 應用的基本組織單元 控制器 (Controller): 處理 HTTP 請求 服務…

深入理解 Istio v1.25.2

要深入理解 Istio 的最新版本(截至 2025 年 5 月,最新版本為 1.25.2,發布Iweb:1?)源碼,我們可以通過分析其核心組件和代碼結構來加深對 Istio 的理解。以下是對 Istio 源碼的解讀,結合其架構和功能&#x…

星際籃球爭霸賽/MVP爭奪戰 - 華為OD機試真題(A卷、Java題解)

華為OD機試題庫《C》限時優惠 9.9 華為OD機試題庫《Python》限時優惠 9.9 華為OD機試題庫《JavaScript》限時優惠 9.9 針對刷題難,效率慢,我們提供一對一算法輔導, 針對個人情況定制化的提高計劃(全稱1V1效率更高)。 看…

Kubernetes etcd 故障恢復(1)

1.查看集群狀態 獲取主節點和故障節點id ETCDCTL_API3 ./etcdctl --cacert/etc/kubernetes/ssl/new-ca.pem --cert/etc/kubernetes/ssl/etcd.pem --key/etc/kubernetes/ssl/etcd-key.pem --endpoints"https://192.168.7.132:2379,https://192.168.7.134:2379,https://19…

在UI原型設計中,低、高保真原型圖有什么區別?

在數字產品開發中,原型(Prototype) 是連接創意與落地的橋梁。它通過可視化的方式驗證功能、交互與用戶體驗,避免開發資源浪費。而低保真(Lo-Fi)與高保真(Hi-Fi)原型,則是…

使用FastAPI和React以及MongoDB構建全棧Web應用02 前言

Who this book is for 本書適合哪些人閱讀 This book is designed for web developers who aspire to build robust, scalable, and efficient web applications. It caters to a broad spectrum of developers, from those with foundational knowledge to experienced prof…

linux下minio的進程管理腳本

準備工作: 參考鏈接: Deploy MinIO: Single-Node Single-Drive — MinIO Object Storage for Linux 下載: wget https://dl.min.io/server/minio/release/linux-amd64/minio kill-app.sh #!/bin/bash # 文件名: kill-app.sh…

【Linux】編譯安裝 opencv 并鏈接到 VSCode

一、背景 最近打算把現有的一個 python 程序用 c 重寫,進一步提升性能。編輯器使用 VSCode,三方庫需要用到 opencv,要進行編譯安裝。 二、編譯安裝 opencv 1. 更新源 sudo apt update && sudo apt upgrade 2. 安裝依賴庫 安裝編…

Ubuntu 安裝 HAProxy

HAProxy 是什么 HAProxy(High Availability Proxy) 是一個 高性能、高可用的 TCP 和 HTTP 負載均衡器與代理服務器。 HAProxy 的特點 特性說明支持協議HTTP、HTTPS、TCP高性能使用 C 語言編寫,性能極高高可用與 Keepalived 配合可實現主備健…

Mysql--基礎知識點--91.2--processlist

在 MySQL 中,SHOW PROCESSLIST 是一個常用命令,用于查看當前數據庫服務器上所有正在運行的線程(進程)信息。以下是關鍵點說明: 1. 命令用法 SHOW FULL PROCESSLIST;輸出字段: 列名含義Id線程唯一標識符&am…

Git標簽刪除腳本解析與實踐:輕松管理本地與遠程標簽

Git 標簽刪除腳本解析與實踐:輕松管理本地與遠程標簽 在 Git 版本控制系統中,標簽常用于標記重要的版本節點,方便追溯和管理項目的不同階段。隨著項目的推進,一些舊標簽可能不再需要,此時就需要對它們進行清理。本文將通過一個完整的腳本,詳細介紹如何刪除本地和遠程的 …

K8S - Harbor 鏡像倉庫部署與 GitLab CI 集成實戰

引言 在 Kubernetes 環境中,容器鏡像的存儲與管理至關重要。企業級鏡像倉庫(如 Harbor)為團隊提供了安全、穩定、可擴展的鏡像管理解決方案。 一、Harbor 安裝與配置 Harbor 是由 VMware 開源的企業級云原生鏡像倉庫,它不僅支持…

2025年best好用的3dsmax插件和腳本

copitor 可以從一個3dsmax場景里將物體直接復制到另一個場景中 Move to surface 這個插件可以將一些物體放到一個平面上 instancer 實體器,舉例:場景中有若干獨立的光源,不是實體對象,我們可以使用instancer將他變成實體。 paste …

Python爬蟲實戰:研究nodejs aes加密

1. 引言 1.1 研究背景與意義 在當今數字化時代,Web 數據的價值日益凸顯。通過爬蟲技術獲取公開數據并進行分析,能夠為企業決策、學術研究等提供有力支持。然而,為了保護數據安全和隱私,許多網站采用了加密技術對數據進行保護,其中 AES 加密是一種常見且安全的加密算法。…

LGDRL:基于大型語言模型的深度強化學習在自動駕駛決策中的應用

《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》2024年12月發表,來自北理工的論文。 深度強化學習(DRL)在自動駕駛決策方面顯示出巨大的潛力。然而,由于DRL的學習效率低…

TDEngine 與 Grafana

目錄 實踐目錄 Grafana 參考文檔 實踐目錄 10.60.100.194:/home/dualven/tdengine Grafana systemctl status grafana-server http://10.60.100.194:3000/ 這個端口與mydoor的new server服務沖突 (同時只開一個) 參考文檔 運行監…

Edge瀏覽器打開PDF文件顯示空白(每次需要等上一會)

概述 部分pdf文件用edge瀏覽器打開顯示空白,需要等一會才能顯示出來,這很讓人難以接受,用其他瀏覽器和pdf閱讀器打開是正常的,該怎么操作解決,卸載重裝,修復,重置瀏覽器等都無效。 解決辦法 可…

uniapp小程序輪播圖高度自適應優化詳解

在微信小程序開發過程中,輪播圖組件(swiper)是常用的UI元素,但在實際應用中經常遇到高度不匹配導致的空白問題。本文詳細記錄了一次輪播圖高度優化的完整過程,特別是針對固定寬高比圖片的精確適配方案。 問題背景 在開發"零工市場&quo…

Android第三次面試總結之網絡篇補充

一、網絡模型:OSI 七層 vs TCP/IP 四層(必考點) 1. 分層模型對比 OSI 七層模型TCP/IP 四層模型核心功能Android 相關場景應用層(7 層)應用層定義數據格式(HTTP/HTTPS/FTP/API)OkHttp/Retrofit…

postgresql主從集群一鍵搭建腳本分享

腳本1: cat pg_ms_install.sh #!/bin/bash # 基礎環境配置(保持不變) setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/n…