VLM-MPC:自動駕駛中模型預測控制器增強視覺-語言模型

《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》2024年8月發表,來自威斯康星大學的論文。

????????受視覺語言模型(VLM)的緊急推理能力及其提高自動駕駛系統可理解性的潛力的啟發,本文介紹了一種名為VLM-MPC的閉環自動駕駛控制器,該控制器將模型預測控制器(MPC)與VLM相結合,以評估基于模型的控制如何增強VLM決策。所提出的VLM-MPC由兩個異步組件組成:上層VLM根據前置攝像頭圖像、自我車輛狀態、交通環境條件和參考存儲器生成駕駛參數(例如,期望速度、期望車頭時距),用于下層控制;下級MPC使用這些參數實時控制車輛,考慮發動機滯后并向整個系統提供狀態反饋。基于nuScenes數據集的實驗驗證了所提出的VLM-MPC在各種環境(如夜間、降雨和十字路口)中的有效性。結果表明,與基于VLM的控制造成碰撞風險的某些情況相比,VLM-MPC始終將侵占后時間(PET)保持在安全閾值以上。此外,與現實世界的軌跡和基于VLM的控制相比,VLM-MPC增強了平滑度。通過比較不同環境設置下的行為,我們強調了VLM-MPC理解環境并做出合理推斷的能力。此外,我們通過消融測試驗證了參考記憶和環境編碼器這兩個關鍵組件對響應穩定性的貢獻。

1. 研究背景與動機
  • 問題:現有自動駕駛系統(基于規則或學習的方法)存在適應性差、對分布外(OOD)數據魯棒性不足、響應速度慢等問題,且缺乏可解釋性。

  • 解決方案:結合視覺語言模型(VLM)的推理能力和模型預測控制(MPC)的動態優化能力,提出?VLM-MPC?框架,旨在提升自動駕駛的安全性、平滑性和環境適應性。


?

2. 核心貢獻
  1. 異步分層架構

    • 上層 VLM:通過環境編碼器(提取天氣、光照、道路條件)、場景編碼器(車輛狀態、前車信息)、參考記憶(歷史駕駛參數聚合)生成駕駛參數(如目標速度、車距)。

    • 下層 MPC:基于VLM生成的參數和車輛動力學模型(考慮發動機延遲)實時控制車輛,實現高頻閉環反饋。

    • 異步機制:VLM以低頻(0.2Hz)更新參數,MPC以高頻(10Hz)執行控制,解決VLM響應速度慢的問題。

  2. 抗幻覺設計

    • 參考記憶:通過歷史數據統計場景平均參數,減少VLM輸出不穩定。

    • 環境編碼器:利用CLIP模型從攝像頭圖像中提取環境描述,增強上下文感知。

  3. 實驗驗證

    • 數據集:基于nuScenes數據集,覆蓋雨、夜、交叉路口等復雜場景。

    • 指標

      • 安全性:通過“侵入后時間”(PET)衡量,VLM-MPC在所有場景中PET均高于安全閾值(1秒)。

      • 平滑性:通過加速度均方根(RMSa)衡量,VLM-MPC優于真實軌跡和基線模型(如LLM直接生成動作)。

      • 完成率:VLM-MPC使用Llava 1.6模型完成率達99.7%,GPT系列模型達100%。


3. 實驗關鍵結果
  • 安全性(表4):

    • VLM-MPC在雨天交叉路口等復雜場景中PET值(1.36–1.92秒)顯著高于基線模型(如LLM to Action的0.05–2.65秒)。

  • 平滑性(表5):

    • VLM-MPC的RMSa(0.33–0.43 m/s2)接近真實軌跡(0.51–0.68 m/s2),遠優于LLM直接控制(0.93–3.13 m/s2)。

  • 消融實驗(表7、8):


    • 移除參考記憶(VLM-MPC without M)導致參數偏向高風險(更高速度、更大車距),雨天/夜間平滑性下降。

    • 移除環境編碼器(VLM-MPC without E)顯著降低完成率(87.5%),因VLM無法理解道路信息。


4. 創新點
  • VLM與MPC的協同:通過分層架構,將VLM的語義推理與MPC的物理約束結合,兼顧決策智能與動態優化。

  • 抗幻覺機制:參考記憶和環境編碼器顯著提升輸出穩定性,減少語言模型常見的不合理生成。

  • 可解釋性增強:通過可視化注意力機制(圖10),展示VLM在生成參數時對圖像關鍵區域的關注(如道路、障礙物)。


5. 局限與未來方向
  • 局限

    • 實驗依賴仿真數據(nuScenes),未覆蓋真實場景的動態不確定性。

    • 當前VLM響應時間(Llava 1.6約3.42秒)仍需優化以滿足更高頻率需求。

  • 未來

    • 模型輕量化:優化參數規模,提升實時性。

    • 真實路測:驗證系統在復雜天氣、低光照等極端場景的魯棒性。

    • 多模態擴展:融合雷達、LiDAR等多傳感器數據,增強環境感知。


6. 總結

VLM-MPC?通過結合VLM的語義理解和MPC的動態控制,為自動駕駛提供了一種安全、平滑且可解釋的解決方案。其分層異步架構和抗幻覺設計有效彌補了純學習方法的不足,實驗驗證了其在復雜場景下的優越性,為未來自動駕駛系統的智能化與可靠性提供了重要參考。

?如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/906838.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/906838.shtml
英文地址,請注明出處:http://en.pswp.cn/news/906838.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

推薦系統里真的存在“反饋循環”嗎?

推薦系統里真的存在“反饋循環”嗎? 許多人說,推薦算法不過是把用戶早已存在的興趣挖掘出來,你本來就愛聽流行歌、買潮牌玩具,系統只是在合適的時間把它們端到你面前,再怎么迭代,算法也改變不了人的天性&a…

代碼混淆技術的還原案例

案例一 eval 混淆 特征 : 反常的 eval 連接了一堆數據 練習網站 https://scrape.center/ spa9 這個案例 基本的還原方法 但是這個代碼還是非常的模糊不好看 優化一下 : 當然還有更快捷的方法 : 好用的 js混淆還原的 web &#xf…

鴻蒙Flutter實戰:22-混合開發詳解-2-Har包模式引入

以 Har 包的方式加載到 HarmonyOS 工程 創建工作 創建一個根目錄 mkdir ohos_flutter_module_demo這個目錄用于存放 flutter 項目和鴻蒙項目。 創建 Flutter 模塊 首先創建一個 Flutter 模塊,我們選擇與 ohos_app 項目同級目錄 flutter create --templatemodu…

Go核心特性與并發編程

Go核心特性與并發編程 1. 結構體與方法(擴展) 高級結構體特性 // 嵌套結構體與匿名字段 type Employee struct {Person // 匿名嵌入Department stringsalary float64 // 私有字段 }// 構造函數模式 func NewPerson(name string, age int) *Pe…

Java 函數式接口(Functional Interface)

一、理論說明 1. 函數式接口的定義 Java 函數式接口是一種特殊的接口,它只包含一個抽象方法(Single Abstract Method, SAM),但可以包含多個默認方法或靜態方法。函數式接口是 Java 8 引入 Lambda 表達式的基礎,通過函…

【python代碼】一些小實驗

目錄 1. 測試Resnet50 ONNX模型的推理速度 1. 測試Resnet50 ONNX模型的推理速度 ############################### # 導出resnet50 模型 # 測試onnx模型推理 cpu 和 GPU 的對比 ###############################import time import numpy as np import onnxruntime as ort im…

5.Java 面向對象編程入門:類與對象的創建和使用?

在現實生活中,我們常常會接觸到各種各樣的對象,比如一輛汽車、一個學生、一部手機等。這些對象都具有各自的屬性和行為。例如,汽車有顏色、品牌、型號等屬性,還有啟動、加速、剎車等行為;學生有姓名、年齡、學號等屬性…

從開發者角度看數據庫架構進化史:JDBC - 中間件 - TiDB

作者: Lucien-盧西恩 原文來源: https://tidb.net/blog/e7034d1b Java 應用開發技術發展歷程 在業務開發早期,用 Java 借助 JDBC 進行數據庫操作,雖能實現基本交互,但需手動管理連接、編寫大量 SQL 及處理結果集&a…

工業智能網關建立烤漆設備故障預警及遠程診斷系統

一、項目背景 烤漆房是汽車、機械、家具等工業領域廣泛應用的設備,主要用于產品的表面涂裝。傳統的烤漆房控制柜采用本地控制方式,操作人員需在現場進行參數設置和設備控制,且存在設備智能化程度低、數據孤島、設備維護成本高以及依靠傳統人…

故障率預測:基于LSTM的GPU集群硬件健康監測系統(附Prometheus監控模板)

一、GPU集群健康監測的挑戰與價值 在大規模深度學習訓練場景下,GPU集群的硬件故障率顯著高于傳統計算設備。根據2023年MLCommons統計,配備8卡A100的服務器平均故障間隔時間(MTBF)僅為1426小時,其中顯存故障占比達38%&…

Vue 樣式不一致問題全面分析與解決方案

文章目錄 1. 問題概述1.1 問題表現1.2 問題影響 2. 根本原因分析2.1 Vue 的渲染機制與樣式加載時機2.2 Scoped CSS 的工作原理2.3 CSS 模塊化與作用域隔離2.4 樣式加載順序問題2.5 熱重載(HMR)與樣式更新 3. 解決方案3.1 確保樣式加載順序3.1.1 預加載關鍵 CSS3.1.2 控制全局樣…

[免費]微信小程序寵物醫院管理系統(uni-app+SpringBoot后端+Vue管理端)【論文+源碼+SQL腳本】

大家好,我是java1234_小鋒老師,看到一個不錯的微信小程序寵物醫院管理系統(uni-appSpringBoot后端Vue管理端),分享下哈。 項目視頻演示 【免費】微信小程序寵物醫院管理系統(uni-appSpringBoot后端Vue管理端) Java畢業設計_嗶哩嗶哩_bilibi…

測試總結(一)

一、測試流程 參與需求評審-制定測試計劃-編寫測試用例-用例評審-冒煙測試-測試執行-缺陷管理-預發驗收測試-發布線上-線上回歸-線上觀察-項目總結 二、測試用例設計方法 等價類劃分(處理有效/無效輸入) 邊界值分析(臨界值測試&#xff09…

SAP-ABAP:ABAP異常處理與SAP現代技術融合—— 面向云原生、微服務與低代碼場景的創新實踐

專題三:ABAP異常處理與SAP現代技術融合 —— 面向云原生、微服務與低代碼場景的創新實踐 一、SAP技術演進與異常處理的挑戰 隨著SAP技術棧向云端、微服務化和低代碼方向演進,異常處理面臨新場景: Fiori UX敏感度:用戶期望前端友…

DC-DC電路的自舉電容電路原理

在以往的電子產品設計中,我們經常會選型 DCDC 芯片,在選型過程中經常遇到有些DC-DC電路中需要用到自舉電容,本文主要分析自舉電容在DC-DC電路中的原理。 無論同步或者異步整流,經常會看到一個自舉電容,常并聯在DC-DC的…

android studio 開啟無線調試

1、在工具的模擬器點擊下后,會出現下面菜單: 選擇Pair Devices Using Wi-Fi 發現一直在轉圈,并不會連接上,之前在android12的時候,發現一連就上了,現在換成了android14,連不上了。 2、選擇用命令…

Go基礎語法與控制結構

Go基礎語法與控制結構 1. 環境配置與Hello World(擴展) 安裝指南 # 驗證安裝成功 $ go version # 設置模塊代理(中國用戶推薦) $ go env -w GOPROXYhttps://goproxy.cn,direct程序解剖 package main // 程序入口包聲明import…

QGIS新手教程:兩種方法創建點圖層(手動添加 + 表格導入),支持經緯度定位與查找

🌍QGIS新手教程:兩種方法創建點圖層(手動添加 表格導入),支持經緯度定位與查找 本文將手把手教你在 QGIS 中通過兩種方法創建點圖層,并結合經緯度定位、拾取坐標、查找屬性等功能,快速掌握從地…

Doris ClickHouse Greenplum 對比

1. 核心架構對比 Doris (https://doris.apache.org/) MPP架構 列式存儲支持實時更新(Unique Key模型)向量化執行引擎兼容MySQL協議 ClickHouse (https://clickhouse.com/) 分布式列式存儲MergeTree存儲引…

基于python,html,echart,php,mysql,在線實時監控入侵檢測系統

詳細視頻:【基于python,html,echart,php,mysql,在線實時監控入侵檢測系統,需要的可聯系介紹都在所有圖片中。包遠程部署安裝。-嗶哩嗶哩】 https://b23.tv/KHxmE8k