自動駕駛---視覺語言模型(VLM)引導的模型預測控制器(MPC)

1 背景

? ? ? ? 之前大家普遍認為的端到端就是傳感器輸入,控制輸出,這也確實是真正的端到端,但目前車企走的更多的是軌跡生成。

????????自動駕駛端到端控制瓶頸主要有以下兩點:

  • 可解釋性缺失:傳統端到端模型(如純VLM控制器)生成的控制指令缺乏透明決策依據,難以追溯風險原因。

  • 動態適應性不足:單一控制器難以協調高層語義理解(如天氣影響)與底層動力學約束,導致跨場景性能波動。

? ? ? ? 之前筆者提到過理想,小米,小鵬,蔚來等都通過使用VLM模型豐富智駕的功能,并將其量產到車上,主要利用VLM的識別推理能力

2 VLM-MPC

????????本篇博客主要介紹VLM-MPC:自動駕駛中視覺語言基礎模型引導的模型預測控制器。

????????受到視覺語言模型(VLMs)緊急推理能力及其提高自動駕駛系統理解力的啟發,本文引入了一種閉環自動駕駛控制器,稱為VLM-PLC,其結合了用于高級決策的VLM和用于低級車輛控制的模型預測控制器(MPC)。

2.1 分層異步架構

????????VLM-MPC由異步運行的雙層組件構成,解決VLM延遲高與MPC實時性需求的矛盾:

組件功能運行頻率輸入/輸出
上層VLM解析環境語義(天氣、光照、交通參與者),生成高層駕駛參數(目標速度、車距)0.2 Hz圖像+車輛狀態→決策參數(如期望速度)
下層MPC基于VLM參數優化實時控制,滿足車輛動力學約束10 Hz參數→控制信號(轉向角、油門/剎車)

????????VLM-MPC系統在結構上分為兩個異步組件:上層VLM和下層MPC。

  • 上層VLM基于前視相機圖像、自車狀態、交通環境條件和參考內存來生成用于下層控制的駕駛參數。
    • Reference memory(數據集真實軌跡作為參考)
    • Environment description model(駕駛環境描述)
    • Scenario Encoder(場景編碼)
    • Prompt Generator(推理)
      • Prediction horizon
      • Speed maintenance weight
      • Control effort weight
      • Headway maintenance weight
      • Desired speed
      • Desired headway

  • 下層MPC通過這些參數實時控制車輛,其考慮了發動機滯后并且向整個系統提供了狀態反饋。

2.2 關鍵技術

  1. 環境編碼器:利用CLIP模型從圖像提取結構化環境特征(如“雨天”“交叉路口”),增強VLM的上下文感知。

  2. 參考記憶模塊:聚合歷史駕駛參數(如平均安全車距),通過統計先驗減少VLM輸出波動,抑制幻覺風險。

  3. 抗幻覺設計:雙層校驗機制確保決策參數符合物理可行性(如MPC拒絕VLM生成的超速指令)。

2.3 實驗結果? ? ? ?

????????論文的主要貢獻如下:

????????1)VLM-MPC自動駕駛控制器:提出了一種閉環自動駕駛控制器,其將VLMs應用于高級車輛控制。上層VLM使用車輛的前視相機圖像、文本場景描述和經驗記憶作為輸入,以生成低級MPC所需的控制參數。低級MPC利用這些參數并且考慮車輛動力學,以實現逼真的車輛行為并且向上層提供狀態反饋。這種異步兩層結構解決了當前VLM響應速度慢的問題;

????????2)VLM對環境的理解:通過比較不同場景條件(例如天氣、光照、道路條件)下的行為,本文證明了VLM理解環境并且做出合理決策的能力。這突顯了VLM適應各種駕駛環境和條件的能力。

????????基于nuScenes數據集的實驗驗證了所提出的VLM-MPC系統在各種場景(例如夜晚、下雨、十字路口)下的有效性。結果表明,VLM-MPC系統在安全性和駕駛舒適性方面始終優于基線模型。通過比較不同天氣條件和場景下的行為,證明了VLM理解環境并且做出合理推理的能力。

????????實驗結果表明,與基線模型相比,VLM-MPC系統始終具有更優的安全性、駕駛舒適性和穩定性能。與不同FMs的兼容性分析表明,Llama3.1-8B模型可以滿足所提出方法的響應時間要求。

3 總結

? ? ? ? 目前很多的大模型工作都是在開環環境下進行,甚至仿真環境下的閉環實驗都沒有做,在筆者看來,這是當前很多科研論文不夠嚴謹的表現。

? ? ? ? 基于VLM的MPC需要基于閉環實驗甚至實車驗證,因為涉及到控制器的動態調參,對于整個系統的穩定性是非常重要的。該方案為科研工作者提供了一個思路。

參考文獻:

《VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving》

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/916293.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/916293.shtml
英文地址,請注明出處:http://en.pswp.cn/news/916293.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

最優估計準則與方法(5)加權最小二乘估計(WLS)_學習筆記

前言 最優估計理論中研究的最小二乘估計(LS)為線性最小二乘估計(LLS),包括古典最小二乘估計(CLS)[1]、加權最小二乘估計(WLS)和遞推最小二乘估計(RLS&#x…

Linux——線程互斥

文章目錄一、有關概念原子性錯誤認知澄清加鎖二、鎖的相關函數全局鎖局部鎖初始化銷毀加鎖解鎖三、鎖相關如何看待鎖一個線程在執行臨界區的代碼時,可以被切換嗎?鎖是本身也是臨界資源,它如何做到保護自己?(鎖的實現&a…

扣子(Coze)宣布開源兩大核心項目——Coze Studio(扣子開發平臺)和Coze Loop(扣子羅盤),附安裝步驟

2025年7月26日,字節跳動旗下AI開發平臺“扣子(Coze)”宣布開源兩大核心項目——Coze Studio(扣子開發平臺)和Coze Loop(扣子羅盤),采用Apache 2.0協議,支持免費商用及本地化部署。 開源內容 Coze Studio:提供可視化AI智能體開發工具,支持零代碼/低代碼拖拽式工作流編…

InfluxDB Flux 查詢協議實戰應用(二)

四、實戰案例解析4.1 服務器性能監控數據查詢在服務器性能監控場景中,InfluxDB 和 Flux 查詢協議能夠發揮重要作用,幫助運維人員實時了解服務器的運行狀態,及時發現性能問題。假設我們的服務器性能監控數據存儲在名為server-monitoring的存儲…

二層隧道協議(PPP、PPTP、L2TP)

PPP —— 點對點鏈路上的“鏈路層會話層”協議,解決撥號認證、IP 分配和多協議封裝。PPTP —— 在 IP 網絡里開一條“PPP-over-GRE”隧道,把 PPP 封裝進公共網絡,速度快但已不安全。L2TP —— 在 IP/UDP 里再開一條“PPP-over-UDP”隧道&…

openmv特征點檢測

AGAST 角點檢測器和 FAST 角點檢測器: 兩者都是計算機視覺中快速檢測圖像角點的算法,核心目的是高效找到圖像中 "有辨識度的點",但細節略有不同: (1)FAST 角點檢測器 ? 特點:速度極快…

基于深度學習的CT圖像3D重建技術研究

基于深度學習的CT圖像3D重建技術研究 摘要 本文詳細探討了使用深度學習技術進行CT(計算機斷層掃描)圖像3D重建的全過程。我們從CT成像基本原理出發,系統介紹了數據預處理、深度學習模型構建、訓練優化以及三維可視化等關鍵技術環節。研究采用了先進的深度學習架構如3D U-Net…

JVM相關面試八股

什么是雙親委派模型? 如果一個類加載器在接到加載類的請求時,它首先不會自己嘗試去加載這個類,而是把這個請求任務委托給父類加載器去完成,依次遞歸,如果父類加載器可以完成類加載任務,就返回成功&#xff…

Javaweb————HTTP消息體拆分講解

??????一.HTTP請求消息結構 (1)請求行 💙 請求方法 💙URL地址 💙協議名 (2)請求頭 報文頭包含若千個屬性格式為“屬性名:屬性值”, 服務端據此獲取客戶端的基本信息 (3&…

GitHub的免費賬戶的存儲空間有多少?

GitHub的免費賬戶在存儲空間方面的具體限制如下: 一、普通倉庫(非LFS)存儲限制 公共倉庫 總存儲:無明確總容量限制,但建議單個倉庫不超過1GB以確保性能。若倉庫過大(如超過5GB),可能會收到GitHub的優化提示郵件。 文件大小:單個文件最大100MB,超過100MB的文件會被直…

Java學習|黑馬筆記|Day23】網絡編程、反射、動態代理

【DAY23】 文章目錄【DAY23】一.網絡編程1)三要素1.1)IPInetAddress類的使用1.2)端口號1.3)協議2.1)UDP協議發送數據2.2)UDP協議接收數據2.3)UDP的三種通信方式3.1)TCP協議的發送和接…

【Linux】從普通進程到守護進程:系統服務的誕生之路

當你在深夜關閉SSH終端,為何Web服務器仍在默默響應請求?這背后是守護進程的魔法在守護著系統服務的不滅之火。一、守護進程的六大核心特征守護進程(Daemon)是Linux系統的無名英雄,它們舍棄了普通進程的"世俗享受&…

k8s常用基礎命令總結

----------------------k8s常用基礎命令--------------------------------- 獲取 Pod 信息 # 1.獲取k8s的命名空間 kubectl get namespaces ?1)獲取 Pod 列表及簡要信息: kubectl get pods 2)以 YAML 格式獲取 Pod 詳細信息: kubectl get pod -o yaml 3)?獲取特定命名空間中…

Java高級之基于Java Attach與Byte-Buddy實現SQL語句增強

目錄 一 Agent 模塊 1 HookAgent.java 2 FormatAdvice.java 3 配置文件 二 Attacher 模塊 1 AttachMain.java 三 測試模塊 1 DruidTest.java 四 驗證步驟 五 原理解析 筆者目標寫一款數據分析中間件,用來增強當前主流開源項目,前幾天寫了一票用…

2025第五屆生物發酵營養源高峰論壇

一、會議時間會議時間:2025年8月8日二、會議地點上海新國際博覽中心–W4館現場2號會議室三、組織單位主辦單位:中國生物發酵產業協會承辦單位:浙江工業大學樂斯福集團Procelys 樂斯福發酵營養元參會福利,助力高效交流為提升參會體驗,組委會特別推出多項福…

Kubernetes 配置管理

這里寫目錄標題什么是 ConfigMap創建 ConfigMap基于目錄創建 ConfigMap創建 conf 目錄,里面放置兩個文件基于目錄下的所有文件創建 ConfigMap查看當前創建的 ConfigMap基于文件創建 ConfigMap創建測試文件 game-cfg基于單個文件創建 ConfigMap查看當前創建的 Config…

ESP32+MicroPython:用Python玩轉物聯網開發

什么是ESP32? ESP32作為當下最熱門的物聯網開發板,常被比作"嵌入式世界的瑞士軍刀"。但很多初學者會混淆芯片、模組和開發板的概念,其實它們的關系很簡單: 芯片(Soc):核心處理器,如ESP32-D0WD模…

opencv學習(圖像金字塔)

1.什么是圖像金字塔圖像金字塔是一種多尺度圖像表示方法,通過對原始圖像進行下采樣(縮小)和上采樣(放大),生成一系列不同分辨率的圖像集合,形似 “金字塔”(底部是高分辨率原始圖像&…

從 C# 到 Python:項目實戰第五天的飛躍

在前面三天的學習中,我們已經掌握了 Python 的基礎語法、數據結構以及一些核心庫的使用。今天,我們將通過三個實戰項目,深入對比 C# 和 Python 在命令行工具開發、Web 應用開發以及數據處理方面的差異,感受 Python 在實際項目中的…

rabbitmq 03

一、mq的作用和使用場景 MQ的基本作用 MQ(Message Queue,消息隊列)是一種應用程序對應用程序的通信方法,主要作用包括: 異步處理:解耦生產者和消費者,允許生產者發送消息后立即返回&#xff0…