1 背景
? ? ? ? 之前大家普遍認為的端到端就是傳感器輸入,控制輸出,這也確實是真正的端到端,但目前車企走的更多的是軌跡生成。
????????自動駕駛端到端控制瓶頸主要有以下兩點:
可解釋性缺失:傳統端到端模型(如純VLM控制器)生成的控制指令缺乏透明決策依據,難以追溯風險原因。
動態適應性不足:單一控制器難以協調高層語義理解(如天氣影響)與底層動力學約束,導致跨場景性能波動。
? ? ? ? 之前筆者提到過理想,小米,小鵬,蔚來等都通過使用VLM模型豐富智駕的功能,并將其量產到車上,主要利用VLM的識別推理能力。
2 VLM-MPC
????????本篇博客主要介紹VLM-MPC:自動駕駛中視覺語言基礎模型引導的模型預測控制器。
????????受到視覺語言模型(VLMs)緊急推理能力及其提高自動駕駛系統理解力的啟發,本文引入了一種閉環自動駕駛控制器,稱為VLM-PLC,其結合了用于高級決策的VLM和用于低級車輛控制的模型預測控制器(MPC)。
2.1 分層異步架構
????????VLM-MPC由異步運行的雙層組件構成,解決VLM延遲高與MPC實時性需求的矛盾:
組件 | 功能 | 運行頻率 | 輸入/輸出 |
---|---|---|---|
上層VLM | 解析環境語義(天氣、光照、交通參與者),生成高層駕駛參數(目標速度、車距) | 0.2 Hz | 圖像+車輛狀態→決策參數(如期望速度) |
下層MPC | 基于VLM參數優化實時控制,滿足車輛動力學約束 | 10 Hz | 參數→控制信號(轉向角、油門/剎車) |
????????VLM-MPC系統在結構上分為兩個異步組件:上層VLM和下層MPC。
- 上層VLM基于前視相機圖像、自車狀態、交通環境條件和參考內存來生成用于下層控制的駕駛參數。
- Reference memory(數據集真實軌跡作為參考)
- Environment description model(駕駛環境描述)
- Scenario Encoder(場景編碼)
- Prompt Generator(推理)
- Prediction horizon
- Speed maintenance weight
- Control effort weight
- Headway maintenance weight
- Desired speed
- Desired headway
- 下層MPC通過這些參數實時控制車輛,其考慮了發動機滯后并且向整個系統提供了狀態反饋。
2.2 關鍵技術
環境編碼器:利用CLIP模型從圖像提取結構化環境特征(如“雨天”“交叉路口”),增強VLM的上下文感知。
參考記憶模塊:聚合歷史駕駛參數(如平均安全車距),通過統計先驗減少VLM輸出波動,抑制幻覺風險。
抗幻覺設計:雙層校驗機制確保決策參數符合物理可行性(如MPC拒絕VLM生成的超速指令)。
2.3 實驗結果? ? ? ?
????????論文的主要貢獻如下:
????????1)VLM-MPC自動駕駛控制器:提出了一種閉環自動駕駛控制器,其將VLMs應用于高級車輛控制。上層VLM使用車輛的前視相機圖像、文本場景描述和經驗記憶作為輸入,以生成低級MPC所需的控制參數。低級MPC利用這些參數并且考慮車輛動力學,以實現逼真的車輛行為并且向上層提供狀態反饋。這種異步兩層結構解決了當前VLM響應速度慢的問題;
????????2)VLM對環境的理解:通過比較不同場景條件(例如天氣、光照、道路條件)下的行為,本文證明了VLM理解環境并且做出合理決策的能力。這突顯了VLM適應各種駕駛環境和條件的能力。
????????基于nuScenes數據集的實驗驗證了所提出的VLM-MPC系統在各種場景(例如夜晚、下雨、十字路口)下的有效性。結果表明,VLM-MPC系統在安全性和駕駛舒適性方面始終優于基線模型。通過比較不同天氣條件和場景下的行為,證明了VLM理解環境并且做出合理推理的能力。
????????實驗結果表明,與基線模型相比,VLM-MPC系統始終具有更優的安全性、駕駛舒適性和穩定性能。與不同FMs的兼容性分析表明,Llama3.1-8B模型可以滿足所提出方法的響應時間要求。
3 總結
? ? ? ? 目前很多的大模型工作都是在開環環境下進行,甚至仿真環境下的閉環實驗都沒有做,在筆者看來,這是當前很多科研論文不夠嚴謹的表現。
? ? ? ? 基于VLM的MPC需要基于閉環實驗甚至實車驗證,因為涉及到控制器的動態調參,對于整個系統的穩定性是非常重要的。該方案為科研工作者提供了一個思路。
參考文獻:
《VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving》