RSS 2025｜蘇黎世提出「LLM-MPC混合架構」增強自動駕駛，推理速度提升10.5倍！

論文題目：Enhancing Autonomous Driving Systems with

On-Board Deployed Large Language Models

論文作者：Nicolas Baumann，Cheng Hu，Paviththiren Sivasothilingam，Haotong Qin，Lei Xie，Michele Magno，Luca Benini

論文地址：

[2504.11514] Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

代碼地址：https://github.com/ForzaETH/LLMxRobot

引言

隨著技術持續進步，自動駕駛從概念逐步邁向現實，為未來出行勾勒出全新的圖景。然而，這條發展之路并非一帆風順，傳統數據驅動的自動駕駛技術在面對現實世界中復雜多樣的駕駛場景時，遭遇了嚴峻的挑戰。基于機器學習的自動駕駛系統，盡管在大量常見場景的訓練下能夠展現出一定的智能性，但在處理極端情況時卻顯得力不從心。這是因為現實中的駕駛場景情況復雜，難以通過有限的數據集覆蓋所有可能性。例如，遇到道路臨時施工、動物突然闖入等情況，這些系統往往無法做出準確且合理的決策。

與此同時，大語言模型（LLMs）在自然語言處理領域取得了突破性進展，其強大的知識理解、推理和生成能力令人矚目。這一技術的崛起，為自動駕駛領域帶來了新的曙光。LLMs可以理解復雜的自然語言指令，基于廣泛的知識儲備進行推理，這與自動駕駛中對復雜場景的理解和決策需求有著高度的契合性。然而，將LLM直接應用于自動駕駛等安全關鍵系統，尤其是依賴云端模型的做法，帶來了延遲、連接穩定性、數據隱私和安全等多重隱患。此外，LLM自身存在的“幻覺”問題也限制了其直接控制車輛行為的應用范圍。

針對這些挑戰，論文《Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models》提出了一種創新的混合架構，巧妙地將強大的大語言模型（LLMs）與經典的低層模型預測控制器（MPC）相結合，并強調在車輛本地（On-Board）部署LLM，旨在增強自動駕駛系統的決策能力、人機交互（HMI）體驗和控制適應性。

主要方法

為解決自動駕駛系統中數據驅動方法處理極端情況的局限，論文提出將低級模型預測控制器（MPC）與本地部署的大語言模型（LLMs）相結合的混合架構，綜合運用多種技術實現高效決策和人機交互。該系統由兩個關鍵的、相互協作的模塊構成——負責理解人類意圖和評估車輛狀態的DecisionxLLM，以及負責將高層指令轉化為具體MPC參數調整的MPCxLLM。這種設計旨在融合LLM的認知智能與MPC的控制優勢，實現更安全、更智能、更具適應性的自動駕駛體驗。

圖1 系統總體框架

DecisionxLLM 模塊

該模塊作為系統的"感知與決策中心", 負責理解人類的意圖并評估車輛行為。它接收人類通過自然語言下達的駕駛指令或偏好, 并結合從車輛傳感器獲取的近期狀態數據，包括路徑坐標 $s$ 、橫向偏差 $n$ 、縱向速度 $v_s$ 、橫向速度 $v_d$ 等信息, 可表示為時序數據 $[s, n, v_s, v_d, ...]$ 。LLM利用其強大的理解和推理能力，判斷車輛當前的實際運行狀態是否與人類的期望一致。為了增強LLM在特定機器人任務上的推理能力和對上下文的理解，該模塊可以選擇性地集成檢索增強生成（RAG），通過檢索相關的背景知識來豐富LLM的輸入信息。最終，DecisionxLLM輸出一個判斷結果，并在必要時生成一句簡潔的、描述期望行為變化的自然語言指令，傳遞給下一環節。

MPCxLLM 模塊

此模塊是連接高層語義理解與底層控制執行的關鍵橋梁。它接收來自DecisionxLLM的自然語言調整指令。模塊內的LLM被設計為能夠理解這些指令，并且知曉底層MPC控制器的數學形式及其可調參數。基于這種理解（同樣可由MPC相關的RAG知識庫增強），LLM的任務是將抽象的駕駛行為要求轉化為對MPC具體參數的修改建議。這些可調整的參數主要包括MPC優化問題中 $\min J(x, u, q)$ 的成本函數權重 $q$ （橫向偏差權重 $q_n$ 、速度誤差權重 $q_v$ 、航向誤差權重 $q_\alpha$ 、控制輸入變化權重 $q_R$ ），以及車輛運行必須遵守的狀態約束集 $\mathcal{X}$ 和輸入約束集 $\mathcal{U}$ 。LLM輸出一組新的參數值 $q, \mathcal{X}, \mathcal{U}$ 這些值隨后被動態配置給底層MPC控制器。這一機制實現了通過自然語言對車輛控制特性進行靈活調整，同時將LLM的推理延遲與MPC的實時控制循環分離開。
?

MPC模塊

系統的基礎控制由一個模型預測控制器（MPC）承擔，論文中具體實現了一個基于車輛運動學模型 (Kinematic Model) 的MPC。該模型描述了車輛狀態如何隨時間和控制輸入變化，關鍵狀態變量的動態方程如：

其中 $s$ 是沿參考軌跡的弧長， $n$ 是橫向偏差， $\Delta \phi$ 是相對于參考路徑的航向角誤差， $v$ 是車輛速度， $\delta$ 是前輪轉角， $\kappa_r(s)$ 是參考軌跡在 $s$ 處的曲率， $L$ 是車輛軸距。MPC的狀態向量 $x$ 包含這些狀態變量以及用于平滑控制的輸入量，即 $x = [s, n, \Delta \phi, \delta, v]^T$ 。控制輸入 $u$ 主要由轉向角變化量 $\Delta \delta$ 和縱向加速度 $a$ 組成，即 $u = [\Delta \delta, a]^T$ 。

MPC 的核心是在每個控制周期內求解一個優化問題，目標是最小化一個預測時域 $N$ 內累積的成本函數 $J(x, u, q)$ 。該成本函數通常是對期望行為（如跟蹤參考路徑和速度）的偏離以及控制輸入的懲罰，形式如下：
$\min_{u_0, \dots, u_{N-1}} J(x, u, q) = \sum_{i=0}^{N-1} \Big[q_n \cdot n_{k+i|k}^2 + q_v \cdot (v_{k+i|k} - v_{ref})^2 \\ + q_{\Delta \phi} \cdot \Delta \phi_{k+i|k}^2 + \| \Delta u_{k+i|k} \|_2^2 \Big]$

此優化過程必須滿足系統動力學約束，狀態約束和輸入約束。正是 MPCxLLM 模塊根據高層指令進行調整的對象，以此在保證安全的前提下，靈活地改變車輛的駕駛行為（如更平穩、更激進、保持特定速度或距離等）。
?

車載部署優化技術

為了讓通常計算量龐大的LLM能夠在資源受限的車載硬件上高效運行，該方法綜合運用了多種優化策略。RAG通過在推理時注入相關上下文信息，提高了小模型在特定任務上的表現，減少了對超大模型的依賴。LoRA作為一種參數高效微調技術，允許研究人員使用相對較少的數據和計算資源來適配預訓練LLM，使其更好地理解機器人狀態和MPC參數。最后，模型量化技術通過降低模型參數的精度，顯著減小了模型的內存占用和計算需求，大幅提升了LLM在嵌入式平臺上的推理速度（吞吐量），使其滿足自動駕駛場景的實時性需求。這些技術的結合使得在端側部署功能強大的LLM成為可能。

實驗結果

論文通過一系列定量和定性實驗，全面驗證了所提出的車載大語言模型（LLM）增強型自動駕駛框架的有效性。在推理決策能力方面，對DecisionxLLM模塊的評估如下圖所示，結合檢索增強生成（RAG）和LoRA微調技術能夠顯著提升本地部署LLM（如Qwen2.5-7b）判斷車輛狀態是否符合人類自然語言指令的準確性，相較于基礎模型最高獲得了10.45%的絕對精度提升。實驗還表明，RAG普遍提高了各模型的決策性能，而對于實際部署至關重要的模型量化對準確率的影響甚微，證明了優化后模型在保持性能的同時具有高效性。

圖2 DecisionxLLM模塊評估對比

圖3 DecisionxLLM模塊對話效果

在控制適應性方面，研究者在仿真環境中評估了MPCxLLM模塊通過調整底層MPC參數來響應不同駕駛指令的能力。結果如下圖所示，與采用固定參數的基線MPC相比，經過RAG和LoRA優化的LLM能夠根據指令（如“保持車道中心”、“更平穩地駕駛”或“倒車”）顯著改變車輛的閉環行為特性，在多個衡量控制效果的指標（如路徑跟蹤、速度跟蹤、加速度平滑度等RMSE）上取得了平均高達52.2%的改善（以Qwen2.5為例），充分展示了該框架利用自然語言進行靈活控制調整的潛力。

圖4 MPCxLLM模塊評估對比

圖5?MPCxLLM模塊對話效果

如下圖所示，在1:10比例的物理機器人平臺上進行實驗，成功展示了系統在真實世界中的運作情況，例如，機器人能夠根據指令“離墻遠一點”來調整其橫向位置，或是在模擬發生碰撞后，自主決策執行倒車操作以脫困，并隨后恢復正常循跡行駛，證明了該方法在實際硬件上的可行性和魯棒性。

圖6 1:10比例的物理小車結構

圖7 無人車在真實世界的運作情況

總結

為解決自動駕駛系統在邊緣場景處理上的局限性以及云端大模型應用的延遲與隱私問題，該研究提出了一種創新的混合架構，將大語言模型（LLM）部署在車輛本地，并與經典的模型預測控制器（MPC）相結合。該架構通過DecisionxLLM模塊理解人類自然語言指令并評估車輛狀態，再利用MPCxLLM模塊將高層意圖轉化為對底層MPC成本函數與約束參數的調整，從而在確保MPC提供安全保障的前提下，實現了靈活的人機交互與自適應控制。為了保證LLM在資源受限的車載硬件上高效運行，研究采用了RAG、LoRA微調和量化等關鍵優化技術。實驗結果表明，該方法顯著提升了系統的決策準確性（最高10.45%）、控制適應性（最高52.2%），并且通過量化等手段實現了在嵌入式平臺上高達10.5倍的推理速度提升，驗證了該框架在增強自動駕駛智能性、交互性的同時，具備了實際部署的可行性和高效性。這種將高級別人工智能在本地安全集成的探索，預示著未來自動駕駛汽車將更加“善解人意”，能夠通過自然對話滿足用戶的個性化偏好，使人機交互更加直觀、舒適，有助于提升公眾對自動駕駛技術的接受度并加速其普及應用。