RSS 2025|蘇黎世提出「LLM-MPC混合架構」增強自動駕駛,推理速度提升10.5倍!

論文題目:Enhancing Autonomous Driving Systems with

On-Board Deployed Large Language Models

論文作者:Nicolas Baumann,Cheng Hu,Paviththiren Sivasothilingam,Haotong Qin,Lei Xie,Michele Magno,Luca Benini

論文地址:

[2504.11514] Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models

代碼地址:https://github.com/ForzaETH/LLMxRobot

引言

隨著技術持續進步,自動駕駛從概念逐步邁向現實,為未來出行勾勒出全新的圖景。然而,這條發展之路并非一帆風順,傳統數據驅動的自動駕駛技術在面對現實世界中復雜多樣的駕駛場景時,遭遇了嚴峻的挑戰。基于機器學習的自動駕駛系統,盡管在大量常見場景的訓練下能夠展現出一定的智能性,但在處理極端情況時卻顯得力不從心。這是因為現實中的駕駛場景情況復雜,難以通過有限的數據集覆蓋所有可能性。例如,遇到道路臨時施工、動物突然闖入等情況,這些系統往往無法做出準確且合理的決策。

與此同時,大語言模型(LLMs)在自然語言處理領域取得了突破性進展,其強大的知識理解、推理和生成能力令人矚目。這一技術的崛起,為自動駕駛領域帶來了新的曙光。LLMs可以理解復雜的自然語言指令,基于廣泛的知識儲備進行推理,這與自動駕駛中對復雜場景的理解和決策需求有著高度的契合性。然而,將LLM直接應用于自動駕駛等安全關鍵系統,尤其是依賴云端模型的做法,帶來了延遲、連接穩定性、數據隱私和安全等多重隱患。此外,LLM自身存在的“幻覺”問題也限制了其直接控制車輛行為的應用范圍。

針對這些挑戰,論文《Enhancing Autonomous Driving Systems with On-Board Deployed Large Language Models》提出了一種創新的混合架構,巧妙地將強大的大語言模型(LLMs)與經典的低層模型預測控制器(MPC)相結合,并強調在車輛本地(On-Board)部署LLM,旨在增強自動駕駛系統的決策能力、人機交互(HMI)體驗和控制適應性。

主要方法

為解決自動駕駛系統中數據驅動方法處理極端情況的局限,論文提出將低級模型預測控制器(MPC)與本地部署的大語言模型(LLMs)相結合的混合架構,綜合運用多種技術實現高效決策和人機交互。該系統由兩個關鍵的、相互協作的模塊構成——負責理解人類意圖和評估車輛狀態的DecisionxLLM,以及負責將高層指令轉化為具體MPC參數調整的MPCxLLM。這種設計旨在融合LLM的認知智能與MPC的控制優勢,實現更安全、更智能、更具適應性的自動駕駛體驗。

圖1 系統總體框架

DecisionxLLM 模塊

該模塊作為系統的"感知與決策中心", 負責理解人類的意圖并評估車輛行為。它接收人類通過自然語言下達的駕駛指令或偏好, 并結合從車輛傳感器獲取的近期狀態數據,包括路徑坐標$s$、橫向偏差$n$、縱向速度$v_s$、橫向速度$v_d$等信息, 可表示為時序數據$[s, n, v_s, v_d, ...]$。LLM利用其強大的理解和推理能力,判斷車輛當前的實際運行狀態是否與人類的期望一致。為了增強LLM在特定機器人任務上的推理能力和對上下文的理解,該模塊可以選擇性地集成檢索增強生成(RAG),通過檢索相關的背景知識來豐富LLM的輸入信息。最終,DecisionxLLM輸出一個判斷結果,并在必要時生成一句簡潔的、描述期望行為變化的自然語言指令,傳遞給下一環節。

MPCxLLM 模塊

此模塊是連接高層語義理解與底層控制執行的關鍵橋梁。它接收來自DecisionxLLM的自然語言調整指令。模塊內的LLM被設計為能夠理解這些指令,并且知曉底層MPC控制器的數學形式及其可調參數。基于這種理解(同樣可由MPC相關的RAG知識庫增強),LLM的任務是將抽象的駕駛行為要求轉化為對MPC具體參數的修改建議。這些可調整的參數主要包括MPC優化問題中$\min J(x, u, q)$的成本函數權重$q$(橫向偏差權重$q_n$、速度誤差權重$q_v$、航向誤差權重$q_\alpha$、控制輸入變化權重$q_R$),以及車輛運行必須遵守的狀態約束集$\mathcal{X}$和輸入約束集$\mathcal{U}$。LLM輸出一組新的參數值$q, \mathcal{X}, \mathcal{U}$這些值隨后被動態配置給底層MPC控制器。這一機制實現了通過自然語言對車輛控制特性進行靈活調整,同時將LLM的推理延遲與MPC的實時控制循環分離開。
?

MPC模塊

系統的基礎控制由一個模型預測控制器(MPC)承擔,論文中具體實現了一個基于車輛運動學模型 (Kinematic Model) 的MPC。該模型描述了車輛狀態如何隨時間和控制輸入變化,關鍵狀態變量的動態方程如:

其中$s$是沿參考軌跡的弧長,$n$是橫向偏差,$\Delta \phi$是相對于參考路徑的航向角誤差,$v$是車輛速度,$\delta$是前輪轉角,$\kappa_r(s)$是參考軌跡在$s$處的曲率,$L$是車輛軸距。MPC的狀態向量$x$包含這些狀態變量以及用于平滑控制的輸入量,即$x = [s, n, \Delta \phi, \delta, v]^T$。控制輸入$u$主要由轉向角變化量$\Delta \delta$和縱向加速度$a$組成,即$u = [\Delta \delta, a]^T$

MPC 的核心是在每個控制周期內求解一個優化問題,目標是最小化一個預測時域$N$內累積的成本函數$J(x, u, q)$。該成本函數通常是對期望行為(如跟蹤參考路徑和速度)的偏離以及控制輸入的懲罰,形式如下:
$\min_{u_0, \dots, u_{N-1}} J(x, u, q) = \sum_{i=0}^{N-1} \Big[q_n \cdot n_{k+i|k}^2 + q_v \cdot (v_{k+i|k} - v_{ref})^2 \\ + q_{\Delta \phi} \cdot \Delta \phi_{k+i|k}^2 + \| \Delta u_{k+i|k} \|_2^2 \Big]$

此優化過程必須滿足系統動力學約束,狀態約束和輸入約束。正是 MPCxLLM 模塊根據高層指令進行調整的對象,以此在保證安全的前提下,靈活地改變車輛的駕駛行為(如更平穩、更激進、保持特定速度或距離等)。
?

車載部署優化技術

為了讓通常計算量龐大的LLM能夠在資源受限的車載硬件上高效運行,該方法綜合運用了多種優化策略。RAG通過在推理時注入相關上下文信息,提高了小模型在特定任務上的表現,減少了對超大模型的依賴。LoRA作為一種參數高效微調技術,允許研究人員使用相對較少的數據和計算資源來適配預訓練LLM,使其更好地理解機器人狀態和MPC參數。最后,模型量化技術通過降低模型參數的精度,顯著減小了模型的內存占用和計算需求,大幅提升了LLM在嵌入式平臺上的推理速度(吞吐量),使其滿足自動駕駛場景的實時性需求。這些技術的結合使得在端側部署功能強大的LLM成為可能。

實驗結果

論文通過一系列定量和定性實驗,全面驗證了所提出的車載大語言模型(LLM)增強型自動駕駛框架的有效性。在推理決策能力方面,對DecisionxLLM模塊的評估如下圖所示,結合檢索增強生成(RAG)和LoRA微調技術能夠顯著提升本地部署LLM(如Qwen2.5-7b)判斷車輛狀態是否符合人類自然語言指令的準確性,相較于基礎模型最高獲得了10.45%的絕對精度提升。實驗還表明,RAG普遍提高了各模型的決策性能,而對于實際部署至關重要的模型量化對準確率的影響甚微,證明了優化后模型在保持性能的同時具有高效性。

圖2 DecisionxLLM模塊評估對比

圖3 DecisionxLLM模塊對話效果

在控制適應性方面,研究者在仿真環境中評估了MPCxLLM模塊通過調整底層MPC參數來響應不同駕駛指令的能力。結果如下圖所示,與采用固定參數的基線MPC相比,經過RAG和LoRA優化的LLM能夠根據指令(如“保持車道中心”、“更平穩地駕駛”或“倒車”)顯著改變車輛的閉環行為特性,在多個衡量控制效果的指標(如路徑跟蹤、速度跟蹤、加速度平滑度等RMSE)上取得了平均高達52.2%的改善(以Qwen2.5為例),充分展示了該框架利用自然語言進行靈活控制調整的潛力。

圖4 MPCxLLM模塊評估對比

圖5?MPCxLLM模塊對話效果

如下圖所示,在1:10比例的物理機器人平臺上進行實驗,成功展示了系統在真實世界中的運作情況,例如,機器人能夠根據指令“離墻遠一點”來調整其橫向位置,或是在模擬發生碰撞后,自主決策執行倒車操作以脫困,并隨后恢復正常循跡行駛,證明了該方法在實際硬件上的可行性和魯棒性。

圖6 1:10比例的物理小車結構

圖7 無人車在真實世界的運作情況

總結

為解決自動駕駛系統在邊緣場景處理上的局限性以及云端大模型應用的延遲與隱私問題,該研究提出了一種創新的混合架構,將大語言模型(LLM)部署在車輛本地,并與經典的模型預測控制器(MPC)相結合。該架構通過DecisionxLLM模塊理解人類自然語言指令并評估車輛狀態,再利用MPCxLLM模塊將高層意圖轉化為對底層MPC成本函數與約束參數的調整,從而在確保MPC提供安全保障的前提下,實現了靈活的人機交互與自適應控制。為了保證LLM在資源受限的車載硬件上高效運行,研究采用了RAG、LoRA微調和量化等關鍵優化技術。實驗結果表明,該方法顯著提升了系統的決策準確性(最高10.45%)、控制適應性(最高52.2%),并且通過量化等手段實現了在嵌入式平臺上高達10.5倍的推理速度提升,驗證了該框架在增強自動駕駛智能性、交互性的同時,具備了實際部署的可行性和高效性。這種將高級別人工智能在本地安全集成的探索,預示著未來自動駕駛汽車將更加“善解人意”,能夠通過自然對話滿足用戶的個性化偏好,使人機交互更加直觀、舒適,有助于提升公眾對自動駕駛技術的接受度并加速其普及應用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/77652.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/77652.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/77652.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

list的學習

list的介紹 list文檔的介紹 list是可以在常數范圍內在任意位置進行插入和刪除的序列式容器,并且該容器可以前后雙向迭代。list的底層是雙向鏈表結構,雙向鏈表中每個元素存儲在互不相關的獨立節點中,在節點中通過指針指向其前一個元素和后一…

生物信息學技能樹(Bioinformatics)與學習路徑

李升偉 整理 生物信息學是一門跨學科領域,涉及生物學、計算機科學以及統計學等多個方面。以下是關于生物信息學的學習路徑及相關技能的詳細介紹。 一、基礎理論知識 1. 生物學基礎知識 需要掌握分子生物學、遺傳學、細胞生物學等相關概念。 對基因組結構、蛋白質…

AOSP Android14 Launcher3——遠程窗口動畫關鍵類SurfaceControl詳解

在 Launcher3 執行涉及其他應用窗口(即“遠程窗口”)的動畫時,例如“點擊桌面圖標啟動應用”或“從應用上滑回到桌面”的過渡動畫,SurfaceControl 扮演著至關重要的角色。它是實現這些跨進程、高性能、精確定制動畫的核心技術。 …

超詳細實現單鏈表的基礎增刪改查——基于C語言實現

文章目錄 1、鏈表的概念與分類1.1 鏈表的概念1.2 鏈表的分類 2、單鏈表的結構和定義2.1 單鏈表的結構2.2 單鏈表的定義 3、單鏈表的實現3.1 創建新節點3.2 頭插和尾插的實現3.3 頭刪和尾刪的實現3.4 鏈表的查找3.5 指定位置之前和之后插入數據3.6 刪除指定位置的數據和刪除指定…

17.整體代碼講解

從入門AI到手寫Transformer-17.整體代碼講解 17.整體代碼講解代碼 整理自視頻 老袁不說話 。 17.整體代碼講解 代碼 import collectionsimport math import torch from torch import nn import os import time import numpy as np from matplotlib import pyplot as plt fro…

前端性能優化:所有權轉移

前端性能優化:所有權轉移 在學習rust過程中,學到了所有權概念,于是便聯想到了前端,前端是否有相關內容,于是進行了一些實驗,并整理了這些內容。 所有權轉移(Transfer of Ownership)…

Missashe考研日記-day23

Missashe考研日記-day23 0 寫在前面 博主前幾天有事回家去了,斷更幾天了不好意思,就當回家休息一下調整一下狀態了,今天接著開始更新。雖然每天的博客寫的內容不算多,但其實還是挺費時間的,比如這篇就花了我40多分鐘…

Docker 中將文件映射到 Linux 宿主機

在 Docker 中,有多種方式可以將文件映射到 Linux 宿主機,以下是常見的幾種方法: 使用-v參數? 基本語法:docker run -v [宿主機文件路徑]:[容器內文件路徑] 容器名稱? 示例:docker run -it -v /home/user/myfile.txt:…

HarmonyOS-ArkUI-動畫分類簡介

本文的目的是,了解一下HarmonyOS動畫體系中的分類。有個大致的了解即可。 動效與動畫簡介 動畫,是客戶端提升界面交互用戶體驗的一個重要的方式。可以使應用程序更加生動靈越,提高用戶體驗。 HarmonyOS對于界面的交互方面,圍繞回歸本源的設計理念,打造自然,流暢品質一提…

C++如何處理多線程環境下的異常?如何確保資源在異常情況下也能正確釋放

多線程編程的基本概念與挑戰 多線程編程的核心思想是將程序的執行劃分為多個并行運行的線程,每個線程可以獨立處理任務,從而充分利用多核處理器的性能優勢。在C中,開發者可以通過std::thread創建線程,并使用同步原語如std::mutex、…

區間選點詳解

步驟 operator< 的作用在 C 中&#xff0c; operator< 是一個運算符重載函數&#xff0c;它定義了如何比較兩個對象的大小。在 std::sort 函數中&#xff0c;它會用到這個比較函數來決定排序的順序。 在 sort 中&#xff0c;默認會使用 < 運算符來比較兩個對象…

前端配置代理解決發送cookie問題

場景&#xff1a; 在開發任務管理系統時&#xff0c;我遇到了一個典型的身份認證問題&#xff1a;??用戶登錄成功后&#xff0c;調獲取當前用戶信息接口卻提示"用戶未登錄"??。系統核心流程如下&#xff1a; ??用戶登錄??&#xff1a;調用 /login 接口&…

8.1 線性變換的思想

一、線性變換的概念 當一個矩陣 A A A 乘一個向量 v \boldsymbol v v 時&#xff0c;它將 v \boldsymbol v v “變換” 成另一個向量 A v A\boldsymbol v Av. 輸入 v \boldsymbol v v&#xff0c;輸出 T ( v ) A v T(\boldsymbol v)A\boldsymbol v T(v)Av. 變換 T T T…

【java實現+4種變體完整例子】排序算法中【冒泡排序】的詳細解析,包含基礎實現、常見變體的完整代碼示例,以及各變體的對比表格

以下是冒泡排序的詳細解析&#xff0c;包含基礎實現、常見變體的完整代碼示例&#xff0c;以及各變體的對比表格&#xff1a; 一、冒泡排序基礎實現 原理 通過重復遍歷數組&#xff0c;比較相鄰元素并交換逆序對&#xff0c;逐步將最大值“冒泡”到數組末尾。 代碼示例 pu…

系統架構設計(二):基于架構的軟件設計方法ABSD

“基于架構的軟件設計方法”&#xff08;Architecture-Based Software Design, ABSD&#xff09;是一種通過從軟件架構層面出發指導詳細設計的系統化方法。它旨在橋接架構設計與詳細設計之間的鴻溝&#xff0c;確保系統的高層結構能夠有效指導后續開發。 ABSD 的核心思想 ABS…

Office文件內容提取 | 獲取Word文件內容 |Javascript提取PDF文字內容 |PPT文檔文字內容提取

關于Office系列文件文字內容的提取 本文主要通過接口的方式獲取Office文件和PDF、OFD文件的文字內容。適用于需要獲取Word、OFD、PDF、PPT等文件內容的提取實現。例如在線文字統計以及論文文字內容的提取。 一、提取Word及WPS文檔的文字內容。 支持以下文件格式&#xff1a; …

Cesium學習筆記——dem/tif地形的分塊與加載

前言 在Cesium的學習中&#xff0c;學會讀文檔十分重要&#xff01;&#xff01;&#xff01;在這里附上Cesium中英文文檔1.117。 在Cesium項目中&#xff0c;在平坦坦地球中加入三維地形不僅可以增強真實感與可視化效果&#xff0c;還可以??提升用戶體驗與交互性&#xff0c…

Spring Boot 斷點續傳實戰:大文件上傳不再怕網絡中斷

精心整理了最新的面試資料和簡歷模板&#xff0c;有需要的可以自行獲取 點擊前往百度網盤獲取 點擊前往夸克網盤獲取 一、痛點與挑戰 在網絡傳輸大文件&#xff08;如視頻、數據集、設計稿&#xff09;時&#xff0c;常面臨&#xff1a; 上傳中途網絡中斷需重新開始服務器內…

數碼管LED顯示屏矩陣驅動技術詳解

1. 矩陣驅動原理 矩陣驅動是LED顯示屏常用的一種高效驅動方式&#xff0c;利用COM&#xff08;Common&#xff0c;公共端&#xff09;和SEG&#xff08;Segment&#xff0c;段選&#xff09;線的交叉點控制單個LED的亮滅。相比直接驅動&#xff0c;矩陣驅動可以顯著減少所需I/…

【上位機——MFC】菜單類與工具欄

菜單類 CMenu&#xff0c;封裝了關于菜單的各種操作成員函數&#xff0c;另外還封裝了一個非常重要的成員變量m_hMenu(菜單句柄) 菜單使用 添加菜單資源加載菜單 工具欄相關類 CToolBarCtrl-》父類是CWnd&#xff0c;封裝了關于工具欄控件的各種操作。 CToolBar-》父類是CC…