論文閱讀:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

地址:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

摘要翻譯

自動駕駛技術作為推動交通和城市出行變革的催化劑,正從基于規則的系統向數據驅動策略轉變。傳統的模塊化系統受限于級聯模塊間的累積誤差和缺乏靈活性的預設規則。相比之下,端到端自動駕駛系統因其完全數據驅動的訓練過程有望避免誤差累積,但其 “黑箱” 特性往往導致透明度不足,使得決策的驗證和追溯復雜化。最近,大型語言模型(LLMs)已展現出上下文理解、邏輯推理和生成答案等能力。一個自然的想法是利用這些能力為自動駕駛賦能。通過將 LLM 與基礎視覺模型相結合,有望實現當前自動駕駛系統所缺乏的開放世界理解、推理和小樣本學習能力。本文系統綜述了用于自動駕駛的(視覺)大型語言模型((V) LLM4Drive)的研究路線,評估了當前的技術進展狀態,明確概述了該領域的主要挑戰和未來方向。為了方便學術界和工業界的研究人員,我們通過指定鏈接(GitHub - Thinklab-SJTU/Awesome-LLM4AD)提供該領域最新進展的實時更新以及相關開源資源。

總結

1. 背景
  • 傳統模塊化系統:由感知、預測、規劃等獨立模塊組成,雖在多種場景中提供可靠性和安全性,但存在信息丟失、計算冗余和模塊間誤差累積等問題。
  • 端到端系統:通過消除模塊間的集成誤差和減少冗余計算,增強了視覺和感官信息的表達,但決策過程缺乏透明度(“黑箱” 問題),解釋和驗證困難。
  • LLMs 的潛力:憑借強大的上下文理解、推理和生成能力,結合多模態模型(如圖像、文本、點云等),可提升系統的泛化能力,支持零 / 小樣本學習,有望解決自動駕駛的長尾問題并提供決策解釋。
2. 動機
  • 數據與仿真的局限性:傳統方法依賴大量數據和仿真,但仿真與現實存在差距(sim2real gap),且離線數據難以覆蓋自動駕駛的長尾場景。
  • LLMs 的補充作用:利用 LLMs 內置的常識知識,可縮小數據缺口,提升系統在復雜場景下的推理能力,推動自動駕駛向人類專家水平靠近。

3. 應用場景
  • 規劃與控制
    • 微調預訓練模型:如 MTDGPT 將多任務決策轉化為序列建模問題;DriveGPT4 基于多模態 LLM 生成控制信號并解釋決策。
    • 提示工程:如 DiLu 通過記憶模塊和 LLM 推理實現閉環駕駛;SurrealDriver 利用人類駕駛行為描述作為提示開發 “教練代理”。
  • 感知:LLMs 通過跨模態特征融合(如 PromptTrack 的語言提示與 3D 檢測結合)或提示推理(如 HiLM-D 的風險目標定位)提升感知能力,尤其在數據稀缺場景下表現突出。
  • 問答(QA):涵蓋傳統 QA(如 Tang 等人的領域知識蒸餾)和視覺 QA(如 DriveLM 的圖結構推理),支持實時場景理解和用戶交互。
  • 生成:利用擴散模型(如 DriveDreamer、DrivingDiffusion)生成駕駛視頻、交通場景或軌跡,用于數據增強和場景仿真,降低數據收集成本。
4. 數據集與評估基準
  • 數據集:如 BDD-X、NuScenes-QA、LingoQA 等,提供多模態標注(文本描述、QA 對、3D 邊界框等),支持 LLMs 在自動駕駛中的訓練和評估。
  • 評估基準:包括 LangAuto(CARLA-based)、LingoQA、DriveSim 等,覆蓋場景理解、決策邏輯、安全性等多維度評估。
5. 挑戰與未來方向
  • 挑戰:計算效率(LLMs 推理時間長)、實時性要求、可解釋性不足、數據質量(標注成本高)、安全性(對抗攻擊)和倫理問題(隱私、偏見)。
  • 未來方向:輕量級 LLMs 優化、多模態融合(視覺 - 語言 - 傳感器)、邊緣計算部署、標準化評估指標、安全對齊(如形式化驗證)和倫理框架建設。

一、相關技術方法

1. 規劃與控制方法
  • 微調預訓練模型
    • 核心思路:在預訓練 LLMs 基礎上,針對駕駛場景(如無信號交叉口決策、軌跡預測)進行微調,將駕駛任務轉化為序列建模或語言生成問題。
    • 代表方法:MTDGPT 通過混合多任務數據集訓練處理復雜決策;Agent-Driver 引入工具庫和認知記憶增強推理;RAG-Driver 結合檢索增強上下文學習,實現可解釋的端到端駕駛。
  • 提示工程
    • 核心思路:通過設計特定提示(如 “思維鏈”、安全準則)激活 LLMs 的推理能力,無需大規模訓練。
    • 代表方法:DiLu 利用記憶模塊記錄經驗,通過多輪 QA 實現推理和反思;TrafficGPT 融合 ChatGPT 與交通基礎模型,處理復雜交通問題;LanguageMPC 將 LLMs 與低級控制器結合,通過參數矩陣適應優化控制。
2. 感知方法
  • 跨模態融合:如 PromptTrack 將語言提示作為語義線索,融合到 3D 檢測和跟蹤任務中;LC-LLM 利用 LLMs 理解復雜場景,提升車道變更預測的可解釋性。
  • 提示推理:如 HiLM-D 將高分辨率視覺信息輸入多模態 LLMs,實現風險目標定位和意圖預測;Context-aware Motion Prediction 結合 GPT-4V 的場景描述與傳統模型,增強運動預測準確性。
3. 問答與生成方法
  • 問答
    • 傳統 QA:通過 “聊天” 與 LLMs 構建領域知識本體(如 Tang 等人的交通規則蒸餾),支持實時交互和干預。
    • 視覺 QA:如 DriveMLM 利用多視圖圖像和點云生成高層決策命令;EM-VLM4AD 設計輕量級多幀視覺語言模型,提升問答效率。
  • 生成
    • 擴散模型:如 DriveDreamer 基于文本、圖像和 HD 地圖生成駕駛視頻;CTG++ 通過 LLMs 將用戶查詢轉化為損失函數,驅動擴散模型生成可控交通場景。
    • 場景仿真:ChatScene 利用 LLMs 生成安全關鍵場景,提升自動駕駛系統的魯棒性;GenAD 利用網絡數據和時間推理塊,實現零樣本場景泛化。
4. 評估與基準
  • 仿真環境:如 CARLA、nuPlan、HighwayEnv,用于測試 LLMs 在閉環駕駛中的性能(如碰撞率、軌跡擬合度)。
  • 指標體系:涵蓋傳統指標(如 L2 誤差、mAP)和語言評估指標(如 BLEU-4、ChatGPT 評分),但缺乏統一標準,需進一步標準化。

二、評價指標

1. 傳統指標
  • 規劃與控制:軌跡跟蹤誤差(RMSE)、碰撞率、速度方差(SV)、時間效率(TE)。
  • 感知:mAP(平均精度均值)、3D檢測準確率、目標定位誤差(L2誤差)。
2. 語言與多模態指標
  • 問答:BLEU-4、METEOR、CIDEr、SPICE(用于評估生成文本的語義準確性)。
  • 生成:FID(Fréchet Inception Distance)、CLIP分數(用于評估生成圖像/視頻的質量)。
3. 綜合指標
  • 實時性:推理速度(如LLM-MPC在Jetson Orin上5.52秒/次)、控制頻率(如MPC保持20Hz)。
  • 安全性:碰撞時間(TTC)、違規處罰(IP)、形式化驗證通過率。

三、數據集

四、亟待解決的核心問題

1. 計算效率與實時性瓶頸
  • 挑戰:LLM推理延遲高(如GPT-4V在復雜場景中需數秒),難以滿足自動駕駛20Hz以上的控制頻率需求。
  • 解決方案
    • 異步架構:如AsyncDriver將LLM推理與實時規劃解耦,通過低頻率高層決策指導高頻控制。
    • 模型壓縮:結合量化(如INT8量化)和知識蒸餾(如CoT-Drive),在保持性能的同時減少計算量。
2. 多模態融合的動態適應性
  • 挑戰:靜態融合方法無法應對數據分布變化(如傳感器故障、極端天氣),導致性能下降。
  • 解決方案
    • 動態融合機制:如DynMM通過門控函數動態選擇模態組合,QMF利用不確定性估計實現質量感知融合。
    • 跨模態對齊:如3D MLLM架構通過稀疏查詢統一視覺與語言的3D表示,提升場景理解一致性。
3. 數據質量問題
  • 挑戰:合成數據的真實性不足(如紋理、物理特性差異),導致模型在真實場景中泛化能力弱。
  • 解決方案
    • 生成式仿真優化:如ChatSim結合神經渲染與擴散模型,提升場景的視覺和物理真實性。
    • 域適應技術:通過對抗訓練(如CycleGAN)或元學習,縮小合成數據與真實數據的分布差異。
4. 可解釋性與安全驗證
  • 挑戰:LLM的“黑箱”特性導致決策邏輯難以追溯,且存在幻覺問題(如錯誤識別障礙物)。
  • 解決方案
    • 可解釋性增強:如DriveGPT4通過自然語言生成決策依據,GenFollower結合思維鏈(CoT)提示輸出顯式推理過程。
    • 形式化驗證:如Hybrid Reasoning框架將LLM決策與傳統控制器結合,通過邏輯推理驗證安全性。
5. 倫理與社會接受度
  • 挑戰:自動駕駛系統的決策可能引發倫理爭議(如緊急避險時的優先級選擇),且用戶對AI駕駛的信任度不足。
  • 解決方案
    • 倫理框架設計:建立多利益相關方參與的評估體系,如SurrealDriver通過人類用戶實驗評估駕駛行為的人性化程度。
    • 透明交互界面:如Tang等人的領域知識蒸餾系統,通過實時問答增強用戶對系統的理解與控制。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908256.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908256.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908256.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

WebRTC中的幾個Rtp*Sender

一、問題: webrtc當中有幾個比較相似的類,看著都是發送RTP數據包的,分別是:RtpPacketToSend 和RtpSenderVideo還有RtpVideoSender以及RTPSender,這說明什么呢?首先,說明我會很多連詞&#xff0…

EFI(x64)簡易開發環境

文章目錄 1 必須文件2 運行環境3 構建應用 (Visual Studio)4 引用 EDK2 頭文件 1 必須文件 EDK2: 可以只拉取倉庫本身, 不拉取其子倉庫(完整構建才需要) qemu: qemu 以源碼發布, QEMU for Windows – Installers (64 bit) 這里有民間構建的安裝包 2 運行環境 創建一個 root …

八皇后問題深度解析

八皇后問題深度解析 一、八皇后問題的起源與背景1.1 問題起源1.2 歷史發展 二、問題描述與約束條件2.1 問題描述2.2 約束條件 三、算法原理:回溯算法3.1 回溯算法概述3.2 八皇后問題的回溯算法實現思路 四、八皇后問題的多語言實現4.1 Python實現4.2 C實現4.3 Java實…

Cursor 工具項目構建指南: Python 3.8 環境下的 Prompt Rules 約束

簡簡單單 Online zuozuo: 簡簡單單 Online zuozuo 簡簡單單 Online zuozuo 簡簡單單 Online zuozuo 簡簡單單 Online zuozuo :本心、輸入輸出、結果 簡簡單單 Online zuozuo : 文章目錄 Cursor 工具項目構建指南: Python 3.8 環境下的 Prompt Rules 約束前言項目簡介技術棧…

Java中的阻塞隊列

阻塞隊列是什么? 一、阻塞隊列的核心概念與特性 1.1 阻塞隊列是什么? 簡單來說,阻塞隊列是一種特殊的隊列,它具備普通隊列先進先出(FIFO)的特性,同時還支持兩個額外的重要操作: 當…

v1.0.1版本更新·2025年5月22日發布-優雅草星云物聯網AI智控系統

v1.0.1版本更新2025年5月22日發布-優雅草星云物聯網AI智控系統 開源地址 星云智控官網: 優雅草星云物聯網AI智控軟件-移動端vue: 優雅草星云物聯網AI智控軟件-移動端vue 星云智控PC端開源: 優雅草星云物聯網AI智控軟件-PC端vue: 優雅草星云物聯網AI…

Java-IO流之轉換流詳解

Java-IO流之轉換流詳解 一、轉換流概述1.1 什么是轉換流1.2 轉換流的作用1.3 轉換流的位置 二、InputStreamReader詳解2.1 基本概念2.2 構造函數2.3 核心方法2.4 使用示例:讀取不同編碼的文件 三、OutputStreamWriter詳解3.1 基本概念3.2 構造函數3.3 核心方法3.4 使…

android lifeCycleOwner生命周期

一 Fragment中 viewLifecycleOwner.repeatOnLifecycle(Lifecycle.State.STARTED) 什么時候執行? 讓我分析一下相關問題: 關于 onPause 時的數據更新: viewLifecycleOwner.lifecycleScope.launch {viewLifecycleOwner.repeatOnLifecycle(Lifecycle.Sta…

Liunx進程替換

文章目錄 1.進程替換2.替換過程3.替換函數exec3.1命名解釋 4.細說6個exe函數execl函數execvexeclp、execvpexecle、execve 1.進程替換 fork()函數在創建子進程后,子進程如果想要執行一個新的程序,就可以使用進程的程序替換來完成…

【華為云Astro-服務編排】服務編排中圖元的使用與配置

目錄 子服務編排圖元 子服務編排圖元的作用 如何使用子服務編排圖元 腳本圖元 腳本圖元的作用 如何使用腳本圖元 記錄創建圖元 記錄創建圖元的作用 如何使用記錄創建圖元 記錄刪除圖元 記錄刪除圖元的作用 如何使用記錄刪除圖元 記錄查詢圖元 記錄查詢圖元的作用…

SQL Server相關的sql語句

目錄 一、數據定義語言(DDL)1. 創建數據庫2. 修改數據庫3. 刪除數據庫4. 創建表5. 修改表結構6. 刪除表 二、數據操作語言(DML)1. 插入數據2. 更新數據3. 刪除數據 三、數據查詢語言(DQL)1. 基礎查詢2. 去重…

【Hot 100】55. 跳躍游戲

目錄 引言跳躍游戲我的解題 🙋?♂? 作者:海碼007📜 專欄:算法專欄💥 標題:【Hot 100】55. 跳躍游戲?? 寄語:書到用時方恨少,事非經過不知難! 引言 跳躍游戲 &#x…

基于51單片機的車內防窒息檢測報警系統

目錄 具體實現功能 設計介紹 資料內容 全部內容 資料獲取 具體實現功能 具體實現功能: (1)檢測車內溫度及二氧化碳濃度并用lcd1602實時顯示。 (2)當人體紅外傳感器檢測到車內有人,且溫度或二氧化碳濃度…

關于智能體API參考接口

關于智能體在Flask的源碼:請求體(在payload里的是請求體)、請求頭(在headers里的i局勢請求頭)。 我的例子: 我的疑問:為什么沒按Coze官方API文檔格式,在Apifox里發POST請求卻能收到回復? 1. 你…

Excel 批量下載PDF、批量下載考勤圖片——仙盟創夢IDE

在辦公場景中,借助應用軟件實現 Excel 批量處理考勤圖片、電子文檔與 PDF,具有諸多顯著優勢。 從考勤圖片處理來看,通過 Excel 批量操作,能快速提取圖片中的考勤信息,如員工打卡時間、面部識別數據等,節省…

Apache Doris + MCP:Agent 時代的實時數據分析底座

一、Apache Doris:面向 Agent 時代的智能數據平臺 當我們談論 2025 年時,業界普遍認為這將是"Agent 革命年"(Agentic Revolution)的開端。與傳統的人機交互模式不同,AI Agent 作為一個全新的"用戶角色…

能不能用string接收數據庫的datetime類型字段

在Java中使用String類型通過MyBatis接收MySQL的datetime類型字段時,?可以正常工作,但需注意格式和潛在問題。以下是關鍵點: 1. ?直接轉換是可行的? MySQL的datetime字段(如 2023-10-05 12:34:56)會被MyBatis自動轉…

【Python訓練營打卡】day44 @浙大疏錦行

DAY 44 預訓練模型 知識點回顧: 1. 預訓練的概念 2. 常見的分類預訓練模型 3. 圖像預訓練模型的發展史 4. 預訓練的策略 5. 預訓練代碼實戰:resnet18 作業: 1. 嘗試在cifar10對比如下其他的預訓練模型,觀察差異,…

MySQL中關于事務和鎖的常見執行命令整理包括版本區別

MySQL中關于事務和鎖的常見執行命令實例整理,并標注了不同版本下的區別(如MySQL 8.0與舊版本的差異): 一、事務相關命令 1. 事務控制 命令描述版本差異START TRANSACTION; 或 BEGIN;顯式開啟事務通用語法,無版本差異…

PyTorch-Transforms的使用(二)

對圖像進行處理 安裝open cv ctrlP 看用法 ToTensor的使用 常見的Transforms 歸一化的圖片 兩個長度為三的數組,分別表示三個通道的平均值和標準差 Resize() Compose() 合并執行功能,輸入進去一個列表&a…