1、《HILM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving》
2023年9月發表的大模型做自動駕駛的論文,來自香港科技大學和人華為諾亞實驗室(代碼開源)。
論文簡介:
本文提出HiLM-D方法,通過整合低分辨率推理分支(LR-RB)和高分辨率感知分支(HR-PB),解決多模態大語言模型(MLLMs)在自動駕駛任務中因低分辨率輸入導致的小物體漏檢和顯著物體過于關注的問題。HiLM-D利用高分辨率圖像提取視覺特征并增強風險區域感知,以統一模型實現風險對象定位、意圖解釋和運動建議生成(ROLISP任務)。實驗表明,該方法在DRAMA-ROLISP數據集上顯著優于現有MLLMs,Captioning的BLEU-4提升4.8%,檢測mIoU提升17.2%,且模塊輕量化設計支持即插即用。
2、《MotionLM: Multi-Agent Motion Forecasting as Language Modeling》
2023年9月發表,來自Waymo團隊(代碼開源)。
論文簡介:
本文提出MotionLM,將多智能體運動預測建模為語言模型任務,通過離散化連續軌跡為運動標記,利用自回歸解碼生成聯合分布,避免了錨點或隱變量設計。其核心創新在于以單一語言建模目標直接捕捉多智能體交互的時序因果關系,并在Waymo數據集上實現交互預測任務的SOTA性能,關鍵指標提升6%。實驗表明,模型支持因果條件預測,且通過高頻交互注意力有效減少場景沖突。
3、《BEVGPT: Generative Pretrained Large Model for Autonomous Driving Prediction, Decision-Making, and Planning》
2023年10月發表,來自香港科技大學、同濟大學和華盛頓大學等(代碼非開源)。
論文簡介:
這篇論文提出BEVGPT,首個基于純鳥瞰圖(BEV)輸入的生成式預訓練大模型,將自動駕駛的預測、決策與規劃整合為統一框架。其核心創新包括:1)僅以BEV圖像為輸入,通過兩階段訓練(預訓練+在線微調)實現多任務協同,避免模塊化系統的誤差累積;2)采用因果Transformer自回歸生成未來駕駛場景,支持長達6秒的BEV預測;3)結合最小化急動度優化的運動規劃算法,保障軌跡可行性。實驗表明,模型在Lyft數據集上決策指標全面領先,運動規劃碰撞率顯著低于基線,并在復雜交通場景下展示出長期預測魯棒性,為自動駕駛系統一體化設計提供了新范式。
4、《GPT-DRIVER: LEARNING TO DRIVE WITH GPT》
2023年10月發表,作者來自美國USC和清華大學趙行團隊(代碼開源)。
論文簡介:
這篇論文提出GPT-Driver,首次將GPT-3.5模型轉化為自動駕駛運動規劃器,核心創新在于將軌跡規劃重構為語言建模問題:通過將坐標數值拆解為語言標記(如“23.17”轉為“23”、“.”、“17”),利用LLM自回歸生成軌跡,并設計“提示-推理-微調”三階段策略,激發模型數值推理能力與決策透明度。實驗表明,模型在nuScenes數據集上L2誤差顯著領先SOTA方法(3秒誤差1.52m vs. 1.65m),碰撞率與基線相當,且在10%訓練數據下仍保持強泛化性。其鏈式思維推理可輸出關鍵障礙物分析及決策邏輯,增強可解釋性,但實時性與閉環驗證仍是未來改進方向。
5、《Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving》
2023年10月發表,Wayve公司(代碼開源)。
論文簡介:
這篇論文提出了一種新型多模態架構,將自動駕駛中的對象級向量數據與預訓練大語言模型(LLM)融合,以增強場景理解和決策可解釋性。研究者構建了包含16萬問答對的數據集,通過強化學習(RL)專家和GPT-3.5生成駕駛控制指令及場景問答,并設計了兩階段訓練策略:預訓練對齊向量與語言表示,微調優化駕駛問答與動作預測。實驗表明,該模型在感知推理和動作生成任務中優于傳統行為克隆方法,且能生成人類可理解的決策解釋,但閉環控制精度和實時性仍需改進。論文為LLM在自動駕駛中的可解釋性應用提供了首個系統性框架與開源基準。
6、《LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving》
2023年10月發表,來自清華大學、香港大學和加州伯克利分校(代碼非開源)。
論文簡介:
這篇論文提出了一種將大型語言模型(LLM)作為自動駕駛系統核心決策組件的方法(LanguageMPC),通過設計認知推理路徑將LLM的文本決策轉化為數學模型參數,指導底層模型預測控制器(MPC)生成具體駕駛指令。實驗表明,該方法在單車輛任務中顯著降低了事故率和總體成本(如無信號交叉路口場景下總體成本降低18.1%),并能處理多車輛協同控制、文本調節駕駛風格等復雜場景。其優勢在于利用LLM的常識推理能力和可解釋性,解決了傳統自動駕駛系統在長尾事件處理、規則泛化與透明性方面的不足,為安全、高效且可解釋的自動駕駛系統提供了新思路。
7、《DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving》
2023年12月發表,來自上海AI實驗室、香港中文大學、商湯科技、斯坦福大學、南京大學和清華大學(代碼開源)。
論文簡介:
DriveMLM提出了一種基于多模態大語言模型(LLM)的自動駕駛框架,通過將LLM的決策輸出與行為規劃模塊的狀態對齊,解決了語言決策到車輛控制的轉換難題。該框架整合多模態輸入(如攝像頭、LiDAR、交通規則和用戶指令),利用高效數據引擎生成豐富的駕駛場景標注,并在CARLA仿真環境中實現閉環駕駛。實驗表明,DriveMLM在駕駛評分(76.1)和安全性(MPI 0.96)上顯著優于傳統方法(如Apollo),同時支持通過自然語言指令動態調整駕駛策略,并生成可解釋的決策原因,為自動駕駛系統的靈活性和透明性提供了新思路。
8.《DriveLM: Driving with Graph Visual Question Answering》
2023年12月發表,來自上海AI實驗室(OpenDriveLab)、德國圖賓根大學、圖賓根AI中心和香港大學(代碼開源)。
論文簡介:
DriveLM提出了一種基于圖視覺問答(GVQA)的端到端自動駕駛框架,通過模擬人類多步推理過程,將感知、預測、規劃等任務建模為具有邏輯依賴的問答圖結構。研究團隊構建了DriveLM-Data數據集(涵蓋nuScenes和CARLA),并開發了基于視覺語言模型(如BLIP-2)的基線模型DriveLM-Agent,利用軌跡標記和圖提示策略整合多階段推理。實驗表明,該方法在nuScenes和Waymo上表現優異,尤其在零樣本泛化場景下顯著優于傳統模型,驗證了語言模型在自動駕駛中提升泛化與可解釋性的潛力。研究為語言模型與自動駕駛的融合提供了新思路,但其推理效率與傳感器適配仍是未來改進方向。
9、《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》
23年12月發表,來自香港中文大學、商湯科技、InnoHK 感知交互智能中心、多倫多大學和上海AI實驗室(代碼開源)。
論文簡介:
LMDrive提出了一種基于大語言模型(LLM)的閉環端到端自動駕駛框架,通過整合多模態傳感器數據(攝像頭、LiDAR)和自然語言指令,實現了與人類及導航軟件的交互。該框架利用預訓練的視覺編碼器提取場景特征,并通過凍結的LLM進行指令理解和控制信號生成,解決了傳統方法在長尾事件處理、語言交互和閉環執行中的不足。研究還公開了包含64K指令數據的數據集和LangAuto基準測試,實驗驗證了其在復雜場景下的有效性和魯棒性,尤其在處理誤導指令和多步驟指令時表現突出。該工作為語言驅動的自動駕駛研究提供了新思路與工具支持。
10、《LingoQA Visual Question Answering for Autonomous Driving》
2023年12月發表,來自Wayve公司(代碼開源)。
論文簡介:
這篇論文提出了LingoQA,一個用于自動駕駛的視覺問答(VQA)新基準,包含28K短視頻場景和419K標注的多樣化數據集,覆蓋駕駛行為、場景感知與推理任務。其核心貢獻是開發了Lingo-Judge評估指標,通過微調DeBERTa-V3模型實現高效自動化評估,與人類評估的Spearman相關系數達0.95,顯著優于傳統指標和GPT-4。作者還構建了基于Vicuna-1.5-7B的視覺語言模型基線,通過多幀視頻融合和分階段訓練策略優化性能。實驗表明,現有模型(如GPT-4V)在自動駕駛場景中的真實回答率(59.6%)仍遠低于人類水平(96.6%),突顯該基準對推動可信自動駕駛系統發展的重要性。
11、《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》
2024年2月發表,來自清華和理想汽車的論文(代碼開源)。
論文簡介:
這篇論文提出了一種名為DriveVLM的自動駕駛系統,通過結合視覺語言模型(VLMs)提升復雜場景理解和規劃能力。其核心是通過鏈式推理(CoT)模塊實現場景描述、分析和分層規劃,并進一步提出混合系統DriveVLM-Dual,融合傳統3D感知與規劃模塊以彌補VLMs的空間推理缺陷。實驗表明,該系統在nuScenes和自建數據集SUP-AD上表現優異,尤其在長尾場景中顯著優于現有方法,且DriveVLM-Dual已成功部署于實車驗證,兼顧實時性與安全性。
12、《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》
2024年8月發表,來自威斯康星大學的論文(代碼開源)。
論文簡介:
這篇論文提出了一種結合視覺語言模型(VLM)與模型預測控制(MPC)的自動駕駛控制器VLM-MPC,通過雙層異步架構實現決策與控制分離。上層VLM基于攝像頭圖像、環境描述和歷史記憶生成動態駕駛參數,下層MPC依據參數實時調整車輛運動,兼顧車輛動力學約束。實驗表明,VLM-MPC在復雜場景(如雨天、夜間)中顯著提升安全性(保持碰撞后侵入時間高于安全閾值)和駕駛平順性(降低加速度波動),并通過消融測試驗證了參考記憶和環境編碼器對穩定性的關鍵作用。該框架解決了傳統VLM響應速度不足的問題,為模型推理與實時控制的融合提供了新思路。
13、《DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving》
2024年8月發表,來自哥倫比亞大學的論文(代碼非開源)。
論文簡介:
這篇論文提出了DriveGenVLM框架,通過去噪擴散概率模型(DDPM)生成自動駕駛場景視頻,并利用視覺語言模型(EILEV)驗證視頻的可解釋性。基于Waymo數據集的實驗表明,自適應分層采樣方法生成的視頻在Frechet視頻距離(FVD)指標上表現最優,且生成的視頻可通過VLM生成場景描述,為自動駕駛的決策算法提供支持。盡管模型在復雜交通場景中仍存在挑戰,但該框架展示了生成模型與視覺語言模型結合在自動駕駛領域的潛力。
14、《DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model》
2024年10月發表,來自香港大學、浙江大學、華為和悉尼大學(代碼開源)。
論文簡介:
DriveGPT4是一種基于多模態大語言模型的可解釋端到端自動駕駛系統,能夠通過處理多幀視頻和文本輸入,生成車輛行為解釋并預測控制信號。通過結合定制化的視覺指令調優數據集和混合微調策略,該系統在BDD-X數據集上展現出優于現有方法的性能,并在自動駕駛任務中接近或超越GPT4-V的表現。實驗表明,DriveGPT4在動作描述、推理問答及控制信號預測等任務中均表現卓越,同時具備零樣本泛化能力,為可解釋自動駕駛提供了新思路。
15、《Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment》
2024年10月發表,來自普渡大學和北美豐田汽車的論文(代碼開源)。
論文簡介:
這篇論文提出了LLM4AD框架,將大型語言模型(LLM)融入自動駕駛系統,通過自然語言交互和上下文推理增強車輛的高層決策與個性化控制。作者構建了LaMPilot-Bench基準和CARLA仿真測試,驗證了LLM在指令跟隨、復雜場景處理中的性能,并通過真實車輛實驗展示了云端LLM(Talk2Drive)和車載視覺語言模型(VLM)在個性化駕駛中的有效性。研究同時揭示了LLM4AD面臨的挑戰,包括實時性延遲、安全隱私風險、模型部署復雜性及用戶信任問題,為未來在安全關鍵場景中融合語言模型提供了理論支持和實踐參考。
16、《Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving》
2024年10月發表,來自利物浦大學、華威大學和東南大學的論文(代碼非開源)。
論文簡介:
該論文提出了一種名為RAPID的魯棒自適應策略融合與蒸餾框架,旨在將大型語言模型(LLM)的常識推理能力高效遷移至強化學習(RL)策略,以解決自動駕駛場景中LLM實時推理延遲和對抗攻擊脆弱性的問題。RAPID通過三個核心設計實現目標:1)利用LLM生成的離線數據蒸餾專家知識至輕量級RL策略;2)引入魯棒蒸餾機制,繼承LLM的魯棒性;3)采用混合略與在線適配器實現動態決策。實驗表明,RAPID在復雜駕駛環境中顯著提升了策略的實時性、泛化性和抗干擾能力,并驗證了其在多場景下的高效知識遷移與適應性優化效果。
17、《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
2024年10月發表,來自華中理工和地平線的論文(代碼開源)。
論文簡介:
Senna提出了一種結合大型視覺語言模型(Senna-VLM)與端到端自動駕駛模型(Senna-E2E)的創新框架,通過自然語言生成高層規劃決策,再由端到端模型預測精確軌跡,解決了傳統方法在復雜場景中缺乏常識的問題。該系統采用多圖像編碼、多視角提示和規劃導向的問答數據,結合三階段訓練策略,顯著提升了規劃性能。實驗表明,Senna在nuScenes和DriveX數據集上實現了最先進的規劃精度,平均規劃誤差降低27.12%,碰撞率減少33.33%,并展示了強大的跨場景泛化能力。研究為融合語言模型與自動駕駛提供了結構化解決方案,推動了安全性與魯棒性的提升。
18、《HE-Drive:Human-Like End-To-End Driving With Vision Language Models》
2024年10月發表,來自地平線、香港大學、中科院大學和北京交大的論文(代碼開源)。
論文簡介:
HE-Drive提出了一種結合稀疏感知、擴散模型和視覺語言模型(VLM)的類人端到端自動駕駛框架,通過擴散模型生成時間一致的多模態軌跡,并利用VLM動態調整規則評分權重以提升駕駛舒適性。系統采用稀疏感知提取3D環境表示,基于條件去噪擴散模型(DDPM)生成軌跡,結合VLM的零樣本推理能力優化安全與舒適性指標。實驗表明,HE-Drive在nuScenes等數據集上顯著降低平均碰撞率71%,運行效率提升1.9倍,并在真實場景中實現舒適度32%的提升,驗證了其在復雜場景下的強泛化能力和人機協同決策的有效性。
19、《FASIONAD? FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback》
2024年11月發表,來自清華、早稻田大學、明尼蘇達大學、多倫多大學、廈門大學馬來西亞分校、電子科大(成都)、智平方科技和河南潤泰數字科技的論文(代碼非開源)。
論文簡介:
本文提出了一種名為FASIONAD的雙系統自動駕駛框架,受心理學“快與慢”認知模型啟發,將駕駛決策分為快速路徑和慢速路徑:前者通過數據驅動實時處理常規任務,后者利用視覺語言模型(VLM)進行復雜場景的深度推理。通過動態切換機制和自適應反饋,系統在nuScenes和CARLA基準測試中顯著提升了導航成功率與安全性(碰撞率降低10-15%),尤其在長尾事件中表現突出。該框架創新性地融合了高效實時響應與人類式推理,為自動駕駛系統的適應性和可解釋性提供了新方向。
20、《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》
2024年12月發表,來自中山大學深圳分校和美團的論文(代碼開源)。
論文簡介:
DriveMM是一種面向自動駕駛的全能大型多模態模型,能夠處理圖像、多視角視頻等多種輸入,并執行感知、預測、規劃等多樣化任務。通過課程預訓練和數據集增強標準化方法,該模型顯著提升了泛化能力和多任務適應性。實驗表明,DriveMM在六個公共基準測試中均達到最先進性能,并在零樣本遷移任務中表現出色,為自動駕駛提供了一種高效統一的解決方案。
21、《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》
2024年12月發表,來自北理工的論文(代碼非開源)。
論文簡介:
DriveMM是一種面向自動駕駛的全能大型多模態模型,能夠處理圖像、多視角視頻等多種輸入,并執行感知、預測、規劃等多樣化任務。通過課程預訓練和數據集增強標準化方法,該模型顯著提升了泛化能力和多任務適應性。實驗表明,DriveMM在六個公共基準測試中均達到最先進性能,并在零樣本遷移任務中表現出色,為自動駕駛提供了一種高效統一的解決方案。
22、《VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving》
2024年12月發表,來自Wisconsin Madison分校和Purdue大學的論文(代碼開源)。
論文簡介:
這篇論文提出了VLM-RL框架,通過整合視覺語言模型(VLM)與強化學習(RL)解決自動駕駛中的獎勵設計難題。其核心創新包括:提出對比語言目標(CLG)范式,利用正負語言描述生成語義獎勵;設計分層獎勵合成方法,結合語義獎勵與車輛狀態信息以提高穩定性;引入批量處理技術優化計算效率。實驗表明,VLM-RL在CARLA模擬器中顯著降低碰撞率(10.5%)、提升路線完成率(104.6%),并在未見場景中展現強泛化能力。該方法無需人工設計獎勵或微調VLM,首次驗證了VLM與RL在端到端自動駕駛中的可行性,為安全駕駛提供了可擴展的解決方案,但極端光照等復雜環境仍是挑戰。
23、《Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs》
2024年12月發表,來自紐約stony brook大學、UIC和桑瑞思(數字化醫療科技公司)的論文(代碼非開源)。
論文簡介:
這篇論文提出了一種結合多模態大語言模型(LLM)與端到端自動駕駛模型的新架構,通過LLM生成高級駕駛指令(如左轉、右轉)來指導端到端模型輸出具體動作(如方向盤和油門控制)。該方法無需微調LLM,利用提示工程技術(如思維鏈)降低數據需求,并通過緩存指令緩解LLM的高延遲問題。實驗表明,在僅用簡單場景(單個障礙物)訓練后,模型在復雜真實環境(多障礙物)中的成功率顯著提升(如LLaVA-LLaMA2+ViT測試成功率達83%)。主要貢獻在于首次在真實閉環環境中驗證了LLM增強端到端駕駛的可行性,同時通過解耦高層指令與底層控制,實現了低數據依賴和高適應性,但LLM在光照劇烈變化時仍存在局限性。
24、《WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model》
2024年12月發表,來自新加坡國立和浙大的論文(代碼非開源)。
論文簡介:
這篇論文提出了WiseAD,一種基于視覺語言模型(VLM)的知識增強端到端自動駕駛框架,通過整合廣泛的駕駛知識(如場景理解、風險分析和駕駛建議)來提升軌跡規劃能力。該方法基于輕量級MobileVLM模型,通過聯合訓練駕駛知識問答數據與軌跡規劃數據,實現了知識對齊的閉環駕駛。實驗表明,在CARLA模擬器中,WiseAD顯著提升了駕駛評分(11.9%)和路線完成率(12.4%),同時減少了關鍵事故(如碰撞和闖紅燈),并在零樣本知識評估中優于其他VLM。核心貢獻在于首次驗證了深度和廣度擴展的駕駛知識對自動駕駛性能的持續提升,為知識驅動的自動駕駛研究提供了新方向。
25、《SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models》
2024年12月發表,來自USC、U Wisconsin、U Michigan、清華大學和香港大學的論文(代碼開源)。
論文簡介:
該論文提出了SafeDrive框架,通過結合知識驅動和數據驅動方法,利用大語言模型(LLM)提升自動駕駛車輛在動態高風險場景下的決策安全性與適應性。其核心模塊包括風險量化模型(全方向風險評估)、記憶模塊(經驗存儲與檢索)、LLM推理模塊(上下文感知決策)和反思模塊(迭代優化決策)。實驗表明,該框架在高速公路、交叉路口和環島等真實場景中實現了100%安全率及超過85%的決策與人類行為對齊,顯著優于傳統方法,為解決長尾事件和復雜交互場景提供了創新解決方案。
26、《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》
2024年12月發表,來自Cruise和美國東北大學的論文(代碼非開源)。
論文簡介:
這篇論文提出了一種名為VLM-AD的端到端自動駕駛方法,通過引入視覺語言模型(VLM)作為教師模型,在訓練階段生成包含非結構化推理文本和結構化動作標簽的監督信號,以增強模型的駕駛決策能力。該方法無需在推理階段依賴VLM,降低了計算成本。實驗表明,VLM-AD在nuScenes數據集上顯著降低了規劃誤差(L2誤差減少14.6%-33.3%)和碰撞率(降低38.7%-57.4%),并通過消融研究驗證了推理標注的關鍵作用。該方法為自動駕駛系統提供了更豐富的特征表達和可解釋性,同時保持了實時部署的實用性。
27、《LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking》
2025年1月發表,來自浙江大學、上海AI實驗室、慕尼黑工大、同濟大學和中科大的論文(代碼非開源)。
論文簡述:
LeapVAD提出了一種基于認知感知和雙過程思維的自動駕駛方法,通過模擬人類注意力機制識別關鍵交通元素,并整合分析過程(邏輯推理)與啟發式過程(快速決策)實現高效決策。其創新點包括多幀時序場景理解、高效的場景編碼器檢索機制,以及通過反思和記憶庫實現持續學習與跨領域知識遷移。實驗表明,在CARLA和DriveArena仿真平臺上,LeapVAD在有限訓練數據下顯著優于現有方法,駕駛分數提升最高達42.6%,尤其在復雜場景中展現出強魯棒性和泛化能力。
28、《LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models》
2025年1月發表,來自香港科技大學廣州分校的論文(代碼非開源)。
論文簡述:
論文提出LearningFlow,一種基于多大型語言模型(LLM)代理協作的自動化策略學習框架,通過動態生成訓練課程和獎勵函數,解決城市自動駕駛中獎勵函數手動設計復雜和樣本效率低的問題。該框架結合課程強化學習(CRL),利用分析代理與生成代理的協同工作,支持實時調整訓練環境與獎勵機制。實驗驗證顯示,在CARLA模擬器中,LearningFlow在多種復雜駕駛任務(如多車道超車、匝道匯入)中表現優異,成功率和泛化能力顯著優于傳統方法,并能適配不同強化學習算法(如PPO、DQN、SAC)。其核心貢獻在于降低人工干預需求,提升策略安全性與訓練效率。
29、《Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning》
2025年2月發表,來自中科院軟件所和中科院大學的論文(代碼非開源)。
論文簡介:
該論文提出了Sec2DriveX框架,通過結合多模態大語言模型(MLLM)與局部場景視頻、全局鳥瞰圖(BEV)的聯合學習,實現對長時空關系和道路拓撲的深度理解,從而提升自動駕駛的跨場景泛化能力。其創新點包括:1)構建首個面向3D空間理解與長軸任務推理的VQA駕駛指令數據集;2)設計鏈式推理框架,從場景理解逐步推導至行為分析、運動規劃與控制信號生成,模擬人類駕駛認知過程;3)提出三階段訓練流程(混合對齊預訓練、場景理解微調、端到端駕駛微調)。實驗表明,Sec2DriveX在場景理解、軌跡規劃等任務中性能最優,并在復雜場景下展現出強泛化性。
30、《VLM-E2E Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusion》
2025年2月發表,來自香港科大廣州分校、理想汽車和廈門大學的論文(代碼非開源)。
論文簡介:
該論文提出了一種名為VLM-E2E的端到端自動駕駛框架,通過融合視覺語言模型(VLMs)的語義理解能力與鳥瞰圖(BEV)的幾何特征,增強系統在復雜動態場景中的決策能力。其核心創新包括:1)利用BLIP-2生成文本描述并借助CLIP編碼,提取駕駛員注意力語義;2)提出動態加權融合策略(BEV-Text),自適應平衡視覺與文本模態的貢獻;3)通過語義精煉和時空建模,解決VLM的幻覺問題并提升環境表征的魯棒性。實驗表明,在nuScenes數據集上,VLM-E2E在感知(如行人檢測提升24.4%)、預測(IoU提升4.47%)和規劃(3秒碰撞率降至1.17%)任務中均顯著優于現有方法,尤其在長期安全性與人類駕駛行為對齊方面表現突出。
如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!