LeapVAD:通過認知感知和 Dual-Process 思維實現自動駕駛飛躍——論文閱讀

《LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking》2025年1月發表,來自浙江大學、上海AI實驗室、慕尼黑工大、同濟大學和中科大的論文。

盡管自動駕駛技術取得了顯著進步,但由于推理能力有限,數據驅動的方法仍然難以應對復雜的場景。與此同時,隨著視覺語言模型的普及,知識驅動的自動駕駛系統也得到了長足的發展。本文提出了LeapVAD,這是一種基于認知感知和雙過程思維的新方法。此方法實現了一種人類注意力機制,以識別和關注影響駕駛決策的關鍵交通因素。通過包括外觀、運動模式和相關風險在內的綜合屬性來表征這些對象,LeapVAD實現了更有效的環境表示并簡化了決策過程。此外,LeapVAD整合了一個創新的雙過程決策模塊,模擬了人類駕駛學習過程。該系統由一個通過邏輯推理積累駕駛經驗的分析過程(系統II)和一個通過微調和少量學習完善這些知識的啟發式過程(系統I)組成。LeapVAD還包括反射機制和不斷增長的記憶庫,使其能夠從過去的錯誤中學習,并在閉環環境中不斷提高其性能。為了提高效率,我們開發了一個場景編碼器網絡,該網絡生成緊湊的場景表示,用于快速檢索相關的駕駛體驗。對CARLA和DriveArena這兩款領先的自動駕駛模擬器進行的廣泛評估表明,盡管訓練數據有限,但LeapVAD的性能優于僅使用攝像頭的方法。全面的消融研究進一步強調了其在持續學習和領域適應方面的有效性。

1. 研究背景與動機
  • 問題定義:現有自動駕駛技術中,數據驅動方法依賴大量標注數據且缺乏復雜場景下的推理能力,而知識驅動方法(如基于視覺語言模型VLM)雖具備一定推理能力,但評估方法多為開環測試,無法反映動態交互環境。

  • 核心挑戰:如何構建一個能夠持續學習、模仿人類認知過程的自動駕駛系統,以應對復雜場景和長尾問題。

  • 創新點:提出LeapVAD框架,融合認知感知(人類注意力機制)與雙過程思維(分析過程System-II + 啟發式過程System-I),結合記憶庫和反射機制,實現閉環環境下的持續優化。


2. 方法論
框架組成

  1. 場景理解模塊

    • 視覺語言模型(VLM):通過監督微調(SFT)生成關鍵交通對象的語義、空間、運動屬性及行為推理描述(如車輛類別、位置、速度、風險等級)。

    • 多幀輸入:支持多視角和多幀數據,捕捉動態屬性(如速度趨勢、運動方向)。

    • 數據結構:采用“總結-細化”格式,提升場景描述的全面性。

  2. 場景編碼器

    • 目標:生成緊湊的場景標記(Scene Token),用于快速檢索相似歷史場景。

    • 對比學習框架:在動作空間(ACT,轉向控制)和加速度空間(ACC,制動控制)中,通過對比學習優化特征表示。

    • 動量編碼器:通過動量更新策略(MoCo風格)維護歷史特征字典,支持大規模負樣本對比。

  3. 雙過程決策模塊

    • 分析過程(System-II)

      • 基于LLM的邏輯推理,生成高質量駕駛決策(如變道、減速)。

      • 通過閉環實驗積累經驗至記憶庫,支持知識遷移。

      • 反射機制:事故發生時,分析歷史幀數據(描述、決策、推理),識別錯誤原因并生成修正策略,更新記憶庫。

    • 啟發式過程(System-I)

      • 基于輕量級LLM(如Qwen-1.8B),利用記憶庫中的經驗進行快速決策。

      • 少樣本提示(Few-shot Prompting):通過檢索相似場景的樣本,減少幻覺(Hallucination)并提升泛化能力。

  4. 控制器

    • 元動作生成:輸出高層指令(如“加速AC”“左變道LCL”)。

    • PID控制:通過軌跡規劃和跟蹤,將元動作轉化為底層控制信號(轉向、油門、剎車)。


3. 實驗與驗證
實驗平臺
  • CARLA:Town05短途與長途基準測試,評估駕駛分數(DS)、路線完成率(RC)、違規分數(IS)。

  • DriveArena:高保真仿真環境,驗證跨域泛化能力。

主要結果
  1. CARLA性能

    • Town05短途:LeapVAD以僅1/73的數據量(41K vs. 3M)達到接近SOTA(94.95 vs. 88.19 DS),較前作LeapAD提升5.3%。

    • Town05長途:DS提升42.6%,顯著優于純視覺方法。

  2. DriveArena性能

    • 記憶庫(CARLA訓練)跨域遷移有效,ADS(駕駛分數)達45.52%,優于端到端方法(如VAD、UniAD)。

消融實驗
  • VLM選擇:Qwen-VL-7B在場景理解和推理能力上優于LLaVA和InternVL2。

  • 場景標記設計:“池化+狀態”方案(Precision@1達87.52%)優于文本嵌入(OpenAI Embedding)。

  • 記憶庫容量:容量越大(如4096),性能提升越顯著。

  • 少樣本提示:3-shot設置效果最佳,較零樣本提升顯著。


4. 創新與貢獻
  1. 雙過程思維:模仿人類駕駛學習過程(新手→專家),結合邏輯推理(System-II)與快速反應(System-I)。

  2. 高效場景表示:通過對比學習生成場景標記,提升檢索效率與決策一致性。

  3. 持續學習機制:反射機制與動態記憶庫實現閉環優化,支持跨域知識遷移(如CARLA→DriveArena)。

  4. 數據效率:僅需少量標注數據(41K)即可達到SOTA性能,顯著降低數據依賴。


5. 局限與未來方向
  • 實時性:分析過程(System-II)依賴大模型推理,可能影響實時性,需進一步優化輕量化。

  • 復雜場景泛化:極端天氣、密集交通等場景的泛化能力需驗證。

  • 硬件部署:當前實驗基于仿真環境,實際車載部署的算力與延遲問題待解決。


6. 結論

LeapVAD通過融合認知感知與雙過程思維,構建了一個高效、可解釋的自動駕駛框架。其核心創新在于模仿人類駕駛的持續學習機制,結合場景編碼與記憶庫技術,顯著提升了復雜場景下的決策魯棒性和數據效率。實驗證明該方法在仿真環境中具有優越性能,為知識驅動自動駕駛提供了新的研究方向。

如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/79072.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/79072.shtml
英文地址,請注明出處:http://en.pswp.cn/web/79072.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

二分系列題

1. 搜索插入位置 /*** 查找插入的位置:返回第一個大于等于 target 的索引;* 如果 target 大于所有元素,則返回數組長度(即插入到末尾)*/ class Solution {public int searchInsert(int[] nums, int target) {int left …

Octave 簡介:一款強大的開源科學計算工具

引言 在科學計算、數據分析和數值模擬的領域,選擇合適的工具對于提升工作效率和性能至關重要。雖然市面上有許多選擇,但 GNU Octave 作為一款功能強大、開源免費的軟件,它在科學計算中脫穎而出。如果你是學生、研究人員或開發者,…

TI Code Composer Studio編譯時SDK報錯問題解決

1. 我們使用TI的CCS(Code Composer Studio)編譯環境編譯工程時,首次安裝很可能會遇到編譯器找不到SDK的問題。 2. 當CCS編程工具找不到SDK路徑時,會有如下報錯: Problems窗口提示: Product com.ti.SIMPL…

MySQL大數據量查詢優化

1.在回表數據量不大的情況下考慮增加索引,如果有多個篩選條件的情況下可以考慮添加聯合索引,并且滿足最佳左前綴的原則。 2.避免全表查詢返回不需要的字段,增加磁盤io的壓力 3.大表的分頁查詢,limit越大效率越低,可以先…

【Linux網絡#5】(UDP的簡單應用)DictServer(中譯英字典)| ChatServer(簡單聊天室)

1.中譯英字典 -- DictServer 我們這里先中途插入一個趣味的翻譯顯示實驗,在 EchoServer 的基礎上來實現,大部分代碼基本都沒變,修改了一少部分代碼,大家可以仔細看看 先給定一些等會我們要翻譯的單詞數據 dict.txt apple: 蘋果…

DeepSeek實戰--微調

1.為什么是微調 ? 微調LLM(Fine-tuning Large Language Models) 是指基于預訓練好的大型語言模型(如GPT、LLaMA、PaLM等),通過特定領域或任務的數據進一步訓練,使其適應具體需求的過程。它是將…

FTP/TFTP/SSH/Telnet

目錄 一、FTP(文件傳輸協議) 定義 工作原理 特點 應用場景 二、TFTP(簡單文件傳輸協議) 定義 工作原理 特點 應用場景 三、SSH(安全外殼協議) 定義 工作原理 特點 應用場景 四、Telnet&…

K8S常見問題匯總

一、 驅逐 master 節點上的所有 Pod 這會“清空”一個節點&#xff08;包括 master&#xff09;上的所有可驅逐的 Pod&#xff1a; kubectl drain <master-node-name> --ignore-daemonsets --delete-emptydir-data--ignore-daemonsets&#xff1a;保留 DaemonSet 類型的…

【銀河麒麟高級服務器操作系統】服務器外掛存儲ioerror分析及處理分享

更多銀河麒麟操作系統產品及技術討論&#xff0c;歡迎加入銀河麒麟操作系統官方論壇 forum.kylinos.cn 了解更多銀河麒麟操作系統全新產品&#xff0c;請點擊訪問 麒麟軟件產品專區&#xff1a;product.kylinos.cn 開發者專區&#xff1a;developer.kylinos.cn 文檔中心&a…

C++命名空間、內聯與捕獲

命名空間namespace 最常見的命名空間是std,你一定非常熟悉,也就是: using namespace std;命名空間的基本格式 注意,要在頭文件里面定義! namespace namespace_name{data_type function_name(data_type parameter){data_type result;//function contentreturn result;}…

軟件測試名詞科普:驅動模塊、樁模塊

目錄 1. 驅動模塊 2. 樁模塊? 3. 驅動模塊 vs 樁模塊 對比表 4. 示例代碼 在軟件測試中&#xff0c;?驅動模塊&#xff08;Driver Module&#xff09;?和樁模塊&#xff08;Stub Module&#xff09;?是兩種用于單元測試的關鍵組件&#xff0c;主要用于模擬測試環境中的…

線程池的核心參數和線程創建方式,線程和進程

Java線程池的核心參數 Java線程池通過ThreadPoolExecutor類進行配置&#xff0c;其核心參數如下&#xff1a; corePoolSize&#xff08;核心線程數&#xff09; 作用&#xff1a;線程池中保持活動的最小線程數&#xff0c;即使這些線程處于空閑狀態。 行為&#xff1a;默認情…

【報錯】view size is not compatible with input tensor‘s size and stride

完整報錯 Traceback (most recent call last): File "D:\360MoveData\Users\HONOR\whu\TwoStageTraining.py", line 590, in <module> criterionseg_criterion, save_dir./models, writerwriter_first_stage) File "D:\360MoveData\Users\HONOR\whu\TwoS…

汽車免拆診斷案例|車輛行駛中急加速車身抖動故障排除 2 例

案例1 2017款豐田卡羅拉車行駛中急加速車身偶爾抖動 故障現象  一輛 2017款豐田卡羅拉車&#xff0c;搭載9NR 發動機&#xff0c;累計行駛里程約為9.6萬km。車主進廠反映&#xff0c;該車行駛中急加速時&#xff0c;車身偶爾抖動。 故障診斷  接車后試車&#xff0c;發動機…

vue3 computed方法使用詳細講解

Computed方法用于創建計算屬性&#xff0c;它的值由其他響應式數據計算得出&#xff0c;并且會在依賴數據發生改變時自動更新。因為vue3兼容vue2的選項式api,所以習慣用vue2的小伙伴可以直接用vue2的方法寫是沒有問題的。但我這里介紹的是computed在vue3中的新語法&#xff1a;…

std::iota(C++)

std::iota 1. 概述2. 函數原型3. 使用示例示例 1&#xff1a;填充 vector<int>示例 2&#xff1a;從非零起始值開始 4. 應用場景5. 注意事項6. 與其它算法比較小結 1. 概述 std::iota 定義在頭文件 中&#xff0c;C11 起引入。 它用于向前迭代器區間依次填入連續遞增的數…

基于Jaccard算法的用戶瀏覽歷史推薦商品系統實戰+springboot+vue源碼實現

大家好&#xff0c;這里是小羅畢設工作室。今天給大家帶來了一套完整的推薦系統&#xff1a; “基于Jaccard算法的用戶瀏覽歷史推薦商品系統”。 系統源碼后端實現是springboot&#xff0c;前端是vue3。 視頻演示 基于Jaccard算法的用戶瀏覽歷史推薦商品系統實戰 圖片截圖 算法…

正態分布和冪律分布

1. 背景與引入 正態分布 歷史來源&#xff1a;18世紀由高斯&#xff08;Gauss&#xff09;在研究測量誤差時提出&#xff0c;后被廣泛應用于自然現象和社會科學的數據建模。重要性&#xff1a;被稱為“鐘形曲線”&#xff0c;是統計學中最核心的分布之一&#xff0c;支撐中心極…

免費AI圖像編輯平臺,最新無損放大技術

軟件介紹 騰訊ARC網頁在線AI圖片處理是一款由騰訊ARC實驗室推出的在線圖像處理工具。憑借騰訊的科技實力&#xff0c;這款工具在圖像處理領域展現了卓越的性能。 功能亮點 這款在線圖像處理工具提供多種功能&#xff0c;包括人像修復、人像摳圖、動漫增強、萬物識別以及…

# 部署深度學習模型:Flask API 服務端與客戶端通信實戰

部署深度學習模型&#xff1a;Flask API 服務端與客戶端通信實戰 在這篇文章中&#xff0c;我們將探討如何使用 Flask 框架部署一個深度學習模型&#xff0c;并通過客戶端與服務端進行通信。我們將通過一個實際的例子&#xff0c;展示如何構建服務端和客戶端&#xff0c;以及如…