近年來,隨著端到端的技術快速發展將自動駕駛帶到了一個新高度,并且取得了非常亮眼的成績。由于感知限制和極端長尾場景下訓練數據覆蓋不足,模型在高密度復雜交通場景下和不規則交通情況下的處理能力不足,導致在開放道路上大規模部署此類系統仍存在一些問題。
盡管目前傳統的感知-規劃-控制范式已經非常成熟,但這類方法限制了算法模型對交通上下文的語義理解能力以及與異構交通參與者進行交互推理的能力。基于此,已經有相關的工作為了增強個體間交互能力,通過數學形式和手工制定的規則系統來構建車輛交互。但這種規則驅動的框架在計算可擴展性和邊緣情況泛化方面面臨固有的局限性,比如計算復雜度呈指數級增長;在建模以動態不確定性為特征的邊緣場景時,存在根本性的數學難題。
最近,大語言模型的出現為場景理解和交互式推理引入了新的范式,并在場景理解和認知推理方面展現出卓越的能力。然而,在部署LLM時出現了一個根本性的挑戰:維持其知識密度和推理保真度本質上會將運行頻率限制在極低的水平。這種延遲瓶頸會導致關鍵決策延遲,從而可能導致嚴重的碰撞事故。
基于此,本文提出了LeAD,一種雙速率自動駕駛架構,融合了基于模仿學習的端到端框架和大語言模型技術。在CARLA模擬器中進行的實驗評估證明了LeAD對非常規場景的卓越處理能力,在Leaderboard V1基準測試中獲得了71分,路線完成率達到 93%。
圖1|LeAD算法模型的整體架構圖
本文的主要貢獻如下
●?本文提出了一種創新型自動駕駛系統,它利用LLM進行場景認知和類人的邏輯推理,進而實現基于場景理解的規劃。
●?本文利用雙向自然語言編碼器-解碼器實現感知/決策數據與語言表征之間的轉換,從而增強大語言模型的可靠信息理解和邏輯決策能力。
●?本文提出了一種雙速率系統架構,將實時的E2E框架與具備場景理解和推理能力的LLM增強模塊協同集成,并成功完成CARLA仿真環境上的自動駕駛閉環測試。
本文提出的LeAD算法框架如圖2所示。該算法包括兩個平行的結構,分別是高頻的端到端系統,以及低頻的LLM系統,二者通過異步耦合機制集成。
圖2|LeAD算法模型的流程圖
整個系統主要通過端到端系統運行,持續生成軌跡點,并反饋到基礎安全控制器,以便車輛立即執行操作。
當遇到邊緣場景時,車輛首先嘗試通過端到端系統決策流進行解析;如果場景仍未解析,安全控制器將啟動保護性停止。如果當超過預設的等待閾值時,LLM冗余系統將啟動;接下來LLM處理當前環境狀態和感知數據,以制定高級決策,最后通過慢系統的安全控制器執行車輛操作。
此外,本文考慮到直接執行LLM推理解碼的決策可能會引發安全風險,因此將安全控制器集成到慢速系統決策流水線中,確保了低速下高級LLM決策具有足夠的執行自由度。
端到端快速規劃系統
整個系統采用ResNet+Transformer架構,如圖3所示。輸入數據包括前、前左、前右的攝像頭數據、激光雷達點云和導航路徑點。輸出結果包括交通參與者的感知數據、自車的軌跡以及交通標志、路口檢測結果等等。
圖3|端到端系統的神經網絡架構圖
感知描述
本文為了利用大語言模型實現更加可靠、精準的決策,所設計的編碼器可以處理兩個不同的輸入流。一個是來自E2E系統的感知輸出,包括檢測到的目標、交通信號和部分道路特征。另一個是從高清地圖中提取的車道級定位數據,用于提供自車定位和決策空間約束。
●?道路拓撲:車輛的運行環境是影響駕駛決策的主要因素。在相同的感知輸入下,位于交叉路口和行駛車道內的車輛可能會表現出截然不同的行為策略。本文采用了道路環境、車道配置、交通信號以及停車標志四種場景提示對環境進行表征。
●?交通參與者:除了車輛的直接環境之外,交通參與者的感知信息是影響駕駛行為的另一個關鍵因素。本文考慮到大語言模型固有的數值不敏感性(直接輸入目標尺寸和坐標會導致模型錯誤決策),因此采用了目標相對于自身車輛的位置關系、目標類型分類等離散屬性。
推理決策
為了充分利用LLM的場景理解和邏輯推理能力,LeAD將基于CoT的決策過程分為三個連續的階段。
●?感知目標分析階段:該過程首先描述駕駛環境,然后分析每個目標的潛在車道/區域占用情況。隨后,利用目標的航向角和近似速度預測其在未來時間窗口內的可能位置。
●?決策可行性評估:此階段將系統地分析每個選項的可執行性,并評估其操作后果。
●?最終決策合成與解碼:此組件將LLM生成的自然語言決策轉換為可執行命令,隨后由安全控制器進行處理。
圖4|LeAD中的LLM提示流程
本文采用CARLA仿真環境對提出的算法模型的性能進行評估。評估包括7個城鎮和26條不同的路線,涵蓋各種交通場景和城市類型,包括鄉村小路、城市主干道、多車道林蔭大道、復雜的信號交叉口和非信號交叉口。
圖5展示了LeAD與CARLA中四個模型的比較結果。可以看出LeAD實現了最佳的駕駛得分,取得了最佳的性能。
圖5|各個算法模型在CARLA上的表現性能
為了評估集成的基于LLM的冗余決策模塊的貢獻,本文進行了相關消融實驗,結果如圖6所示。
圖6|消融實驗結果匯總
同時本文也對算法在處理不規則場景的情況進行了可視化分析,如圖7所示。通過可視化結果可以看出,LeAD在雙車道的雙向道路場景中具有很好的表現。
圖7|樣例條件展示
此外,如圖8所示,當基線端到端規劃器未能解決意外障礙物造成的路徑阻塞,導致車輛完全無法行駛時,冗余決策系統會通過多階段安全觸發器啟動。自然語言推理系統會在對交通法規和空間限制進行思路鏈分析后,生成“右變道”命令。
圖8|樣例場景描述
本文提出了一種雙速率系統自動駕駛架構LeAD,有效的將實時端到端規劃與基于LLM的高級推理相結合。在復雜場景下的實驗結果證明了LeAD的卓越性能,其表現超越了許多強大的基準模型,最高駕駛得分達到71.96,路線完成率達到93.43%,證明了其強大的規劃能力和出色的場景通過性。