LGDRL:基于大型語言模型的深度強化學習在自動駕駛決策中的應用

《Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving》2024年12月發表,來自北理工的論文。

????????深度強化學習(DRL)在自動駕駛決策方面顯示出巨大的潛力。然而,由于DRL的學習效率低,它需要大量的計算資源來在復雜的駕駛場景中實現合格的策略。此外,利用人類的專家指導來提高日間行車燈的性能會導致過高的勞動力成本,這限制了其實際應用。在這項研究中,我們提出了一種新的大型語言模型(LLM)引導的深度強化學習(LGDRL)框架,用于解決自動駕駛汽車的決策問題。在此框架內,一位基于LLM的駕駛專家被整合到DRL中,為DRL的學習過程提供智能指導。隨后,為了有效地利用LLM專家的指導來提高DRL決策政策的性能,通過創新的專家政策約束算法和新穎的LLM干預交互機制來增強DRL的學習和交互過程。實驗結果表明,與最先進的基線算法相比,我們的方法不僅實現了90%任務成功率的卓越駕駛性能,而且顯著提高了學習效率和專家指導利用效率。此外,所提出的方法使DRL代理能夠在沒有LLM專家指導的情況下保持一致和可靠的性能。

研究背景與問題

自動駕駛決策系統需在復雜動態交通場景中生成安全、合理的駕駛行為。傳統基于規則的方法適應性不足,而深度強化學習(DRL)雖在決策任務中表現優異,但存在學習效率低依賴人類專家指導成本高的問題。

  • DRL的局限性:需通過大量環境交互優化策略,在復雜場景中難以積累有效軌跡,導致策略優化緩慢。

  • 現有專家指導的不足:依賴人類專家實時干預或演示數據,成本高昂且效率低下。

?

核心貢獻

作者提出LLM引導的深度強化學習框架(LGDRL),通過以下創新點解決問題:

  1. LLM駕駛專家:替代人類專家,提供低成本、高質量的決策指導。

  2. 專家策略約束算法:基于Jensen-Shannon(JS)散度的策略約束,限制DRL策略與LLM專家策略的差異,提升知識吸收效率。

  3. LLM干預互動機制:允許LLM在訓練階段間歇性干預DRL代理的動作,避免災難性行為,同時保留自主探索能力。


方法細節

?

?

  1. LLM專家構建

    • 基于ChatGPT-4o構建,通過提示生成文本響應,提取動作指導。

    • 包含重查詢機制,確保動作格式正確性。

  2. 專家策略約束算法

    • 優化目標:最大化累積獎勵,同時約束DRL策略與專家策略的JS散度(公式11-15)。

    • 實現:結合拉格朗日對偶理論,通過交替優化策略和拉格朗日乘子(公式16-18)。

    • 策略更新:Actor-Critic框架中,Critic網絡評估動作值函數,Actor網絡優化策略(公式19-25)。

  3. LLM干預機制

    • 動作替換條件:基于時間到碰撞(TTC)的安全評估和間歇性干預權限(公式29)。

    • 間歇模式:僅在部分訓練回合允許干預,平衡專家指導與自主探索。


實驗與結果
  1. 實驗場景

    • 使用highway-env模擬四車道高速公路,目標為右車道500米處,周圍車輛隨機生成。

    • 對比基線包括Vanilla-SAC、SAC+RP、SAC+BC、SAC+Demo。

  2. 訓練性能

    • 回報與成功率:LGDRL在218回合內達到基線最大回報,成功率82%,顯著優于其他方法(圖7)。

    • 專家指導利用率:干預次數和率最低(圖8),表明高效吸收專家知識。

  3. 測試性能

    • 任務成功率90%,碰撞率10%,推理時間僅0.01秒/步,優于LLM專家的3.72秒(表VI-VII)。

    • 策略一致性:與LLM專家的JS散度最低(0.12),動作選擇高度一致(圖9-10)。

  4. 干預模式與消融實驗

    • 間歇干預優于持續干預,避免過度依賴專家,保持自主探索能力(表VIII)。

    • 策略約束組件顯著提升訓練性能,干預需求減少(圖12)。

?


創新與不足

創新點

  • 首次將LLM作為專家融入DRL訓練閉環,降低對人類專家的依賴。

  • 通過策略約束和間歇干預機制,平衡學習效率與自主探索。

潛在不足

  • LLM專家的安全性與泛化能力需進一步驗證,尤其在極端場景(如緊急避障)。

  • 實驗環境較理想化,未涉及城市道路、行人交互等復雜場景。

  • LLM的實時推理依賴預訓練DRL代理,可能限制其動態適應性。


結論與展望

LGDRL框架通過LLM引導DRL,顯著提升自動駕駛決策的效率和安全性,任務成功率達90%,且具備實時推理能力。未來可擴展至多車協同、復雜城市道路等場景,并探索LLM與DRL的更深度融合(如多模態輸入)。該研究為自動駕駛決策系統提供了一種高效、低成本的新范式。

如果此文章對您有所幫助,那就請點個贊吧,收藏+關注 那就更棒啦,十分感謝!!!?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80559.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80559.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80559.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

TDEngine 與 Grafana

目錄 實踐目錄 Grafana 參考文檔 實踐目錄 10.60.100.194:/home/dualven/tdengine Grafana systemctl status grafana-server http://10.60.100.194:3000/ 這個端口與mydoor的new server服務沖突 (同時只開一個) 參考文檔 運行監…

Edge瀏覽器打開PDF文件顯示空白(每次需要等上一會)

概述 部分pdf文件用edge瀏覽器打開顯示空白,需要等一會才能顯示出來,這很讓人難以接受,用其他瀏覽器和pdf閱讀器打開是正常的,該怎么操作解決,卸載重裝,修復,重置瀏覽器等都無效。 解決辦法 可…

uniapp小程序輪播圖高度自適應優化詳解

在微信小程序開發過程中,輪播圖組件(swiper)是常用的UI元素,但在實際應用中經常遇到高度不匹配導致的空白問題。本文詳細記錄了一次輪播圖高度優化的完整過程,特別是針對固定寬高比圖片的精確適配方案。 問題背景 在開發"零工市場&quo…

Android第三次面試總結之網絡篇補充

一、網絡模型:OSI 七層 vs TCP/IP 四層(必考點) 1. 分層模型對比 OSI 七層模型TCP/IP 四層模型核心功能Android 相關場景應用層(7 層)應用層定義數據格式(HTTP/HTTPS/FTP/API)OkHttp/Retrofit…

postgresql主從集群一鍵搭建腳本分享

腳本1: cat pg_ms_install.sh #!/bin/bash # 基礎環境配置(保持不變) setenforce 0 >/dev/null 2>&1 || true sed -i "s/SELINUXenforcing/SELINUXdisabled/" /etc/selinux/config systemctl stop firewalld >/dev/n…

LWIP的ICMP協議

ICMP協議簡介 ICMP協議是一個網絡層協議 背景:如果丟包了,IP協議并不能通知傳輸層是否丟包以及丟包的原因。因此我們需要ICMP協議來完成這樣的功能 為什么需要ICMP協議 1,IP 協議本身不提供差錯報告和差錯控制機制來保證數據報遞交的有效…

具身智能機器人開源陪跑計劃(機器人實戰落地)

Who:我們是誰? 主理人背景 華南理工大學碩士畢業,10年機器人研發經驗,5年“互聯網機器人”創業經歷 累計牽頭落地的機器人30多款,累計授權專利80余項,累計論文發表10余篇。 技術履歷 C#、Sql server、SPSS…

Dify 配置網絡爬蟲為知識庫數據來源 (以Jina Reader為例) - 隨筆

API獲取 進入官網獲取免費的API密鑰 官網鏈接&#xff1a;https://jina.ai/reader/ 點擊“<> API”按鈕 點擊復制文本框中的API Key&#xff1a; 進入Dify的知識庫頁面 → 選擇“同步自Web站點” → 選擇“Jina Reader” → 點擊“配置”按鈕 選擇數據來源為Jina …

基于網絡爬蟲+Spark+Hadoop等大數據和SpringBoot技術實現的的汽車行業大數據分析與可視化平臺系統(源碼+論文+PPT+部署文檔教程等)

博主介紹&#xff1a;CSDN畢設輔導第一人、全網粉絲50W,csdn特邀作者、博客專家、騰訊云社區合作講師、CSDN新星計劃導師、Java領域優質創作者,博客之星、掘金/華為云/阿里云/InfoQ等平臺優質作者、專注于Java技術領域和學生畢業項目實戰,高校老師/講師/同行前輩交流? 技術范圍…

React學習路線圖-Gemini版

前端開發學習路線圖 (針對編程新手&#xff0c;主攻 React 框架) 總原則&#xff1a;先打好地基&#xff0c;再蓋樓。 無論學習哪個框架&#xff0c;扎實的 HTML、CSS 和 JavaScript 基礎是成功的關鍵。React 是基于 JavaScript 構建的&#xff0c;所以深入理解 JS 至關重要。…

空間計算:開啟人機交互新紀元的下一代技術范式

引言 當蘋果CEO蒂姆庫克在2023年WWDC大會上宣布Apple Vision Pro將引領“空間計算時代”時&#xff0c;這一宣言不僅標志著技術范式的迭代&#xff0c;更預示著一場融合虛實世界的革命已悄然來臨。 空間計算&#xff08;Spatial Computing&#xff09;作為連接物理世界與數字…

大語言模型訓練的兩個階段

先說結論&#xff1a;第一階段在云平臺訓練至收斂 第二階段本地GPU微調 一、階段劃分的核心邏輯 階段目標資源特點典型耗時占比成本敏感度預訓練獲取通用表征能力需要大規模分布式計算70-90%高&#xff08;追求每美元算力&#xff09;微調適配特定任務需要領域數據安全/低延遲…

【AI News | 20250512】每日AI進展

AI Repos 1、UI-TARS UI-TARS-1.5 是字節跳動開源的多模態智能體&#xff0c;基于強大的視覺語言模型構建&#xff0c;通過強化學習實現高級推理&#xff0c;顯著提升了在虛擬世界中執行多樣化任務的能力和適應性。相較前期模型&#xff0c;1.5 版本在 OSWorld、Windows Agent…

[git]如何關聯本地分支和遠程分支

主題 本文總結如何關聯git本地分支和遠程分支的相關知識點。 詳情 查看本地分支 git branch 查看遠程分支 git branch -r 查看所有分支(本地遠程) git branch -a 查看本地分支及其關聯的遠程分支(如有) git branch -vv 關聯本地分支到遠程分支&#xff1a; git branch …

CC53.【C++ Cont】二分查找的普通模版

目錄 1.知識回顧 2.關鍵點 特點 三個模版 普通的模版(有局限) 以LeetCode上的一道題為例:704. 二分查找 分析 引入二段性:分兩段,舍一段,操作另一段(這個是二分查找的本質!) 代碼 提交結果 當然也可以使用隨機數來分兩段 普通模版總結 1.知識回顧 之前在C語言專欄…

lua腳本+Redission實現分布式鎖

實現分布式鎖最簡單的一種方式&#xff1a;基于Redis 不論是本地鎖還是分布式鎖&#xff0c;核心都在于“互斥”。 在 Redis 中&#xff0c; SETNX 命令是可以幫助我們實現互斥。SETNX 即 set if not exists (對應 Java 中的 setIfAbsent 方法)&#xff0c;如果 key 不存在的…

設計模式之工廠模式(二):實際案例

設計模式之工廠模式(一) 在閱讀Qt網絡部分源碼時候&#xff0c;發現在某處運用了工廠模式&#xff0c;而且編程技巧也用的好&#xff0c;于是就想分享出來&#xff0c;供大家參考&#xff0c;理解的不對的地方請多多指點。 以下是我整理出來的類圖&#xff1a; 關鍵說明&#x…

MultiTTS 1.7.6 | 最強離線語音引擎,提供多音色無障礙朗讀功能,附帶語音包

MultiTTS是一款免費且支持離線使用的文本轉語音&#xff08;TTS&#xff09;工具&#xff0c;旨在為用戶提供豐富的語音包選項&#xff0c;實現多音色無障礙朗讀功能。這款應用程序特別適合用于閱讀軟件中的離線聽書體驗&#xff0c;提供了多樣化的語音選擇&#xff0c;使得聽書…

歌曲《忘塵谷》基于C語言的歌曲調性檢測技術解析

引言 在音樂分析與數字信號處理領域&#xff0c;自動檢測歌曲調性是一項基礎且關鍵的任務。本文以C語言為核心&#xff0c;結合音頻處理庫&#xff08;libsndfile&#xff09;和快速傅里葉變換庫&#xff08;FFTW&#xff09;&#xff0c;探討如何實現調性檢測&#xff0c;并通…

大某麥演唱會門票如何自動搶

引言 僅供學習研究&#xff0c;歡迎交流 搶票難&#xff0c;難于上青天&#xff01;無論是演唱會、話劇還是體育賽事&#xff0c;大麥網的票總是秒光。大麥網是國內知名的票務平臺&#xff0c;熱門演出票往往一票難求。手動搶票不僅耗時&#xff0c;還容易錯過機會。作為一名…