自動駕駛---Behavior Planning之EUDM

1 背景

在前面的博客中，為讀者朋友們闡述了自動駕駛Planning模塊基于MCTS行為規劃的文章《自動駕駛---Behavior Planning之MCTS》，博客中引用的論文的主要思想是以蒙特卡洛樹來實現行為規劃。今天，我們繼續探尋另一種行為規劃的策略，主角依然是香港科技大學。

熟悉的讀者大概有些印象，筆者之前也寫過一篇香港科技大學沈劭劼教授（同時是大疆車載負責人）團隊的Motion Planning的內容《自動駕駛---Motion Planning之構建SLT Driving Corridor》，這次主要研究其使用到的行為規劃算法，其中有些細節和上面的MCTS算法有相似之處。參考論文：《Efficient Uncertainty-aware Decision Making for Automated Driving Using Guided Branching》。

2 內容介紹

在正式介紹論文正式內容之前，先熟悉論文中提到的前輩們的工作。

2.1 相關內容介紹

（1）POMDP

POMDP（Partially Observable Markov Decision Process，部分可觀察馬爾科夫決策過程）是一種用于建模具有不完全信息的決策問題的數學框架，在自動駕駛領域具有廣泛的應用。在自動駕駛中，POMDP被用來解決那些存在隱含變量或不完全觀測信息的決策問題。

POMDP由五個關鍵元素組成：狀態空間、動作空間、觀測空間、轉移概率和獎勵函數。其中，狀態空間表示系統的所有可能狀態，動作空間包含所有可能的駕駛行為或決策，觀測空間則描述了如何通過傳感器觀測到系統狀態的信息。轉移概率定義了狀態之間的轉移可能性，而獎勵函數則用于評估不同決策的效果，通常根據是否達到預定目標（如安全到達終點）或避免不利情況（如碰撞）來設定。

在自動駕駛的應用中，POMDP通過基于當前置信狀態計算使未來折扣獎勵最大的策略。這意味著，自動駕駛車輛會根據當前的觀測結果和過去的經驗，預測未來的可能情況，并選擇一個能夠最大化長期獎勵的駕駛策略。這種策略選擇不僅考慮了當前的駕駛環境，還考慮了未來的不確定性因素，從而實現了在不確定環境下的魯棒決策。

但是自動駕駛場景直接使用POMDP進行運算可能會消耗較大的計算資源，因此在線實現可能比較困難。為了解決這個問題，研究者們通常會采用一些優化方法，如近似解法或啟發式算法，來降低計算復雜度，同時保持決策的有效性。

下面舉個例子，假設有兩種狀態state{S1，S2}。Agent一開始可能在兩種狀態中的一種，并且有兩種可能的Action{A1，A2}。在狀態S1的時候Reward為0, B的時候Reward為10。從A出發只有0.8的概率會達到B，0.2的概率出發然后再回到A，從B出發同理。
MDP：

已知agent一開始是在狀態S1，

Q(S1, A1) = U0 + [0.8 * 0 + 0.2 * 10] = 0 + 2 = 2
Q(S1, A2) = U0

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/10702.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/10702.shtml
英文地址，請注明出處：http://en.pswp.cn/web/10702.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！