1 背景
在前面的博客中,為讀者朋友們闡述了自動駕駛Planning模塊基于MCTS行為規劃的文章《自動駕駛---Behavior Planning之MCTS》,博客中引用的論文的主要思想是以蒙特卡洛樹來實現行為規劃。今天,我們繼續探尋另一種行為規劃的策略,主角依然是香港科技大學。
熟悉的讀者大概有些印象,筆者之前也寫過一篇香港科技大學沈劭劼教授(同時是大疆車載負責人)團隊的Motion Planning的內容《自動駕駛---Motion Planning之構建SLT Driving Corridor》,這次主要研究其使用到的行為規劃算法,其中有些細節和上面的MCTS算法有相似之處。參考論文:《Efficient Uncertainty-aware Decision Making for Automated Driving Using Guided Branching》。
2 內容介紹
在正式介紹論文正式內容之前,先熟悉論文中提到的前輩們的工作。
2.1 相關內容介紹
(1)POMDP
POMDP(Partially Observable Markov Decision Process,部分可觀察馬爾科夫決策過程)是一種用于建模具有不完全信息的決策問題的數學框架,在自動駕駛領域具有廣泛的應用。在自動駕駛中,POMDP被用來解決那些存在隱含變量或不完全觀測信息的決策問題。
POMDP由五個關鍵元素組成:狀態空間、動作空間、觀測空間、轉移概率和獎勵函數。其中,狀態空間表示系統的所有可能狀態,動作空間包含所有可能的駕駛行為或決策,觀測空間則描述了如何通過傳感器觀測到系統狀態的信息。轉移概率定義了狀態之間的轉移可能性,而獎勵函數則用于評估不同決策的效果,通常根據是否達到預定目標(如安全到達終點)或避免不利情況(如碰撞)來設定。
在自動駕駛的應用中,POMDP通過基于當前置信狀態計算使未來折扣獎勵最大的策略。這意味著,自動駕駛車輛會根據當前的觀測結果和過去的經驗,預測未來的可能情況,并選擇一個能夠最大化長期獎勵的駕駛策略。這種策略選擇不僅考慮了當前的駕駛環境,還考慮了未來的不確定性因素,從而實現了在不確定環境下的魯棒決策。
但是自動駕駛場景直接使用POMDP進行運算可能會消耗較大的計算資源,因此在線實現可能比較困難。為了解決這個問題,研究者們通常會采用一些優化方法,如近似解法或啟發式算法,來降低計算復雜度,同時保持決策的有效性。
下面舉個例子,假設有兩種狀態state{S1,S2}。Agent一開始可能在兩種狀態中的一種,并且有兩種可能的Action{A1,A2}。 在狀態S1的時候Reward為0, B的時候Reward為10。從A出發只有0.8的概率會達到B,0.2的概率出發然后再回到A,從B出發同理。
MDP:
已知agent一開始是在狀態S1,
Q(S1, A1) = U0 + [0.8 * 0 + 0.2 * 10] = 0 + 2 = 2
Q(S1, A2) = U0