強化學習（二）——Dueling Network（DQN改進）

與DNQ相比，使用優勢函數(A函數)和狀態價值函數（V）代替之前的Q(動作價值)函數，
最核心公式為 $Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$ 。

核心公式演變：
基本公式 $A^*(s,a)=Q^*(s,a)-V^*(s)$
變化公式1 $Q^*(s,a)=A^*(s,a)+V^*(s)$
變化公式2 $Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$

1 基本概念

動作價值函數： $Q_\pi (s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
狀態價值函數： $V_\pi (s_t)=E_A[Q_\pi(s_t,A)]$
最優動作價值函數： $Q^*(s_t,a_t)=max_\pi Q_\pi(s_t,a_t)$
最優狀態價值函數： $V^*(s)=\max_\pi V_\pi (s)=\max_aQ^*(s_t,a)$
最優優勢函數； $A^*(s,a)=Q^*(s,a)-V^*(s)$

2 公式定義及推導

2.1 公式定義

$V^*(s)=\max_aQ^*(s_t,a)$ 。（公式1）
$A^*(s,a)=Q^*(s,a)-V^*(s)$ （公式2）
$Q^*(s,a)=A^*(s,a)+V^*(s)$ （公式3）

2.2 公式推導 $max_a A^*(s,a=0$

$max_a A^*(s,a)=max_aQ^*(s,a)-max_aV^*(s)\\ =max_aQ^*(s,a)-V^*(s)\\ =max_aQ^*(s,a)-max_aQ^*(s,a)\\ =0$
可得 $max_a A^*(s,a)=0$

2.3 核心公式3優化

公式3 右邊減掉為0的 $max_a A^*(s,a)$ 等式依然成立
$Q^*(s,a)=A^*(s,a)+V^*(s)$
$Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a)$

2.2 使用神經網絡代替A和V函數

$Q^*(s,a,w^A,w^V)=A^*(s,a,w^A)+V^*(s,w^V)-\max_a A^*(s,a,w^A)$

3 公式為什么要加 $max_a A^*(s,a,w^A)$ ？

主要是為了克服神經網絡一致性問題，防止網絡波動， $max_a A^*(s,a,w^A)$ 起到了約束作用。
比如；
1 沒有約束項，A網絡增加10，V網絡減少10，Q值不變
2 增加約束項，A網絡增加10，V網絡減少10，則Q值增大10，因為對A網絡取最大值時增加了10。同理A網絡減少10，V網絡增加10，則Q網絡減少了10.

解釋：約束V網絡向A網絡最大負值靠近，約束V網絡和A網絡。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/214552.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/214552.shtml
英文地址，請注明出處：http://en.pswp.cn/news/214552.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！