一、李雅普諾夫優化中二次漂移函數的推導
李雅普諾夫優化的核心是通過設計 “李雅普諾夫函數” 和 “漂移項”,保證系統狀態收斂到穩定點。以下以線性時不變系統為例(非線性系統推導邏輯類似,僅動力學方程更復雜),推導二次漂移函數的形式。
1. 系統定義與假設
考慮連續時間線性系統(離散時間推導類似,僅用差分替代微分):x˙(t)=Ax(t)+Bu(t)\dot{x}(t) = Ax(t) + Bu(t)x˙(t)=Ax(t)+Bu(t) 其中:
- x(t)∈Rnx(t) \in \mathbb{R}^nx(t)∈Rn為系統狀態向量,
- (u(t)∈Rm(u(t) \in \mathbb{R}^m(u(t)∈Rm 為控制輸入,
- A∈Rn×nA \in \mathbb{R}^{n \times n}A∈Rn×n、B∈Rn×mB \in \mathbb{R}^{n \times m}B∈Rn×m為系統矩陣(已知,體現動力學特性)。
目標:設計控制輸入 u(t)u(t)u(t),使系統狀態 x(t)x(t)x(t) 收斂到原點(穩定點,即 x?=0x^* = 0x?=0。
2. 李雅普諾夫函數的構造
李雅普諾夫函數 V(x)V(x)V(x) 需滿足:
-
正定性:V(x)>0V(x) > 0V(x)>0 對所有 x≠0x \neq 0x=0 成立,且 V(0)=0V(0) = 0V(0)=0;
-
徑向無界性:當 ∥x∥→∞\|x\| \to \infty∥x∥→∞ 時,V(x)→∞V(x) \to \inftyV(x)→∞(保證全局收斂)。
最常用的二次型李雅普諾夫函數為:V(x)=xTPxV(x) = x^T P xV(x)=xTPx 其中 P∈Rn×nP \in \mathbb{R}^{n \times n}P∈Rn×n 是正定對稱矩陣(P>0P > 0P>0),確保 V(x)V(x)V(x) 滿足正定
3. 二次漂移函數的推導
“漂移” 指李雅普諾夫函數隨時間的變化率(連續時間為導數,離散時間為差分),用于衡量系統偏離穩定點的趨勢。
(1)連續時間漂移
對 V(x)V(x)V(x) 求時間導數:
? V˙(x)=ddt(xTPx)=x˙TPx+xTPx˙\dot{V}(x) = \frac{d}{dt} (x^T P x) = \dot{x}^T P x + x^T P \dot{x}V˙(x)=dtd?(xTPx)=x˙TPx+xTPx˙
代入系統動力學方程
? x˙=Ax+Bu:dotV(x)=(Ax+Bu)TPx+xTP(Ax+Bu)\dot{x} = Ax + Bu:dot{V}(x) = (Ax + Bu)^T P x + x^T P (Ax + Bu) x˙=Ax+Bu:dotV(x)=(Ax+Bu)TPx+xTP(Ax+Bu)
展開并利用用矩陣轉置性質(AB)T=BTAT(AB)^T = B^T A^T(AB)T=BTAT:
? V˙(x)=xTATPx+uTBTPx+xTPAx+xTPBu\dot{V}(x) = x^T A^T P x + u^T B^T P x + x^T P A x + x^T P B uV˙(x)=xTATPx+uTBTPx+xTPAx+xTPBu
因 (P) 對稱PT=PP^T = PPT=P,故
? xTPAx=(xTPAx)T=xTATPx x^T P A x = (x^T P A x)^T = x^T A^T P xxTPAx=(xTPAx)T=xTATPx
合并同類項:
? V˙(x)=2xTATPx+uTBTPx+xTPBu\dot{V}(x) = 2x^T A^T P x + u^T B^T P x + x^T P B uV˙(x)=2xTATPx+uTBTPx+xTPBu
為使系統穩定,需設計 u(t)u(t)u(t) 使 V˙(x)<0\dot{V}(x) < 0V˙(x)<0(負定性,保證V(x)V(x)V(x) 隨時間減小,即狀態向原點收斂。
若采用線性反饋控制 u=?Kxu = -Kxu=?Kx, KKK 為反饋增益矩陣,代入得:
? V˙(x)=xT(ATP+PA?PBK?KTBTP)x\dot{V}(x) = x^T \left( A^T P + P A - P B K - K^T B^T P \right) x V˙(x)=xT(ATP+PA?PBK?KTBTP)x
令Q=?(ATP+PA?PBK?KTBTP)Q = -(A^T P + P A - P B K - K^T B^T P)Q=?(ATP+PA?PBK?KTBTP) ,則:
? V˙(x)=?xTQx\dot{V}(x) = -x^T Q xV˙(x)=?xTQx 其中 (Q > 0)(正定)
因此 V˙(x)\dot{V}(x)V˙(x) 是負定二次型,即漂移函數為二次形式。
(2)離散時間漂移
若系統為離散時間(更貼近強化學習的時序特性):
? xt+1=Axt+Butx_{t+1} = A x_t + B u_txt+1?=Axt?+But?
則漂移定義為相鄰時刻李雅普諾夫函數的差分:
? ΔV(xt)=V(xt+1)?V(xt)=xt+1TPxt+1?xtTPxt\Delta V(x_t) = V(x_{t+1}) - V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_tΔV(xt?)=V(xt+1?)?V(xt?)=xt+1T?Pxt+1??xtT?Pxt?
代入 xt+1=Axt+Butx_{t+1} = A x_t + B u_txt+1?=Axt?+But?:
? ΔV(xt)=(Axt+But)TP(Axt+But)?xtTPxt\Delta V(x_t) = (A x_t + B u_t)^T P (A x_t + B u_t) - x_t^T P x_tΔV(xt?)=(Axt?+But?)TP(Axt?+But?)?xtT?Pxt?
展開得:
? ΔV(xt)=xtTATPAxt+xtTATPBut+utTBTPAxt+utTBTPBut?xtTPxt\Delta V(x_t) = x_t^T A^T P A x_t + x_t^T A^T P B u_t + u_t^T B^T P A x_t + u_t^T B^T P B u_t - x_t^T P x_tΔV(xt?)=xtT?ATPAxt?+xtT?ATPBut?+utT?BTPAxt?+utT?BTPBut??xtT?Pxt?
合并后可寫成:
? ΔV(xt)=xtT(ATPA?P)xt+2xtTATPBut+utTBTPBut\Delta V(x_t) = x_t^T (A^T P A - P) x_t + 2 x_t^T A^T P B u_t + u_t^T B^T P B u_tΔV(xt?)=xtT?(ATPA?P)xt?+2xtT?ATPBut?+utT?BTPBut?
這仍是關于xtx_txt?和 utu_tut?的二次型函數,即二次漂移函數。
4. 核心結論
李雅普諾夫優化的二次漂移函數(連續時間的V˙(x)\dot{V}(x)V˙(x) 或離散時間的ΔV(xt)\Delta V(x_t)ΔV(xt?)本質是二次型誤差度量,通過約束狀態(及控制輸入)的二次項,確保系統向穩定點收斂。
二、SAC 中 TD 目標損失函數的推導
SAC(Soft Actor-Critic)是基于最大熵強化學習的算法,其價值網絡的損失函數通過 TD(Temporal Difference)目標定義,核心是最小化 “預測 Q 值” 與 “bootstrapped 目標 Q 值” 的偏差。
1. 問題定義(馬爾可夫決策過程,MDP)
SAC 的優化對象是 MDP,定義為 (S,A,r,p,γ)(\mathcal{S}, \mathcal{A}, r, p, \gamma)(S,A,r,p,γ):
- S\mathcal{S}S:狀態空間,A\mathcal{A}A:動作空間,
- r(s,a)∈Rr(s,a) \in \mathbb{R}r(s,a)∈R:狀態 sss 下執行動作aaa 的即時獎勵,
- p(s′∣s,a)p(s'|s,a)p(s′∣s,a):狀態轉移概率(從 sss 到 s′s's′ ),
- γ∈[0,1)\gamma \in [0,1)γ∈[0,1):折扣因子(未來獎勵的權重)。
目標:學習策略 π(a∣s)\pi(a|s)π(a∣s)(狀態 sss 下動作 aaa 的概率分布),最大化累積熵獎勵:
? J(π)=Eτ~π[∑t=0∞γt(r(st,at)+αH(π(?∣st)))]J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^\infty \gamma^t \left( r(s_t,a_t) + \alpha H(\pi(\cdot|s_t)) \right) \right]J(π)=Eτ~π?[t=0∑∞?γt(r(st?,at?)+αH(π(?∣st?)))]
其中 H(π(?∣s))=?Ea~π[log?π(a∣s)]H(\pi(\cdot|s)) = -\mathbb{E}_{a \sim \pi} [\log \pi(a|s)]H(π(?∣s))=?Ea~π?[logπ(a∣s)] 是策略的熵(鼓勵探索),α>0\alpha > 0α>0 是熵溫度參數。
2. 軟 Q 值(Soft Q-Function)的定義
為量化策略的累積熵獎勵,定義 “軟 Q 值” Qπ(s,a)Q^\pi(s,a)Qπ(s,a) 為:
Qπ(s,a)=E[∑k=0∞γk(r(st+k,at+k)+αH(π(?∣st+k)))∣st=s,at=a]Q^\pi(s,a) = \mathbb{E} \left[ \sum_{k=0}^\infty \gamma^k \left( r(s_{t+k}, a_{t+k}) + \alpha H(\pi(\cdot|s_{t+k})) \right) \bigg| s_t = s, a_t = a \right]Qπ(s,a)=E[k=0∑∞?γk(r(st+k?,at+k?)+αH(π(?∣st+k?)))?st?=s,at?=a]
利用時序分解(類似貝爾曼方程),軟 Q 值滿足:
Qπ(s,a)=r(s,a)+γEs′~p,a′~π[Qπ(s′,a′)]Q^\pi(s,a) = r(s,a) + \gamma \mathbb{E}_{s' \sim p, a' \sim \pi} \left[ Q^\pi(s', a') \right]Qπ(s,a)=r(s,a)+γEs′~p,a′~π?[Qπ(s′,a′)]
(推導:將累積和拆分為即時獎勵 + 未來獎勵的折扣期望,因a′~πa' \sim \pia′~π,故未來熵獎勵已包含在 Qπ(s′,a′)Q^\pi(s',a')Qπ(s′,a′)中)。
3. TD 目標與損失函數的構造
SAC 通過價值網絡參數化軟 Q 值:Qθ(s,a)≈Qπ(s,a)Q_\theta(s,a) \approx Q^\pi(s,a)Qθ?(s,a)≈Qπ(s,a)(θ\thetaθ 為網絡參數)。為優化 θ\thetaθ,需定義損失函數,使其最小化 “預測 Q 值” 與 “目標 Q 值” 的偏差。
(1)TD 目標的定義
目標 Q 值(TD 目標)由 “即時獎勵 + 未來軟 Q 值的折扣期望” 構成,為避免訓練不穩定,SAC 使用目標網絡 (Qθ′Q_{\theta'}Qθ′?(參數 θ\thetaθ緩慢更新,與 θ\thetaθ 分離):
? yt=rt+γEa′~π?[Qθ′(s′,a′)?αlog?π?(a′∣s′)]y_t = r_t + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s', a') - \alpha \log \pi_\phi(a'|s') \right]yt?=rt?+γEa′~π???[Qθ′?(s′,a′)?αlogπ??(a′∣s′)]
其中:
- pi?(a∣s)pi_\phi(a|s)pi??(a∣s) 是參數化策略(?\phi? 為策略參數),
- 減去 αlog?π?(a′∣s′)\alpha \log \pi_\phi(a'|s')αlogπ??(a′∣s′) 是因為:Ea′~π[Qπ(s′,a′)]=Ea′~π[Qθ′(s′,a′)?αlog?π(a′∣s′)]\mathbb{E}_{a' \sim \pi} [Q^\pi(s',a')] = \mathbb{E}_{a' \sim \pi} [Q_{\theta'}(s',a') - \alpha \log \pi(a'|s')]Ea′~π?[Qπ(s′,a′)]=Ea′~π?[Qθ′?(s′,a′)?αlogπ(a′∣s′)](軟 Q 值的性質)。
(2)損失函數的推導
價值網絡的優化目標是最小化 “預測 Q 值 Qθ(s,a)Q_\theta(s,a)Qθ?(s,a)” 與 “TD 目標 yty_tyt?” 的均方誤差(MSE),即:
? L(θ)=E(s,a,r,s′)~D[(Qθ(s,a)?yt)2]\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( Q_\theta(s,a) - y_t \right)^2 \right]L(θ)=E(s,a,r,s′)~D?[(Qθ?(s,a)?yt?)2]
其中 D\mathcal{D}D 是經驗回放池(存儲歷史樣本 (s,a,r,s′)(s,a,r,s')(s,a,r,s′))。
代入 yty_tyt? 的表達式,損失函數展開為:
? L(θ)=E[(Qθ(s,a)?(r+γEa′~π?[Qθ′(s′,a′)?αlog?π?(a′∣s′)]))2]\mathcal{L}(\theta) = \mathbb{E} \left[ \left( Q_\theta(s,a) - \left( r + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s',a') - \alpha \log \pi_\phi(a'|s') \right] \right) \right)^2 \right]L(θ)=E[(Qθ?(s,a)?(r+γEa′~π???[Qθ′?(s′,a′)?αlogπ??(a′∣s′)]))2]
4. 核心結論
SAC 的 TD 目標損失函數是二次型誤差,衡量 “當前 Q 值預測” 與 “基于未來獎勵和策略熵的目標值” 的偏差,通過梯度下降最小化該誤差,使 Q 值估計收斂到真實軟 Q 值。
三、兩者數學結構的相似性對比
通過推導可見,兩個公式的核心相似性體現在二次型誤差和時序遞推的數學結構上:
維度 | 李雅普諾夫二次漂移函數(離散時間) | SAC 的 TD 目標損失函數 |
---|---|---|
二次項形式 | ΔV(xt)=xt+1TPxt+1?xtTPxt\Delta V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_tΔV(xt?)=xt+1T?Pxt+1??xtT?Pxt?)(二次型差分) | L(θ)=(預測值?目標值)2\mathcal{L}(\theta) = (\text{預測值} - \text{目標值})^2L(θ)=(預測值?目標值)2(二次誤差) |
時序關聯 | 依賴 xtx_txt? 與 xt+1x_{t+1}xt+1? 的關系(狀態轉移) | 依賴 (s,a)(s,a)(s,a) 與 (s′,a′)(s',a')(s′,a′) 的關系(MDP 轉移) |
優化目標 | 最小化漂移(使 ΔV≤0\Delta V \leq 0ΔV≤0,保證狀態收斂 | 最小化二次誤差,使 Q 值估計收斂到真實值 |
核心變量 | 系統狀態 x(物理 / 抽象狀態) | 價值估計 Q(對累積獎勵的預測) |
總結
兩者的數學推導均圍繞 “二次型誤差度量” 和 “相鄰時間步的遞推關系” 展開:李雅普諾夫漂移通過狀態的二次型差分約束系統穩定性,SAC 的 TD 損失通過 Q 值的二次誤差約束估計準確性。這種相似性源于動態系統優化的共性需求 —— 用可微的二次項量化偏差,并通過時序關聯將長期目標轉化為局部優化問題。