Lyapunov與SAC算法的數學結構對比：從二次漂移到TD損失

一、李雅普諾夫優化中二次漂移函數的推導

李雅普諾夫優化的核心是通過設計 “李雅普諾夫函數” 和 “漂移項”，保證系統狀態收斂到穩定點。以下以線性時不變系統為例（非線性系統推導邏輯類似，僅動力學方程更復雜），推導二次漂移函數的形式。

1. 系統定義與假設

考慮連續時間線性系統（離散時間推導類似，僅用差分替代微分）： $x˙(t)=Ax(t)+Bu(t)\dot{x}(t) = Ax(t) + Bu(t)$ 其中：

$\in \mathbb{R}^n$ 為系統狀態向量，
$\in \mathbb{R}^m$ 為控制輸入，
$\in \mathbb{R}^{n \times n}$ 、 $\in \mathbb{R}^{n \times m}$ 為系統矩陣（已知，體現動力學特性）。

目標：設計控制輸入 $u (t)$ ，使系統狀態 $x (t)$ 收斂到原點（穩定點，即 $x^* = 0$ 。

2. 李雅普諾夫函數的構造

李雅普諾夫函數 $V (x)$ 需滿足：

正定性： $V (x) > 0$ 對所有 $\neq 0$ 成立，且 $V (0) = 0$ ；
徑向無界性：當 $∥x∥→∞\|x\| \to \infty$ 時， $\to \infty$ （保證全局收斂）。

最常用的二次型李雅普諾夫函數為： $V(x) = x^T P x$ 其中 $\in \mathbb{R}^{n \times n}$ 是正定對稱矩陣（ $P > 0$ ），確保 $V (x)$ 滿足正定

3. 二次漂移函數的推導

“漂移” 指李雅普諾夫函數隨時間的變化率（連續時間為導數，離散時間為差分），用于衡量系統偏離穩定點的趨勢。

（1）連續時間漂移

對 $V (x)$ 求時間導數：

? $V˙(x)=ddt(xTPx)=x˙TPx+xTPx˙\dot{V}(x) = \frac{d}{dt} (x^T P x) = \dot{x}^T P x + x^T P \dot{x}$

代入系統動力學方程

? $x˙=Ax+Bu：dotV(x)=(Ax+Bu)TPx+xTP(Ax+Bu)\dot{x} = Ax + Bu：dot{V}(x) = (Ax + Bu)^T P x + x^T P (Ax + Bu)$

展開并利用用矩陣轉置性質 $AB)^T = B^T A^T$ ：

? $V˙(x)=xTATPx+uTBTPx+xTPAx+xTPBu\dot{V}(x) = x^T A^T P x + u^T B^T P x + x^T P A x + x^T P B u$

因 (P) 對稱 $P^T = P$ ，故

? $x^T P A x = (x^T P A x)^T = x^T A^T P x$

合并同類項：

? $V˙(x)=2xTATPx+uTBTPx+xTPBu\dot{V}(x) = 2x^T A^T P x + u^T B^T P x + x^T P B u$

為使系統穩定，需設計 $u (t)$ 使 $V˙(x)<0\dot{V}(x) < 0$ （負定性，保證 $V (x)$ 隨時間減小，即狀態向原點收斂。

若采用線性反饋控制 $u = ? K x$ , $K$ 為反饋增益矩陣，代入得：

? $V˙(x)=xT(ATP+PA?PBK?KTBTP)x\dot{V}(x) = x^T \left( A^T P + P A - P B K - K^T B^T P \right) x$

令 $Q = -(A^T P + P A - P B K - K^T B^T P)$ ，則：

? $V˙(x)=?xTQx\dot{V}(x) = -x^T Q x$ 其中 (Q > 0)（正定）

因此 $V˙(x)\dot{V}(x)$ 是負定二次型，即漂移函數為二次形式。

（2）離散時間漂移

若系統為離散時間（更貼近強化學習的時序特性）：

? $x_{t+1} = A x_t + B u_t$

則漂移定義為相鄰時刻李雅普諾夫函數的差分：

? $ΔV(xt)=V(xt+1)?V(xt)=xt+1TPxt+1?xtTPxt\Delta V(x_t) = V(x_{t+1}) - V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_t$

代入 $x_{t+1} = A x_t + B u_t$ ：

? $ΔV(xt)=(Axt+But)TP(Axt+But)?xtTPxt\Delta V(x_t) = (A x_t + B u_t)^T P (A x_t + B u_t) - x_t^T P x_t$

展開得：

? $ΔV(xt)=xtTATPAxt+xtTATPBut+utTBTPAxt+utTBTPBut?xtTPxt\Delta V(x_t) = x_t^T A^T P A x_t + x_t^T A^T P B u_t + u_t^T B^T P A x_t + u_t^T B^T P B u_t - x_t^T P x_t$

合并后可寫成：

? $ΔV(xt)=xtT(ATPA?P)xt+2xtTATPBut+utTBTPBut\Delta V(x_t) = x_t^T (A^T P A - P) x_t + 2 x_t^T A^T P B u_t + u_t^T B^T P B u_t$

這仍是關于 $x_t$ 和 $u_t$ 的二次型函數，即二次漂移函數。

4. 核心結論

李雅普諾夫優化的二次漂移函數（連續時間的 $V˙(x)\dot{V}(x)$ 或離散時間的 $ΔV(xt)\Delta V(x_t)$ 本質是二次型誤差度量，通過約束狀態（及控制輸入）的二次項，確保系統向穩定點收斂。

二、SAC 中 TD 目標損失函數的推導

SAC（Soft Actor-Critic）是基于最大熵強化學習的算法，其價值網絡的損失函數通過 TD（Temporal Difference）目標定義，核心是最小化 “預測 Q 值” 與 “bootstrapped 目標 Q 值” 的偏差。

1. 問題定義（馬爾可夫決策過程，MDP）

SAC 的優化對象是 MDP，定義為 $(S,A,r,p,γ)(\mathcal{S}, \mathcal{A}, r, p, \gamma)$ ：

$S\mathcal{S}$ ：狀態空間， $A\mathcal{A}$ ：動作空間，
$\in \mathbb{R}$ ：狀態 $s$ 下執行動作 $a$ 的即時獎勵，
$p (s^{'} ∣ s, a)$ ：狀態轉移概率（從 $s$ 到 $s^{'}$ ），
$γ∈[0,1)\gamma \in [0,1)$ ：折扣因子（未來獎勵的權重）。

目標：學習策略 $π(a∣s)\pi(a|s)$ （狀態 $s$ 下動作 $a$ 的概率分布），最大化累積熵獎勵：

? $J(π)=Eτ～π[∑t=0∞γt(r(st,at)+αH(π(?∣st)))]J(\pi) = \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^\infty \gamma^t \left( r(s_t,a_t) + \alpha H(\pi(\cdot|s_t)) \right) \right]$

其中 $H(π(?∣s))=?Ea～π[log?π(a∣s)]H(\pi(\cdot|s)) = -\mathbb{E}_{a \sim \pi} [\log \pi(a|s)]$ 是策略的熵（鼓勵探索）， $α>0\alpha > 0$ 是熵溫度參數。

2. 軟 Q 值（Soft Q-Function）的定義

為量化策略的累積熵獎勵，定義 “軟 Q 值” $Qπ(s,a)Q^\pi(s,a)$ 為：
$Qπ(s,a)=E[∑k=0∞γk(r(st+k,at+k)+αH(π(?∣st+k)))∣st=s,at=a]Q^\pi(s,a) = \mathbb{E} \left[ \sum_{k=0}^\infty \gamma^k \left( r(s_{t+k}, a_{t+k}) + \alpha H(\pi(\cdot|s_{t+k})) \right) \bigg| s_t = s, a_t = a \right]$

利用時序分解（類似貝爾曼方程），軟 Q 值滿足：
$Qπ(s,a)=r(s,a)+γEs′～p,a′～π[Qπ(s′,a′)]Q^\pi(s,a) = r(s,a) + \gamma \mathbb{E}_{s' \sim p, a' \sim \pi} \left[ Q^\pi(s', a') \right]$
（推導：將累積和拆分為即時獎勵 + 未來獎勵的折扣期望，因 $\sim \pi$ ，故未來熵獎勵已包含在 $Qπ(s′,a′)Q^\pi(s',a')$ 中）。

3. TD 目標與損失函數的構造

SAC 通過價值網絡參數化軟 Q 值： $Qθ(s,a)≈Qπ(s,a)Q_\theta(s,a) \approx Q^\pi(s,a)$ （ $θ\theta$ 為網絡參數）。為優化 $θ\theta$ ，需定義損失函數，使其最小化 “預測 Q 值” 與 “目標 Q 值” 的偏差。

（1）TD 目標的定義

目標 Q 值（TD 目標）由 “即時獎勵 + 未來軟 Q 值的折扣期望” 構成，為避免訓練不穩定，SAC 使用目標網絡 ( $Qθ′Q_{\theta'}$ （參數 $θ\theta$ 緩慢更新，與 $θ\theta$ 分離）：

? $yt=rt+γEa′～π?[Qθ′(s′,a′)?αlog?π?(a′∣s′)]y_t = r_t + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s', a') - \alpha \log \pi_\phi(a'|s') \right]$

其中：

$pi?(a∣s)pi_\phi(a|s)$ 是參數化策略（ $?\phi$ 為策略參數），
減去 $αlog?π?(a′∣s′)\alpha \log \pi_\phi(a'|s')$ 是因為： $Ea′～π[Qπ(s′,a′)]=Ea′～π[Qθ′(s′,a′)?αlog?π(a′∣s′)]\mathbb{E}_{a' \sim \pi} [Q^\pi(s',a')] = \mathbb{E}_{a' \sim \pi} [Q_{\theta'}(s',a') - \alpha \log \pi(a'|s')]$ （軟 Q 值的性質）。

（2）損失函數的推導

價值網絡的優化目標是最小化 “預測 Q 值 $Qθ(s,a)Q_\theta(s,a)$ ” 與 “TD 目標 $y_t$ ” 的均方誤差（MSE），即：

? $L(θ)=E(s,a,r,s′)～D[(Qθ(s,a)?yt)2]\mathcal{L}(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \left[ \left( Q_\theta(s,a) - y_t \right)^2 \right]$

其中 $D\mathcal{D}$ 是經驗回放池（存儲歷史樣本 $(s, a, r, s^{'})$ ）。

代入 $y_t$ 的表達式，損失函數展開為：

? $L(θ)=E[(Qθ(s,a)?(r+γEa′～π?[Qθ′(s′,a′)?αlog?π?(a′∣s′)]))2]\mathcal{L}(\theta) = \mathbb{E} \left[ \left( Q_\theta(s,a) - \left( r + \gamma \mathbb{E}_{a' \sim \pi_\phi} \left[ Q_{\theta'}(s',a') - \alpha \log \pi_\phi(a'|s') \right] \right) \right)^2 \right]$

4. 核心結論

SAC 的 TD 目標損失函數是二次型誤差，衡量 “當前 Q 值預測” 與 “基于未來獎勵和策略熵的目標值” 的偏差，通過梯度下降最小化該誤差，使 Q 值估計收斂到真實軟 Q 值。

三、兩者數學結構的相似性對比

通過推導可見，兩個公式的核心相似性體現在二次型誤差和時序遞推的數學結構上：

維度	李雅普諾夫二次漂移函數（離散時間）	SAC 的 TD 目標損失函數
二次項形式	$ΔV(xt)=xt+1TPxt+1?xtTPxt\Delta V(x_t) = x_{t+1}^T P x_{t+1} - x_t^T P x_t$ )（二次型差分）	$L(θ)=(預測值?目標值)2\mathcal{L}(\theta) = (\text{預測值} - \text{目標值})^2$ （二次誤差）
時序關聯	依賴 $x_t$ 與 $x_{t+1}$ 的關系（狀態轉移）	依賴 $(s, a)$ 與 $(s^{'}, a^{'})$ 的關系（MDP 轉移）
優化目標	最小化漂移（使 $ΔV≤0\Delta V \leq 0$ ，保證狀態收斂	最小化二次誤差，使 Q 值估計收斂到真實值
核心變量	系統狀態 x（物理 / 抽象狀態）	價值估計 Q（對累積獎勵的預測）

總結

兩者的數學推導均圍繞 “二次型誤差度量” 和 “相鄰時間步的遞推關系” 展開：李雅普諾夫漂移通過狀態的二次型差分約束系統穩定性，SAC 的 TD 損失通過 Q 值的二次誤差約束估計準確性。這種相似性源于動態系統優化的共性需求 —— 用可微的二次項量化偏差，并通過時序關聯將長期目標轉化為局部優化問題。