Deepseek的RL算法GRPO解讀

在本文中，我們將深入探討Deepseek采用的策略優化方法GRPO，并順帶介紹一些強化學習（Reinforcement Learning, RL）的基礎知識，包括PPO等關鍵概念。

策略函數（policy）

在強化學習中， $a_t \mid s_t$ 表示在狀態 $s_t$ 下采取動作 $a_t$ 的條件概率。具體來說，它是由策略函數 $\pi$ 決定的。

詳細說明

$s_t$

$s_t$ 表示在時間步 $t$ 時的狀態（state）。
狀態是環境對智能體的當前描述，例如在游戲中可能是角色的位置、速度等信息。

$a_t$

$a_t$ 表示在時間步 $t$ 時智能體采取的動作（action）。
動作是智能體在給定狀態下可以執行的操作，例如在游戲中可能是“向左移動”或“跳躍”。

$\pi(a_t \mid s_t)$

$\pi(a_t \mid s_t)$ 是策略函數（policy），表示在狀態 $s_t$ 下選擇動作 $a_t$ 的概率。
如果是確定性策略， $\pi(a_t \mid s_t)$ 會直接輸出一個確定的動作；如果是隨機策略，它會輸出一個動作的概率分布。

$r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}$

在 PPO 中， $r_t(\theta)$ 是新策略 $\pi_\theta$ 和舊策略 $\pi_{\theta_{\text{old}}}$ 在狀態 $s_t$ 下選擇動作 $a_t$ 的概率比。
這個比值用于衡量策略更新的幅度，并通過裁剪機制限制其變化范圍，確保訓練的穩定性。

舉例說明

假設我們有一個簡單的游戲環境：

狀態 $s_t$ ：角色的位置。
動作 $a_t$ ：可以執行的動作是“向左”或“向右”。
策略 $\pi(a_t \mid s_t)$ ：在某個位置 $s_t$ 下，策略可能以 70% 的概率選擇“向左”，以 30% 的概率選擇“向右”。

在 PPO 中，我們會比較新舊策略在相同狀態 $s_t$ 下選擇相同動作 $a_t$ 的概率，從而計算概率比 $r_t(\theta)$ ，并用于優化目標函數。

總結

$a_t \mid s_t$ 表示在狀態 $s_t$ 下選擇動作 $a_t$ 的條件概率，由策略函數 $\pi$ 決定。在 PPO 中，這一概率用于計算新舊策略的比值，從而控制策略更新的幅度。

近端策略優化（PPO）

PPO（Proximal Policy Optimization） 是一種用于強化學習的策略優化算法，由 OpenAI 提出。它通過限制策略更新的幅度，確保訓練過程的穩定性。

核心思想

PPO 的核心在于限制策略更新的幅度，避免因更新過大導致性能下降。它通過引入“裁剪”機制，控制新舊策略之間的差異。

公式

PPO 的替代目標函數 $\mathcal{J}_{PPO}(\theta)$ 用于優化策略 $\pi_\theta$ ，公式如下：

$\mathcal{J}_{PPO}(\theta) = \mathbb{E}_{[q \sim P(Q), o \sim \pi_{\theta_{old}}(O|q)]} \frac{1}{|o|} \sum_{t=1}^{|o|} \min \left[ \frac{\pi_\theta(o_{t} | q, o_{<t})}{\pi_{\theta_{old}}(o_{t} | q, o_{<t})} A_{t}, \text{clip} \left( \frac{\pi_\theta(o_{t} | q, o_{<t})}{\pi_{\theta_{old}}(o_{t} | q, o_{<t})}, 1 - \varepsilon, 1 + \varepsilon\right) A_{t} \right]$

其中：

期望符號 $\mathbb{E}$ 表示對查詢 $q$ 和輸出 $o$ 的期望:

$\sim P(Q)$ : 查詢 $q$ 從分布 $P (Q)$ 中采樣。
$\sim \pi_{\theta_{old}}(O|q)$ : 輸出 $o$ 由舊策略 $\pi_{\theta_{old}}$ 生成。

$\frac{1}{|o|} \sum_{t=1}^{|o|}$ 對輸出 $o$ 的每個時間步 $t$ 求平均:

$∣ o ∣$ 是輸出序列的長度。

其核心目標函數為：

$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A}_t \right) \right]$

其中：

$r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是新舊策略的概率比。
$\hat{A}_t$ 是優勢函數，衡量動作的相對好壞。
$\epsilon$ 是裁剪參數，通常為 0.1 或 0.2。

步驟

采樣：使用當前策略與環境交互，收集數據，在語言模型中，可以類比為生成補全（generating completions）。
計算優勢值：基于收集的數據計算優勢值函數 $\hat{A}_t$ 。
優化目標函數：通過梯度上升優化目標函數 $L^{CLIP}(\theta)$ 。
更新策略：重復上述步驟，直到策略收斂。

優點

穩定性：通過裁剪機制，避免策略更新過大。
高效性：相比 TRPO，PPO 實現更簡單，計算效率更高。

補充

在強化學習中，策略的目標是最大化期望回報，而不是最小化損失。所以，在PPO中使用的是梯度上升，原因在于它的優化目標是最大化目標函數（如強化學習中的期望回報），而不是最小化損失函數（如分類或回歸問題）。

Advantage（優勢函數）

定義

Advantage函數用于衡量在某個狀態（State）下，采取某個動作（Action）相對于平均表現的優劣程度。它的數學定義為：
$A (s, a) = Q (s, a) ? V (s)$ , 其中：

$Q (s, a)$ 是動作值函數，表示在狀態 $s$ 下采取動作 $a$ 后，未來累積回報的期望。
$V (s)$ 是狀態值函數，表示在狀態 $s$ 下，按照當前策略采取動作后，未來累積回報的期望。
$A (s, a)$ 是優勢函數，表示在狀態 $s$ 下采取動作 $a$ 比平均表現好多少（或差多少）。

作用

Advantage函數用于指導策略更新：
- 如果 $A (s, a) > 0$ ，說明動作 $a$ 比平均表現更好，策略應該更傾向于選擇這個動作；
- 如果 $A (s, a) < 0$ ，說明動作 $a$ 比平均表現更差，策略應該減少選擇這個動作的概率。
在PPO等算法中，Advantage函數通常通過**GAE（Generalized Advantage Estimation）**來估計。

直觀理解

Advantage函數就像一個“評分”，告訴模型某個動作在當前狀態下是好還是壞，以及好（或壞）的程度。

KL Penalty（KL散度懲罰）

定義

KL Penalty是基于**KL散度（Kullback-Leibler Divergence）**的一種正則化手段。KL散度用于衡量兩個概率分布之間的差異。在強化學習中，KL Penalty通常用于限制當前策略 $\pi_{\theta}$ 和參考策略 $\pi_{\text{ref}}$ 之間的差異。其數學定義為：
$\text{KL Penalty} = D_{\text{KL}}(\pi_{\text{ref}} \| \pi_{\theta})$
其中：

$\pi_{\theta}$ 是當前策略（由模型參數 $\theta$ 決定）。
$\pi_{\text{ref}}$ 是參考策略（通常是更新前的策略或某個基線策略）。
$D_{\text{KL}}$ 是KL散度，用于衡量兩個策略之間的差異。

作用

KL Penalty用于防止策略更新過大，確保當前策略不會偏離參考策略太遠。這樣可以避免訓練過程中的不穩定現象（如策略崩潰）。
在PPO等算法中，KL Penalty通常被添加到目標函數中，作為正則化項。

直觀理解

KL Penalty就像一個“約束”，告訴模型在更新策略時不要“步子邁得太大”，以免失去穩定性。

Advantage和KL Penalty的關系

Advantage 用于指導策略更新，告訴模型哪些動作更好。
KL Penalty 用于約束策略更新，防止策略變化過大。
在PPO等算法中，Advantage和KL Penalty共同作用，既鼓勵模型選擇更好的動作，又確保更新過程穩定可靠。

舉例說明

假設我們訓練一個機器人走迷宮：

Advantage：機器人發現“向右轉”比“向左轉”更容易找到出口，于是Advantage函數會給“向右轉”一個正的值，鼓勵策略更傾向于選擇“向右轉”。
KL Penalty：為了防止策略突然變得只選擇“向右轉”而忽略其他可能性，KL Penalty會限制策略的變化幅度，確保策略更新是平滑的。

總結

Advantage（優勢函數）：衡量某個動作比平均表現好多少，用于指導策略更新。
KL Penalty（KL散度懲罰）：限制策略更新的幅度，確保訓練過程的穩定性。

群體相對策略優化（GRPO）

GRPO 是一種在線學習算法（online learning algorithm），這意味著它通過使用訓練過程中由訓練模型自身生成的數據來迭代改進。GRPO 的目標直覺是最大化生成補全（completions）的優勢函數（advantage），同時確保模型保持在參考策略（reference policy）附近。

其目標函數為：
$J_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(O|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left( r_{i,t}(\theta) \hat{A}_{i,t} - \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \right) \right]$

在這里插入圖片描述

為了理解 GRPO 的工作原理，可以將其分解為四個主要步驟：

生成補全（Generating completions）
計算優勢值（Computing the advantage）
估計KL散度（Estimating the KL divergence）
計算損失（Computing the loss）

1. 生成補全（Generating completions）

在每一個訓練步驟中，我們從提示（prompts）中采樣一個批次（batch），并為每個提示生成一組 $G$ 個補全（completions）（記為 $o_i$ ）。

2. 計算優勢值（Computing the advantage）

對于每一個 $G$ 序列，使用獎勵模型（reward model）計算其獎勵（reward）。為了與獎勵模型的比較性質保持一致——通常獎勵模型是基于同一問題的輸出之間的比較數據集進行訓練的——優勢的計算反映了這些相對比較。其歸一化公式如下：

$\hat{A}_{i,t} = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}$

這種方法賦予了該方法其名稱：群體相對策略優化（Group Relative Policy Optimization, GRPO）
在這里插入圖片描述

GRPO通過優化PPO算法，解決了計算優勢值時需要同時依賴獎勵模型（reward model）和價值模型（value model）的問題，成功移除了value model（價值模型），顯著降低了推理時的內存占用和時間開銷。**Advantage（優勢值）**的核心價值在于為模型輸出提供更精準的評估，不僅衡量答案的絕對質量，還通過相對比較（與其他回答的對比）來更全面地定位其優劣。

3. 估計KL散度（Estimating the KL divergence）

在實際算法實現中，直接計算KL散度可能會面臨一些挑戰：

計算復雜度高：KL散度的定義涉及對兩個概率分布的對數比值的期望計算。對于復雜的策略分布，直接計算KL散度可能需要大量的計算資源；
數值穩定性：在實際計算中，直接計算KL散度可能會遇到數值不穩定的問題，尤其是當兩個策略的概率分布非常接近時，對數比值可能會趨近于零或無窮大。近似器可以通過引入一些數值穩定性的技巧（如截斷或平滑）來避免這些問題；
在線學習：在強化學習中，策略通常需要在每一步或每幾步更新一次。如果每次更新都需要精確計算KL散度，可能會導致訓練過程變得非常緩慢。近似器可以快速估計KL散度，從而支持在線學習和實時更新。

Schulman et al. (2020) 提出的近似器可以根據當前策略和參考策略的差異動態調整估計的精度，從而在保證計算效率的同時，盡可能減少估計誤差，其定義如下：

$\mathbb{D}_{\text{KL}}\left[\pi_\theta \|\pi_{\text{ref}}\right] = \frac{\pi_{\text{ref}}(o_{i,t} \mid q, o_{i,<t})}{\pi_\theta(o_{i,t} \mid q, o_{i,<t})} - \log \frac{\pi_{\text{ref}}(o_{i,t} \mid q, o_{i,<t})}{\pi_\theta(o_{i,t} \mid q, o_{i,<t})} - 1$

這個近似器的核心思想是通過對當前策略和參考策略的概率比值的簡單變換來估計KL散度。具體來說：

第一項： $\frac{\pi_{\text{ref}}(o_{i,t} \mid q, o_{i,<t})}{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}$ 是參考策略與當前策略的概率比值。
第二項： $\log \frac{\pi_{\text{ref}}(o_{i,t} \mid q, o_{i,<t})}{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}$ 是對數概率比值。
第三項： $? 1$ 是一個常數項，用于調整近似器的偏差。

這個近似器的優勢在于它只需要計算當前策略和參考策略的概率比值，而不需要直接計算KL散度的積分或期望。因此，它可以在保證一定精度的同時，顯著降低計算復雜度。

近似器的直觀理解

這個近似器的設計靈感來自于泰勒展開。KL散度可以看作是兩個分布之間的某種“距離”，而這個近似器通過一階或二階近似來估計這個距離。具體來說：

當 $\pi_\theta$ 和 $\pi_{\text{ref}}$ 非常接近時， $\frac{\pi_{\text{ref}}}{\pi_\theta} \approx 1$ ，此時 $\log \frac{\pi_{\text{ref}}}{\pi_\theta} \approx 0$ ，近似器的值趨近于零，符合KL散度的性質。
當 $\pi_\theta$ 和 $\pi_{\text{ref}}$ 差異較大時，近似器會給出一個較大的正值，反映出兩個分布之間的差異。

4. 計算損失（Computing the loss）

這一步的目標是最大化優勢，同時確保模型保持在參考策略附近。因此，損失定義如下：

$\mathcal{L}_{\text{GRPO}}(\theta) = -\frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left[ \frac{\pi_\theta(o_{i,t} \mid q, o_{i,< t})}{\left[\pi_\theta(o_{i,t} \mid q, o_{i,< t})\right]_{\text{no grad}}} \hat{A}_{i,t} - \beta \mathbb{D}_{\text{KL}}\left[\pi_\theta \| \pi_{\text{ref}}\right] \right]$

其中第一項表示縮放后的優勢，第二項通過KL散度懲罰與參考策略的偏離。

在原始論文中，該公式被推廣為在每次生成后通過利用**裁剪替代目標（clipped surrogate objective）**進行多次更新：

$\mathcal{L}_{\text{GRPO}}(\theta) = - \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \left[ \min \left( \frac{\pi_\theta(o_{i,t} \mid q, o_{i,< t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,< t})} \hat{A}_{i,t}, \, \text{clip}\left( \frac{\pi_\theta(o_{i,t} \mid q, o_{i,< t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,< t})}, 1 - \epsilon, 1 + \epsilon \right) \hat{A}_{i,t} \right) - \beta \mathbb{D}_{\text{KL}}\left[\pi_\theta \| \pi_{\text{ref}}\right] \right]$