LLMs基礎學習（八）強化學習專題（1）

文章目錄

LLMs基礎學習（八）強化學習專題（1）
- 學習資料資源
- 強化學習是什么
- - 強化學習一句話精準定義
- 強化學習與其他學習類型的對比
- - 強化學習 vs 監督學習
  - 強化學習 vs 非監督學習
  - 三者總結對比
  - 損失函數對比
- 強化學習發展歷史梳理
- - 傳統強化學習階段（1950s - 2000s）
  - - 1. 動態規劃（Dynamic Programming, DP）
    - 2. 蒙特卡羅方法（Monte Carlo, MC）
    - 3. 時序差分學習（Temporal Difference, TD）
  - 策略優化與深度強化學習階段（2000s - 2010s）
  - - 1. 策略梯度（Policy Gradient, PG）
    - 2. A - C 方法（Actor - Critic）
    - 3. 深度 Q 網絡（Deep Q - Network, DQN, 2013）
  - 深度強化學習擴展與優化（2010s - 至今）
  - - 1. 改進型 DQN 算法
    - 2. 策略優化進階
    - 3. 模仿學習與逆強化學習
  - 算法改進核心邏輯（技術演進脈絡）
  - 小結
- 強化學習中不同方法的對比總結表
- - 根據智能體動作選取方式分類
  - - 基于價值的方法(Value-Based)
    - 基于策略的方法（Policy-Based）
    - 結合價值與策略的方法（Actor-Critic）
  - 強化學習中不同方法的對比總結表
- 馬爾可夫決策過程（MDP）
- - MDP 整體定位
  - 核心概念
  - - 1. 馬爾可夫（Markov）
    - 2. 馬爾可夫最重要性質
    - 3. 馬爾可夫過程（Markov Process，簡稱 MP）
    - 4. 馬爾可夫決策過程（Markov Decision Process，MDP）
  - MDP小結

視頻鏈接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c6918a09b65d319a99a

學習資料資源

這部分是為想學習強化學習的人準備的 “知識儲備庫”，提供不同形式的學習素材：

書籍資料
- 權威著作：2024 年圖靈獎得主 Richard S. Sutton 和 Andrew G. Barto 的相關作品（如《BartoSutton.pdf》），是強化學習領域經典理論奠基讀物，能幫讀者搭建扎實理論基礎。
- 實驗室資料：西湖大學智能無人系統實驗室（WINDY Lab）趙世鈺分享的資料（倉庫地址 https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning ），可從數學視角深入剖析強化學習底層邏輯，適合想鉆研理論深度的學習者。
視頻資料：提到 “強化學習的數學原理” 相關視頻（未給出具體鏈接，但可推測是從數學推導、公式邏輯角度講解強化學習，幫學習者理解算法背后數學支撐）。
博客資料：給出博客鏈接 https://www.cnblogs.com/pinard/p/9385570.html ，這類技術博客通常會用更通俗、案例化的方式講解強化學習概念、算法實踐，適合輔助理解理論知識。

強化學習是什么

核心問題：研究智能體（agent）在復雜、不確定的環境（environment） 里，如何通過一系列交互，最大化自身能獲得的獎勵 。簡單說，就是教智能體在多變環境中 “做對的事”，拿到最多 “好處”。
組成要素：由智能體（agent） 和環境（environment） 兩部分構成，二者持續交互推動學習過程。
交互流程
1. 智能體行動：智能體先從環境中獲取當前狀態（state） ，基于這個狀態，輸出一個動作（action） ，也叫 “決策（decision）” 。比如機器人（智能體）在房間（環境）里感知到自己在角落（狀態），就會輸出 “移動到中間” 的動作。
2. 環境反饋：智能體的動作在環境中執行后，環境會給出兩部分反饋：一是下一個狀態（next state） （比如機器人移動后，新的位置狀態）；二是當前動作帶來的獎勵（reward） （若移動到中間能充電，獎勵就是 “獲得能量” ）。
3. 目標導向：智能體持續重復 “感知狀態→輸出動作→接收反饋” 循環，最終目的就是盡可能多地從環境中獲取獎勵 ，讓自己的 “收益” 最大化。

強化學習一句話精準定義

這部分用簡潔表述，把強化學習本質提煉出來：

英文原版：“Reinforcement learning is learning what to do – how to map situations to actions – so as to maximize a numerical reward signal.” 直接翻譯是 “強化學習是學習做什么（即如何把當前情境映射成動作），從而最大化數值化的獎勵信號” 。

在這里插入圖片描述

強化學習與其他學習類型的對比

強化學習 vs 監督學習

對比維度	監督學習特點	強化學習特點
數據與輸出值	有預先準備好的訓練數據輸出值（帶標簽數據，比如分類任務里的類別標簽）	無預先輸出值，只有延遲給出的獎勵值（不是事先確定，是交互后環境反饋的）
學習模式	基于靜態帶標簽數據學習，數據間獨立無時間依賴（比如圖像分類，每張圖標簽獨立）	在實踐交互中學習，每一步與時間順序、前后狀態緊密關聯（如走路學習，一步影響下一步）
反饋機制	即時標簽反饋（模型預測后，立刻對比標簽知道對錯）	延遲獎勵反饋（動作執行后，需等環境后續反饋獎勵，比如走路摔倒后才收到負面獎勵）
舉例	圖像分類：輸入貓的圖片，標簽直接告訴模型 “這是貓”，模型學預測規則	學走路：摔倒（動作）后，過一會大腦給負面獎勵；走對步（動作），后續給正面獎勵

強化學習 vs 非監督學習

對比維度	非監督學習特點	強化學習特點
數據與反饋	無輸出值、無獎勵值，只有數據特征（比如聚類任務里的樣本特征）	有延遲獎勵值，基于交互反饋
數據依賴關系	數據間獨立無時間 / 前后依賴（比如對一批用戶行為數據聚類，每條數據獨立）	數據（交互過程）與時間順序、前后狀態強關聯（如游戲里每一步操作影響下一步）
核心目標	發現數據結構規律（比如聚類成不同群體、降維提煉關鍵特征）	最大化累積獎勵，通過與環境交互優化決策

三者總結對比

維度	監督學習	無監督學習	強化學習
數據	帶標簽的靜態數據	無標簽的靜態數據	動態交互生成的數據
反饋	即時標簽反饋	無顯式反饋	延遲獎勵信號
目標	預測準確率最大化	數據結構發現	累積獎勵最大化
應用	分類、回歸（如圖像識別、預測）	聚類、降維（如用戶分群）	決策優化、控制（如游戲、機器人）
復雜度	中（依賴標注質量，標注成本高）	低（無需標注）	高（需處理長期依賴、動態交互）

損失函數對比

對比維度	深度學習損失函數特點	強化學習損失函數特點
核心目標	最小化預測值與真實值的差距（比如分類任務里的分類錯誤）	最大化總獎勵的期望（讓智能體獲得更多累積獎勵）
數據性質	靜態、獨立同分布（比如訓練集里的樣本相互獨立）	動態生成、時序相關（交互過程產生，一步影響一步）
動態性	固定（如交叉熵損失，形式相對固定）	隨策略 / 環境變化（如貝爾曼誤差會動態更新）
優化對象	模型輸出（如分類概率、回歸預測值）	策略、價值函數或其組合（優化智能體的決策邏輯）
依賴環境	無需交互，依賴靜態數據訓練（拿標注數據直接訓）	需與環境交互獲取獎勵信號（邊試邊學，依賴環境反饋）

強化學習發展歷史梳理

強化學習（Reinforcement Learning, RL）作為機器學習重要分支，核心目標是智能體通過與環境交互，學會最大化累積獎勵，其發展歷經多階段，以下按時間線與關鍵節點拆解：

傳統強化學習階段（1950s - 2000s）

聚焦基礎理論與經典方法，為后續發展奠基，包含三類核心技術：

1. 動態規劃（Dynamic Programming, DP）

原理：用遞歸分解問題，計算每個狀態最優價值函數（如價值迭代），或直接優化策略（如策略迭代）。
特點：首次將數學規劃引入決策，需完整環境模型（如狀態轉移概率）；但計算復雜度高，僅適用于小規模問題。

2. 蒙特卡羅方法（Monte Carlo, MC）

原理：通過隨機采樣軌跡（如 “玩完一局游戲”）估計價值函數，無需環境模型。
特點：解決 DP 依賴模型的問題，但需完整軌跡，存在方差大、收斂慢問題；如蒙特卡羅策略迭代，靠經驗平均更新策略，數據利用率低。

3. 時序差分學習（Temporal Difference, TD）

代表算法：Q - learning（1989）、SARSA（State - Action - Reward - State - Action，1994）。
原理：結合 DP（利用模型）與 MC（采樣軌跡），通過單步更新（如 Q - learning 的 “當前獎勵 + 未來估計”）在線學習。
特點：Q - learning 是 “免模型” 算法，支持在線學習；但受限于離散狀態動作空間，難處理高維問題。

策略優化與深度強化學習階段（2000s - 2010s）

引入策略梯度、深度學習，突破傳統方法局限，邁向更復雜場景：

1. 策略梯度（Policy Gradient, PG）

原理：直接優化策略（如動作概率分布），靠梯度上升最大化期望獎勵。
特點：適配連續動作空間（如機器人控制）；但梯度估計方差大、訓練不穩定。REINFORCE 算法（1992 年 Williams 提出）是早期代表，通過整條軌跡更新策略，樣本效率低。

2. A - C 方法（Actor - Critic）

原理：結合 “策略梯度（Actor，負責生成動作）” 與 “值函數（Critic，評估動作價值）”。
特點：Critic 可減少梯度方差，提升訓練效率；如 A3C（Asynchronous Advantage Actor - Critic）支持并行訓練，優化訓練流程。

3. 深度 Q 網絡（Deep Q - Network, DQN, 2013）

原理：用深度神經網絡近似 Q 值函數，結合經驗回放（存儲歷史數據）、固定目標網絡（穩定訓練）。
特點：首次在 Atari 游戲中超越人類水平，解決高維狀態（如圖像輸入） 表示問題；但動作空間仍需離散，限制應用場景。

深度強化學習擴展與優化（2010s - 至今）

在前期基礎上迭代創新，覆蓋更多復雜任務，核心方向包括：

1. 改進型 DQN 算法

代表算法：Double DQN（解決 Q 值高估）、Dueling DQN（分離狀態價值與動作優勢）。
特點：通過結構優化，提升算法穩定性與泛化能力，適配更多場景。

2. 策略優化進階

代表算法：TRPO（Trust Region Policy Optimization，信任域策略優化）、PPO（Proximal Policy Optimization，近端策略優化）、GRPO（Group Relative Policy Optimization）。
特點：約束策略更新幅度，避免訓練崩潰，適配復雜任務（如機器人行走），平衡訓練效率與穩定性。

3. 模仿學習與逆強化學習

原理：模仿專家行為（如自動駕駛），或從數據反推獎勵函數。
特點：減少智能體 “探索成本”，提升安全性與可解釋性，讓強化學習更貼近實際應用（如工業控制、自動駕駛）。

算法改進核心邏輯（技術演進脈絡）

從傳統到現代，強化學習算法優化圍繞四大方向突破：

模型依賴→免模型：DP 需完整環境模型，Q - learning、DQN 等免模型算法更通用，適配未知環境。
離散空間→連續空間：Q - learning 局限于離散動作，策略梯度支持連續控制，拓展機器人、自動駕駛等場景。
低效采樣→高效利用：蒙特卡羅需完整軌跡，TD、Actor - Critic 實現單步更新；經驗回放技術進一步提升數據利用率。
單一方法→混合融合：Actor - Critic 結合值函數與策略梯度；深度強化學習融合深度學習特征提取能力，處理高維復雜輸入。

小結

強化學習發展歷經 “傳統方法奠基→深度強化學習突破→擴展優化落地” 路徑，核心是平衡環境適配性、訓練效率與任務復雜度。從依賴環境模型到免模型、從離散到連續空間、從低效采樣到高效利用，每一步突破都推動其在機器人、游戲、自動駕駛等領域落地，未來仍會圍繞 “更高效、更穩定、更易解釋” 持續演進。

強化學習中不同方法的對比總結表

根據智能體動作選取方式分類

依據學習目標不同

基于價值的方法(Value-Based)

核心思想：優化價值函數（狀態值函數 (V(s))、動作值函數 (Q(s,a)) ）間接找最優策略，選動作時追求未來累積獎勵最大。
代表算法：
- Q - Learning：用貝爾曼方程迭代更新 Q 表，適配離散狀態 / 動作空間。
- DQN：神經網絡擬合 Q 值函數，靠經驗回放、目標網絡解決訓練不穩定，適用于高維狀態空間。
特點與局限：
- 優點是采樣效率高、收斂穩定，適配離散動作場景；
- 缺點是難處理連續動作空間，策略依賴價值函數估計精度；
- 數學基礎為貝爾曼方程驅動價值迭代。

基于策略的方法（Policy-Based）

核心思想：直接優化策略函數 $(\pi(a|s)$ （狀態到動作的概率分布），不用顯式算價值函數，靠策略梯度上升最大化長期回報。
代表算法：
- REINFORCE：用蒙特卡洛采樣估計梯度，但高方差讓收斂慢。
- PPO：剪切實例目標函數限制策略更新幅度，平衡探索和利用，在工業界（像 ChatGPT 訓練）常用。
- TRPO：引入 KL 散度約束策略更新，保障訓練穩定。
特點與局限：
- 優點：適配連續動作空間，策略表達（概率分布形式）靈活。
- 缺點：高方差使樣本效率低，易陷入局部最優。
- 數學基礎：策略梯度定理（Policy Gradient Theorem ）支撐。

結合價值與策略的方法（Actor-Critic）

核心思想：融合價值函數和策略函數優勢，“演員（Actor）” 生成策略，“評論家（Critic）” 評估動作價值，協同優化策略。
代表算法：
- A2C/A3C：多線程異步更新加速訓練，Critic 算優勢函數指導 Actor 優化。
- SAC：引入熵正則化鼓勵探索，適配復雜連續控制任務（如機器人行走）。
特點與局限：
- 優點：平衡探索與利用，訓練效率高，適合復雜任務。
- 缺點：結構復雜，要同時調優 Actor 和 Critic 網絡。
- 數學基礎：TD 誤差（Temporal Difference Error ）聯合優化策略與價值函數。

強化學習中不同方法的對比總結表

從策略生成方式、動作空間適用性、訓練穩定性和典型算法四個維度，對比了基于價值的方法、基于策略的方法、Actor - Critic 方法 ：

維度	基于價值的方法	基于策略的方法	Actor - Critic 方法
策略生成方式	間接（貪心選擇 Q 值最大）	直接（輸出動作概率）	策略與價值函數聯合優化
動作空間適用性	離散	連續 / 離散	連續 / 離散
訓練穩定性	高（低方差）	低（高方差）	中等（需平衡兩者）
典型算法	Q - Learning、DQN	REINFORCE、PPO	A2C、SAC

參考資料為《強化學習算法與應用綜述 - 李茹楊.pdf》（1.26MB ），可輔助深入了解這些強化學習方法。

馬爾可夫決策過程（MDP）

MDP 整體定位

強化學習里，智能體與環境交互流程（智能體感知狀態→執行動作→環境轉移狀態并反饋獎勵），可用馬爾可夫決策過程（MDP）建模，它是強化學習的基礎理論框架。

在這里插入圖片描述

核心概念

1. 馬爾可夫（Markov）

定義：一種 “無記憶性”（Memoryless Property），即未來狀態僅由當前狀態決定，和過去歷史狀態無關 。
舉例：天氣預報中，若 “明天天氣只看今天，不受昨天及更早影響”，就符合馬爾可夫性。
起源：俄國數學家 Andrey Andreevich Markov 提出馬爾可夫鏈，發現隨機系統 “未來僅與當前相關” 的特性，為 MDP 奠定數學基礎。

2. 馬爾可夫最重要性質

核心：無記憶性，讓建模 / 計算復雜度大幅降低 —— 無需記錄完整歷史，僅關注當前狀態即可。
應用：在強化學習、排隊論、自然語言處理等領域廣泛應用，是馬爾可夫模型的理論基石。
數學表達： $P(S_{t+1} | S_t, S_{t-1}, ..., S_0) = P(S_{t+1} | S_t)$ 直觀體現 “未來僅由現在決定，與過去無關”。

3. 馬爾可夫過程（Markov Process，簡稱 MP）

定義：滿足馬爾可夫性的隨機過程，由兩部分組成：
- 狀態集合（State Space）：系統所有可能狀態（如天氣模型里的 {晴天、雨天} ）。
- 狀態轉移概率矩陣（Transition Probability Matrix）：定義當前狀態→下一狀態的轉移概率（如天氣模型中，晴天→晴天概率 0.9、晴天→雨天概率 0.1 等）。
舉例（天氣模型）：
- 狀態集合：{Sunny（晴天）, Rainy（雨天）}
- 轉移概率矩陣： (\begin{bmatrix} 0.9 & 0.1 \ 0.5 & 0.5 \end{bmatrix}) （第一行：晴天保持晴天概率 0.9、轉雨天概率 0.1；第二行：雨天保持雨天概率 0.5、轉晴天概率 0.5 ）

4. 馬爾可夫決策過程（Markov Decision Process，MDP）

定義：馬爾可夫過程的擴展，引入智能體的 “動作” 和 “獎勵機制”，用于建模序貫決策問題。核心元素用

$\langle S, A, P, R, \gamma \rangle$ 表示：
- S（狀態集合）：環境所有可能狀態（如天氣模型的 {Sunny, Rainy} ）。
- A（動作集合）：智能體可采取的動作（如天氣模型里的 {帶傘、不帶傘} ）。
- P（轉移函數）： $P (s^{'} ∣ s, a)$ 表示 “狀態 s 下執行動作 a，轉移到狀態 (s’) 的概率”（天氣模型中，轉移由自然規律決定，與動作無關，仍用之前的轉移矩陣）。
- R（獎勵函數）： $R (s, a, s^{'}$ ) 表示 “狀態 s 執行動作 a 并轉移到 (s’) 時，獲得的即時獎勵”（如天氣模型里，晴天帶傘獲 -1 獎勵、晴天不帶傘獲 0 獎勵等）。
- $\gamma$ （折扣因子）：未來獎勵的衰減系數，平衡 “當前獎勵” 和 “未來獎勵” 的重要性（如更看重眼前收益，或長期累積收益）。
目標：找到最優策略（Policy）—— 即從 “狀態→動作” 的映射，最大化長期累積獎勵。求解方法包括動態規劃、蒙特卡洛方法、時序差分學習等。
舉例（天氣模型深化）：
- 狀態集合（S）：{Sunny, Rainy}（天氣的兩種可能狀態）。
- 動作集合（A）：{帶傘（Umbrella）, 不帶傘（No_Umbrella）}（智能體在天氣下的行為選擇）。
- 轉移函數（P）：同馬爾可夫過程，天氣轉移由自然規律決定，與動作無關，轉移矩陣不變。
- 獎勵函數（R）：
  - 晴天（Sunny）：帶傘→獎勵 -1（攜帶不便）；不帶傘→獎勵 0（舒適）。
  - 雨天（Rainy）：帶傘→獎勵 2（避免淋雨，抵消攜帶不便）；不帶傘→獎勵 -3（被淋濕）。

MDP小結

概念	核心特點
馬爾可夫性質	未來僅依賴當前狀態，無記憶性（基礎特性）
馬爾可夫過程（MP）	狀態 + 轉移概率，被動觀測狀態演變（無動作干預）
MDP	在 MP 基礎上，增加動作和獎勵，實現主動決策

簡言之，MDP 以 “馬爾可夫無記憶性” 為基石，先通過馬爾可夫過程描述狀態的隨機演變，再擴展引入 “動作” 和 “獎勵”，讓智能體可主動決策、優化長期收益，是強化學習建模序貫決策問題的核心工具。