LLMs基礎學習(八)強化學習專題(1)
文章目錄
- LLMs基礎學習(八)強化學習專題(1)
- 學習資料資源
- 強化學習是什么
- 強化學習一句話精準定義
- 強化學習與其他學習類型的對比
- 強化學習 vs 監督學習
- 強化學習 vs 非監督學習
- 三者總結對比
- 損失函數 對比
- 強化學習發展歷史梳理
- 傳統強化學習階段(1950s - 2000s)
- 1. 動態規劃(Dynamic Programming, DP)
- 2. 蒙特卡羅方法(Monte Carlo, MC)
- 3. 時序差分學習(Temporal Difference, TD)
- 策略優化與深度強化學習階段(2000s - 2010s)
- 1. 策略梯度(Policy Gradient, PG)
- 2. A - C 方法(Actor - Critic)
- 3. 深度 Q 網絡(Deep Q - Network, DQN, 2013)
- 深度強化學習擴展與優化(2010s - 至今)
- 1. 改進型 DQN 算法
- 2. 策略優化進階
- 3. 模仿學習與逆強化學習
- 算法改進核心邏輯(技術演進脈絡)
- 小結
- 強化學習中不同方法的對比總結表
- 根據智能體動作選取方式分類
- 基于價值的方法(Value-Based)
- 基于策略的方法(Policy-Based)
- 結合價值與策略的方法(Actor-Critic)
- 強化學習中不同方法的對比總結表
- 馬爾可夫決策過程(MDP)
- MDP 整體定位
- 核心概念
- 1. 馬爾可夫(Markov)
- 2. 馬爾可夫最重要性質
- 3. 馬爾可夫過程(Markov Process,簡稱 MP)
- 4. 馬爾可夫決策過程(Markov Decision Process,MDP)
- MDP小結
視頻鏈接:https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c6918a09b65d319a99a
學習資料資源
這部分是為想學習強化學習的人準備的 “知識儲備庫”,提供不同形式的學習素材:
- 書籍資料
- 權威著作:2024 年圖靈獎得主 Richard S. Sutton 和 Andrew G. Barto 的相關作品(如《BartoSutton.pdf》 ),是強化學習領域經典理論奠基讀物,能幫讀者搭建扎實理論基礎。
- 實驗室資料:西湖大學智能無人系統實驗室(WINDY Lab)趙世鈺分享的資料(倉庫地址 https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning ),可從數學視角深入剖析強化學習底層邏輯,適合想鉆研理論深度的學習者。
- 視頻資料:提到 “強化學習的數學原理” 相關視頻(未給出具體鏈接,但可推測是從數學推導、公式邏輯角度講解強化學習,幫學習者理解算法背后數學支撐 )。
- 博客資料:給出博客鏈接 https://www.cnblogs.com/pinard/p/9385570.html ,這類技術博客通常會用更通俗、案例化的方式講解強化學習概念、算法實踐,適合輔助理解理論知識。
強化學習是什么
- 核心問題:研究智能體(agent)在復雜、不確定的環境(environment) 里,如何通過一系列交互,最大化自身能獲得的獎勵 。簡單說,就是教智能體在多變環境中 “做對的事”,拿到最多 “好處”。
- 組成要素:由智能體(agent) 和環境(environment) 兩部分構成,二者持續交互推動學習過程。
- 交互流程
- 智能體行動:智能體先從環境中獲取當前狀態(state) ,基于這個狀態,輸出一個動作(action) ,也叫 “決策(decision)” 。比如機器人(智能體)在房間(環境)里感知到自己在角落(狀態),就會輸出 “移動到中間” 的動作。
- 環境反饋:智能體的動作在環境中執行后,環境會給出兩部分反饋:一是下一個狀態(next state) (比如機器人移動后,新的位置狀態);二是當前動作帶來的獎勵(reward) (若移動到中間能充電,獎勵就是 “獲得能量” )。
- 目標導向:智能體持續重復 “感知狀態→輸出動作→接收反饋” 循環,最終目的就是盡可能多地從環境中獲取獎勵 ,讓自己的 “收益” 最大化。
強化學習一句話精準定義
這部分用簡潔表述,把強化學習本質提煉出來:
- 英文原版:“Reinforcement learning is learning what to do – how to map situations to actions – so as to maximize a numerical reward signal.” 直接翻譯是 “強化學習是學習做什么(即如何把當前情境映射成動作),從而最大化數值化的獎勵信號” 。
強化學習與其他學習類型的對比
強化學習 vs 監督學習
對比維度 | 監督學習特點 | 強化學習特點 |
---|---|---|
數據與輸出值 | 有預先準備好的訓練數據輸出值(帶標簽數據,比如分類任務里的類別標簽 ) | 無預先輸出值,只有延遲給出的獎勵值(不是事先確定,是交互后環境反饋的 ) |
學習模式 | 基于靜態帶標簽數據學習,數據間獨立無時間依賴(比如圖像分類,每張圖標簽獨立 ) | 在實踐交互中學習,每一步與時間順序、前后狀態緊密關聯(如走路學習,一步影響下一步 ) |
反饋機制 | 即時標簽反饋(模型預測后,立刻對比標簽知道對錯 ) | 延遲獎勵反饋(動作執行后,需等環境后續反饋獎勵,比如走路摔倒后才收到負面獎勵 ) |
舉 例 | 圖像分類:輸入貓的圖片,標簽直接告訴模型 “這是貓”,模型學預測規則 | 學走路:摔倒(動作)后,過一會大腦給負面獎勵;走對步(動作),后續給正面獎勵 |
強化學習 vs 非監督學習
對比維度 | 非監督學習特點 | 強化學習特點 |
---|---|---|
數據與反饋 | 無輸出值、無獎勵值,只有數據特征(比如聚類任務里的樣本特征 ) | 有延遲獎勵值,基于交互反饋 |
數據依賴關系 | 數據間獨立無時間 / 前后依賴(比如對一批用戶行為數據聚類,每條數據獨立 ) | 數據(交互過程)與時間順序、前后狀態強關聯(如游戲里每一步操作影響下一步 ) |
核心目標 | 發現數據結構規律(比如聚類成不同群體、降維提煉關鍵特征 ) | 最大化累積獎勵,通過與環境交互優化決策 |
三者總結對比
維度 | 監督學習 | 無監督學習 | 強化學習 |
---|---|---|---|
數據 | 帶標簽的靜態數據 | 無標簽的靜態數據 | 動態交互生成的數據 |
反饋 | 即時標簽反饋 | 無顯式反饋 | 延遲獎勵信號 |
目標 | 預測準確率最大化 | 數據結構發現 | 累積獎勵最大化 |
應用 | 分類、回歸(如圖像識別、預測) | 聚類、降維(如用戶分群) | 決策優化、控制(如游戲、機器人) |
復雜度 | 中(依賴標注質量,標注成本高) | 低(無需標注) | 高(需處理長期依賴、動態交互) |
損失函數 對比
對比維度 | 深度學習損失函數特點 | 強化學習損失函數特點 |
---|---|---|
核心目標 | 最小化預測值與真實值的差距(比如分類任務里的分類錯誤 ) | 最大化總獎勵的期望(讓智能體獲得更多累積獎勵 ) |
數據性質 | 靜態、獨立同分布(比如訓練集里的樣本相互獨立 ) | 動態生成、時序相關(交互過程產生,一步影響一步 ) |
動態性 | 固定(如交叉熵損失,形式相對固定 ) | 隨策略 / 環境變化(如貝爾曼誤差會動態更新 ) |
優化對象 | 模型輸出(如分類概率、回歸預測值 ) | 策略、價值函數或其組合(優化智能體的決策邏輯 ) |
依賴環境 | 無需交互,依賴靜態數據訓練(拿標注數據直接訓 ) | 需與環境交互獲取獎勵信號(邊試邊學,依賴環境反饋 ) |
強化學習發展歷史梳理
強化學習(Reinforcement Learning, RL)作為機器學習重要分支,核心目標是智能體通過與環境交互,學會最大化累積獎勵,其發展歷經多階段,以下按時間線與關鍵節點拆解:
傳統強化學習階段(1950s - 2000s)
聚焦基礎理論與經典方法,為后續發展奠基,包含三類核心技術:
1. 動態規劃(Dynamic Programming, DP)
- 原理:用遞歸分解問題,計算每個狀態最優價值函數(如價值迭代),或直接優化策略(如策略迭代)。
- 特點:首次將數學規劃引入決策,需完整環境模型(如狀態轉移概率);但計算復雜度高,僅適用于小規模問題。
2. 蒙特卡羅方法(Monte Carlo, MC)
- 原理:通過隨機采樣軌跡(如 “玩完一局游戲”)估計價值函數,無需環境模型。
- 特點:解決 DP 依賴模型的問題,但需完整軌跡,存在方差大、收斂慢問題;如蒙特卡羅策略迭代,靠經驗平均更新策略,數據利用率低。
3. 時序差分學習(Temporal Difference, TD)
- 代表算法:Q - learning(1989)、SARSA(State - Action - Reward - State - Action,1994)。
- 原理:結合 DP(利用模型)與 MC(采樣軌跡),通過單步更新(如 Q - learning 的 “當前獎勵 + 未來估計”)在線學習。
- 特點:Q - learning 是 “免模型” 算法,支持在線學習;但受限于離散狀態動作空間,難處理高維問題。
策略優化與深度強化學習階段(2000s - 2010s)
引入策略梯度、深度學習,突破傳統方法局限,邁向更復雜場景:
1. 策略梯度(Policy Gradient, PG)
- 原理:直接優化策略(如動作概率分布),靠梯度上升最大化期望獎勵。
- 特點:適配連續動作空間(如機器人控制);但梯度估計方差大、訓練不穩定。REINFORCE 算法(1992 年 Williams 提出)是早期代表,通過整條軌跡更新策略,樣本效率低。
2. A - C 方法(Actor - Critic)
- 原理:結合 “策略梯度(Actor,負責生成動作)” 與 “值函數(Critic,評估動作價值)”。
- 特點:Critic 可減少梯度方差,提升訓練效率;如 A3C(Asynchronous Advantage Actor - Critic)支持并行訓練,優化訓練流程。
3. 深度 Q 網絡(Deep Q - Network, DQN, 2013)
- 原理:用深度神經網絡近似 Q 值函數,結合經驗回放(存儲歷史數據)、固定目標網絡(穩定訓練)。
- 特點:首次在 Atari 游戲中超越人類水平,解決高維狀態(如圖像輸入) 表示問題;但動作空間仍需離散,限制應用場景。
深度強化學習擴展與優化(2010s - 至今)
在前期基礎上迭代創新,覆蓋更多復雜任務,核心方向包括:
1. 改進型 DQN 算法
- 代表算法:Double DQN(解決 Q 值高估)、Dueling DQN(分離狀態價值與動作優勢)。
- 特點:通過結構優化,提升算法穩定性與泛化能力,適配更多場景。
2. 策略優化進階
- 代表算法:TRPO(Trust Region Policy Optimization,信任域策略優化)、PPO(Proximal Policy Optimization,近端策略優化)、GRPO(Group Relative Policy Optimization)。
- 特點:約束策略更新幅度,避免訓練崩潰,適配復雜任務(如機器人行走),平衡訓練效率與穩定性。
3. 模仿學習與逆強化學習
- 原理:模仿專家行為(如自動駕駛),或從數據反推獎勵函數。
- 特點:減少智能體 “探索成本”,提升安全性與可解釋性,讓強化學習更貼近實際應用(如工業控制、自動駕駛)。
算法改進核心邏輯(技術演進脈絡)
從傳統到現代,強化學習算法優化圍繞四大方向突破:
- 模型依賴→免模型:DP 需完整環境模型,Q - learning、DQN 等免模型算法更通用,適配未知環境。
- 離散空間→連續空間:Q - learning 局限于離散動作,策略梯度支持連續控制,拓展機器人、自動駕駛等場景。
- 低效采樣→高效利用:蒙特卡羅需完整軌跡,TD、Actor - Critic 實現單步更新;經驗回放技術進一步提升數據利用率。
- 單一方法→混合融合:Actor - Critic 結合值函數與策略梯度;深度強化學習融合深度學習特征提取能力,處理高維復雜輸入。
小結
強化學習發展歷經 “傳統方法奠基→深度強化學習突破→擴展優化落地” 路徑,核心是平衡環境適配性、訓練效率與任務復雜度。從依賴環境模型到免模型、從離散到連續空間、從低效采樣到高效利用,每一步突破都推動其在機器人、游戲、自動駕駛等領域落地,未來仍會圍繞 “更高效、更穩定、更易解釋” 持續演進 。
強化學習中不同方法的對比總結表
根據智能體動作選取方式分類
依據學習目標不同
基于價值的方法(Value-Based)
- 核心思想:優化價值函數(狀態值函數 (V(s))、動作值函數 (Q(s,a)) )間接找最優策略,選動作時追求未來累積獎勵最大。
- 代表算法:
- Q - Learning:用貝爾曼方程迭代更新 Q 表,適配離散狀態 / 動作空間 。
- DQN:神經網絡擬合 Q 值函數,靠經驗回放、目標網絡解決訓練不穩定,適用于高維狀態空間。
- 特點與局限:
- 優點是采樣效率高、收斂穩定,適配離散動作場景;
- 缺點是難處理連續動作空間,策略依賴價值函數估計精度;
- 數學基礎為貝爾曼方程驅動價值迭代 。
基于策略的方法(Policy-Based)
- 核心思想:直接優化策略函數 ( π ( a ∣ s ) (\pi(a|s) (π(a∣s)(狀態到動作的概率分布 ),不用顯式算價值函數,靠策略梯度上升最大化長期回報。
- 代表算法:
- REINFORCE:用蒙特卡洛采樣估計梯度,但高方差讓收斂慢。
- PPO:剪切實例目標函數限制策略更新幅度,平衡探索和利用,在工業界(像 ChatGPT 訓練 )常用。
- TRPO:引入 KL 散度約束策略更新,保障訓練穩定。
- 特點與局限:
- 優點:適配連續動作空間,策略表達(概率分布形式 )靈活。
- 缺點:高方差使樣本效率低,易陷入局部最優。
- 數學基礎:策略梯度定理(Policy Gradient Theorem )支撐。
結合價值與策略的方法(Actor-Critic)
- 核心思想:融合價值函數和策略函數優勢,“演員(Actor)” 生成策略,“評論家(Critic)” 評估動作價值,協同優化策略 。
- 代表算法:
- A2C/A3C:多線程異步更新加速訓練,Critic 算優勢函數指導 Actor 優化。
- SAC:引入熵正則化鼓勵探索,適配復雜連續控制任務(如機器人行走 )。
- 特點與局限:
- 優點:平衡探索與利用,訓練效率高,適合復雜任務。
- 缺點:結構復雜,要同時調優 Actor 和 Critic 網絡。
- 數學基礎:TD 誤差(Temporal Difference Error )聯合優化策略與價值函數。
強化學習中不同方法的對比總結表
從策略生成方式、動作空間適用性、訓練穩定性和典型算法四個維度,對比了基于價值的方法、基于策略的方法、Actor - Critic 方法 :
維度 | 基于價值的方法 | 基于策略的方法 | Actor - Critic 方法 |
---|---|---|---|
策略生成方式 | 間接(貪心選擇 Q 值最大) | 直接(輸出動作概率) | 策略與價值函數聯合優化 |
動作空間適用性 | 離散 | 連續 / 離散 | 連續 / 離散 |
訓練穩定性 | 高(低方差) | 低(高方差) | 中等(需平衡兩者) |
典型算法 | Q - Learning、DQN | REINFORCE、PPO | A2C、SAC |
參考資料為《強化學習算法與應用綜述 - 李茹楊.pdf》(1.26MB ),可輔助深入了解這些強化學習方法 。
馬爾可夫決策過程(MDP)
MDP 整體定位
強化學習里,智能體與環境交互流程(智能體感知狀態→執行動作→環境轉移狀態并反饋獎勵 ),可用馬爾可夫決策過程(MDP)建模,它是強化學習的基礎理論框架。
核心概念
1. 馬爾可夫(Markov)
- 定義:一種 “無記憶性”(Memoryless Property),即未來狀態僅由當前狀態決定,和過去歷史狀態無關 。
- 舉例:天氣預報中,若 “明天天氣只看今天,不受昨天及更早影響”,就符合馬爾可夫性。
- 起源:俄國數學家 Andrey Andreevich Markov 提出馬爾可夫鏈,發現隨機系統 “未來僅與當前相關” 的特性,為 MDP 奠定數學基礎。
2. 馬爾可夫最重要性質
- 核心:無記憶性,讓建模 / 計算復雜度大幅降低 —— 無需記錄完整歷史,僅關注當前狀態即可。
- 應用:在強化學習、排隊論、自然語言處理等領域廣泛應用,是馬爾可夫模型的理論基石。
- 數學表達: ( P ( S t + 1 ∣ S t , S t ? 1 , . . . , S 0 ) = P ( S t + 1 ∣ S t ) (P(S_{t+1} | S_t, S_{t-1}, ..., S_0) = P(S_{t+1} | S_t) (P(St+1?∣St?,St?1?,...,S0?)=P(St+1?∣St?) 直觀體現 “未來僅由現在決定,與過去無關”。
3. 馬爾可夫過程(Markov Process,簡稱 MP)
- 定義:滿足馬爾可夫性的隨機過程,由兩部分組成:
- 狀態集合(State Space):系統所有可能狀態(如天氣模型里的 {晴天、雨天} )。
- 狀態轉移概率矩陣(Transition Probability Matrix):定義當前狀態→下一狀態的轉移概率(如天氣模型中,晴天→晴天概率 0.9、晴天→雨天概率 0.1 等 )。
- 舉例(天氣模型):
- 狀態集合:{Sunny(晴天), Rainy(雨天)}
- 轉移概率矩陣: (\begin{bmatrix} 0.9 & 0.1 \ 0.5 & 0.5 \end{bmatrix}) (第一行:晴天保持晴天概率 0.9、轉雨天概率 0.1;第二行:雨天保持雨天概率 0.5、轉晴天概率 0.5 )
4. 馬爾可夫決策過程(Markov Decision Process,MDP)
-
定義:馬爾可夫過程的擴展,引入智能體的 “動作” 和 “獎勵機制”,用于建模序貫決策問題。核心元素用
? S , A , P , R , γ ? \langle S, A, P, R, \gamma \rangle ?S,A,P,R,γ?表示:
- S(狀態集合):環境所有可能狀態(如天氣模型的 {Sunny, Rainy} )。
- A(動作集合):智能體可采取的動作(如天氣模型里的 {帶傘、不帶傘} )。
- P(轉移函數): P ( s ′ ∣ s , a ) P(s' | s, a) P(s′∣s,a) 表示 “狀態 s 下執行動作 a,轉移到狀態 (s’) 的概率”(天氣模型中,轉移由自然規律決定,與動作無關,仍用之前的轉移矩陣 )。
- R(獎勵函數): R ( s , a , s ′ R(s, a, s' R(s,a,s′) 表示 “狀態 s 執行動作 a 并轉移到 (s’) 時,獲得的即時獎勵”(如天氣模型里,晴天帶傘獲 -1 獎勵、晴天不帶傘獲 0 獎勵等 )。
- γ \gamma γ(折扣因子):未來獎勵的衰減系數,平衡 “當前獎勵” 和 “未來獎勵” 的重要性(如更看重眼前收益,或長期累積收益 )。
-
目標:找到最優策略(Policy)—— 即從 “狀態→動作” 的映射,最大化長期累積獎勵。求解方法包括動態規劃、蒙特卡洛方法、時序差分學習等。
-
舉例(天氣模型深化):
- 狀態集合(S):{Sunny, Rainy}(天氣的兩種可能狀態 )。
- 動作集合(A):{帶傘(Umbrella), 不帶傘(No_Umbrella)}(智能體在天氣下的行為選擇 )。
- 轉移函數(P):同馬爾可夫過程,天氣轉移由自然規律決定,與動作無關,轉移矩陣不變。
- 獎勵函數(R):
- 晴天(Sunny):帶傘→獎勵 -1(攜帶不便);不帶傘→獎勵 0(舒適)。
- 雨天(Rainy):帶傘→獎勵 2(避免淋雨,抵消攜帶不便);不帶傘→獎勵 -3(被淋濕)。
MDP小結
概念 | 核心特點 |
---|---|
馬爾可夫性質 | 未來僅依賴當前狀態,無記憶性(基礎特性) |
馬爾可夫過程(MP) | 狀態 + 轉移概率,被動觀測狀態演變(無動作干預) |
MDP | 在 MP 基礎上,增加動作和獎勵,實現主動決策 |
簡言之,MDP 以 “馬爾可夫無記憶性” 為基石,先通過馬爾可夫過程描述狀態的隨機演變,再擴展引入 “動作” 和 “獎勵”,讓智能體可主動決策、優化長期收益,是強化學習建模序貫決策問題的核心工具。