【機器學習筆記 Ⅲ】5 強化學習

【機器學習筆記 Ⅲ】5 強化學習

web/2025/7/9 21:03:52/文章來源:https://blog.csdn.net/weixin_44077623/article/details/149202777

強化學習（Reinforcement Learning, RL）

強化學習是機器學習的一個分支，其核心思想是讓智能體（Agent）通過與環境（Environment）的交互學習最優策略（Policy），以最大化長期累積獎勵（Reward）。它模擬了人類或動物通過“試錯”進行學習的過程，廣泛應用于游戲AI、自動駕駛、機器人控制、推薦系統等領域。

1. 核心概念

(1) 基本框架

強化學習的交互過程可以描述為 “狀態-動作-獎勵”循環：

智能體（Agent）：學習的決策者（如游戲AI、機器人）。
環境（Environment）：智能體交互的外部世界（如游戲規則、物理世界）。
狀態（State, ( s ))：環境當前情況的描述（如棋盤布局、機器人傳感器數據）。
動作（Action, ( a ))：智能體在某個狀態下采取的行為（如移動棋子、控制電機）。
獎勵（Reward, ( r ))：環境對動作的即時反饋（如得分、懲罰）。
策略（Policy, ( \pi ))：智能體的行為規則，決定在什么狀態下選擇什么動作（如“見敵就攻擊”）。

交互流程：

(2) 核心目標

智能體的目標是學習一個策略 ( \pi )，最大化長期累積獎勵（即回報，Return）：

其中 ( \gamma )（折扣因子，0 ≤ γ ≤ 1）權衡當前獎勵與未來獎勵的重要性。

2. 關鍵方法

(1) 基于值函數（Value-Based）

(2) 基于策略（Policy-Based）

直接優化策略 ( \pi )，適用于連續動作空間（如機器人控制）：

策略梯度（Policy Gradient）：通過梯度上升調整策略參數。
典型算法：REINFORCE、PPO（Proximal Policy Optimization）。

(3) 演員-評論家（Actor-Critic）

結合值函數和策略梯度：

演員（Actor）：負責選擇動作（策略）。
評論家（Critic）：評估動作的好壞（值函數）。
典型算法：A2C、A3C、SAC。

3. 強化學習 vs. 其他機器學習

特性	強化學習	監督學習	無監督學習
數據來源	與環境交互的試錯	帶標簽的靜態數據	無標簽數據
反饋類型	延遲的獎勵信號	即時明確的標簽	無明確反饋
目標	最大化長期累積獎勵	最小化預測誤差	發現數據模式
典型應用	游戲AI、機器人控制	圖像分類、語音識別	聚類、降維

4. 經典問題與算法

(1) 多臂老虎機（Multi-Armed Bandit）

問題：在多個選擇（如廣告投放）中平衡探索（嘗試新選項）和利用（選擇已知最優選項）。
算法：ε-貪心、UCB（Upper Confidence Bound）。

(2) 馬爾可夫決策過程（MDP）

理論基礎：強化學習問題通常建模為MDP，包含狀態、動作、轉移概率和獎勵函數。
動態規劃：通過值迭代或策略迭代求解小規模MDP（如Grid World）。

(3) 深度強化學習（Deep RL）

核心思想：用深度學習（如神經網絡）處理高維狀態（如圖像、語音）。
代表算法：
- DQN：用CNN處理游戲像素輸入。
- A3C：異步并行訓練多個智能體。
- AlphaGo：結合蒙特卡洛樹搜索（MCTS）和策略網絡。

5. 挑戰與解決方案

挑戰	解決方案
稀疏獎勵	設計密集獎勵函數、好奇心驅動探索（Intrinsic Reward）
探索與利用平衡	ε-貪心、噪聲網絡（NoisyNet）、熵正則化
樣本效率低	經驗回放（Experience Replay）、優先回放
高維狀態空間	使用CNN、RNN等深度學習模型
非平穩環境	元強化學習（Meta-RL）

6. 應用場景

游戲AI：AlphaGo、Dota 2 AI（OpenAI Five）、Atari游戲。
機器人控制：機械臂抓取、自動駕駛（路徑規劃）。
推薦系統：動態調整推薦策略以提升用戶點擊率。
金融交易：量化交易策略優化。
醫療：個性化治療方案設計。

7. 學習資源

經典教材：
- 《Reinforcement Learning: An Introduction》（Richard Sutton）
實戰框架：
- OpenAI Gym、Stable Baselines3、PyTorch RL庫
在線課程：
- David Silver的RL課程（DeepMind）

總結

強化學習通過“試錯+反饋”機制學習最優策略，其核心是交互學習和長期規劃。盡管面臨樣本效率、穩定性等挑戰，但結合深度學習后，在復雜任務（如游戲、機器人）中展現了強大潛力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88077.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88077.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88077.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

pytorch深度學習-卷積神經網絡CNN-MNIST-gpu加速

pytorch深度學習-卷積神經網絡CNN-MNIST-gpu加速

一、為什么需要 CNN？從圖像識別的 “麻煩” 說起假設你想讓電腦識別一張圖片里有沒有貓。如果用傳統神經網絡：一張 100100 的彩色圖片，有 100100330000 個像素點，每個像素點都是一個輸入神經元。傳統網絡需要每個輸入神經元和隱藏…

閱讀更多...

【阿里巴巴JAVA開發手冊】IDE的text file encoding設置為UTF-8； IDE中文件的換行符使用Unix格式，不要使用Windows格式。

【阿里巴巴JAVA開發手冊】IDE的text file encoding設置為UTF-8； IDE中文件的換行符使用Unix格式，不要使用Windows格式。

問題：當使用 IDEA SSH 遠程開發時，SFTP 同步的 Windows 本地編輯的 config/plugin_config 文件文本內容中 “換行符”與 Unix、Linux 的文件文本內容換行符字符集不一致，導致 docker 容器中自定義 /opt/seatunnel/bin/install_plugin 在執行以…

閱讀更多...

自動駕駛ROS2應用技術詳解

自動駕駛ROS2應用技術詳解

自動駕駛ROS2應用技術詳解目錄自動駕駛ROS2節點工作流程自動駕駛感知融合技術詳解多傳感器數據同步技術詳解ROS2多節點協作與自動駕駛系統最小節點集 1. 自動駕駛ROS2節點工作流程 1.1 感知輸出Topic的后續處理在自動駕駛系統中，感知節點輸出的各種Topic會被…

閱讀更多...

Redis底層實現原理之訂閱發布機制

Redis底層實現原理之訂閱發布機制

文章目錄1. 通知類型2. 實現原理2.1 Pub/Sub2.1.1 基礎知識點2.1.2 頻道和訂閱者的存儲通知原理2.1.3 鍵空間通知2.1.4 客戶端消費2.1.5 缺陷2.2 Redis Stream2.2.1 基礎知識點2.2.2 基礎數據結構2.2.3 消費者組管理2.2.4 消息和消費者持久化2.2.5 消息生產和消費2.2.6 消費者拉…

閱讀更多...

【MATLAB代碼】AOA與TDOA混合定位例程，自適應基站數量，二維，可調節錨點數量。訂閱專欄后，可直接查看matlab源代碼

【MATLAB代碼】AOA與TDOA混合定位例程，自適應基站數量，二維，可調節錨點數量。訂閱專欄后，可直接查看matlab源代碼

本文給出一個matlab代碼，用于在二維平面上，使用AOA的角度測量和TDOA的到達時間差的測量，來達到對未知點的精確定位。最后輸出定位示意圖、真實點坐標、僅AOA定位坐標與誤差、僅TDOA定位的坐標與誤差、AOA+TDOA混合定位的坐標與誤差。訂閱專欄后可直接查看源代碼，粘貼到MATL…

閱讀更多...

Node.js 所有主要版本的發布時間、穩定版本（Stable）和長期支持版本（LTS）的整理

Node.js 所有主要版本的發布時間、穩定版本（Stable）和長期支持版本（LTS）的整理

以下是 Node.js 所有主要版本的發布時間、穩定版本（Stable）和長期支持版本（LTS） 的整理，涵蓋從早期版本到當前最新版本的信息。 📅 Node.js 版本發布規律每 6 個月發布一個新主版本（偶數月&am…

閱讀更多...

【牛客刷題】小紅的v三元組

【牛客刷題】小紅的v三元組

文章目錄一、題目介紹1.1 題目描述1.2 輸入描述1.3 輸出描述1.4 示例二、解題思路2.1 核心算法設計2.2 性能優化關鍵2.3 算法流程圖三、算法實現四、算法分析4.1 時間復雜度4.2 空間復雜度4.3 正確性證明五、為什么選擇離散化+樹狀數組的解法？5.1 問題本質分析5.2 解法設計思…

閱讀更多...

c語言學習_函數遞歸

c語言學習_函數遞歸

今天學習函數遞歸。函數遞歸通俗來說就是函數自己調用自己，遞歸的主要思考方式在于：把大事化小。例子：接受一個整型值，按照順序打印它的每一位。void print(unsigned int n) {if (n > 9){print(n / 10);}printf("%d"…

閱讀更多...

Bash與Zsh與Fish：在Linux中你應該使用哪個Shell

Bash與Zsh與Fish：在Linux中你應該使用哪個Shell

命令行 shell 是與操作系統交互的重要工具，使用戶能夠高效地執行命令、自動化任務和運行腳本。雖然有各種外殼選項可供選擇，但Bash、Zsh和Fish作為最受歡迎的選擇脫穎而出，每種都提供獨特的功能，因此理解它們的差異對于選擇適合…

閱讀更多...

Peek-Ubuntu上Gif錄制工具-24.04LTS可裝

Peek-Ubuntu上Gif錄制工具-24.04LTS可裝

安裝方法（Ubuntu24.04.2LTS測試通過） sudo apt update sudo apt install peek純無語，🧟 一個軟件，仨網站，四份重復的教程： 添加 PPA更新源報錯（不支持 noble）搜到 4 篇教…

閱讀更多...

DVWA靶場通關筆記-驗證碼繞過reCAPTCHA(High級別)

DVWA靶場通關筆記-驗證碼繞過reCAPTCHA(High級別)

目錄一、reCAPTCHA 二、代碼審計（High級別） 1、滲透準備 （1）配置security為High級別。 （2）配置RECAPTCHA參數 （3）再次打開靶場 2、源碼分析 （1）inde…

閱讀更多...

【Java安全】RMI基礎

【Java安全】RMI基礎

文章目錄介紹實現服務端 Server客戶端 Client通信過程數據端與注冊中心(1099 端口)建立通訊客戶端與服務端建立 TCP 通訊客戶端序列化傳輸調用函數的輸入參數至服務端總結介紹 RMI 全稱 Remote Method Invocation（遠程方法調用），即在一個 J…

閱讀更多...

MySQL索引面試問題梳理

MySQL索引面試問題梳理

本文系統剖析MySQL索引的核心機制： ?索引分類全景圖?：詳解聚簇/非聚簇索引的邏輯差異與物理存儲特點?B樹的統治性優勢?：通過對比Hash/B樹揭示InnoDB的底層選擇邏輯一、索引分類的常見困惑解析 1. 按物理存儲分類類型存儲內容數量限…

閱讀更多...

SSH密鑰與 Ed25519密鑰是什么關系

SSH密鑰與 Ed25519密鑰是什么關系

SSH 密鑰與 Ed25519 密鑰的關系可以從技術實現和應用場景兩個角度理解。簡而言之：Ed25519 密鑰是 SSH 密鑰的一種類型，用于在 SSH 協議中實現安全認證。以下是詳細解釋： 1. SSH 密鑰的通用概念 SSH（Secure Shell）是一…

閱讀更多...

【PyTorch 當前版本不支持 NVIDIA GeForce RTX 5060 Ti處理辦法】

【PyTorch 當前版本不支持 NVIDIA GeForce RTX 5060 Ti處理辦法】

報錯信息 X:\Stable-Diffusion-WebUI\system\python\lib\site-packages\torch\cuda\__init__.py:215: UserWarning: NVIDIA GeForce RTX 5060 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports…

閱讀更多...

Docker部署PaddleX實現PaddleOcr

Docker部署PaddleX實現PaddleOcr

Docker部署PaddleX實現PaddleOcr 一、版本說明二、安裝PaddleX三、基礎服務化部署四、接口調用實現表格識別五、調參優化一、版本說明 PaddleX 3.0Ubuntu20.04.1Docker version 26.1.3, build 26.1.3-0ubuntu1~20.04.1二、安裝PaddleX 查看服務器信息 docker安裝PaddleX 根據 …

閱讀更多...

深入學習c++之---AVL樹

深入學習c++之---AVL樹

VL樹簡介? AVL樹是一種自平衡二叉搜索樹，通過平衡因子（Balance Factor, BF）?和旋轉操作，確保樹始終保持平衡，避免退化成鏈表，從而保證查找、插入、刪除的時間復雜度穩定在 ?O(log n)?。 ?核心特點?…

閱讀更多...

【PTA數據結構 | C語言版】輸出 1 ~ n

【PTA數據結構 | C語言版】輸出 1 ~ n

本專欄持續輸出數據結構題目集，歡迎訂閱。文章目錄題目代碼題目給定正整數 n，輸出 1 ~ n，每個數字占一行。本題旨在測試不同的算法在各種數據情況下的表現。各組測試數據特點如下： 數據 0：測試基本正確性&#x…

閱讀更多...

如何禁止用戶復制頁面內容？

如何禁止用戶復制頁面內容？

某些特定的業務場景下，我們可能會有禁止用戶復制頁面內容的需求。比如： 付費內容保護：在線小說、付費課程等，希望防止內容被輕易拷貝和傳播。試卷或答題系統：防止考生將題目復制出去尋求場外幫助。敏感信息展示&#x…

閱讀更多...

React + PDF.js 預覽 PDF 文件：從基礎實現到高級優化的完整指南

React + PDF.js 預覽 PDF 文件：從基礎實現到高級優化的完整指南

關鍵點 PDF.js：Mozilla 開發的開源 JavaScript 庫，用于在瀏覽器中渲染 PDF 文件。React 集成：結合 React 組件化特性，實現高效、交互式的 PDF 預覽功能。功能實現：支持 PDF 文件加載、頁面導航、縮放、搜索、書簽和注…

閱讀更多...

最新文章