on-policy和offpolicy算法

一句話總結

  • On-policy(同策略):邊學邊用,用當前策略生成的數據更新當前策略
    例子:演員自己演完一場戲后,根據觀眾反饋改進演技。

  • Off-policy(異策略):學用分離,用其他策略(如舊策略、專家數據)生成的數據更新當前策略
    例子:演員通過看別人的表演錄像來學習,不用自己親自演。


On-policy 算法

特點
  1. 數據來源:必須用當前策略(正在訓練的模型)與環境交互產生的數據。

  2. 數據時效性:更新一次策略后,舊數據立即失效,必須重新采樣。

  3. 優缺點

    • ? 更穩定,數據與策略一致。

    • ? 樣本效率低(大量數據只能用于一次更新)。

典型算法
  • REINFORCE:蒙特卡洛策略梯度,純靠當前策略的完整軌跡更新。

  • PPO(近端策略優化):通過裁剪機制限制更新幅度,但仍需當前策略的數據。

  • A2C(Advantage Actor-Critic):同步版本的Actor-Critic算法。

類比
  • 廚師親自嘗菜調整配方:每改一次配方,就必須重新做一桌菜來試味道。


Off-policy 算法

特點
  1. 數據來源:可以用歷史數據、其他策略的數據(如專家示范、舊策略)

  2. 數據復用:同一批數據可多次用于訓練,提高樣本效率。

  3. 優缺點

    • ? 樣本效率高,適合真實場景(如機器人訓練)。

    • ? 需要處理策略差異(如重要性采樣),可能不穩定。

典型算法
  • Q-Learning / DQN:通過Q表或神經網絡學習最優動作價值,不依賴當前策略。

  • DDPG / SAC:Actor-Critic框架下,用經驗回放池(Replay Buffer)復用數據。

  • TD3:雙延遲DDPG,進一步優化穩定性。

類比
  • 廚師看別人的做菜視頻學新技術:不用自己反復試錯,直接借鑒他人經驗。


關鍵區別對比

特征On-policyOff-policy
數據來源必須當前策略生成可用任意策略生成的數據
數據復用不能復用,每次更新后丟棄可復用(如經驗回放池)
樣本效率
穩定性高(數據一致)低(需處理策略差異)
典型算法PPO, A2C, REINFORCEDQN, DDPG, SAC

通俗例子

  1. On-policy

    • 你學自行車:必須自己騎(當前策略),摔了才能調整姿勢,不能靠看別人騎車來改進。

  2. Off-policy

    • 你學做菜:看菜譜視頻(他人策略數據),不用每看一次就自己做一遍。


如何選擇?

  • 選On-policy:需要高穩定性(如AI對話模型微調)。

  • 選Off-policy:數據稀缺或交互成本高(如機器人控制)。

理解這兩者的區別,就能明白為什么PPO適合ChatGPT訓練(穩定優先),而DQN適合游戲AI(數據復用優先)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88925.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88925.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88925.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CA-IS3082W 隔離485 收發器芯片可能存在硬件BUG

RT,這個RS485 隔離收發器芯片基本上不可用。本來要買CA-IS3082WX,不小心在某寶買到了沒有X 的CA-IS3082W。立創上說沒有X 的版本已經停產,連對應的數據手冊都找不到,全換成WX 了。 這類半雙工485 收發器芯片電路一般都直接把DE 和…

dockerfile 筆記

# 設置JAVA版本 FROM openjdk:20-ea-17-jdk MAINTAINER aaa # 指定存儲卷, 任何向/tmp寫入的信息都不會記錄到容器存儲層 VOLUME /tmp # 拷貝運行JAR包 ARG JAR_FILE COPY app.jar /app.jar RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime RUN echo "Asia/…

高德開放平臺攜手阿里云,面向開發者推出地圖服務產品MCP Server

高德開放平臺攜手阿里云,面向開發者推出地圖服務產品MCP Server,通過技術能力與生態資源的深度協同,助力開發者高效構建標準化地圖服務,加速智能化場景落地。 高德開放平臺攜手阿里云,面向開發者推出MCP Server技術融合…

【論文閱讀】AdaptThink: Reasoning Models Can Learn When to Think

AdaptThink: Reasoning Models Can Learn When to Think3 Motivation3.1 理論基礎3.2 NoThinking在簡單問題中的優勢3.3 動機總結4. AdaptThink4.1 約束優化目標數學建模基本定義原始優化問題懲罰項轉換歸一化處理策略梯度實現優勢函數定義PPO風格損失函數4.2 重要性采樣策略問…

Redis高可用集群一主從復制概述

一、環境概述在分布式集群系統中為了解決服務單點故障問題,通常會把數據復制出多個副本部署到不同的機器中,滿足故障恢復和負載均衡等需求。Redis也是如此,它為我們提供了復制功能,實現了相同數據的多個Redis副本。復制功能是高可…

Java 樹形結構、層級結構數據構建

目錄前言一、樹狀結構數據庫存儲二、工具類三、測試四、自定義樹節點返回類型(只保留部分字段)1. 新增 TreeNodeDTO 類2.修改TreeUtil 類3.測試4.輸出前言 有時候,開發過程中我們會遇到一些樹狀層級結構。 比如,公司部門組織架構…

求解線性規劃模型最優解

歸納編程學習的感悟, 記錄奮斗路上的點滴, 希望能幫到一樣刻苦的你! 如有不足歡迎指正! 共同學習交流! 🌎歡迎各位→點贊 👍 收藏? 留言?📝 既然選擇了遠方,當不負青春…

達夢國產數據庫安裝

打開ISO 、文件點擊運行接受選擇安裝路徑數據初始化 新數據庫要創建數據庫實例 選擇一般用途數據庫位置 選擇所以系統用戶,設置初始密碼創建示例庫可以選可以不選查找最近添加文件登錄

互斥鎖與同步鎖

1. 鎖的本質:解決并發問題的基石在多線程/多進程環境中,臨界區(Critical Section) 是訪問共享資源的代碼段。鎖的核心目標是確保互斥訪問——任意時刻僅有一個執行單元能進入臨界區。// 典型臨界區示例 pthread_mutex_lock(&m…

高密度PCB板生產廠商深度解析

在電子制造領域,高密度PCB(印制電路板)作為核心基礎元件,其技術精度與生產穩定性直接影響終端產品性能。本文精選五家具備核心技術優勢的國內廠商,通過實地調研與行業數據驗證,為讀者呈現真實可信的供應商選…

力扣 hot100 Day44

98. 驗證二叉搜索樹 給你一個二叉樹的根節點 root ,判斷其是否是一個有效的二叉搜索樹。 有效 二叉搜索樹定義如下: 節點的左子樹只包含 小于 當前節點的數。 節點的右子樹只包含 大于 當前節點的數。 所有左子樹和右子樹自身必須也是二叉搜索樹 //自…

【基礎架構】——軟件系統復雜度的來源(低成本、安全、規模)

目錄 一、軟件系統復雜度的來源之低成本二、軟件系統復雜度的來源之安全2.1、功能安全2.2、架構安全2.3、規模2.3.1、功能越來越多,導致系統復雜度指數級上升2.3.2、數據越來越多,系統復雜度發生質變本文來源:極客時間vip課程筆記 一、軟件系統復雜度的來源之低成本 當我們設…

機器學習 YOLOv5手繪電路圖識別 手繪電路圖自動轉換為仿真軟件(如LT Spice)可用的原理圖,避免人工重繪

以下是對《手繪電路圖識別》論文的核心解讀,結合技術方案、實驗數據和創新點進行結構化總結:研究目標 解決痛點:將手繪電路圖自動轉換為仿真軟件(如LT Spice)可用的原理圖,避免人工重繪。 關鍵挑戰&#xf…

一般的非線性規劃求解(非凸函數)

歸納編程學習的感悟, 記錄奮斗路上的點滴, 希望能幫到一樣刻苦的你! 如有不足歡迎指正! 共同學習交流! 🌎歡迎各位→點贊 👍 收藏? 留言?📝 每一個裂縫都是為透出光而努力&#x…

CTFHub————Web{信息泄露[Git泄露(Stash、Index)]}

Web 信息泄露 Git泄露 Stash 首先,我們先讀題,由題可知我們可以用BugScanTeam或GitHack完成該題那么我們先開題, 好吧,他問我們flag在哪里,我怎么知道fag在哪里。 先打開GitHack 使用 py GitHack.py http://challenge-…

缺乏實際里程碑管控項目進度,如何設定關鍵節點

要通過實際里程碑管控項目進度,核心措施包括:設定可量化的關鍵節點、明確交付標準與責任人、同步風險與資源計劃、基于階段目標拆解任務、建立節點驗證與復盤機制。例如,設定可量化的關鍵節點能讓團隊清晰理解“何時完成了什么”并及時調整方…

XML E4X:深入解析與高效應用

XML E4X:深入解析與高效應用 引言 XML(可擴展標記語言)作為一種數據交換格式,廣泛應用于互聯網數據傳輸、配置文件、數據存儲等領域。E4X 是一種擴展 XML 的編程接口,允許開發者以編程方式直接訪問和處理 XML 數據。本文將深入探討 XML E4X 的概念、特點、應用場景以及高…

uniapp---入門、基本配置了解

目錄 uniapp 新建項目 uniapp全局配置 組件 1、內置組件 2、擴展 組件 uni-ui 3、第三方組件庫 uview-ui 秋云-ucharts (插件市場 ) scss語法(了解) vue2語法(熟悉) uniapp 官方文檔:uni-app官網 uni-app 是一個使用 Vue.js 開發所…

springboot 好處

思考1,快速啟動,簡化配置。自動配置,內置tomcat,無需部署war文件,快速創建獨立應用2,提高開發效率,熱部署3,微服務生態4,云原生,Docker K8sSpring Boot 的主要…

SSM框架學習——day1

SSM框架概述SSM框架是Java開發中常用的組合框架,由Spring、Spring MVC和MyBatis三個開源框架整合而成。主要用于構建企業級Web應用程序,具有輕量級、模塊化、易擴展等特點。Spring框架作為核心,提供依賴注入(DI)和面向…