什么是強化學習（RL）--3

什么是強化學習（RL）--3

web/2025/7/13 4:04:55/文章來源:https://blog.csdn.net/weixin_41974053/article/details/149269674

如果reward大多數情況下都是0，只有少數是很大的值。

這種情況下就是稀疏reward的問題。

比如你要教機械手臂拴螺絲，只有最后把螺絲栓進去才可以，其余機械手臂的位置都不可以。

額外的reward幫agent學習。reward shaping

射擊游戲cs,這個游戲中，被射擊扣分，射擊到敵人加分，為了防止機器一直原地轉圈圈不去攻擊，所以活著給一個很小的負的reward。

可以設置一個接近目標的reward，比如機械手臂接近棍子，機械手臂從棍子上方接近棍子。reward shaping 需要你對問題理解很深刻。

例子：

讓agent 玩馬里奧，他的reward就是看到新的東西就可以過一些關卡。

=======================================================================

如果沒有reward怎么辦

或者是定義了reward但是機器可能有些不太對的邏輯

比如給機器人定義三個準則：機器人不能傷害人類，在滿足第一條的情況下機器人必須聽從人類，第三條在滿足12的情況下機器人要保護自己。--》機器人得出結論要把人類監禁起來防止人類自殺

那么沒有reward的時，怎么訓練呢

imitation learning

找很多人類示范，t-hat（expert）作為示范

比如人類駕駛的記錄作為示范。

比如機械手臂拿東西，可以人類操作機械手臂示范一次

這不就是監督學習嗎？

但是人類和機器看到的有可能不一樣，比如轉彎的時候人類可以順利的轉彎，但是機器沒轉過去的畫面機器沒看到過。

還有就是人類的有些行為需要模仿有些可能不用模仿。甚至只是模仿人類也會限制機器的能力上限

Inverse Reinforcement Learning

用專家做示范，學習出reward funtion

基本原則是老師的行為是最好的，老師的行為可以得到最高的reward。

先初始化actor,和環境互動，得到trajectories.讓老師與環境做互動，然后得到trajectories.然后這個reward function評估老師的要得到高分，評估actor的比較低。然后估算出reward function

如下圖，可以把reward function看作是gan里的分辨模型，actor是生成模型。

往往操作一個機械手臂完成一個任務，可能需要寫很長的程序，控制他的每個關節等。如果示范給他就可以學習示范動作。

現在還有更新的做法如下圖，給機器一個畫面，讓機器做出畫面中的行文。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88563.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88563.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88563.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

彩虹云商城全解源碼系統｜人工客服系統

彩虹云商城全解源碼系統｜人工客服系統

核心升級亮點人工客服系統：新增智能工單在線IM雙模式多端同步：PCH5小程序APP四端數據實時互通支付升級：支持數字人民幣收款安全加固：內置Web應用防火墻(WAF) 部署教程 ? B站視頻教程包含： 寶塔環境配置&#xf…

閱讀更多...

川翔云電腦：突破硬件極限，重構設計生產力范式

川翔云電腦：突破硬件極限，重構設計生產力范式

一、硬核配置：顯存與算力的雙重革命川翔云電腦提供從 RTX 2080 Ti 到 RTX 4090 Plus 的全系列 GPU 機型，其中旗艦級 4090 Plus 單卡配備48GB 超大顯存，較傳統 4090 顯存翻倍，可流暢加載 1200 萬面數的超復雜模型（如《黑…

閱讀更多...

深入解析 TCP 連接狀態與進程掛起、恢復與關閉

深入解析 TCP 連接狀態與進程掛起、恢復與關閉

文章目錄深入解析 TCP 連接狀態與進程掛起、恢復與關閉一、TCP 連接的各種狀態1. **LISTEN**（監聽）2. **SYN_SENT**（SYN 已發送）3. **SYN_RECEIVED**（SYN 已接收）4. **ESTABLISHED**（已建立&…

閱讀更多...

在mac m1基于llama.cpp運行deepseek

在mac m1基于llama.cpp運行deepseek

lama.cpp是一個高效的機器學習推理庫，目標是在各種硬件上實現LLM推斷，保持最小設置和最先進性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整數量化，通過ARM NEON、Accelerate和Metal支持Apple芯片，使得在MAC M1處理器上…

閱讀更多...

多模態大語言模型arxiv論文略讀（154）

多模態大語言模型arxiv論文略讀（154）

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文標題：Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文作者：Zhen Zeng, Leijiang Gu, Xun Yang, Zhan…

閱讀更多...

Python PDF處理庫深度對比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別

Python PDF處理庫深度對比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別

Python PDF處理庫深度對比：PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別前言1. 庫的基本介紹1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 關系圖譜3. 核心區別對比3.1 性能對比3.2 功能對比4. 代碼示例對比4.1 基本文本提取PyMuPDFpypd…

閱讀更多...

制作 ext4 文件系統

制作 ext4 文件系統

按以下步驟操作可以將一個文件夾制作成 Android 可用的 ext4 格式的 img 文件：方法 1：使用標準 Linux 工具（推薦） 步驟 1：安裝必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 適…

閱讀更多...

Flink自定義函數

Flink自定義函數

一、UDF 核心原理 Flink 自定義函數（UDF）是擴展 Table API/SQL 能力的核心機制，允許將自定義邏輯嵌入查詢。其設計遵循以下原則： 1. 函數類型體系類型輸入輸出關系核心用途標量函數（ScalarFunction）0~N 個標…

閱讀更多...

【AI學習】大模型微調實踐

【AI學習】大模型微調實踐

參加了書生?浦語（InternLM）端側小模型論文分類微調練習打榜賽具體的實踐教程在： https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折騰了十多天，各種嘗試，AB榜單終于進入了前十都，累死 …

閱讀更多...

ElementUI：高效優雅的Vue.js組件庫

ElementUI：高效優雅的Vue.js組件庫

Hi，我是布蘭妮甜 ！在當今快節奏的前端開發領域，選擇一個功能強大、設計優雅且易于使用的UI組件庫至關重要。ElementUI作為基于Vue.js的知名組件庫，憑借其豐富的組件體系、一致的設計語言和出色的開發體驗，已成為眾多企…

閱讀更多...

Java Stream流介紹及使用指南

Java Stream流介紹及使用指南

背景在Java 8之前，處理集合數據（如List, Set, Map）通常意味著編寫冗長的、以操作為中心的代碼：創建迭代器、使用for或while循環遍歷元素、在循環體內進行條件判斷和操作、收集結果。這種方式雖然有效，但不夠簡潔、可讀…

閱讀更多...

JDK 1.7 vs JDK 1.8

JDK 1.7 vs JDK 1.8

JDK版本比較 Java平臺的兩次重大飛躍：JDK 7的穩定優化與JDK 8的革命性創新引言：Java的進化之路Java作為企業級開發的支柱語言，其版本更新直接影響著全球數百萬開發者。JDK 1.7（2011年發布）和JDK 1.8（2014年…

閱讀更多...

張量與維度

張量與維度

3x4x5的張量： x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

閱讀更多...

智慧菜場系統（源碼+文檔+講解+演示）

智慧菜場系統（源碼+文檔+講解+演示）

引言在數字化浪潮的推動下，傳統菜市場也在尋求創新與變革。智慧菜場系統作為一種新型的菜市場管理工具，通過數字化手段優化菜市場的全流程，提高運營效率，增強消費者體驗，提升市場管理質量。本文將詳細介紹智慧菜場系統…

閱讀更多...

【GESP】C++一級真題 luogu-B4355 [GESP202506 一級] 值日

【GESP】C++一級真題 luogu-B4355 [GESP202506 一級] 值日

GESP C一級，2025年6月真題，基礎運算和循環語句，難度★☆☆☆☆。題目題解詳見：【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoder 【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoderGESP C一級…

閱讀更多...

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2（清華源）

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2（清華源）

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2（清華源） 文章目錄相關資料更改UTF8執行更新一鍵安裝ROS2驗證配置環境變量附錄：開發板快速上手：鏡像燒錄、串口shell、外設掛載、WiFi配置、SSH連接、文件交互（RAD…

閱讀更多...

【HDLBits習題 2】Circuit - Sequential Logic（4）More Circuits

【HDLBits習題 2】Circuit - Sequential Logic（4）More Circuits

1. Rule90（Rule 90）方法1：module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

閱讀更多...

基于mysqlfrm工具解析mysql數據結構文件frm表結構和數據庫版本信息

基于mysqlfrm工具解析mysql數據結構文件frm表結構和數據庫版本信息

這里使用Linux系統上操作。win上搞了下 python報錯。所以在這里記錄一下推薦大家使用linux系統操作。安裝mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

閱讀更多...

【C++ 深入解析 C++ 模板中的「依賴類型」】

【C++ 深入解析 C++ 模板中的「依賴類型」】

深入解析 C 模板中的「依賴類型」依賴類型是 C 模板編程中的核心概念，特指那些依賴于模板參數的類型。迭代器是依賴類型的常見例子，但遠不止于此。讓我們全面解析這個重要概念： 依賴類型的本質定義依賴類型是： 在模板中定義直接…

閱讀更多...

Telnet遠程連接實驗（Cisco）

Telnet遠程連接實驗（Cisco）

Telnet遠程連接實驗（Cisco） 拓撲圖一并實現DHCP服務、HTTP服務、FTP服務。二層交換機配置： 交換機Switch0配置： vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…

閱讀更多...

最新文章