什么是強化學習(RL)--3

如果reward大多數情況下都是0,只有少數是很大的值。

這種情況下就是稀疏reward的問題。

比如你要教機械手臂拴螺絲,只有最后把螺絲栓進去才可以,其余機械手臂的位置都不可以。

額外的reward幫agent學習。reward shaping

射擊游戲cs,這個游戲中,被射擊扣分,射擊到敵人加分,為了防止機器一直原地轉圈圈不去攻擊,所以活著給一個很小的負的reward。

可以設置一個接近目標的reward,比如機械手臂接近棍子,機械手臂從棍子上方接近棍子。reward shaping 需要你對問題理解很深刻。

例子:

讓agent 玩馬里奧,他的reward就是看到新的東西就可以過一些關卡。

=======================================================================

如果沒有reward怎么辦

或者是定義了reward但是機器可能有些不太對的邏輯

比如給機器人定義三個準則:機器人不能傷害人類,在滿足第一條的情況下機器人必須聽從人類,第三條在滿足12的情況下機器人要保護自己。--》機器人得出結論要把人類監禁起來防止人類自殺

那么沒有reward的時,怎么訓練呢

imitation learning

找很多人類示范,t-hat(expert)作為示范

比如人類駕駛的記錄作為示范。

比如機械手臂拿東西,可以人類操作機械手臂示范一次

這不就是監督學習嗎?

但是人類和機器看到的有可能不一樣,比如轉彎的時候人類可以順利的轉彎,但是機器沒轉過去的畫面機器沒看到過。

還有就是人類的有些行為需要模仿有些可能不用模仿。甚至只是模仿人類也會限制機器的能力上限

Inverse Reinforcement Learning

用專家做示范,學習出reward funtion

基本原則是老師的行為是最好的,老師的行為可以得到最高的reward。

先初始化actor,和環境互動,得到trajectories.讓老師與環境做互動,然后得到trajectories.然后這個reward function評估老師的要得到高分,評估actor的比較低。然后估算出reward function

如下圖,可以把reward function看作是gan里的分辨模型,actor是生成模型。

往往操作一個機械手臂完成一個任務,可能需要寫很長的程序,控制他的每個關節等。如果示范給他就可以學習示范動作。

現在還有更新的做法如下圖,給機器一個畫面,讓機器做出畫面中的行文。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88563.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88563.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88563.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

彩虹云商城全解源碼系統|人工客服系統

核心升級亮點 人工客服系統:新增智能工單在線IM雙模式多端同步:PCH5小程序APP四端數據實時互通支付升級:支持數字人民幣收款安全加固:內置Web應用防火墻(WAF) 部署教程 ? B站視頻教程 包含: 寶塔環境配置&#xf…

川翔云電腦:突破硬件極限,重構設計生產力范式

一、硬核配置:顯存與算力的雙重革命川翔云電腦提供從 RTX 2080 Ti 到 RTX 4090 Plus 的全系列 GPU 機型,其中旗艦級 4090 Plus 單卡配備48GB 超大顯存,較傳統 4090 顯存翻倍,可流暢加載 1200 萬面數的超復雜模型(如《黑…

深入解析 TCP 連接狀態與進程掛起、恢復與關閉

文章目錄深入解析 TCP 連接狀態與進程掛起、恢復與關閉一、TCP 連接的各種狀態1. **LISTEN**(監聽)2. **SYN_SENT**(SYN 已發送)3. **SYN_RECEIVED**(SYN 已接收)4. **ESTABLISHED**(已建立&…

在mac m1基于llama.cpp運行deepseek

lama.cpp是一個高效的機器學習推理庫,目標是在各種硬件上實現LLM推斷,保持最小設置和最先進性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整數量化,通過ARM NEON、Accelerate和Metal支持Apple芯片,使得在MAC M1處理器上…

多模態大語言模型arxiv論文略讀(154)

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文標題:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models ?? 論文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhan…

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別

Python PDF處理庫深度對比:PyMuPDF、pypdfium2、pdfplumber、pdfminer的關系與區別前言1. 庫的基本介紹1.1 PyMuPDF (fitz)1.2 pypdfium21.3 pdfplumber1.4 pdfminer2. 關系圖譜3. 核心區別對比3.1 性能對比3.2 功能對比4. 代碼示例對比4.1 基本文本提取PyMuPDFpypd…

制作 ext4 文件系統

按以下步驟操作可以將一個文件夾制作成 Android 可用的 ext4 格式的 img 文件:方法 1:使用標準 Linux 工具(推薦) 步驟 1:安裝必要工具 sudo apt update sudo apt install e2fsprogs android-sdk-libsparse-utils # 適…

Flink自定義函數

一、UDF 核心原理 Flink 自定義函數(UDF)是擴展 Table API/SQL 能力的核心機制,允許將自定義邏輯嵌入查詢。其設計遵循以下原則: 1. 函數類型體系類型輸入輸出關系核心用途標量函數(ScalarFunction)0~N 個標…

【AI學習】大模型微調實踐

參加了書生?浦語(InternLM)端側小模型論文分類微調練習打榜賽 具體的實踐教程在: https://aicarrier.feishu.cn/wiki/D7kZw9Nx4iMyDnkpL0Gc5giNn5g 折騰了十多天,各種嘗試,AB榜單終于進入了前十都,累死 …

ElementUI:高效優雅的Vue.js組件庫

Hi,我是布蘭妮甜 !在當今快節奏的前端開發領域,選擇一個功能強大、設計優雅且易于使用的UI組件庫至關重要。ElementUI作為基于Vue.js的知名組件庫,憑借其豐富的組件體系、一致的設計語言和出色的開發體驗,已成為眾多企…

Java Stream流介紹及使用指南

背景在Java 8之前,處理集合數據(如List, Set, Map)通常意味著編寫冗長的、以操作為中心的代碼:創建迭代器、使用for或while循環遍歷元素、在循環體內進行條件判斷和操作、收集結果。這種方式雖然有效,但不夠簡潔、可讀…

JDK 1.7 vs JDK 1.8

JDK版本比較 Java平臺的兩次重大飛躍:JDK 7的穩定優化與JDK 8的革命性創新引言:Java的進化之路Java作為企業級開發的支柱語言,其版本更新直接影響著全球數百萬開發者。JDK 1.7(2011年發布)和JDK 1.8(2014年…

張量與維度

3x4x5的張量: x torch.tensor([[[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]], [[21, 22, 23, 24, 25], …

智慧菜場系統(源碼+文檔+講解+演示)

引言 在數字化浪潮的推動下,傳統菜市場也在尋求創新與變革。智慧菜場系統作為一種新型的菜市場管理工具,通過數字化手段優化菜市場的全流程,提高運營效率,增強消費者體驗,提升市場管理質量。本文將詳細介紹智慧菜場系統…

【GESP】C++一級真題 luogu-B4355 [GESP202506 一級] 值日

GESP C一級,2025年6月真題,基礎運算和循環語句,難度★☆☆☆☆。 題目題解詳見:【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoder 【GESP】C一級真題 luogu-B4355 [GESP202506 一級] 值日 | OneCoderGESP C一級…

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2(清華源)

【Linux應用】Ubuntu20.04 aarch64開發板一鍵安裝ROS2(清華源) 文章目錄相關資料更改UTF8執行更新一鍵安裝ROS2驗證配置環境變量附錄:開發板快速上手:鏡像燒錄、串口shell、外設掛載、WiFi配置、SSH連接、文件交互(RAD…

【HDLBits習題 2】Circuit - Sequential Logic(4)More Circuits

1. Rule90&#xff08;Rule 90&#xff09;方法1&#xff1a;module top_module (output reg [511:0] q,input clk,input load,input [511:0] data ); integer i;always (posedge clk) beginif (load 1b1) beginq < data;end else beginfor (i0; i<$bits(q);…

基于mysqlfrm工具解析mysql數據結構文件frm表結構和數據庫版本信息

這里使用Linux系統上操作。win上搞了下 python報錯。所以在這里記錄一下推薦大家使用linux系統操作。 安裝mysql utilswget https://downloads.mysql.com/archives/get/p/30/file/mysql-utilities-1.6.5.tar.gztar -xf mysql-utilities-1.6.5.tar.gzcd mysql-utilities-1.6.5py…

【C++ 深入解析 C++ 模板中的「依賴類型」】

深入解析 C 模板中的「依賴類型」 依賴類型是 C 模板編程中的核心概念&#xff0c;特指那些依賴于模板參數的類型。迭代器是依賴類型的常見例子&#xff0c;但遠不止于此。讓我們全面解析這個重要概念&#xff1a; 依賴類型的本質定義 依賴類型是&#xff1a; 在模板中定義直接…

Telnet遠程連接實驗(Cisco)

Telnet遠程連接實驗&#xff08;Cisco&#xff09; 拓撲圖一并實現DHCP服務、HTTP服務、FTP服務。 二層交換機配置&#xff1a; 交換機Switch0配置&#xff1a; vlan 10vlan 20int f0/1switchport mode accessswitchport access vlan 10int f0/2switchport mode accessswitchpo…