狗都能看懂的Reinforcement Learning簡介

文章目錄

    • 一、什么是強化學習
    • 二、強化學習的應用

一、什么是強化學習

RL

強化學習的流程可以用上面這張圖來說明:智能體(Agent)對環境進行觀測,然后根據觀測結果(Observation / State)采取相應的動作(Action),動作作用于環境(Environment)之后,環境就會產生相應的變化,這樣智能體就可以再一次得到新的觀測結果,同時環境也會給智能體一個反饋(Reward)表明這個動作是好的還是不好的。強化學習就是想辦法找到一個策略能夠最大化總的反饋(Total reward)。

比較成功的應用,如:AlphaGo,下圍棋時,它的Observation就是棋盤的情況,根據棋局的形式采取一個Action下一步棋。然后根據Environment的反饋情況,得到一個Reward和新的Observation,再進行下一次的分析和動作。

chess

通過上述圍棋的例子,我們不難發現,Environment是由系統本身決定的,Observation本質上也只是通過某種轉換由Environment變動過來的,在這個例子中,可以是一個視覺神經網絡,將棋局轉換成數學矩陣。同時,有一個好的**Agent(策略生成)**也很重要,它決定了實際的Action,在沒有深度學習之前,用過一些類似于表格的形式,根據局勢進行查表,決定怎么下一步怎么走。這種方式本質上也是一種有監督學習。但圍棋這個數學組合很難窮舉,但有了Reinforcement Learning就不同了,通過一個通用的神經網絡來分析形勢。這也是Supervised Learning和Reinforcement Learning的差異。

sl vs rl

而Reward這個變量就比較特殊,雖然也是和Environment有關系,但也是由人為定義的一些規則來決定的,比如圍住了對方的棋子,得1分;被圍住得-1分,沒有棋子數量變動為0分。所以如何從一個定義好的Reward規則也很重要。這里的Reward設定也有它的弊端,即得分為0的情況是比較常見的,得分或扣分的情況是比較少見的,所以它的Reward是比較稀疏。

chess problem

二、強化學習的應用

chatbot-train

Supervised Learning的方法在某些問題也不適用,比如在聊天機器人(Chatbot)訓練時,上一個人的提問,沒有完全對應的答案。

在這里插入圖片描述

而利用Reinforcement Learning的思想,雖然對話沒有像圍棋一樣有明確的得分Reward規則,但我們可以train兩個Chatbot互相對話,人為定義一個規則:“通過查看對話記錄,來評判是好是壞”

chatbot rule

還有一個比較常見的應用:電子游戲,OpenAI也有對應的python游戲環境,可以用于強化學習的訓練。

video game

比如上述的Video Game就來自于gym。左上角是分數,中間是需要打擊的目標,玩家可以左右移動,開火。轉換到RL中就是三個Action。

alien

gym中的游戲Environment已經轉換成矩陣給到用戶,可以直接給到Agent,得到Action。像這個游戲中擊殺一個外星人,可以得到5分。當采取一個Action之后,Environment也會發生變化(通常都是隨機的),這樣我們又進入了下個Action生成的階段。

alien end

當游戲進行了N次這樣的循環之后,當采取了某次Action- α T \alpha_T αT?之后,游戲進入了終止狀態,這時候得到了一個總的Reward。那么這一整個游戲過程,我們稱為episode,通常我們以一個episode和它對應總的Reward為一個訓練數據。為什么這么做呢?

difficulties

這里就要回到我們上面提到Reward設計的弊端了,有時候Reward的規則往往會導致Agent沒法得到即時的獎勵,但這又是無法避免的。在現實生活中,這種問題比較常見,比如下棋中,短期的誘敵犧牲可能為后期的勝利做鋪墊。所以Reward的delay是很常見的,所以我們在訓練的時候也需要將這種情況考慮進去。

其次Agent作為一個小白,如果僅以即時獎勵為優化目標,那么在alien游戲中,它只有開火才能得分,那么訓出來的Agent就只會開火。

以上內容為李宏毅老師課程中的總結。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/37598.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/37598.shtml
英文地址,請注明出處:http://en.pswp.cn/web/37598.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

實現Ubuntu計劃任務的反彈shell

一、實驗環境 Ubuntu:IP地址:192.168.223.156 Kali : IP地址:192.168.223.152 二、編寫crontab計劃任務 在Ubuntu的系統中使用crontab -e命令編寫計劃任務,如下所示: 作用:是將一個交互式的bash …

device_node和platform_device的生成流程

1. machine_desc的匹配 《這篇》有介紹DT_MACHINE_START的一些初始化操作,匹配上就會在后續的初始化中調用DT_MACHINE_START的成員來初始化系統的設備樹,時鐘,中斷等 start_kernelsetup_arch(&command_line);mdesc setup_machine_fdt(…

行列視報表系統制作的報表與廠級監控信息系統(SIS)系統中的報表有什么區別?

廠級監控信息系統是集過程實時監測、優化控制及生產過程管理為一體的廠級自動化信息系統,是處于DCS以及相關輔助程控系統與全廠管理信息系統之間的一套實時廠級監控信息系統,該產品也是本公司的一套獨立產品。 SIS系統中的報表只是其中的一個模塊&#…

混合云管道的未來:集成 MinIO、Tailscale 和 GitHub Actions

數據處理是現代軟件開發的基本實踐。它使團隊能夠自動收集、處理和存儲數據,確保高質量的數據和高效的處理。 在本文中,我們將探討如何建立一個全面的數據處理管道,重點介紹如何使用 Tailscale GitHub Action 進行安全網絡。此設置還將包含 …

植物大戰僵尸雜交版手機下載與安裝全攻略

植物大戰僵尸雜交版是一款深受玩家喜愛的策略冒險游戲,以其豐富的植物種類、多樣的關卡設計和趣味的玩法著稱。本文將為您提供詳細的下載與安裝教程,幫助您快速上手,享受游戲帶來的樂趣。 游戲簡介 植物大戰僵尸雜交版在傳統玩法的基礎上&a…

【機器學習】語音轉文字 - FunASR 的應用與實踐(speech to text)

本文將介紹 FunASR,一個多功能語音識別模型,包括其特點、使用方法以及在實際應用中的表現。我們將通過一個簡單的示例來展示如何使用 FunASR 將語音轉換為文字,并探討其在語音識別領域的應用前景。 一、引言 隨著人工智能技術的不斷發展&am…

linux的安全技術和防火墻

一、安全技術 1.入侵檢測系統:特點式不阻斷網絡訪問,主要式提供報警和事后監督,不主動介入,默默的看著你(相當于360安全衛士) 2.入侵防御系統:透明模式工作,對數據包,網…

平價高性價比藍牙耳機有哪些?盤點好用平價的藍牙耳機推薦

在當今快節奏的生活中,藍牙耳機已經成為人們日常生活中不可或缺的配件,它們不僅讓我們可以在行走、工作或者鍛煉時享受音樂,還提供了便利的通話功能。然而,市面上藍牙耳機種類繁多,價格相差甚遠,大家往往難…

走進開源企業 | 湖南大學OpenHarmony技術實訓活動在開鴻智谷順利舉辦!

6月24日-6月26日,2024開放原子校源行之湖南大學信息科學與工程學院師生走進開源企業實訓交流活動順利落下帷幕。湖南大學信息科學與工程學院的師生代表團一行90人參與了湖南開鴻智谷數字產業有限公司(以下簡稱“開鴻智谷”)與母公司拓維信息系…

HEC-HMS水文模型教程

原文鏈接:HEC-HMS水文模型教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247607904&idx5&sn1a210328a3fc8f941b433674d8fe2c85&chksmfa826787cdf5ee91d01b6981ebd89deac3e350d747d0fec45ce2ef75d7cb8009341c6f55114d&token90645021…

放射性單位請問放射性物質的單位cpm、dpm什么意思

放射性單位請問放射性物質的單位cpm、dpm什么意思?和Ci怎樣換算?現在做同位素,搞不清楚劑量了.  anse7esn 1年前 已收到2個回答舉報 贊 渡海 幼苗 共回答了22個問題采納率:90.9% 舉報 放射性活度單位 放射性核素在單位時間內發生衰變…

vue項目手機錄音

手機實現錄音功能&#xff0c;安卓和蘋果都可。功能&#xff0c;點擊開始錄制錄音后&#xff0c;隨時可以停止錄音&#xff0c;如果不點擊停止最多錄制15秒。 頁面結構 <!--音頻--> <div class"audio-box"><audio id"audioPlayer"controlsc…

修改element-ui日期下拉框datetimePicker的背景色樣式

如圖&#xff1a; 1、修改背景色 .el-date-picker.has-sidebar.has-time { background: #04308D; color: #fff; border: 1px solid #326AFF } .el-date-picker__header-label { color: #ffffff; } .el-date-table th { color: #fff; } .el-icon-d-arrow-left:before { color: …

從零搭建Java酒店預訂系統:實戰指南_01

項目介紹 一、 項目概述 項目背景: 模擬真實酒店預訂流程,實現核心功能角色設定: 顧客、前臺、后勤管理(可選:管理員)技術選型: Java + Spring Boot + 數據庫(MySQL)+ 前端框架(Vue.js/React等)二、 需求分析與功能設計 功能模塊劃分: 用戶模塊:用戶注冊、登錄、…

Postgres14.4(Docker安裝)

Postgres14.4&#xff08;Docker安裝&#xff09; 一&#xff0c;Docker拉取鏡像 docker pull postgres:14.4 #檢查鏡像是否拉取成功 docker images | grep postgres二&#xff0c;新建掛載目錄&#xff0c;并運行容器 mkdir -p /data/postgre/data chmod 777 /data/postgre…

AQS同步隊列、條件隊列源碼解析

AQS詳解 前言AQS幾個重要的內部屬性字段內部類 Node同步隊列 | 阻塞隊列等待隊列 | 條件隊列 重要方法執行鏈同步隊列的獲取、阻塞、喚醒加鎖代碼流程解鎖 條件隊列的獲取、阻塞、喚醒大體流程 調用await()方法1. 將節點加入到條件隊列2. 完全釋放獨占鎖3. 等待進入阻塞隊列4. …

【Python】探索 Pandas 中的 where 方法:條件篩選的利器

那年夏天我和你躲在 這一大片寧靜的海 直到后來我們都還在 對這個世界充滿期待 今年冬天你已經不在 我的心空出了一塊 很高興遇見你 讓我終究明白 回憶比真實精彩 &#x1f3b5; 王心凌《那年夏天寧靜的海》 在數據分析中&#xff0c;Pandas 是一個強大且…

小程序安卓手機點擊uni-data-select 下拉框選擇器會出現藍色陰影

解決方法&#xff1a;在導入的包中找到uni-data-select.vue&#xff0c;接著找到.uni-stat__select樣式&#xff0c;把cursor: pointer去掉。 如果出現穿透問題&#xff0c;uni-select__selector的z-index加高&#xff0c;默認是2。

數據庫MyBatis傳遞數組或集合

應用場景 假設你有兩個表&#xff0c;一個是商品信息表&#xff08;表1&#xff0c;例如商品類別信息&#xff09;&#xff0c;另一個是庫存信息表&#xff08;表2&#xff0c;記錄每種商品的庫存數量&#xff09;。你想知道特定幾個商品類別 &#xff08;通過其ID標識&#xf…

其他OpenAI API和功能

文章目錄 嵌入嵌入如何為ML模型翻譯語言內容審核模型Whisper 和 DALL.E除了文本補全功能,OpenAl用戶還可以使用其他一些功能但如果你想深入了解所有API那么請查看OpenAl的APl reference 頁面。 嵌入 由于模型依賴數學函數,因此它需要數值輸入來處理信息。然而,許多元素(如…