從PyTorch官方的一篇教程說開去(1 - 初心)

原文在此,喜歡讀原汁原味的可以自行去跟,這是一個非常經典和有學習意義的例子,在此向老爺子們致敬 -?

https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html

開源文化好是好,但是“公地的悲哀”這點避不開,很多論文/教程的代碼和環境配置,是存在問題的,有些源于依賴庫的變遷(上梁不正,python語言自己都不承諾版本向下兼容),有些是以訛傳訛,里外里浪費大家的很多時間。

當然,其實也是提醒大家多個心眼,不要只看文章如何 tree new bee,拿到代碼先在環境中跑一跑,心里有數了再引用或者轉載。

上圖自證(圖為本地,云上也驗證過)?-?

第一個問題是,為啥要學習強化學習?(這句話,放到小學考試中應該是病句,很遺憾,這就是咱們國內論文翻譯的現狀)

因為DeepMind(捎帶Google Brain牛B

坦白的說,在2022年openAI橫空出世以前10多年,人工智能一塊G家才是真正的“遙遙領先”(收購DeepMind) ,你所聽說的術語和工具基本只此一家,別無分號。

截至2021年,產品也是為天下先,流量感滿滿:

? ? ? ? -?Google Brain,第一個能識別“貓”的AI,技術棧是監督學習(大約理解為,請一大堆兼職工對海量圖片進行瘋狂的標記,輸出用來培養AI),公開直播在Youtube上面隨機視頻中找貓;

? ? ? ? 這也是今天百度“蘿卜快跑”的主要技術棧;

? ? ? ? - 2016,阿爾法go用圍棋祭天,法力無邊,技術棧是DQN,公開直播對壘世界冠軍李世石,搞得我看了好幾遍的《棋魂》看不進去了;

? ? ? ? - 2017,Tensorflow,業界CNN標桿,你可以理解為手機里的安卓,瀏覽器里的Chrome,也是我們本次的教程背后的庫;(當然,馬斯克的特斯拉不想讓G家獨大,選擇了F家的PyTorch)

? ? ? ? - 2019,AlphaStar聯合暴雪,技術棧是DQN,公開直播AI對壘星際爭霸2,看完我直接卸載游戲(大家也可以去網上找Replay,感受一下);

????????兩位對手(下圖,雖然不是韓國人,缺少點說服力) -?
????????左)蟲族選手 TLO,Liquid 戰隊,Aligulac 世界排名72 。要求蟲族選手使用神族/星靈,有點強人所難。
?????????- 戰績 0:5 全敗!
????????右)星靈族選手MaNa,波蘭第二,單族排名世界第 12,不分種族世界第35,實力在二線職業選手中屬于頂尖。
?????????- 戰績 1:10 唯一勝局來自ai主動削弱!

? ? ? ? - 2019,(開始年份不確定)正式放棄Maven,也就是配合美軍的項目;

? ? ? ? - 2021,AlphaFold,AI正式應用于科研第一線;

呃,年紀大了,一不小心就喜歡掉書袋,(¬︿??¬☆),其實故事里面也有一根暗線就是埃隆馬斯克(怎么總是你 : How old are you),不過畢竟我們不是純懷舊帖子,八卦略去不提。

回到技(zhuang)術(bi),這篇教程使用了gymnasium環境(注意,不是gym,gym官方已經不維護,不推薦使用)里面的自帶例程,Cate Pole,倒立擺,就是通過向左或向右移動小車來保持桿子的直立。能夠在更久的時間或者更多的步數中屹立不倒,是本例的目標,也是最后評估的標準。

這里是直接取得了環境參數用于訓練,并不谷歌,谷歌的玩法都是要直接游戲中,標準幀率截圖,然后讀圖取得參數并用于訓練。

深度學習的基礎是CNN卷積神經網絡,也就是把輸入參數和輸出參數之間,放置一個多層的,用來轉換的神經網絡。比如這個例子中,就是4個參數/神經輸入,轉為第一層128個神經,經由第二層的128個神經,最終變換為最后的2個參數輸出。

深度學習還應用了其他方法/算法,典型的本例都有涉及,我在這個系列的文章中也都會依次展開,如 -

????????1)梯度下降算法,

????????2)折扣因子-貪婪算法,

????????3)記憶錨(Replay Memory,基于抽幀回放),

????????4)策略優化。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/46347.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/46347.shtml
英文地址,請注明出處:http://en.pswp.cn/web/46347.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

每天一個數據分析題(四百三十七)- 統計量

若x1、x2、x3取自某總體的樣本,當期望a已知,方差c未知時,則以下不是統計量的是 A. x1x2x3 B. min{x1,x2,x3} C. a(x1x2)/2 D. (x1x2x3)/c 數據分析認證考試介紹:點擊進入 題目來源于CDA模擬題庫 點擊…

用c語言實現一個alexnet

在C語言中實現一個完整的AlexNet神經網絡是一個復雜的任務,涉及大量的矩陣運算和卷積操作。這個示例代碼將涵蓋AlexNet的主要組件,包括卷積層、ReLU激活函數、池化層和全連接層。 由于C語言本身沒有像Python的NumPy那樣的矩陣庫,我們需要自己編寫矩陣運算函數。另外,C語言…

高效運維:構建全面監控與自動化管理體系

在當今的數字化時代,運維管理已成為企業IT架構中不可或缺的一環。它不僅關乎系統的穩定運行,更直接影響到業務的響應速度、故障處理時間以及客戶滿意度等多個方面。因此,構建一套全面監控與自動化管理體系,對于提升企業運維效率、…

無人機之多旋翼與固定翼的區別

多旋翼無人機和固定翼無人機是無人機技術中的兩種主要形式,各自有獨特的優勢和應用場景。 一、飛行原理與結構 多旋翼無人機:依靠多個旋翼產生升力來平衡飛行器的重力,通過改變每個旋翼的轉速控制飛行器的姿態和平穩,使其能夠垂…

C++ //練習 15.22 對于你在上一題中選擇的類,為其添加合適的虛函數及公有成員和受保護的成員。

C Primer(第5版) 練習 15.22 練習 15.22 對于你在上一題中選擇的類,為其添加合適的虛函數及公有成員和受保護的成員。 環境:Linux Ubuntu(云服務器) 工具:vim 代碼塊 class Shape {public:S…

PDF文件無法編輯?3步快速移除PDF編輯限制

正常來說,我們通過編輯器打開pdf文件后,就可以進行編輯了。如果遇到了打開pdf卻不能編輯的情況,那有可能是因為密碼或是掃描件的原因。小編整理了一些pdf文件無法編輯,以及pdf文件無法編輯時我們要如何處理的方法。下面就隨小編一起來…

[word] word如何編寫公式? #微信#知識分享

word如何編寫公式? word如何編寫公式?Word中數學公式是經常會使用到的,若是要在文檔中錄入一些復雜的公式,要怎么做呢?接下來小編就來給大家講一講具體操作,一起看過來吧! 方法一:…

stm32學習:(寄存器3)系統架構

時鐘系統 時鐘樹 在STM32中有3種不同的時鐘源用來驅動系統時鐘(SYSCLK): HSI振蕩器時鐘(High Speed Internal oscillator,高速內部時鐘)HSE振蕩器時鐘(High Speed External(Oscillator / Clock&#xff…

Ruby爬蟲技術:深度解析Zhihu網頁結構

在互聯網時代,數據的價值日益凸顯,尤其是在社交媒體和問答平臺如Zhihu(知乎)上,用戶生成的內容蘊含著豐富的信息和洞察。本文將深入探討如何使用Ruby爬蟲技術來解析Zhihu的網頁結構,并獲取有價值的數據。 …

linux service小例

linux service 測試 1.創建一個app // myapp.c // 間隔10s寫入時間到文件 #include <stdio.h> #include <time.h> #include <unistd.h> // 引入unix標準函數定義&#xff0c;如sleep()int main() {FILE *fp;time_t now;char buffer[80];// 打開文件以追加模…

啊?原來你也看環法賽!—VELO Angel Glide坐墊,與你共攀環法榮耀之路!

當七月的熱浪席卷賽道&#xff0c;環法自行車賽&#xff08;Tour de France&#xff09;的戰鼓再次響起&#xff0c;挑戰與夢想交織的火花在每一寸賽道上綻放。自1903年首屆賽事以來&#xff0c;環法已成為全球最具聲望的自行車賽事&#xff0c;吸引著無數頂尖騎手和觀眾的目光…

c語言程序環境和預處理

test.c(源文件) --> 編譯器 --> test.obj(目標文件,在debug里) 鏈接庫和多個目標文件 經過 鏈接器的處理&#xff0c;最終生成可執行程序.exe 編譯階段 預處理/預編譯階段 &#xff1a;1.頭文件的包含 2.define定義符號的替換&#xff0c;并刪除定義的符號 3.刪除注釋 這…

醫學影像歸檔與通訊系統源碼,C#PACS源碼,涵蓋放射、超聲、內鏡、病理、核醫學

醫學影像歸檔與通訊系統&#xff08;PACS&#xff09;系統&#xff0c;是一套適用于從單一影像設備到放射科室、到全院級別等各種應用規模的醫學影像歸檔與通訊系統。PACS集患者登記、圖像采集、存檔與調閱、報告與打印、查詢、統計、刻錄等功能為一體&#xff0c;有效地實現了…

【保衛花果山】游戲

游戲介紹 拯救花果山是一款玩家能夠進行趣味闖關的休閑類游戲。拯救花果山中玩家需要保護花果山的猴子&#xff0c;利用各種道具來防御妖魔鬼怪的入侵&#xff0c;游戲中玩家需要面對的場景非常的多樣&#xff0c;要找到各種應對敵人的方法。拯救花果山里玩家可以不斷的進行闖…

【開源 Mac 工具推薦之 2】洛雪音樂(lx-music-desktop):免費良心的音樂平臺

舊版文章&#xff1a;【macOS免費軟件推薦】第6期&#xff1a;洛雪音樂 Note&#xff1a;本文在舊版文章的基礎上&#xff0c;新更新展示了一些洛雪音樂的新功能&#xff0c;并且描述更為詳細。 簡介 洛雪音樂&#xff08;GitHub 名&#xff1a;lx-music-desktop &#xff09;…

JavaScript學習筆記(九)

56、JavaScript 類 56.1 JavaScript 類的語法 請使用關鍵字 class 創建一個類。 請始終添加一個名為 constructor() 的方法。 JavaScript 類不是對象。 它是 JavaScript 對象的模板。 語法&#xff1a; class ClassName {constructor() { ... } }示例&#xff1a;例子創…

C#實現數據采集系統-ModbusTCP查詢報文分析和實現、通信實現、測試項目

ModbusTcp的應用 Modbus是工業通信協議中廣泛使用的協議,大部分設備都支持。Modbus TCP是一種基于TCP/IP網絡的工業通信協議,它是Modbus協議的一種變種,專門設計用于在網絡上傳輸數據。 Modbus TCP/IP保留了Modbus串行協議的數據結構和功能特性,同時利用了TCP/IP網絡的高…

什么是 std::ios::sync_with_stdio(false)

介紹 std::ios::sync_with_stdio(false) 是 C 中的一個配置設置&#xff0c;用于控制標準 I/O 流&#xff08;如 std::cin, std::cout&#xff09;的行為。這個設置主要用于優化輸入輸出操作的性能&#xff0c;尤其是在處理大量數據時。 在 C 中&#xff0c;標準流庫&#xf…

stm32:CAN通訊

目錄 介紹 協議層 CAN的 幀/報文 種類 數據幀 遠程幀&#xff08;遙控幀&#xff09; 錯誤幀 過載幀 幀間隔 總線仲裁 stm32的CAN外設 工作模式 測試模式 功能框圖 時序 標準時序 例子 環回靜默模式測試 寄存器代碼 HAL版本 介紹 一種功能豐富的車用總線標…

分布式存儲概述

1. 分布式存儲概念 大規模分布式存儲系統的定義如下: “分布式存儲系統是大量普通PC服務器通過Internet互聯&#xff0c;對外作為一個整體提供存儲服務。” 分布式存儲系統具有如下幾個特性: 可擴展。分布式存儲系統可以擴展到幾百臺甚至幾千臺的集群規模&#xff0c;而且&a…