【山河送書第七期】:《強化學習:原理與Python實戰》揭秘大模型核心技術RLHF!

《強化學習:原理與Python實戰》揭秘大模型核心技術RLHF!

  • 一·圖書簡介
  • 二·RLHF是什么?
  • 三·RLHF適用于哪些任務?
  • 四·RLHF和其他構造獎勵模型的方法相比有何優劣?
  • 五·什么樣的人類反饋才是好反饋?
  • 六·如何減小人類反饋帶來的負面影響?
  • 七·購買鏈接
  • 八·參與方式
  • 九·往期贈書回顧

一·圖書簡介

在這里插入圖片描述

RLHF(Reinforcement Learning with Human Feedback,人類反饋強化學習)雖是熱門概念,并非包治百病的萬用仙丹。本問答探討RLHF的適用范圍、優缺點和可能遇到的問題,供RLHF系統設計者參考。

二·RLHF是什么?

強化學習利用獎勵信號訓練智能體。有些任務并沒有自帶能給出獎勵信號的環境,也沒有現成的生成獎勵信號的方法。為此,可以搭建獎勵模型來提供獎勵信號。在搭建獎勵模型時,可以用數據驅動的機器學習方法來訓練獎勵模型,并且由人類提供數據。我們把這樣的利用人類提供的反饋數據來訓練獎勵模型以用于強化學習的系統稱為人類反饋強化學習,示意圖如下。
在這里插入圖片描述

三·RLHF適用于哪些任務?

RLHF適合于同時滿足下面所有條件的任務

  • 要解決的任務是一個強化學習任務,但是沒有現成的獎勵信號并且獎勵信號的確定方式事先不知道。為了訓練強化學習智能體,考慮構建獎勵模型來得到獎勵信號。
  • 反例:比如電動游戲有游戲得分,那樣的游戲程序能夠給獎勵信號,那我們直接用游戲程序反饋即可,不需要人類反饋。
  • 反例:某些系統獎勵信號的確定方式是已知的,比如交易系統的獎勵信號可以由賺到的錢完全確定。這時直接可以用已知的數學表達式確定獎勵信號,不需要人工反饋。
  • 不采用人類反饋的數據難以構建合適的獎勵模型,而且人類的反饋可以幫助得到合適的獎勵模型,并且人類來提供反饋可以在合理的代價(包括成本代價、時間代價等)內得到。如果用人類反饋得到數據與其他方法采集得到數據相比不具有優勢,那么就沒有必要讓人類來反饋。

在這里插入圖片描述

四·RLHF和其他構造獎勵模型的方法相比有何優劣?

獎勵模型可以人工指定,也可以通過有監督模型、逆強化學習等機器學習方法來學習。RLHF使用機器學習方法學習獎勵模型,并且在學習過程中采用人類給出的反饋。

比較人工指定獎勵模型與采用機器學習方法學習獎勵模型的優劣
這與對一般的機器學習優劣的討論相同。機器學習方法的優點包括不需要太多領域知識、能夠處理非常復雜的問題、能夠處理快速大量的高維數據、能夠隨著數據增大提升精度等等。機器學習算法的缺陷包括其訓練和使用需要數據時間空間電力等資源、模型和輸出的解釋型可能不好、模型可能有缺陷、覆蓋范圍不夠或是被攻擊(比如大模型里的提示詞注入)。

比較采用人工反饋數據和采用非人工反饋數據的優劣
人工反饋往往更費時費力,并且不同人在不同時候的表現可能不一致,并且人還會有意無意地犯錯,或是人類反饋的結果還不如用其他方法生成數據來的有效,等等。我們在后文會詳細探討人工反饋的局限性。采用機器收集數據等非人工反饋數據則對收集的數據類型有局限性。有些數據只能靠人類收集,或是用機器難以收集。這樣的數據包括是主觀的、人文的數據(比如判斷藝術作品的藝術性),或是某些機器還做不了的事情(比如玩一個AI暫時還不如人類的游戲)。
在這里插入圖片描述

五·什么樣的人類反饋才是好反饋?

好的反饋需要夠用:反饋數據可以用來學成獎勵模型,并且數據足夠正確、量足夠大、覆蓋足夠全面,使得獎勵模型足夠好,進而在后續的強化學習中得到令人滿意的智能體。
這個部分涉及的評價指標包括:對數據本身的評價指標(正確性、數據量、覆蓋率、一致性),對獎勵模型及其訓練過程的評價指標、對強化學習訓練過程和訓練得到的智能體的評價指標。

好的反饋需要是可得的反饋。反饋需要可以在合理的時間花費和金錢花費的情況下得到,并且在成本可控的同時不會引發其他風險(如法律上的風險)。

涉及的評價指標包括數據準備時間數據準備涉及的人員數量數據準備成本是否引發其他風險的判斷

六·如何減小人類反饋帶來的負面影響?

針對人類反饋費時費力且可能導致獎勵模型不完整不正確的問題,可以在收集人類反饋數據的同時就訓練獎勵模型、訓練智能體,并全面評估獎勵模型和智能體,以便于盡早發現人類反饋的缺陷。發現缺陷后,及時進行調整。

針對人類反饋中出現的反饋質量問題以及錯誤反饋,可以對人類反饋進行校驗和審計,如引入已知獎勵的校驗樣本來校驗人類反饋的質量,或為同一樣本多次索取反饋并比較多次反饋的結果等。

針對反饋人的選擇不當的問題,可以在有效控制人力成本的基礎上,采用科學的方法選定提供反饋的人。可以參考數理統計里的抽樣方法,如分層抽樣、整群抽樣等,使得反饋人群更加合理。

對于反饋數據中未包括反饋人特征導致獎勵模型不夠好的問題,可以收集反饋人的特征,并將這些特征用于獎勵模型的訓練。比如,在大規模語言模型的訓練中可以記錄反饋人的職業背景(如律師、醫生等),并在訓練獎勵模型時加以考慮。當用戶要求智能體像律師一樣工作時,更應該利用由律師提供的數據學成的那部分獎勵模型來提供獎勵信號;當用戶要求智能體像醫生一樣工作時,更應該利用由醫生提供的數據學成的那部分獎勵模型來提供獎勵信號。

上述內容摘編自《強化學習:原理與Python實戰》,經出版方授權發布。(ISBN:978-7-111-72891-7)

在這里插入圖片描述

七·購買鏈接

🎁🎁京東鏈接:https://item.jd.com/13815337.html

八·參與方式

🎁🎁
抽獎方式:評論區隨機抽取五位小伙伴免費送出!!
參與方式:關注博主、點贊、收藏、評論區評論“人生苦短,我愛Python!”
(切記要點贊+收藏,否則抽獎無效,每個人最多評論三次!)
活動截止時間:2023-08-21 20:00:00

九·往期贈書回顧

【山河贈書第一期】:《Python從入門到精通(微課精編版》三本
【山河贈書第二期】:《零基礎學會Python編程(ChatGPT版》一本
【山河贈書第三期】:《Python機器學習:基于PyTorch和Scikit-Learn 》四本
【山河送書第四期】:《Python之光:Python編程入門與實戰》五本
【山河送書第五期】:《碼上行動:利用Python與ChatGPT高效搞定Excel數據分析》三本
【山河送書第六期】:《碼上行動:零基礎學會Python編程( ChatGPT版)》兩本

🎁🎁加入粉絲群,不定期發放粉絲福利,各種專業書籍免費贈送!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/42279.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/42279.shtml
英文地址,請注明出處:http://en.pswp.cn/news/42279.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LVGL圖層的介紹

一.UI界面顯示的圖層 在lvgl開發的過程中,UI界面的顯示都是位于lv_sct_act()圖層 二.彈窗顯示 lvgl開發過程中,有些窗口有可能在任何時候顯示,比如錯誤信息彈窗,外部觸發的一些中斷。 這個時候,這些窗口不能建立在lv_s…

web前端開發基礎入門html5+css3+js學習筆記(一)

目錄 1.第一個前端程序2.前端工具的選擇與安裝3.VSCode開發者工具快捷鍵4.HTML5簡介與基礎骨架4.1 HTML5的DOCTYPE聲明4.2 HTML5基本骨架4.2.1 html標簽4.2.2 head標簽4.2.3 body標簽4.2.4 title標簽4.2.5 meta標簽 5.標簽之標題5.1 快捷鍵5.1 標題標簽位置擺放 6.標簽之段落、…

LeetCode每日一題——2682. 找出轉圈游戲輸家

n 個朋友在玩游戲。這些朋友坐成一個圈&#xff0c;按 順時針方向 從 1 到 n 編號。從第 i 個朋友的位置開始順時針移動 1 步會到達第 (i 1) 個朋友的位置&#xff08;1 < i < n&#xff09;&#xff0c;而從第 n 個朋友的位置開始順時針移動 1 步會回到第 1 個朋友的位…

leetcode 377. 組合總和 Ⅳ

2023.8.17 本題屬于完全背包問題&#xff0c;乍一看和昨天那題 零錢兌換II 類似&#xff0c;但細看題目發現&#xff1a;今天這題是排列問題&#xff0c;而“零錢兌換II”是組合問題。排列問題強調順序&#xff0c;而組合順序不強調順序。 這里先說個結論&#xff1a;先遍歷物品…

并查集、樹狀數組

并查集、樹狀數組、線段樹 并查集樹狀數組樹狀數組1 (單點修改&#xff0c;區間查詢)樹狀數組2 (單點查詢&#xff0c;區間修改) 并查集 【模板】并查集 題目描述 如題&#xff0c;現在有一個并查集&#xff0c;你需要完成合并和查詢操作。 輸入格式 第一行包含兩個整數 …

Scala中的Either的用法

在 Scala 中&#xff0c;Either 是一種表示兩種可能值的數據類型。它可以用來處理函數可能返回的兩種不同類型的結果&#xff0c;通常用于錯誤處理或者結果分支情況。Either 有兩個子類&#xff1a;Left 和 Right&#xff0c;其中 Left 通常用于表示錯誤或異常情況&#xff0c;…

1.物聯網LWIP網絡,TCP/IP協議簇

一。TCP/IP協議簇 1.應用層&#xff1a;FTP&#xff0c;HTTP&#xff0c;Telent&#xff0c;DNS&#xff0c;RIP 2.傳輸層&#xff1a;TCP&#xff0c;UDP 3.網絡層&#xff1a;IPV4&#xff0c;IPV6&#xff0c;OSPF&#xff0c;EIGRP 4.數據鏈路層&#xff1a;Ethernet&#…

YOLOv5改進系列(21)——替換主干網絡之RepViT(清華 ICCV 2023|最新開源移動端ViT)

【YOLOv5改進系列】前期回顧: YOLOv5改進系列(0)——重要性能指標與訓練結果評價及分析 YOLOv5改進系列(1)——添加SE注意力機制 YOLOv5改進系列(2

兩階段提交:詳解數據庫宕機引起的主從不一致問題、redolog與binlog的兩階段提交

0、基礎知識and問題 從基礎上我們了解&#xff1a; &#xff08;1&#xff09;redolog作為數據庫保證持久化的日志&#xff0c;在update事務提交后就會按一定的策略刷入磁盤中&#xff0c;在刷入后&#xff0c;即使數據庫斷電宕機&#xff0c;mysql也能從redolog中恢復數據到磁…

Matplotlib數據可視化(六)

目錄 1.繪制概率圖 2.繪制雷達圖 3.繪制流向圖 4.繪制極坐標圖 5.繪制詞云圖 1.繪制概率圖 from scipy.stats import norm fig,ax plt.subplots() plt.rcParams[font.family] [SimHei] np.random.seed() mu 100 sigma 15 x musigma*np.random.randn(437) num_bins …

【騰訊云 Cloud Studio 實戰訓練營】在線 IDE 編寫 canvas 轉換黑白風格頭像

關于 Cloud Studio Cloud Studio 是基于瀏覽器的集成式開發環境(IDE)&#xff0c;為開發者提供了一個永不間斷的云端工作站。用戶在使用Cloud Studio 時無需安裝&#xff0c;隨時隨地打開瀏覽器就能在線編程。 Cloud Studio 作為在線IDE&#xff0c;包含代碼高亮、自動補全、Gi…

winform 設置畫刷半透明

使用solidBrush新建畫刷&#xff0c;定義畫刷的顏色為透明色 Brush b new SolidBrush(Color.FromArgb(50, Color.Green)); 這里的50是透明度的設置&#xff0c;范圍從0-255&#xff1b; 0:無顏色 255:不透明 轉&#xff1a;c# 設置Brush 畫刷 透明_solidcolorbrush 透明色_…

git-fatal: No url found for submodule path ‘packages/libary‘ in .gitmodules

文章目錄 前言一、git submodule功能使用二、錯誤信息&#xff1a;三、解決方法&#xff1a;四、.gitmodules配置文件&#xff1a;總結 前言 最近在做vue項目&#xff0c;因為項目比較復雜&#xff0c;把功能拆分成很多子模塊&#xff0c;我們使用Git的submodule功能。遇到錯誤…

使用libvncserver庫快速搭建VNC服務端

文章目錄 VNC是什么libvncserver的優點和缺點構建libvncserver使用libvncserver搭建VNCServerX11模擬鼠標鍵盤操作libvncserver中處理鼠標鍵盤消息 VNC是什么 VNC(Virtual Network Computing)是一種使用遠程幀緩沖協議(RFB)的屏幕分享及遠程操作軟件。VNC的服務端可以通過RFP協…

Linux開機啟動程序添加root權限

Linux添加開機啟動程序 Debain、Ubuntu系列Linux開機之后會執行/etc/rc.local文件中的命令&#xff0c;所以&#xff0c;如果是想添加登陸用戶所具有權限的操作&#xff0c;可以在文件中exit 0之前添加開機自動執行的腳本命令。或者將執行腳本的權限修改為當前登錄用戶具有執行…

基于R語言APSIM模型進階應用與參數優化、批量模擬

隨著數字農業和智慧農業的發展&#xff0c;基于過程的農業生產系統模型在模擬作物對氣候變化的響應與適應、農田管理優化、作物品種和株型篩選、農田固碳和溫室氣體排放等領域扮演著越來越重要的作用。APSIM (Agricultural Production Systems sIMulator)模型是世界知名的作物生…

moodle單點登陸

在moodle/login添加sso.php <?phprequire(../config.php); require_once(lib.php);if($_SERVER[REQUEST_METHOD]==GET){$tokenId=$_GET[tokenId]; }else{$tokenId="fail";

C++新經典03--共用體、枚舉類型與typedef

共用體 共用體&#xff0c;也叫聯合&#xff0c;有時候需要把幾種不同類型的變量存放到同一段內存單元&#xff0c;例如&#xff0c;把一個整型變量、一個字符型變量、一個字符數組放在同一個地址開始的內存單元中。這三個變量在內存中占的字節數不同&#xff0c;但它們都從同…

idea 轉換為 Maven Project 的方法

選項&#xff1a; Add as Maven Project

通過TightVNC遠程訪問MacOS

目錄 一、下載 TightVNC 下載鏈接&#xff1a;https://www.tightvnc.com/ 下載后按步驟進行安裝&#xff0c;安裝完成后安裝目錄如下&#xff1a; 運行 tvnviewer.exe&#xff0c;輸入遠程 IP&#xff0c;點擊【connect】&#xff1a; 輸入密碼&#xff0c;點擊【OK】后即可遠…