A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型語言模型的訓練后優化綜述——第2部分

3、微調(上一部分內容)

4、LLMs的對齊

大型語言模型(LLMs)中的對齊涉及引導模型輸出以符合人類預期和偏好,特別是在安全關鍵或用戶面對的應用程序中。本章討論了實現對齊的三個主要范式:

  • 帶有反饋的人工智能強化學習(Reinforcement Learning with Human Feedback, §4.1):使用人類標記的數據作為獎勵信號。
  • 帶有AI反饋的強化學習(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反饋來解決可擴展性問題。
  • 直接偏好優化(Direct Preference Optimization, §4.3):直接從成對的人類偏好數據中學習,不需要明確的獎勵模型。

每種范式在其追求強健對齊的過程中提供了獨特的優點、挑戰和權衡。表2簡要對比了這些方法及相關技術。

表2: 大型語言模型對齊方法的比較概述(2022-2024)

此表評估了突出的對齊技術在八個指標上的表現:

  • RM1(顯式或隱式獎勵模型)
  • RM2(點獎勵或偏好概率模型)
  • RM3(響應級或令牌級獎勵)
  • RM4(正向或負向獎勵模型)
  • F(反饋類型:人類或AI)
  • RL1(參考模型或無參考模型的RL)
  • RL2(在線策略或離線策略RL)
  • O(在線/迭代或離線/非迭代優化)

通過對這些指標的評估,可以幫助研究人員和實踐者根據特定需求選擇最適合的對齊方法。這些方法各自具有不同的特點,可以根據應用場景的不同要求進行調整和應用。

4.1 帶有人類反饋的強化學習

監督微調(SFT)[45]一直是引導大型語言模型(LLMs)遵循人類指令的基礎技術。然而,在純監督場景中,注釋數據的多樣性和質量可能是不均衡的,而且監督模型捕捉更細微或適應性更強的人類偏好的能力往往有限。因此,提出了基于強化學習(RL)的微調來解決這些不足。在RL方法中,基于人類反饋的強化學習(RLHF)[104]是最早且最具影響力的基于RL的訓練后對齊方法之一。

如圖8所示,RLHF首先以偏好標簽或獎勵信號的形式收集人類反饋,然后使用這些信息訓練一個獎勵模型。在這個獎勵模型的指導下,策略被迭代地調整以更好地匹配人類偏好。與SFT相比,RLHF包含連續的、由偏好驅動的更新,從而帶來更強的對齊結果。值得注意的是,現代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都從這些機制中受益,展示了在指令跟隨、事實一致性以及用戶相關性方面的改進。下面,我們將討論RLHF的主要組成部分,包括反饋機制、獎勵建模和策略學習策略。

這張圖展示了基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)的工作流程,旨在通過訓練過程使大型語言模型(LLMs)與人類偏好對齊。圖中分為兩個主要階段:獎勵訓練(Reward Training)和策略訓練(Policy Training)。以下是詳細解釋:

圖8: 基于人類反饋的強化學習(RLHF)工作流程

a) 獎勵訓練 (Reward Training)
  1. 輸入數據:

    • 輸入數據包括上下文(Contexts)和續篇(Continuations),這些數據被提供給策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根據輸入的上下文生成續篇。
    • 生成的續篇被傳遞給人類標注者(Human Labeler)進行評估。
  3. 人類標注者 (Human Labeler):

    • 人類標注者對策略模型生成的續篇進行評估,并給出標簽(Labels)。
  4. 獎勵模型 (Reward Model):

    • 獎勵模型接收上下文和續篇,并根據人類標注者的標簽計算獎勵(Reward)。
    • 獎勵模型通過調整權重來優化其預測,以更好地匹配人類偏好。
  5. 損失函數 (Loss Function):

    • 損失函數用于衡量獎勵模型的預測與人類標注者提供的標簽之間的差異。
  6. 更新權重 (Update Weights):

    • 根據損失函數的值,獎勵模型的權重被更新,以減少損失并提高預測準確性。
b) 策略訓練 (Policy Training)
  1. 輸入數據:

    • 輸入數據包括上下文(Contexts)和續篇(Continuations),這些數據被提供給策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根據輸入的上下文生成續篇。
    • 生成的續篇被傳遞給獎勵模型進行評估。
  3. 獎勵模型 (Reward Model):

    • 獎勵模型接收上下文和續篇,并根據之前訓練得到的權重計算獎勵(Reward)。
  4. 損失函數 (Loss Function):

    • 損失函數用于衡量策略模型生成的續篇與獎勵模型預測的獎勵之間的差異。
  5. 更新權重 (Update Weights):

    • 根據損失函數的值,策略模型的權重被更新,以減少損失并提高生成續篇的質量。

總結

  • 獎勵訓練 (Reward Training):

    • 通過人類標注者的反饋訓練獎勵模型,使其能夠準確地預測人類偏好。
    • 獎勵模型的權重通過反向傳播算法進行更新,以最小化損失函數。
  • 策略訓練 (Policy Training):

    • 使用訓練好的獎勵模型來評估策略模型生成的續篇。
    • 策略模型的權重通過反向傳播算法進行更新,以最小化損失函數,從而生成更符合人類偏好的續篇。

通過這兩個階段的迭代訓練,最終的策略模型能夠生成更高質量、更符合人類偏好的續篇。

4.1.1 RLHF中的反饋機制

人類反饋是RLHF的核心,它向獎勵模型提供關于用戶偏好的信息,并指導策略更新。本小節采用文獻[124]中的分類法來對常見的人類反饋形式進行分類。表3展示了這些反饋類型在粒度、參與水平和明確性等方面的差異。每種反饋模式對模型優化的不同方面有所貢獻,提供了不同層次的可解釋性、可擴展性和噪聲容忍度。

表3: 人類反饋類型概覽

該表可能根據不同的維度對反饋類型進行了分類,例如:

  • 粒度:反饋可以針對整個輸出(粗粒度),也可以針對特定部分或步驟(細粒度)。
  • 參與水平:這指的是人類參與者在提供反饋時的深度,從簡單的二元判斷到詳細的解釋說明。
  • 明確性:指反饋提供的信息是否直接明確,還是需要模型通過推理或其他方式去理解。

通過這種分類,研究人員和工程師可以根據具體的應用需求選擇最適合的反饋模式,以優化模型的表現并提高其與人類偏好的一致性。這種方法使得基于人類反饋的強化學習成為一種強大的工具,用于提升LLMs在各種任務中的表現。

主要反饋(Primary Feedback)

這一類別包括最直接塑造RLHF中獎勵模型的反饋類型。例如,Critique [125] 側重于對代理行為的人類明確評估,通常通過二進制或多標簽注釋來細化以減少噪聲。Comparisons [126] 允許評估者比較多個輸出或軌跡;雖然更大的選擇集可以提供更豐富的信號,但它們也可能導致因果混淆。Inter-Temporal Feedback [127] 通過在不同時間步驟提供判斷來細化軌跡評估,而Proxy Rewards [128] 包含指導模型朝用戶定義目標前進的近似獎勵函數。Social Behavior [129] 利用隱式線索(如面部表情)使代理目標與用戶情感一致。Improvements [130] 強調實時人類干預以進行策略的增量細化。最后,Natural Language Feedback [131] 利用文本信息傳達偏好和改進建議。

補充反饋(Supplementary Feedback)

除了主要反饋之外,還有兩類進一步加強獎勵建模過程。緊急停止(E-stops)[132]允許人類通過停止代理的軌跡而不建議替代方案來進行干預。這種反饋的特點是隱式參與,并且專注于防止不期望的行為。相比之下,重要性標簽[133]指出特定觀察對于實現目標的重要性,提供了不會直接改變行為的明確反饋。這種反饋因上下文而異,作為補充輸入,強化了獎勵模型的整體學習過程。

特定表示反饋(Representation-Specific Feedback)

某些類型的反饋主要是增強表示學習而不是直接塑造獎勵函數。Feature Traces [134] 提示人類操作員演示給定特征中的單調變化,從而實現特征集的動態擴展。Similarity Queries [135] 比較三元組軌跡,通過軌跡空間中的成對距離引導表示學習。通過利用這些特定表示的反饋形式,RLHF可以在新任務和上下文中實現更強大的泛化能力。

4.1.2 強化學習與人類反饋(RLHF)的獎勵模型

  • 距離函數:最近的研究集中在考慮潛在轉換(如潛在塑形)的獎勵評估距離函數上。例如,EPIC [140] 測量不同轉換下的獎勵函數等價性,而DARD [141] 改進了規范處理以確保評估基于可行轉換。類似EPIC的距離[142]通過允許規范處理、規范化和度量函數的變化來推廣EPIC的方法論,STARC [143] 在保持EPIC理論特性的同時提供了額外的靈活性。

  • 視覺和人工檢查:其他方法依賴于可解釋性和精心策劃的數據集來衡量所學獎勵函數的有效性。PRFI [144] 使用預處理步驟簡化獎勵函數同時保留等效性,從而增強其透明度。同時,CONVEXDA 和 REWARDFUSION [145] 提出的數據集旨在測試獎勵模型如何一致地響應提示中的語義變化。這些技術共同促進了獎勵函數更可靠的評估,強化了大型語言模型與人類偏好的一致性。

4.1.3 RLHF的策略學習

如圖9所示,RLHF的策略學習包括通過人類反饋在在線和離線環境中優化策略。

  • 在線學習:在在線RLHF中,系統收集關于新生成模型軌跡的人類實時偏好。像DPS [146]這樣的算法使用貝葉斯更新來管理競爭過程,而PPS和PEPS [147]將動態規劃和多臂老虎機的想法結合起來以細化策略行為。在LPbRL [148]中,特征嵌入捕捉不斷演變的獎勵結構,PbOP [149] 集成最小二乘估計用于過渡動態和偏好信號。最近,PARL [150] 通過將反饋獲取視為策略優化不可或缺的一部分來提高數據收集效率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/72400.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/72400.shtml
英文地址,請注明出處:http://en.pswp.cn/web/72400.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

熱key探測技術架構設計與實踐

參考: 得物熱點探測技術架構設計與實踐 Redis數據傾斜與JD開源hotkey源碼分析揭秘 京東熱點檢測 HotKey 學習筆記 hotkey: 京東App后臺中間件,毫秒級探測熱點數據,毫秒級推送至服務器集群內存,大幅降低熱key對數據層查詢壓力 …

Windows 環境圖形化安裝 Oracle 23ai

文章目錄 Windows 環境安裝23ai下載Oracle 23ai安裝包安裝安裝詳細圖形界面連接Oracle 23ai 安裝過程中遇到的錯誤安裝過其他版本數據庫,設置了ORACLE_HOME或 TNS_ADMIN解決方法 無法訪問Windows Installer Serviece (error 1719)解決方法 其他注意 參考&#xff1a…

RabbitMQ支持的復雜的消息交換模式

RabbitMQ支持多種復雜的消息交換模式,這些模式通過不同的交換機類型和隊列特性實現,能夠滿足多樣化的業務需求。以下是RabbitMQ支持的主要復雜消息交換模式: 1. Direct Exchange(直連交換機) 直連交換機根據消息的路由…

基于SpringBoot3+Druid數據庫連接池與外部PostgreSQL的Kubernetes Pod YAML全解析

說明 一個基于Spring Boot 3 Druid 外部PostgreSQL的Kubernetes Pod YAML詳細解析,包含最佳實踐和關鍵配置說明: YAML apiVersion: apps/v1 kind: Deployment metadata:name: springboot-applabels:app: springboot-app spec:replicas: 2selector:ma…

Android 全局工具類 AppHolder:高效管理 Application 和 Activity

引言 介紹 AppHolder 的作用:全局管理 Application 和 Activity,簡化開發。適用場景:需要全局上下文和生命周期管理的場景。 功能特性 全局上下文管理。Activity 生命周期監聽。Fragment 生命周期監聽(可選)。應用狀態…

PyTorch 深度學習實戰(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中,我們介紹了 Proximal Policy Optimization (PPO) 算法,并使用它解決了 CartPole 問題。本文將深入探討 Deep Deterministic Policy Gradient (DDPG) 算法,這是一種用于連續動作空間的強化學習算法。我們將使用 PyTorch 實現 D…

【深度學習與大模型基礎】第5章-線性相關與生成子空間

線性相關是指一組向量中,至少有一個向量可以表示為其他向量的線性組合。具體來說,對于向量組 v1,v2,…,vn,如果存在不全為零的標量 c1,c2,…,cn使得: c1v1c2v2…cnvn0 則稱這些向量線性相關。否則,它們線性無關。 舉…

【Agent實戰】貨物上架位置推薦助手(RAG方式+結構化prompt(CoT)+API工具結合ChatGPT4o能力Agent項目實踐)

本文原創作者:姚瑞南 AI-agent 大模型運營專家,先后任職于美團、獵聘等中大廠AI訓練專家和智能運營專家崗;多年人工智能行業智能產品運營及大模型落地經驗,擁有AI外呼方向國家專利與PMP項目管理證書。(轉載需經授權) 目錄 結論 效果圖示 1.prompt 2. API工具封…

Go語言入門基礎詳解

一、語言歷史背景 Go語言由Google工程師Robert Griesemer、Rob Pike和Ken Thompson于2007年設計,2009年正式開源。設計目標: 兼具Python的開發效率與C的執行性能內置并發支持(goroutine/channel)簡潔的類型系統現代化的包管理跨…

HarmonyOS NEXT開發進階(十二):build-profile.json5 文件解析

文章目錄 一、前言二、Hvigor腳本文件三、任務與任務依賴圖四、多模塊管理4.1 靜態配置模塊 五、分模塊編譯六、配置多目標產物七、配置APP多目標構建產物八、定義 product 中包含的 target九、拓展閱讀 一、前言 編譯構建工具DevEco Hvigor(以下簡稱Hvigor&#x…

基于SSM + JSP 的圖書商城系統

基于SSM的圖書商城 網上書城、圖書銷售系統、圖書銷售平臺 |Java|SSM|HTML|JSP| 項目采用技術: ①:開發環境:IDEA、JDK1.8、Maven、Tomcat ②:技術棧:Java、…

色板在數據可視化中的創新應用

色板在數據可視化中的創新應用:基于色彩感知理論的優化實踐 引言 在數據可視化領域,色彩編碼系統的設計已成為決定信息傳遞效能的核心要素。根據《Nature》期刊2024年發布的視覺認知研究,人類大腦對色彩的識別速度比形狀快40%,色…

K8S學習之基礎二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ? DaemonSet控制器確保k8s集群中,所有節點都運行一個相同的pod,當node節點增加時,新節點也會自動創建一個pod,當node節點從集群移除,對應的pod也會自動刪除。刪除DaemonSet也會刪除創建的pod。…

PyTorch 系列教程:使用CNN實現圖像分類

圖像分類是計算機視覺領域的一項基本任務,也是深度學習技術的一個常見應用。近年來,卷積神經網絡(cnn)和PyTorch庫的結合由于其易用性和魯棒性已經成為執行圖像分類的流行選擇。 理解卷積神經網絡(cnn) 卷…

Spring Cloud Stream - 構建高可靠消息驅動與事件溯源架構

一、引言 在分布式系統中,傳統的 REST 調用模式往往導致耦合,難以滿足高并發和異步解耦的需求。消息驅動架構(EDA, Event-Driven Architecture)通過異步通信、事件溯源等模式,提高了系統的擴展性與可觀測性。 作為 S…

王者榮耀道具頁面爬蟲(json格式數據)

首先這個和英雄頁面是不一樣的,英雄頁面的圖片鏈接是直接放在源代碼里面的,直接就可以請求到,但是這個源代碼里面是沒有的 雖然在檢查頁面能夠搜索到,但是應該是動態加載的,源碼中搜不到該鏈接 然后就去看看是不是某…

【一起來學kubernetes】12、k8s中的Endpoint詳解

一、Endpoint的定義與作用二、Endpoint的創建與管理三、Endpoint的查看與組成四、EndpointSlice五、Endpoint的使用場景六、Endpoint與Service的關系1、定義與功能2、創建與管理3、關系與交互4、使用場景與特點 七、Endpoint的kubectl命令1. 查看Endpoint2. 創建Endpoint3. 編輯…

結構型模式之橋接模式:解耦抽象和實現

在面向對象設計中,我們經常遇到需要擴展某些功能,但又不能修改現有代碼的情況。為了避免繼承帶來的復雜性和維護難度,橋接模式(Bridge Pattern)應運而生。橋接模式是一種結構型設計模式,旨在解耦抽象部分和…

如何用Java將實體類轉換為JSON并輸出到控制臺?

在軟件開發的過程中,Java是一種廣泛使用的編程語言,而在眾多應用中,數據的傳輸和存儲經常需要使用JSON格式。JSON(JavaScript Object Notation)是一種輕量級的數據交換格式,易于人類閱讀和編寫,…

Vue3 開發的 VSCode 插件

1. Volar Vue3 正式版發布,Vue 團隊官方推薦 Volar 插件來代替 Vetur 插件,不僅支持 Vue3 語言高亮、語法檢測,還支持 TypeScript 和基于 vue-tsc 的類型檢查功能。 2. Vue VSCode Snippets 為開發者提供最簡單快速的生成 Vue 代碼片段的方…