【論文閱讀】RAG-Reward: Optimizing RAG with Reward Modeling and RLHF

研究背景

  1. 研究問題:這篇文章要解決的問題是如何優化檢索增強生成(RAG)系統,特別是通過獎勵建模和人類反饋強化學習(RLHF)來提高大型語言模型(LLMs)在RAG任務中的效果。
  2. 研究難點:該問題的研究難點包括:如何定義評估生成質量的指標,如何構建高質量的偏好數據集,以及如何有效地利用LLMs進行自動標注。
  3. 相關工作:該問題的研究相關工作有:HH-RLHF、PRM800K、RAG-Truth等,這些工作分別評估語言的幫助性、無害性、逐步正確性以及檢測RAG系統中的幻覺現象。

研究方法

這篇論文提出了RAG-Reward,一種用于優化RAG的數據集和方法。具體來說,

  1. 數據集構建:首先,從QA、data2Text和Summary三個領域選擇了現有的RAG數據集,包括WebGLM、Yelp和XSum。然后,使用12個開源和專有LLMs(如GPT-4和Llama-3系列)生成多樣化的響應。對于每個數據集中的每個提示,隨機選擇兩個LLMs的響應進行比較。

  1. 自動標注:使用GPT-4o作為評判者,根據四個關鍵指標(幻覺、全面性、冗長性和歸因)對生成的響應進行比較。這些指標由人類專家精心選擇和定義。通過多數投票法構建偏好對,最終收集了35K的高質量訓練樣本。

  2. 獎勵建模采用Bradley-Terry獎勵模型來學習偏好信號。具體來說,使用Llama-3.1-8B-Instruct作為基礎模型進行訓練,學習率為2e-6,全局批量大小為64,最大長度為4096,訓練1個epoch。

  3. 強化學習使用RAFT算法進行偏好對齊。RAFT利用reward model從N個候選響應中選擇得分最高的響應,并在該響應集上微調策略模型。實驗中設置N=16,初始策略模型為Llama-3.2-3B-Instruct和Mistral-7B-Instruct-v0.1,微調學習率為5e-6,訓練1個epoch。

實驗設計

  1. 數據收集:從WebGLM、Yelp和XSum數據集中收集了11000、12000和12000個訓練樣本,分別用于問答、數據到文本和總結任務(這35K用于訓練reward model)。每個數據集還包含500個測試樣本。
  2. 實驗設計:使用35K偏好對進行獎勵建模,并創建一個3K樣本的開發集用于RLHF訓練期間的采樣和學習。使用1.5K樣本的保留測試集評估策略和獎勵模型的性能。
  3. 樣本選擇:對于每個問題和其對應的參考,隨機選擇兩個LLMs的生成響應形成偏好對。
  4. 參數配置:獎勵模型使用Llama-3.1-8B-Instruct進行訓練,學習率為2e-6,全局批量大小為64,最大長度為4096,訓練1個epoch。RAFT算法中,初始策略模型為Llama-3.2-3B-Instruct和Mistral-7B-Instruct-v0.1,微調學習率為5e-6,訓練1個epoch。

結果與分析

  1. 獎勵模型性能:獎勵模型在三個任務上的準確率分別為WebGLM 84.8%、Yelp 88.2%、XSum 78.4%,平均準確率為83.8%。這表明獎勵模型能夠有效地對齊生成質量。

????????2. 偏好對齊:使用RAFT算法進行偏好對齊后,策略模型在三個任務上的勝率分別為? WebGLM 66.8%、Yelp 54.4%、XSum 68.2%,平均勝率為63.1%。這表明對齊訓練顯著提高了策略模型的性能。

????????3. 自我評估:隨機選擇1000個樣本進行重新評估,結果顯示GPT-4o的自我評估一致性率超過90%,表明標注數據集的高質量和穩定性。

????????4. 人類評估:隨機選擇100個樣本進行人類評估,結果顯示人類評估與GPT-4o標注數據集的一致性率為71%,表明AI輔助標注在多個RAG任務中的潛力。

總體結論

這篇論文介紹了RAG-Reward,一個高質量偏好數據集,旨在優化檢索增強生成(RAG)系統。通過自動AI標注管道和GPT-4o評估,構建了涵蓋多個領域的多樣化基準數據集。實驗結果表明,RAG-Reward在獎勵建模和強化學習中表現出色,驗證了其有效性和數據集質量。

優點與創新

  1. 引入RAG場景的獎勵建模方法:論文提出了一種針對RAG場景的獎勵建模方法,并發布了一個高質量的35K偏好標注數據集,以支持未來的研究。
  2. 綜合評估指標:定義了一套綜合評估RAG質量的指標,并指導數據集構建過程。
  3. 廣泛的實驗驗證:進行了廣泛的實驗來評估獎勵模型,訓練策略模型,并展示了該方法在提高RAG性能方面的有效性。
  4. 自動化的LLM注釋管道:開發了一種新穎的自動化LLM注釋管道,生成高質量的偏好數據集RAG-Reward。
  5. 多領域數據集:數據集跨越多個領域,包括問答、數據到文本和摘要,形成了一個大規模且多樣化的基準。
  6. 高一致性率:通過自我評估和人類評估,驗證了GPT-4o生成的標簽具有高度一致性,確保了數據集的質量。

不足與反思

  1. 現有獎勵模型的局限性:許多現有的獎勵模型在評估聊天、安全和推理任務時表現出色,但在RAG場景中的整體準確性低于80%,顯示出顯著差距。
  2. 領域特定訓練數據的必要性:當前主要在推理任務上訓練的獎勵模型可能無法有效泛化到評估RAG特定的生成內容,表明領域特定的訓練數據對于縮小這一差距和提高RAG性能評估至關重要。

關鍵問題及回答

問題1:RAG-Reward數據集的構建過程中,如何選擇和生成多樣化的響應?

在RAG-Reward數據集的構建過程中,研究團隊采用了多種策略來確保生成的響應具有多樣性和高質量。具體步驟如下:

  1. 數據集選擇:選擇了三個現有的RAG數據集,包括WebGLM(問答)、Yelp(數據到文本)和XSum(總結)。
  2. 模型選擇:使用了12個開源和專有的LLMs,包括GPT-4和Llama-3系列,以確保生成的響應具有多樣性。
  3. 響應生成:對于每個數據集中的每個提示,隨機選擇兩個LLMs生成響應。這樣可以確保每個提示都有兩種不同的生成結果,從而增加數據的多樣性。
  4. 評判標準:使用GPT-4o作為評判者,根據四個關鍵指標(幻覺、全面性、冗長性和歸因)對生成的響應進行比較,構建偏好對。

通過這些策略,RAG-Reward數據集成功地收集了35K高質量的訓練樣本,確保了數據集的多樣性和可靠性。

問題2:RAG-Reward數據集的標注方法是如何確保標注的一致性和質量的?

RAG-Reward數據集的標注方法通過以下步驟確保標注的一致性和質量:

  1. 使用GPT-4o進行標注:研究團隊使用GPT-4o作為主要標注工具,通過提示GPT-4o比較兩個生成的響應,并根據四個關鍵指標(幻覺、全面性、冗長性和歸因)選擇偏好響應
  2. 多輪標注:為了確保標注的一致性,研究團隊設計了多輪標注流程。具體來說,對于每個數據集中的每個提示和對應的偏好對,GPT-4o會被要求重新評估其之前的判斷,確保其選擇的響應在所有指標上都是一致的。
  3. 自我評估:研究團隊還進行了自我評估,隨機選擇1000個樣本進行重新評估,測量GPT-4o在不同任務上的標注一致性。結果顯示,整體一致性率超過90%,表明GPT-4o能夠提供穩定且一致的標注結果。
  4. 人工評估:為了進一步驗證標注質量,研究團隊還進行了人工評估。隨機選擇100個樣本,由標注員根據相同的標準進行評估。結果顯示,人工評估與GPT-4o標注的一致性率為71%,展示了AI輔助標注在多個RAG任務中的潛力。

通過這些方法,RAG-Reward數據集確保了標注的高質量和一致性,為后續的獎勵建模和強化學習提供了可靠的基礎。

問題3:RAG-Reward數據集在獎勵建模和偏好對齊實驗中的表現如何?

RAG-Reward數據集在獎勵建模和偏好對齊實驗中表現出色,具體結果如下:

  1. 獎勵模型性能:獎勵模型在三個任務上的準確率分別為WebGLM 84.8%、Yelp 88.2%、XSum 78.4%,平均準確率為83.8%。這表明獎勵模型能夠有效地對齊預期標準,區分選定的響應和被拒絕的響應。
  2. 偏好對齊效果:經過一次RAFT迭代后,策略模型在三個任務上的勝率分別為WebGLM 66.8%、Yelp 54.4%、XSum 68.2%,平均勝率為63.1%。此外,GPT-4o也傾向于選擇后訓練策略模型生成的響應,平均勝率為66.2%。這些結果表明,RAFT算法能夠有效地利用獎勵模型進行偏好對齊,顯著提升策略模型的性能。

總體而言,RAG-Reward數據集在獎勵建模和偏好對齊實驗中表現出色,驗證了其在提高RAG系統性能方面的潛力。研究結果為未來的RAG系統評估和生成提供了新的思路和工具。

問題4: Reward模型和Policy模型分別是如何進行測評的??

獎勵模型(Reward Model)的評估:

  1. 訓練:獎勵模型通過偏好數據集進行訓練,該數據集由多個候選響應對組成,每個對包含一個被選中的響應和一個被拒絕的響應。獎勵模型的目標是學習一個能夠區分這些響應的獎勵函數。

  2. 評估

  • 準確性(Accuracy):在測試階段,獎勵模型為每對候選響應分配分數,并計算其準確性。準確性: prefer response score > reject response score, scores由reward模型給出。
  • 跨任務一致性:獎勵模型在多個任務上進行評估,以確保其在不同場景下的泛化能力。

策略模型(Policy Model)的評估:

  1. 基線模型:首先,使用未經微調的策略模型生成響應。

  2. 微調:使用獎勵模型和強化學習算法(如RAFT)對策略模型進行微調。微調的目標是提高策略模型生成高質量響應的能力。

  3. 評估

  • 勝率(Win Rate):在測試集上,裁判對SFT后和SFT前模型的回答進行選擇。勝率定義為SFT后策略模型生成的響應被選中的比例。裁判:reward模型、GPT-4o、人類裁判。
  • 一致性:通過比較人類評估者和獎勵模型的評估結果來評估一致性,以確保獎勵模型的評估結果與人類偏好一致。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/67703.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/67703.shtml
英文地址,請注明出處:http://en.pswp.cn/web/67703.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【數據結構】(3)包裝類和泛型

一、包裝類 1、什么是包裝類 將基礎類型包裝成的類就是包裝類。由于基礎類型不是繼承 Object 類的類,所以在泛型不能直接支持基礎類型,為了解決這個問題,就需要把基礎類型轉換為對應的包裝類。 基礎類型對應的包裝類 基礎類型包裝類byteByte…

DBUtils中QueryRunner(空參,傳數據源)構造方法的區別及應用場景

關于學習Spring框架時重構DAO層時,遇到的QueryRunner構造方法的問題,回憶MySQL中DBUtils部分 1. 空參構造方法 new QueryRunner() 特點: 不綁定數據源:QueryRunner 實例內部沒有 DataSource,因此無法自動獲取連接。 …

C++11線程

C11提供了線程庫&#xff0c;下面我們來看一下如何使用。 線程的創建 頭文件 要創建一個線程需要包一個線程頭文件:#include <thread> 我們先來看看thread支持的構造方式。 支持默認構造&#xff0c;直接使用thread創建一個空的線程對象。 也支持帶參的構造&#x…

梯度提升用于高效的分類與回歸

人工智能例子匯總:AI常見的算法和例子-CSDN博客 使用 決策樹(Decision Tree) 實現 梯度提升(Gradient Boosting) 主要是模擬 GBDT(Gradient Boosting Decision Trees) 的原理,即: 第一棵樹擬合原始數據計算殘差(負梯度方向)用新的樹去擬合殘差累加所有樹的預測值重…

Golang 并發機制-3:通道(channels)機制詳解

并發編程是一種創建性能優化且響應迅速的軟件的強大方法。Golang&#xff08;也稱為 Go&#xff09;通過通道&#xff08;channels&#xff09;這一特性&#xff0c;能夠可靠且優雅地實現并發通信。本文將揭示通道的概念&#xff0c;解釋其在并發編程中的作用&#xff0c;并提供…

Unity開發游戲使用XLua的基礎

Unity使用Xlua的常用編碼方式&#xff0c;做一下記錄 1、C#調用lua 1、Lua解析器 private LuaEnv env new LuaEnv();//保持它的唯一性void Start(){env.DoString("print(你好lua)");//env.DoString("require(Main)"); 默認在resources文件夾下面//幫助…

筆記:使用ST-LINK燒錄STM32程序怎么樣最方便?

一般板子在插件上&#xff0c; 8腳 3.3V;9腳 CLK;10腳 DIO;4腳GND ST_Link 19腳 3.3V;9腳 CLK;7腳 DIO;20腳 GND 燒錄軟件&#xff1a;ST-LINK Utility&#xff0c;Keil_5; ST_Link 接口針腳定義&#xff1a; 按定義連接ST_Link與電路板&#xff1b; 打開STM32 ST-LINK Uti…

網絡測試工具

工具介紹&#xff1a; 這是一個功能完整的網絡測速工具&#xff0c;可以測試網絡的下載速度、上傳速度和延遲。 功能特點&#xff1a; 1. 速度測試 - 下載速度測試 - 上傳速度測試 - Ping延遲測試 - 自動選擇最佳服務器 2. 實時顯示 - 進度條顯示測試進度 - 實時顯示測試狀…

java每日精進1.31(SpringSecurity)

在所有的開發的系統中&#xff0c;都必須做認證(authentication)和授權(authorization)&#xff0c;以保證系統的安全性。 一、基礎使用 1.依賴 <dependencies><!-- 實現對 Spring MVC 的自動化配置 --><dependency><groupId>org.springframework.bo…

簡單的SQL語句的快速復習

語法的執行順序 select 4 字段列表 from 1 表名列表 where 2 條件列表 group by 3 分組前過濾 having 分組后過濾 order by 5 排序字段列表 limit 6 分頁參數 聚合函數 count 統計數量 max 最大值 min 最小值 avg 平均 sum 總和 分組查詢使…

《程序人生》工作2年感悟

一些雜七雜八的感悟&#xff1a; 1.把事做好比什么都重要&#xff0c; 先樹立量良好的形象&#xff0c;再橫向發展。 2.職場就是人情世故&#xff0c;但也不要被人情世故綁架。 3.要常懷感恩的心&#xff0c;要記住幫助過你的人&#xff0c;愿意和你分享的人&#xff0c;有能力…

17.2 圖形繪制8

版權聲明&#xff1a;本文為博主原創文章&#xff0c;轉載請在顯著位置標明本文出處以及作者網名&#xff0c;未經作者允許不得用于商業目的。 17.2.10 重繪 先看以下例子&#xff1a; 【例 17.28】【項目&#xff1a;code17-028】繪制填充矩形。 private void button1_Clic…

自定義數據集 使用pytorch框架實現邏輯回歸并保存模型,然后保存模型后再加載模型進行預測,對預測結果計算精確度和召回率及F1分數

import numpy as np import torch import torch.nn as nn import torch.optim as optim from sklearn.metrics import precision_score, recall_score, f1_score# 數據準備 class1_points np.array([[1.9, 1.2],[1.5, 2.1],[1.9, 0.5],[1.5, 0.9],[0.9, 1.2],[1.1, 1.7],[1.4,…

neo4j入門

文章目錄 neo4j版本說明部署安裝Mac部署docker部署 neo4j web工具使用數據結構圖數據庫VS關系數據庫 neo4j neo4j官網Neo4j是用ava實現的開源NoSQL圖數據庫。Neo4作為圖數據庫中的代表產品&#xff0c;已經在眾多的行業項目中進行了應用&#xff0c;如&#xff1a;網絡管理&am…

腳本運行禁止:npm 無法加載文件,因為在此系統上禁止運行腳本

問題與處理策略 1、問題描述 npm install -D tailwindcss執行上述指令&#xff0c;報如下錯誤 npm : 無法加載文件 D:\nodejs\npm.ps1&#xff0c;因為在此系統上禁止運行腳本。 有關詳細信息&#xff0c;請參閱 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_…

Java基礎——分層解耦——IOC和DI入門

目錄 三層架構 Controller Service Dao ?編輯 調用過程 面向接口編程 分層解耦 耦合 內聚 軟件設計原則 控制反轉 依賴注入 Bean對象 如何將類產生的對象交給IOC容器管理&#xff1f; 容器怎樣才能提供依賴的bean對象呢&#xff1f; 三層架構 Controller 控制…

智慧園區系統集成解決方案引領未來城市管理的智能化轉型

內容概要 在現代城市管理的背景下&#xff0c;“智慧園區系統集成解決方案”正扮演著越來越重要的角色。這種解決方案不僅僅是技術上的創新&#xff0c;更是一種全新的管理理念&#xff0c;它旨在通過高效的數據整合與分析&#xff0c;優化資源配置&#xff0c;提升運營效率。…

99.24 金融難點通俗解釋:MLF(中期借貸便利)vs LPR(貸款市場報價利率)

目錄 0. 承前1. 什么是MLF&#xff1f;1.1 專業解釋1.2 通俗解釋1.3 MLF的三個關鍵點&#xff1a; 2. 什么是LPR&#xff1f;2.1 專業解釋2.2 通俗解釋2.3 LPR的三個關鍵點&#xff1a; 3. MLF和LPR的關系4. 傳導機制4.1 第一步&#xff1a;央行調整MLF4.2 第二步&#xff1a;銀…

【VM】VirtualBox安裝CentOS8虛擬機

閱讀本文前&#xff0c;請先根據 VirtualBox軟件安裝教程 安裝VirtualBox虛擬機軟件。 1. 下載centos8系統iso鏡像 可以去兩個地方下載&#xff0c;推薦跟隨本文的操作用阿里云的鏡像 centos官網&#xff1a;https://www.centos.org/download/阿里云鏡像&#xff1a;http://…

Elasticsearch中的度量聚合:深度解析與實戰應用

在大數據和實時分析日益重要的今天&#xff0c;Elasticsearch以其強大的搜索和聚合能力&#xff0c;成為了眾多企業和開發者進行數據分析和處理的首選工具。本文將深入探討Elasticsearch中的度量聚合&#xff08;Metric Aggregations&#xff09;&#xff0c;展示其如何在數據分…