【RAG】FoRAG:面向網絡增強型長形式問答的事實性優化RAG

一、解決問題

在基于網絡的長形式問答(Web-enhanced Long-form Question Answering, LFQA)任務中,現有RAG在生成答案時存在的問題:

  • 事實性不足:研究表明,現有系統生成的答案中只有大約一半的陳述能夠完全得到檢索到的參考資料的支持,這嚴重影響了這些系統的可信度。

  • 清晰邏輯的缺失:與短答案的傳統問答任務不同,LFQA任務中理想的答案往往需要多方面組織和整合信息,但現有的開源方法在生成答案時往往缺乏清晰的邏輯結構。

二、提綱增強RAG

提出提綱增強RAG,以改善長形式問題回答 LFQA 中生成答案的結構和質量。

2.1 Outline-Enhanced Generator

現有的開源方法在生成答案時,通常是直接將檢索到的內容與原始查詢拼接,然后使用特定的提示模板(prompt template)輸入到生成模型中。這種方法生成的答案往往較短,缺乏清晰的邏輯結構。為了提高答案的組織性,提出了 “Outline-Enhanced Generator”,它包含以下兩個階段:

  • Outline Stage(提綱階段):

    在此階段,生成器首先使用提綱模板,根據用戶查詢和上下文生成答案的提綱。提綱模板引導大型語言模型(LLM)考慮哪種組織模式最適合當前問題,例如“因果關系”或“比較對比”。然后,LLM根據選定的組織模式輸出提綱,為后續的擴展階段做準備。

  • Expansion Stage(擴展階段):

    基于前一階段生成的提綱,LLM擴展每個要點,構建最終答案。模型被要求在包含查詢、上下文和提綱的輸入下,生成對問題的答案。

注:提綱增強階段的生成器有SFT訓練得到。

2.2 Outline-Enhanced Long-Form QA Dataset

現有數據集和提綱增強答案的詳細統計數據

為了支持 “Outline-Enhanced Generator” 的訓練和評估,構建了兩個大規模的提綱增強型LFQA數據集。這些數據集利用現有的WebCPM和WebGLM數據集的查詢和相關段落,并通過GPT4模型應用提綱增強生成技術來收集提綱增強型答案。統計信息顯示,使用提綱增強技術生成的答案比現有工作中的答案更長,其具有更強的邏輯結構。

對比(英文)

對比(中文)

2.3 提綱增強數據構建提示詞

  • 英文提示詞

  • 中文提示詞

小結:通過引入提綱階段來增強生成答案的邏輯結構,并通過擴展階段來完善和詳細化答案內容,從而提高了長形式問題回答的質量。

三、事實性優化RAG

傳統的RLHF,優化事實性所面臨困難如下:

  • 數據標注成本高:手動標注事實性標簽通常成本很高,因為它涉及到比較長篇答案和對應長篇參考資料之間的事實細節。
  • 整體性獎勵信號稀疏:標準RLHF使用整體性獎勵,即只有在整個回答的最后一個token上才有非零獎勵,這為生成模型的訓練提供了稀疏的信號,在長篇回答中尤為明顯。

因此,提出了一種新穎的事實性優化方法(Doubly Fine-grained RLHF),旨在解決網絡增強型 LFQA 中的事實性問題。

3.1 Doubly Fine-grained RLHF

提出了一種新的事實性優化框架,通過在評估和獎勵建模中采用細粒度的設計,有效地提高了長形式問題回答中生成答案的事實性,同時減少了對人工標注的依賴。

細粒度評估(Fine-grained Evaluation):
  • 整體性(Holistic):使用單一事實性評分評估整個答案。
  • 句子級別(Sentence-level):將答案分割成句子,并分別評估每個句子。
  • 子聲明級別(Subclaim-level):進一步將每個句子分解為多個子聲明,并對每個子聲明單獨評估事實性。
細粒度獎勵建模(Fine-grained Reward Modeling):
  • Sequence-level:為每個序列學習單一的獎勵,反映相應序列的事實性。
  • Token-level:為序列中的每個token學習獎勵,通過聚合所有token級別的獎勵來計算序列的獎勵。
實現方法

不同粒度級別的自動評估和獎勵建模的每種組合的訓練損失

  • 獎勵模型訓練:使用Logloss或MSE損失函數來訓練獎勵模型,具體取決于評估過程中得到的是二元標簽還是連續值獎勵。

  • PPO優化:采用近端策略優化(Proximal Policy Optimization, PPO)來優化生成模型,通過最大化細粒度的獎勵信號來改善模型性能。

四、實驗結果

RAG和FoRAG對比

參考文獻

paper:FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering,https://arxiv.org/abs/2406.13779

huggingface:https://huggingface.co/forag

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37533.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37533.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37533.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Qt開發筆記:Qt3D三維開發筆記(一):Qt3D三維開發基礎概念介紹

若該文為原創文章,轉載請注明原文出處 本文章博客地址:https://blog.csdn.net/qq21497936/article/details/140059315 長沙紅胖子Qt(長沙創微智科)博文大全:開發技術集合(包含Qt實用技術、樹莓派、三維、O…

匯編語言基礎教程

匯編語言基礎教程 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿!今天我們將深入探討匯編語言的基礎知識和應用,幫助大家理解匯編語言在計算機編程中…

來自Claude官方的提示詞庫,支持中文!建議收藏!

大家好,我是木易,一個持續關注AI領域的互聯網技術產品經理,國內Top2本科,美國Top10 CS研究生,MBA。我堅信AI是普通人變強的“外掛”,所以創建了“AI信息Gap”這個公眾號,專注于分享AI全維度知識,包括但不限于AI科普,AI工具測評,AI效率提升,AI行業洞察。關注我,AI之…

多元時間序列分析——VAR(向量自回歸模型)

VAR模型主要是考察多個變量之間的動態互動關系,從而解釋各種經濟沖擊對經濟變量形成的動態影響。這種動態關系可通過格蘭杰因果關系、脈沖響應以及方差分解來進一步明確和可視化。VAR模型主要研究內生變量之間的關系,內生變量就是參與模型并由模型體系內…

通天星CMSV6車載監控平臺CompanyList信息泄露漏洞

1 漏洞描述 通天星CMSV6車載視頻監控平臺是東莞市通天星軟件科技有限公司研發的監控平臺,通天星CMSV6產品覆蓋車載錄像機、單兵錄像機、網絡監控攝像機、行駛記錄儀等產品的視頻綜合平臺。通天星科技應用于公交車車載、校車車載、大巴車車載、物流車載、油品運輸車載、警車車…

推薦一款程序員的搞錢神器

你是不是經常為開發環境的搭建而頭疼?有沒有遇到過因為接口開發而焦頭爛額的情況?作為一名程序員,特別是獨立開發者,這些問題是不是常常讓你覺得心力交瘁?別擔心,現在有一個神器,能讓你擺脫這些…

五、golang基礎之slice和map

文章目錄 一、slice(一)含義(二)定義切片(三)切片初始化(四)len() 和 cap() 函數(五)空(nil)切片(六)切片截取(七&#xf…

2024HVV最新POC/EXP,目前有8000+個POC/EXP

點擊"仙網攻城獅”關注我們哦~ 不當想研發的滲透人不是好運維 讓我們每天進步一點點 簡介 都是網上收集的POC和EXP,最新收集時間是2024年五月,需要的自取。 表里沒有的可以翻翻之前的文章,資源比較零散沒有整合起來。 文件鏈接&#xff…

hexo博客搭建

系列文章目錄 文章目錄 系列文章目錄前言1. 環境配置2. 打包并發布到github倉庫3. 生成ssh秘鑰4.vscode配置本地與遠端相對路徑不一致問題總結 前言 本文主要介紹了hexo博客怎么搭建 1. 環境配置 安裝git、nodejs、npm創建博客文件夾blogcmd輸入命令npm install -g hexo初始化…

10波形震蕩原因及采集設備安裝視頻

10波形震蕩原因及采集設備安裝視頻 排查過程算法軟件后臺解碼計算嵌入式采集設備準備視頻 結語其他以下是廢話 之前說過:“解決不了的真的就不是我這邊能解決的了”,這是因為我們充分排查了自身,那么問題出在哪里呢? 不愿溝通、不…

Spring Boot 全面解析:從入門到實踐案例

引言: Spring Boot 是由 Pivotal 團隊提供的全新框架,旨在簡化 Spring 應用的初始搭建以及開發過程。它基于 Spring 平臺,通過“約定優于配置”的原則,盡可能自動化配置,減少XML配置,使得開發者能夠快速啟…

矢量數據庫:概念、歷史、現狀與展望?

矢量數據庫:概念、歷史、現狀與展望? 李升偉 概念:矢量數據庫是一種專門用于存儲、檢索和搜索矢量的數據庫。在數據科學和機器學習中,矢量是表示數據的有序列表或數字序列,可以表示各種類型的數據,如文本…

阿里云智能編程助手的安裝使用

https://help.aliyun.com/document_detail/2590613.html 通義靈碼,是阿里云出品的一款基于通義大模型的智能編碼輔助工具,提供行級/函數級實時續寫、自然語言生成代碼、單元測試生成、代碼優化、注釋生成、代碼解釋、研發智能問答、異常報錯排查等能力&a…

前后端防重復提交

數據重復提交是一個大忌,會帶來無效數據,應該在前端和后端都建議檢測防范。 前端一般是按鈕按下觸發數據提交,如果用戶鼠標操作習慣不好,或者鼠標或系統設置問題會導致鼠標連擊,如果前端不做相關處理,可能會…

洞察數據資產的奧秘:深入剖析數據資產在企業運營中的核心作用,提出一套全面、系統的數據資產解決方案,幫助企業實現數據資產的最大化利用和增值

一、引言 在數字化浪潮洶涌的今天,數據已成為企業最寶貴的資產之一。數據資產不僅記錄了企業的歷史運營軌跡,更蘊含著指導未來決策的智慧。然而,如何有效管理、利用這些數據資產,使其轉化為企業的競爭優勢和利潤增長點&#xff0…

Vue3-04_組件基礎_下

props驗證 指的是在封裝組件時對外界傳遞過來的 props 數據進行合法性的校驗,從而防止數據不合法的問題。 使用數組類型的 props 節點的缺點是無法為每個 prop 指定具體的數據類型。 使用對象類型的 props 節點,可以對每個 prop 進行數據類型的校驗&am…

【云服務-5】Elasticsearch

Elasticsearch是什么?和大數據的關系? Elasticsearch 是一個分布式、開源的搜索和分析引擎,建立在 Apache Lucene 庫之上。它的主要特點包括: (1)快速、可擴展的搜索和分析能力 (2)支持多租戶和高可用性 …

python--基礎篇--正則表達式--py腳本--題目解答

文章目錄 驗證輸入用戶名和QQ號是否有效并給出對應的提示信息從一段文字中提取出國內手機號碼替換字符串中的不良內容拆分長字符串 驗證輸入用戶名和QQ號是否有效并給出對應的提示信息 """ 驗證輸入用戶名和QQ號是否有效并給出對應的提示信息要求:用…

常用數據庫簡單介紹

1. MySQL 優勢: 開源和免費:MySQL 是一個開源數據庫,擁有龐大的社區支持,易于獲取和使用。性能優秀:對于中小型項目,MySQL 提供了高效的性能和響應速度。跨平臺支持:MySQL 可以在各種操作系統…

扎克伯格抨擊閉源人工智能競爭對手試圖“創造上帝”

Meta 首席執行官馬克-扎克伯格(Mark Zuckerberg)在周四發表的一篇訪談中談到了他對人工智能未來的看法,他深信"不會只有一種人工智能"。扎克伯格強調了開源的價值,即把人工智能工具交到許多人手中,他還不忘貶…