MultiHop-RAG:多跳查詢的基準檢索增強生成

【摘要】檢索增強生成(RAG)通過檢索相關知識來增強大語言模型(LLM),在減輕 LLM 幻覺和提高響應質量方面顯示出巨大的潛力,從而促進 LLM 在實踐中的廣泛采用。然而,我們發現現有的 RAG 系統不足以回答多跳查詢,這需要對多個支持證據進行檢索和推理。此外,據我們所知,現有的 RAG 基準測試數據集還沒有關注多跳查詢。在本文中,我們開發了一個新穎的數據集 MultiHop-RAG,它由知識庫、大量多跳查詢、其真實答案以及相關的支持證據組成。我們詳細介紹了構建數據集的過程,利用英語新聞文章數據集作為底層 RAG 知識庫。我們在兩個實驗中展示了 MultiHop-RAG 的基準測試實用性。第一個實驗比較了用于檢索多跳查詢證據的不同嵌入模型。在第二個實驗中,我們檢查了各種最先進的 LLM(包括 GPT-4、PaLM 和 Llama2-70B)在給定證據的情況下推理和回答多跳查詢的能力。這兩個實驗都表明,現有的 RAG 方法在檢索和回答多跳查詢方面的表現并不令人滿意。我們希望 MultiHop-RAG 能夠成為社區開發有效 RAG 系統的寶貴資源,從而促進法學碩士在實踐中得到更多采用。

原文:MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
地址:https://arxiv.org/abs/2401.15391v1
代碼:https://github.com/yixuantt/MultiHop-RAG/
出版:未知
機構: Hong Kong University of Science and Technology

1 研究問題

本文研究的核心問題是: 如何針對需要檢索和推理多個證據片段的多跳問題,構建一個檢索增強生成(RAG)評測數據集。

在金融分析場景下,用戶可能會提出類似"對比2023年三季報中谷歌、蘋果和英偉達的毛利率,誰的最高?"這樣的多跳問題。它需要從各公司財報中檢索相關證據,并進行比較推理得出最終答案。現有的RAG評測數據集主要聚焦單跳問題,缺乏對多跳問題的系統研究。

本文研究問題的特點和現有方法面臨的挑戰主要體現在以下幾個方面:

  • 多跳問題的答案分散在多個文檔中,需要模型具備跨文檔的檢索和推理能力。這對文本匹配模型提出了更高要求。

  • 構建多跳問題的評測集需要更細粒度的證據標注,既要標明問題的最終答案,還要標明推理鏈上的關鍵證據片段。人工標注的成本較高。

  • 評測集要具有良好的問題類型覆蓋性。基于對實際應用場景的觀察,本文將多跳問題歸納為推理類、比較類、時序類和空問題類四種。

  • 評測集的知識庫要與預訓練語言模型的訓練數據相區分,以測試模型在未見過的領域上的檢索推理能力。

針對這些挑戰,本文提出了一種基于GPT-4輔助構建的"MultiHop-RAG"數據集:

本文利用GPT-4強大的語言理解和生成能力,實現了MultiHop-RAG數據集的半自動化構建。具體而言,首先從一個新聞文章數據集出發,抽取每篇文章中的事實性句子作為原始證據。接著利用GPT-4改寫每個證據,生成對應的聲明,并識別出其中的核心實體和話題作為后續生成多跳問題的"橋接點"。然后再利用GPT-4圍繞相同的橋接實體或話題,構造出推理類、比較類、時序類和空問題類四種多跳問題及其答案。最后,本文還設計了一套嚴格的人工檢查和模型驗證流程,以保證構建數據的質量。

與依賴純人工方式構建的傳統做法相比,本文方法在保證數據質量的同時大幅提升了標注效率。更重要的是,借助GPT-4的知識化生成能力,本文得以構建出難度更高、類型更豐富的多跳問題。MultiHop-RAG最終包含了2500余個多跳問題,其中88%的問題答案需要結合知識庫中2-4個證據片段推理得出。在后續的評測實驗中,無論是檢索階段還是答案生成階段,現有的RAG模型在MultiHop-RAG上的表現都遠低于單跳問題,充分說明了該數據集對RAG模型研究的推動作用。

2 研究方法

論文提出了一種新的數據集MultiHop-RAG,旨在評估能夠從多個證據源檢索和推理信息以回答多跳查詢的檢索增強生成(RAG)系統的性能。MultiHop-RAG包含一個知識庫、大量多跳查詢及其參考答案和相關證據。

2.1 MultiHop-RAG數據集構建

2.1.1 知識庫構建

為了構建MultiHop-RAG的知識庫,論文使用mediastack API下載了大量英文新聞文章,涵蓋娛樂、商業、體育、技術、健康和科學等不同類別。為了模擬真實的RAG場景,論文選擇了2023年9月26日至12月26日期間發布的新聞,這個時間范圍超出了ChatGPT和LLaMA等廣泛使用的語言模型的知識截止點。此外,論文只保留了token數大于等于1024的文章,每篇新聞都有標題、發布日期、作者、類別、URL和新聞來源等元數據。

2.1.2 數據生成流程

論文采用了一個廣泛的流程來構建多樣化的多跳查詢集合,每個查詢都需要從知識庫中檢索和推理多個文檔。首先,論文使用訓練好的語言模型從每篇新聞文章中提取事實性或觀點性句子作為證據。然后,論文利用GPT-4對證據進行釋義,稱為"主張"(claim),并識別每個主張的主題(topic)和實體(entity)。這些主題和實體可以作為不同證據之間的橋梁,稱為bridge-topic或bridge-entity。接下來,論文使用GPT-4根據具有相同bridge-topic或bridge-entity的主張集合來生成具體的多跳查詢及其答案。最后,論文采取驗證步驟以確保數據質量,包括人工抽檢和使用GPT-4評估每個樣本是否滿足特定標準。

2.1.3 多跳查詢類型

根據真實RAG系統中常見的查詢類型,論文將多跳查詢分為四類:

  1. 推理查詢(Inference query):需要從證據集合中推理出答案。

  2. 比較查詢(Comparison query):需要比較證據集合中的事實。

  3. 時序查詢(Temporal query):需要分析檢索到的證據塊的時序信息。

  4. 空查詢(Null query):答案無法從檢索集合中得出。空查詢用于評估語言模型在缺乏相關證據時是否會產生幻覺。

這四種查詢類型代表了RAG系統在實踐中經常遇到的場景。例如,在一個由財務報告組成的知識庫中,分析師可能會詢問"谷歌、蘋果和英偉達中哪家公司在2023年第三季度報告中利潤率最高?"(比較查詢),或"蘋果過去三年的銷售趨勢如何?"(時序查詢)。

2.2 使用MultiHop-RAG進行評估

論文通過兩個實驗展示了如何使用MultiHop-RAG來評估RAG系統的檢索和生成性能。實驗使用基于LlamaIndex框架實現的RAG系統。

2.2.1 檢索任務

第一個實驗比較了不同嵌入模型在檢索多跳查詢相關證據方面的性能。實驗將知識庫中的文檔劃分為包含256個token的塊,并使用嵌入模型將文本塊轉換為向量表示。對于每個查詢,實驗檢索與查詢嵌入具有最高余弦相似度的前K個塊。實驗測試了多種嵌入模型,包括OpenAI的ada-embeddings、voyage-02、llm-embedder等。實驗使用平均精度(MAP@K)、平均倒數排名(MRR@K)和命中率(Hit@K)等指標評估檢索性能。

2.2.2 生成任務

第二個實驗評估了不同語言模型在給定檢索證據的情況下回答多跳查詢的能力。實驗考慮了兩種設置:1)使用表現最佳的檢索模型檢索前K個文本塊;2)直接使用與每個查詢相關的真實證據。后一種設置代表了語言模型生成能力的上限。實驗評估了GPT-4、GPT-3.5、PaLM、Claude-2、Llama2-70B和Mixtral-8x7B等領先的語言模型。結果表明,當前的RAG系統在有效檢索和回答多跳查詢方面還有很大的改進空間。即使在提供真實證據的情況下,開源語言模型的生成準確率也不理想。相比之下,GPT-4展現出較強的推理能力,但仍有進一步提升的空間。

總的來說,MultiHop-RAG數據集提供了一個具有挑戰性的基準,用于評估RAG系統從多個來源檢索和推理信息以回答復雜查詢的能力。論文詳細介紹了數據集的構建過程,展示了如何使用該數據集來評估RAG系統的不同組件,為RAG研究社區提供了有價值的資源。

4 實驗

4.1 實驗場景介紹

該論文提出了一個新的多跳查詢數據集MultiHop-RAG,用于基于檢索的語言生成任務(Retrieval-augmented Generation, RAG)的評估。論文實驗旨在展示MultiHop-RAG數據集在評估RAG系統的檢索和生成能力方面的benchmarking作用。

4.2 實驗設置

  • 實驗使用論文提出的MultiHop-RAG數據集,該數據集包含一個知識庫、大量多跳查詢、相應的ground-truth答案以及支撐證據。

  • 實驗使用LlamaIndex框架實現RAG系統。

  • 評估指標:
    • 檢索任務使用MRR@K、MAP@K、Hits@K等指標

    • 生成任務使用Accuracy指標

  • 實驗環境:未提及

4.3 實驗結果

4.3.1 實驗一、不同Embedding模型在多跳查詢檢索任務上的表現對比

目的: 評估不同Embedding模型在多跳查詢檢索任務上的表現。

涉及圖表: 表5

實驗細節概述:

  • 將MultiHop-RAG知識庫中的文檔分割成chunks,每個chunk包含256個token

  • 使用不同的Embedding模型將chunk轉換為向量表示,存入向量數據庫

  • 使用相同的Embedding模型將查詢轉換為向量,檢索與查詢向量余弦相似度最高的Top-K個chunk

  • 評估檢索結果,NULL類型查詢不包含在評估中

結果:

  • 現有的Embedding模型在檢索多跳查詢相關證據方面表現不佳,即使使用Reranker技術,Hits@10的最佳結果也只有0.7467

  • 實際RAG系統中,語言模型的上下文窗口通常有限制,因此檢索的chunk數量受限,Hits@4只有0.6625,說明現有方法無法有效檢索多跳查詢的相關證據

4.3.2 實驗二、不同語言模型在多跳查詢生成任務上的表現對比

目的: 評估不同語言模型在多跳查詢生成任務上的表現。

涉及圖表: 表6,圖3

實驗細節概述:

  • 實驗一:使用實驗一中性能最佳的檢索模型(voyage-02+bge-reranker-large)檢索Top-K文本作為Language Model的輸入

  • 實驗二:直接使用每個查詢對應的ground-truth evidence作為Language Model的輸入,代表理想檢索結果下的Language Model表現上限

  • 評估GPT-4、GPT-3.5、Claude-2、Google-PaLM等商業模型和Mixtral-8x7B、Llama-2-70B等開源模型

結果:

  • 使用檢索文本作為輸入時,最先進的GPT-4模型的準確率也只有0.56

  • 即使直接使用ground-truth evidence作為輸入,GPT-4的準確率為0.89,其他模型更低,說明語言模型在多跳查詢推理方面還有很大提升空間

  • 不同類型的多跳查詢難度不同,Null Query較易判斷,而Comparison Query和Temporal Query對語言模型推理能力要求更高

4 總結后記

本論文針對現有Retrieval-Augmented Generation (RAG)系統在回答多跳查詢(Multi-hop query)方面表現不佳的問題,構建了一個新的數據集MultiHop-RAG。該數據集包含一個知識庫、大量多跳查詢及其標準答案和支撐證據。論文詳細介紹了利用新聞文章數據構建數據集的過程,并通過兩個實驗展示了MultiHop-RAG在評測RAG系統性能方面的有用性。實驗結果表明,現有RAG方法在檢索和回答多跳查詢方面表現欠佳。MultiHop-RAG有望成為社區開發有效RAG系統的寶貴資源。

疑惑和想法:

  1. 除了新聞文章,是否可以利用其他領域的文本來構建類似的多跳查詢數據集?不同領域的數據在RAG任務難度上可能存在差異。

  2. 除了精確匹配和Reranker,是否存在其他更有效的多跳查詢證據檢索方法?如何利用查詢分解、知識圖譜等技術來提升檢索性能?

  3. 論文目前只評測了生成準確性,是否可以引入其他指標如生成流暢性、多樣性等,以更全面地評估RAG系統的生成能力?

可借鑒的方法點:

  1. 利用GPT-4等強大語言模型自動構建大規模、高質量的評測數據集的方法可推廣到其他NLP任務。

  2. 多跳查詢的定義和分類方法可用于指導其他涉及多文檔推理的任務如多文檔摘要、開放域問答等的研究。

  3. 實驗中檢索模型和生成模型分別評測的思路可用于論文的發現和評估,有利用解耦不同模塊,定位RAG系統的優化方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/13798.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/13798.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/13798.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DNS域名解析服務器搭建

基礎介紹 DNS 從哪里獲取 IP 地址? 本地緩存: DNS服務器會將先前查詢過的域名和對應的IP地址存儲在本地緩存中,以便在后續查詢中加快響應速度。如果之前已經查詢過某個域名,DNS服務器會直接從本地緩存中獲取對應的IP地址。遞歸查…

02. Redis 事務

文章目錄 Redis 事務執行事務放棄事務編譯性異常運行時異常 Redis 事務 Redis 單條明令是原子性的,但Redis事務不保證原子性。 事務的本質就是:一組命令一起執行!一個事務中的所有命令都會被序列化,在事務執行過程中,會…

2024-05-19 問AI: 大語言模型的BPE方向是什么意思?

文心一言 大語言模型的上下文中,BPE(Byte-Pair Encoding)是一種常用的子詞單元(subword unit)編碼方法,尤其在處理自然語言處理任務時。這種方法的主要目的是解決自然語言中的詞匯表大小問題,特…

mock.js和apifox模擬接口的能力

mock.js 和 Apifox 都是前端開發中常用的工具,用于模擬后端接口和數據。下面是它們的主要特點和模擬接口的能力的比較: mock.js mock.js 是一個用于生成隨機數據的 JavaScript 庫。它允許你定義數據模板,并生成模擬數據。mock.js 主要用于前…

VSCode下STM32開發環境搭建

VSCode下STM32開發環境搭建 需要的軟件 make-3.81 https://udomain.dl.sourceforge.net/project/gnuwin32/make/3.81/make-3.81.exe arm-none-eabi-gcc https://developer.arm.com/open-source/gnu-toolchain/gnu-rm/downloads https://links.jianshu.com/go?tohttps%3A%2F%…

RH850F1KM-S4-100Pin_ R7F7016453AFP MCAL Gpt 配置

1、Gpt組件包含的子配置項 GptDriverConfigurationGptDemEventParameterRefsGptConfigurationOfOptApiServicesGptChannelConfigSet2、GptDriverConfiguration 2.1、GptAlreadyInitDetCheck 該參數啟用/禁用Gpt_Init API中的GPT_E_ALREADY_INITIALIZED Det檢查。 true:開啟Gpt_…

Django5+React18前后端分離開發實戰13 使用React創建前端項目

先將nodejs的版本切換到18: 接著,創建項目: npx create-react-app frontend接著,使用webstorm打開這個剛創建的項目: 添加一個npm run start的配置: 通過start啟動服務: 瀏覽器訪問&…

機器學習之決策樹算法

使用決策樹訓練紅酒數據集 完整代碼: import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn import tree, datasets from sklearn.model_selection import train_test_split# 準備數據,這里…

【云原生】Kubernetes 核心概念

什么是 Kubernetes Kubernetes,從官方網站上可以看到,它是一個工業級的容器編排平臺。Kubernetes 這個單詞是希臘語,它的中文翻譯是“舵手”或者“飛行員”。在一些常見的資料中也會看到“ks”這個詞,也就是“k8s”,它…

科大訊飛筆試題---刪除數字

1、 題目描述: 給定一個長度為 n 的數組,數組元素為 a1, a2, . . , an,每次能刪除任意 a 的任意一位,求將所有數字變成 0 最少需要幾步。例如 103 若刪除第 1 位則變成 3; 若刪除第 2 位則變成13; 若刪除第 3 位則變成 10。 輸入…

AWS容器之Amazon ECS

Amazon Elastic Container Service(Amazon ECS)是亞馬遜提供的一種完全托管的容器編排服務,用于在云中運行、擴展和管理Docker容器化的應用程序。可以理解為Docker在云中對應的服務就是ECS。

c語言如何將一個文本內容復制到另外一個文本里

c語言如果要把一個文本文件的文件復制到另外一個文件里&#xff0c;代碼如下 #include<stdio.h>int main() {FILE *fp1,*fp2;char a;fp1fopen("D://cyy//aaa.txt","r");fp2fopen("ccc.cpu","w");while(a!EOF){afgetc(fp1);fput…

linux:切分大文件

文章目錄 1. 前言2. 用法3. 例子 1. 前言 如果傳輸、存儲過程中出現大文件&#xff0c;希望切分成小文件。在 Linux 中&#xff0c;可以使用多種工具來切分大文件&#xff0c;最常用的是 split 命令。split 命令可以將一個大文件按照指定大小切分成多個小文件。 2. 用法 spl…

ImageMagick入門教程(免費圖片格式轉換)

起因是因為我不會圖片轉換,且發現很多圖片轉換都要錢,尤其是pdf轉jpg,于是我就是找到了這個包,自己處理.當然包時不會導的,所以只能用它提供的命令了. 準備工作 下載imagemagick:ImageMagick – Download 我下載的這個,傻瓜式安裝就行,把所有勾勾都勾上,然后要記住安裝路徑,然…

一文讀懂RDMA: Remote Direct Memory Access(遠程直接內存訪問)

目錄 ?編輯 引言 一、RDMA的基本原理 二、RDMA的主要特點 三、RDMA的編程接口 四、RDMA的代碼演示 服務器端代碼&#xff1a; 客戶端代碼&#xff1a; 五、總結 引言 RDMA&#xff0c;全稱Remote Direct Memory Access&#xff0c;即遠程直接內存訪問&#xff0c;是…

客戶機/服務器交互模式

目錄 概述 網絡應用軟件的地位和功能 C/S 模式的特性 容易混淆的術語 C/S 模式的通信過程 網絡協議與 C/S 模式的關系 錯綜復雜的 C/S 交互 總結 概述 客戶機/服務器&#xff08;Client/Server&#xff0c;簡稱 C/S&#xff09;交互模式是一種常見的網絡應用軟件架構&a…

【ChatGPT】 Microsoft Edge 瀏覽器擴展使用 GPT

【ChatGPT】添加 Microsoft Edge 瀏覽器插件免費使用 GPT 文章目錄 準備工作添加擴展注意事項 使用 ChatGPT 可以更高效的搜索到想要的內容&#xff0c;有效節約在搜索引擎中排查正確信息的時間。 準備工作 準備一臺可上網的電腦電腦上安裝有 Windows 自帶的 Microsoft Edge …

二.常見算法--貪心算法

&#xff08;1&#xff09;單源點最短路徑問題 問題描述&#xff1a; 給定一個圖&#xff0c;任取其中一個節點為固定的起點&#xff0c;求從起點到任意節點的最短路徑距離。 例如&#xff1a; 思路與關鍵點&#xff1a; 以下代碼中涉及到宏INT_MAX,存在于<limits.h>中…

python+selenium - UI自動框架之封裝查找元素

單一的元素定位方法不能滿足所有元素的定位&#xff0c;可以根據每個元素的特點來找到合適的方法&#xff0c;可以參考下圖的方法&#xff1a; elementFind.py from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_con…

Vue filter實戰詳解

在 Vue.js 中&#xff0c;filter 是一種用于在模板中對數據進行格式化的功能。它可以用來對數據進行處理、過濾或格式化&#xff0c;然后在模板中直接使用。 filter 是一種全局的 Vue 實例方法&#xff0c;可以在任何組件的模板中使用。 1.定義全局過濾器&#xff1a; 在 Vue…