RAGFLOW~Enable RAPTOR

Enable RAPTOR

????????一種遞歸抽象方法,用于長上下文知識檢索和摘要,在廣泛語義理解和細微細節之間取得平衡。

????????RAPTOR(遞歸抽象處理用于樹狀組織檢索)是一種在2024年論文中引入的增強文檔預處理技術。它旨在解決多跳問答問題,通過遞歸聚類和對文檔片段進行摘要化來構建層次樹結構。這使得在長文檔中的上下文感知檢索更加有效。RAGFlow v0.6.0在數據提取和索引之間的數據預處理管道中集成了RAPTOR用于文檔聚類,如下圖所示。

????????我們使用這種新方法進行的測試在需要復雜多步驟推理的問題回答任務中展示了最先進的(SOTA)結果。通過結合RAPTOR檢索與我們內置的分塊方法和其他檢索增強生成(RAG)方法,您可以進一步提高問題回答的準確性。

? ? ? ??警告:啟用RAPER需要大量的內存、計算資源和tokens。

Basic principles

????????在原始文檔被分割成塊之后,這些塊根據語義相似性進行聚類,而不是按照它們在文本中的原始順序。然后,通過系統的默認聊天模型將這些簇總結為更高層次的塊。這個過程遞歸地應用,形成一個從下到上具有不同層次摘要的樹結構。如圖所示,初始塊形成葉節點(顯示為藍色),并遞歸地總結為根節點(顯示為橙色)。

????????

????????遞歸聚類和總結能夠捕捉到廣泛的理解(由根節點實現)以及多跳問答所需的細微細節(由葉節點實現)。

Scenarios

????????對于涉及復雜多步驟推理的多跳問答任務,問題和答案之間通常存在語義差距。因此,使用問題進行搜索往往無法檢索到有助于正確答案的相關片段。RAPTOR通過為聊天模型提供更豐富、更具上下文關聯性和相關性的片段來解決這一挑戰,使其能夠全面理解而不丟失細節。

????????知識圖譜也可以用于多跳問答任務。詳見構建知識圖譜的詳細信息。你可以使用任一方法或兩者結合,但要確保理解涉及的內存、計算和標記成本。

Prerequisites

????????系統的默認聊天模型用于總結聚類內容。在繼續之前,請確保已正確配置聊天模型。

Configurations?

????????RAPTOR功能默認是禁用的。要啟用它,請手動在知識庫的配置頁面上打開“使用RAPTOR增強檢索”開關。

Prompt

????????以下提示將遞歸應用于聚類摘要,{cluster_content}作為內部參數。我們建議您現在保持不變。設計將在適當時候更新。

Please summarize the following paragraphs... Paragraphs as following:{cluster_content}
The above is the content you need to summarize.

?Max token?

????????每個生成摘要塊的最大標記數。默認為256,最大限制為2048。

Threshold

????????在RAPTOR中,塊根據其語義相似性進行聚類。閾值參數設置塊被分組在一起所需的最小相似度。默認值為0.1,最大限制為1。較高的閾值意味著每個簇中的塊較少,較低的閾值則意味著更多。

Max cluster

????????創建的最大聚類數量。默認為64,最大限制為1024。

Random seed

????????一個隨機種子。點擊+以更改種子值。

相關資料:

? ? ? 1、?Enable RAPTOR | RAGFlow

??????2、??https://huggingface.co/papers/2401.18059

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/93853.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/93853.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/93853.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【機器人+相機通訊】宇樹科技相機通信

https://github.com/unitreerobotics/xr_teleoperate/blob/main/README_zh-CN.md 相機驅動與服務端 https://github.com/unitreerobotics/xr_teleoperate/blob/main/teleop/image_server/image_server.py 其中相機如果是realsense, 安裝好驅動后,可以使用命令查看…

機械學習中的一些優化算法(以邏輯回歸實現案例來講解)

一、混淆矩陣混淆矩陣是機器學習中評估分類模型性能的重要工具,尤其適用于二分類或多分類任務。它通過展示模型預測結果與實際標簽的匹配情況,幫助理解模型的錯誤類型(如假陽性、假陰性等)。以下通過二分類場景為例,結…

龍蜥受邀參加2025開放計算技術大會,解碼基礎模型驅動下的系統創新與生態共建

開放計算技術大會由全球最大的開放計算社區 OCP 發起,是開放計算領域生態覆蓋最廣且最具影響力的亞洲年度技術盛會。本屆大會由 OCP 與 OCTC(中國電子工業標準化技術協會開放計算標準工作委員會)兩大開放組織聯合主辦,將于 8 月 7…

第三階段—8天Python從入門到精通【itheima】-140節(pysqark實戰——基礎準備)

目錄 140節——pysqark實戰——基礎準備 1.學習目標 2.pysqark庫的安裝 3.pyspark的路徑安裝問題 一、為什么不需要指定路徑? 二、如何找到 pyspark 的具體安裝路徑? 三、驗證一下:直接定位 pyspark 的安裝路徑 四、總結:記…

數據庫中使用SQL作分組處理01(簡單分組)

1.簡單分組GroupBy什么就Select什么SELECT Name,Score From StudentScore GROUP BY Name,Score2.聚合函數(MAX SUM AVG COUNT)(1)計算1.表的全部字段都可以用聚合函數,但是篩選聚合函數的結果要用Having關鍵字2.聚合函數默認排除Null值IDName…

Linux基本服務——web服務解析

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 目錄 Web服務解析 虛擬Web主機 Web目錄訪問控制 Web服務解析 用途:基于 B/S 架構提供網頁的服務端程序 應用層協議:HTTP(TCP 80…

深入理解緩存淘汰策略:LRU vs LFU 完全解析

深入理解緩存淘汰策略:LRU vs LFU 完全解析 文章目錄深入理解緩存淘汰策略:LRU vs LFU 完全解析前言一、基礎概念解析1.1 LRU(Least Recently Used)- 最近最少使用1.2 LFU(Least Frequently Used)- 最少使用…

【C語言】字符函數與字符串函數詳解

文章目錄一、字符分類函數二、字符轉換函數三、strlen函數:計算字符串長度功能說明使用示例模擬實現四、strcpy函數:字符串拷貝功能說明模擬實現五、strcat函數:字符串追加功能說明模擬實現六、strcmp函數:字符串比較比較規則模擬…

uvicorn 啟動重復加載 多次加載

目錄 uvicorn 啟動重復加載 多次加載 解決方法1: 解決方法2: uvicorn 啟動重復加載 多次加載 fastapi_aa 是當前類 解決方法1: import uvicornfrom fastapi import FastAPIapp FastAPI()if __name__ "__main__":if sys.gett…

Bard AI本地部署教程:在自己的服務器上運行谷歌AI

Bard AI本地部署教程:在自己的服務器上運行谷歌AI 關鍵詞:Bard AI、本地部署、服務器、谷歌AI、運行教程 摘要:本文旨在為大家詳細介紹如何在自己的服務器上實現Bard AI的本地部署。我們會從背景知識講起,逐步深入到核心概念、算法原理、操作步驟,還會提供項目實戰案例和實…

應急響應處置案例(上)

本文目錄 目錄 本文目錄 Web安全事件 概述 案例1 - webshell 背景 排查情況 天眼 服務器 案例2 - Struts2 排查情況 天眼 服務器 案例3 - Redis未授權 背景 排查情況 天眼 服務器 案例4 - EW內網穿透 背景 排查情況 天眼 服務器 案例5 - 一句話木馬 背…

面試官問我:“為什么不能完全用對象替代指針?”我笑了:看看Google和Linux內核代碼就知道了!

本篇摘要 本篇將以最通俗易懂的語言,形象的講述為什么很多情境下,我們優先考慮的使用指針而不是對象本身,本篇將給出你答案! 一.從一個生活例子說起,形象秒懂 想象一下,你去圖書館借書,下面你…

CAMx大氣污染模擬全流程:Linux編譯/多重嵌套配置/SMOKE清單預處理/SA-DDM-PA工具應用與科研繪圖結果可視化分析

CAMx模型是一個基于大氣化學,針對臭氧、顆粒物和霧霾天氣過程的大氣污染物計算模型。【目標】:1、掌握CAMx模式的區域空氣質量模擬案例配置技術方法2、掌握SMOKE模型的CAMx模式大氣排放清單輸入準備方法3、掌握CAMx模式污染來源解析工具(SA&a…

嵌入式學習筆記-MCU階段-DAY10ESP8266模塊

1.ESP8266概述 官方網址:ESP8266 Wi-Fi MCU I 樂鑫科技 (espressif.com.cn) ESP8266模塊---wifi模塊 產品特點: 2.ESP8266中的wifi: ESP8266EX ?持 TCP/IP 協議,完全遵循 802.11 b/g/n WLAN MAC 協議,?持分布式控制功能 (DC…

如何快速通過軟件項目驗收,第三方軟件檢測機構的重要性

在客戶和開發團隊之間,最后臨門一腳的項目驗收環節總容易出現各種問題,以至于時間無限拉長,久久不見結束,為此給大家準備了一份如何快速通過軟件項目驗收的內容來幫助大家結束持久戰。 一、項目驗收準備材料 (一&…

洛谷做題3:P5711 【深基3.例3】閏年判斷

文章目錄題目描述輸入格式輸出格式輸入輸出樣例分析代碼題目描述 輸入一個年份,判斷這一年是否是閏年,如果是輸出 1,否則輸出 0。 1582 年以來,閏年的定義: 普通閏年:公歷年份是 4 的倍數,且不…

PMP證書可以掛靠嗎?怎么掛靠?

哈嘍學弟學妹們,作為過來人,今天想跟大家聊聊 PMP 證書掛靠這事兒 —— 可能不少準備考或者剛考完的同學都琢磨過,但學長得跟你們交個底:這事兒真不行,更別提啥掛靠費了。先說說 PMP 證書本身哈,它是美國 P…

91-基于Spark的空氣質量數據分析可視化系統

基于Spark的空氣質量數據分析可視化系統設計與實現 項目概述 本項目是一個基于Apache Spark的大數據分析和可視化系統,專門用于空氣質量數據的采集、分析、預測和可視化展示。系統采用分布式計算架構,結合機器學習算法,實現了對全國12個主要…

leetcode 2419. 按位與最大的最長子數組 中等

給你一個長度為 n 的整數數組 nums 。考慮 nums 中進行 按位與(bitwise AND)運算得到的值 最大 的 非空 子數組。換句話說,令 k 是 nums 任意 子數組執行按位與運算所能得到的最大值。那么,只需要考慮那些執行一次按位與運算后等于…

Git 命令使用指南:從入門到進階

目錄1. Git 基本操作1.1 添加文件到暫存區1.2 提交更改到本地倉庫1.3 查看工作區狀態1.4 查看提交歷史1.5 查看引用日志(包括已刪除的記錄)2. 版本回退與撤銷2.1 版本回退2.2 查看已刪除的提交記錄3. 分支管理3.1 查看分支3.2 創建并切換到新分支3.3 合并…