FastGPT 引申:混合檢索完整實例

文章目錄

    • FastGPT 引申:混合檢索完整實例
      • 1. 各檢索方式的初始結果
      • 2. RRF合并過程
      • 3. 合并后的結果
      • 4. Rerank重排序后
      • 5. 最終RRF合并
      • 6. 內容總結

FastGPT 引申:混合檢索完整實例

下邊通過一個簡單的例子說明不同檢索方式的分值變化過程,假設我們有一個查詢:“如何使用Python進行數據分析”

1. 各檢索方式的初始結果

向量檢索結果 (相似度分數0-1):

1. {id: "doc1",q: "Python數據分析基礎教程",score: 0.85,type: "embedding"
}
2. {id: "doc2",q: "數據分析工具pandas使用",score: 0.78,type: "embedding"
}

全文檢索結果 (BM25分數):

1. {id: "doc2",q: "數據分析工具pandas使用",score: 8.5,type: "fullText"
}
2. {id: "doc3",q: "Python編程基礎",score: 6.2,type: "fullText"
}

2. RRF合并過程

使用公式: score = 1/(k + rank),這里 k=60

向量檢索RRF分數:

doc1: 1/(60 + 1) = 0.0164
doc2: 1/(60 + 2) = 0.0161

全文檢索RRF分數:

doc2: 1/(60 + 1) = 0.0164
doc3: 1/(60 + 2) = 0.0161

3. 合并后的結果

1. {id: "doc2",  // 出現在兩個結果中q: "數據分析工具pandas使用",score: [{type: "embedding", value: 0.78},{type: "fullText", value: 8.5},{type: "rrf", value: 0.0325}  // 0.0161 + 0.0164]
}2. {id: "doc1",q: "Python數據分析基礎教程",score: [{type: "embedding", value: 0.85},{type: "rrf", value: 0.0164}]
}3. {id: "doc3",q: "Python編程基礎",score: [{type: "fullText", value: 6.2},{type: "rrf", value: 0.0161}]
}

4. Rerank重排序后

假設重排序模型對這些文檔評分:

1. {id: "doc2",q: "數據分析工具pandas使用",score: [{type: "embedding", value: 0.78},{type: "fullText", value: 8.5},{type: "rrf", value: 0.0325},{type: "rerank", value: 0.92}]
}2. {id: "doc1",q: "Python數據分析基礎教程",score: [{type: "embedding", value: 0.85},{type: "rrf", value: 0.0164},{type: "rerank", value: 0.88}]
}3. {id: "doc3",q: "Python編程基礎",score: [{type: "fullText", value: 6.2},{type: "rrf", value: 0.0161},{type: "rerank", value: 0.75}]
}

5. 最終RRF合并

將重排序結果作為第三個來源(k=58)進行最終 RRF 合并:

doc2: 0.0325 + 1/(58 + 1) = 0.0325 + 0.0169 = 0.0494
doc1: 0.0164 + 1/(58 + 2) = 0.0164 + 0.0167 = 0.0331
doc3: 0.0161 + 1/(58 + 3) = 0.0161 + 0.0164 = 0.0325

6. 內容總結

展示如下環節:

  1. 不同檢索方式的分數范圍不同
  2. RRF 如何將不同分數統一到相同尺度
  3. 多次出現的文檔如何累加 RRF 分數
  4. 重排序如何提供額外的相關性評分

文檔排序綜合考慮:

  • 語義相似度(向量檢索)
  • 關鍵詞匹配(全文檢索)
  • 語義理解(重排序)
  • 在不同搜索結果中的排名位置(RRF)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897042.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897042.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897042.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在MATLAB環境中,對矩陣拼接(Matrix Concatenation)的測試

在MATLAB環境中,對矩陣拼接(Matrix Concatenation)的正確性與魯棒性開展測試時,需要依據不同的拼接場景精心設計測試用例,全面驗證矩陣維度、數據順序、邊界條件以及異常處理等關鍵方面。以下是詳盡的測試方法與具體示…

OpenFeign 學習筆記

OpenFeign 學習筆記 一、基礎入門 1.1 簡介 OpenFeign 是基于聲明式的 REST 客戶端,用于簡化服務間遠程調用。(編程式 REST 客戶端(RestTemplate)) 通過接口注解方式定義 HTTP 請求,自動實現服務調用。 …

“沂路暢通”便利服務平臺:賦能同城物流,構建高效暢通的貨運生態

“沂路暢通”便利服務平臺:賦能同城物流,構建高效暢通的貨運生態 隨著城市化進程的加速,同城物流需求迅速增長,然而貨運過程中仍然存在信息不對稱、資源浪費、司機服務體驗差等痛點。臨沂呆馬區塊鏈網絡科技有限公司(…

去除HTML有序列表(ol)編號的多種解決方案

以下是去除HTML有序列表(ol)編號的多種解決方案&#xff1a; <!DOCTYPE html> <html> <head> <style> /* 基礎方案&#xff1a;完全移除編號 */ ol.no-number {list-style-type: none; /* 移除默認編號 */padding-left: 0; /* 移除默認縮進 */…

es如何進行refresh?

在 Elasticsearch 中,refresh 操作的作用是讓最近寫入的數據可以被搜索到。以下為你介紹幾種常見的執行 refresh 操作的方式: 1. 使用 RESTful API 手動刷新 你可以通過向 Elasticsearch 發送 HTTP 請求來手動觸發 refresh 操作。可以針對單個索引、多個索引或者所有索引進…

Leetcode 57: 插入區間

Leetcode 57: 插入區間 問題描述&#xff1a; 給定一個非重疊的區間集合 intervals&#xff08;按開始時間升序排列&#xff09;和一個新的區間 newInterval&#xff0c;將新的區間插入到區間集合中并合并重疊的部分&#xff0c;最后返回結果區間集合。 適合面試的解法&#x…

爬蟲面試:關于爬蟲破解驗證碼的13個經典面試題

更多內容請見: 爬蟲和逆向教程-專欄介紹和目錄 文章目錄 1. ?什么是驗證碼(CAPTCHA)?它的作用是什么?2. ?常見的驗證碼類型有哪些?3. ?在爬蟲開發中,遇到驗證碼時通常有哪些解決方案?4. ?如何使用第三方驗證碼識別服務?請舉例說明。5. ?訓練自己的驗證碼識別模型…

Kylin麒麟操作系統服務部署 | NFS服務部署

以下所使用的環境為&#xff1a; 虛擬化軟件&#xff1a;VMware Workstation 17 Pro 麒麟系統版本&#xff1a;Kylin-Server-V10-SP3-2403-Release-20240426-x86_64 一、 NFS服務概述 NFS&#xff08;Network File System&#xff09;&#xff0c;即網絡文件系統。是一種使用于…

三參數水質在線分析儀:從源頭保障飲用水安全

【TH-ZS03】飲用水安全是人類健康的重要保障&#xff0c;其質量直接關系到人們的生命健康。隨著工業化、城市化的快速發展&#xff0c;水體污染問題日益嚴峻&#xff0c;飲用水安全面臨著前所未有的挑戰。為了從源頭保障飲用水安全&#xff0c;科學、高效的水質監測手段必不可少…

PGlite:瀏覽器中運行的PostgreSQL

PGlite 是一款基于 WebAssembly&#xff08;WASM&#xff09;構建的輕量級 PostgreSQL 數據庫引擎&#xff0c;旨在簡化開發者在瀏覽器、Node.js、Bun 或 Deno 環境中運行 PostgreSQL。PGlite 無需復雜的安裝或配置&#xff0c;特別適合開發測試、本地化應用及快速原型設計。 一…

【Spring AOP】_使用注解編寫AOP程序

目錄 1. 以增加方法執行時間為例使用AOP 1.1 引入AOP依賴 1.2 編寫AOP程序 2. AOP的重要概念 3. AOP通知類型與通知方法標注 3.1 在通知方法前使用對應注解 3.2 使用Pointcut注解提取公共切點表達式 3.3 跨類使用切點 3.4 切面類排序 1. 以增加方法執行時間為例使用AO…

C# iText 抽取PDF頁特定區域文本內容

開發中需要提取PDF文件某頁某區域內的特定文本內容&#xff0c;對于文字轉換而成的PDF文件&#xff0c;可以使用iText庫&#xff0c;通過Rectangle劃定PDF頁中特定區域提取文字&#xff0c;思路是將這個Rectangle框定區域放到TextRegionEventFilter過濾器中&#xff0c;代碼如下…

Java 關鍵字 volatile

volatile 是 Java 中的一個關鍵字&#xff0c;用于修飾變量&#xff0c;確保多線程環境下的可見性和有序性。它主要用于解決以下兩個問題&#xff1a; 可見性問題&#xff1a;一個線程對 volatile 變量的修改對其他線程立即可見。有序性問題&#xff1a;禁止指令重排序&#x…

python網絡爬蟲開發實戰之基本庫使用

目錄 第二章 基本庫的使用 2.1 urllib的使用 1 發送請求 2 處理異常 3 解析鏈接 4 分析Robots協議 2.2 requests的使用 1 準備工作 2 實例引入 3 GET請求 4 POST請求 5 響應 6 高級用法 2.3 正則表達式 1 實例引入 2 match 3 search 4 findall 5 sub 6 com…

Linux內存分頁:原理、優勢與實踐

一、分頁機制核心原理 1.1 分頁技術原理 核心思想: 將虛擬地址空間和物理內存劃分為固定大小的頁(Page),通過頁表(Page Table)建立虛擬頁到物理頁框(Page Frame)的映射。例如,x86_64架構的4級頁表結構: 虛擬地址: [63-48] | [47-39] PGD | [38-30] PUD | [29-21]…

文件上傳漏洞與phpcms漏洞安全分析

目錄 1. 文件上傳漏洞簡介 2. 文件上傳漏洞的危害 3. 文件上傳漏洞的觸發條件 1. 文件必須能被服務器解析執行 2. 上傳目錄必須支持代碼執行 3. 需要能訪問上傳的文件 4. 例外情況&#xff1a;非腳本文件也可能被執行 4. 常見的攻擊手法 4.1 直接上傳惡意文件 4.2 文件…

模塊和端口

1、模塊 模塊內部的5個組成是&#xff1a;變量聲明 數據流語句 低層模塊實例 函數和任務 行為語句 SR鎖存器 timescale 1ns / 1psmodule SR_latch(input wire Sbar ,input wire Rbar ,output wire Q ,output wire Qbar);nand…

爬蟲(持續更新ing)

爬蟲&#xff08;持續更新ing&#xff09; # 網絡請求 # url統一資源定位符&#xff08;如&#xff1a;https://www.baidu.com&#xff09; # 請求過程&#xff1a;客戶端的web瀏覽器向服務器發起請求 # 請求又分為四部分&#xff1a;請求網址&#xff0c;請求方法&#xff08…

2025.3.2機器學習筆記:PINN文獻閱讀

2025.3.2周報 一、文獻閱讀題目信息摘要Abstract創新點網絡架構實驗結論不足以及展望 一、文獻閱讀 題目信息 題目&#xff1a; Physics-Informed Neural Networks of the Saint-Venant Equations for Downscaling a Large-Scale River Model期刊&#xff1a; Water Resource…

使用IDEA如何隱藏文件或文件夾

選擇file -> settings 選擇Editor -> File Types ->Ignored Files and Folders (忽略文件和目錄) 點擊號就可以指定想要隱藏的文件或文件夾