大模型Rag - 兩大檢索技術

一、稀疏檢索:關鍵詞匹配的經典代表

稀疏檢索是一種基于關鍵詞統計的傳統檢索方法。其基本思想是:通過詞頻和文檔頻率來衡量一個文檔與查詢的相關性。

核心原理

文檔和查詢都被表示為稀疏向量(如詞袋模型),只有在詞出現的位置才有非零值。
最常見的兩種稀疏檢索算法:

  • TF-IDF(Term Frequency-Inverse Document Frequency)
    由兩個部分組成:
  • TF(詞頻):某個詞在文檔中出現的頻率
    在這里插入圖片描述
  • IDF(逆文檔頻率):某個詞在所有文檔中出現的稀有程度
    在這里插入圖片描述
    df(t) 是包含詞 𝑡 的文檔數量

最終得分:TF-IDF(t,d)=TF(t,d)×IDF(t)

稀疏檢索的局限性:

1. 不考慮詞序和上下文語義
示例:

  • “男朋友送的禮物”
  • “送男朋友的禮物”
    在語義上完全不同,但關鍵詞相同,稀疏檢索會認為它們高度相似。

2. 對同義詞不敏感

  • 例如“車”和“汽車”雖然含義一致,稀疏模型不會將它們歸為同一語義。

二、稠密檢索:理解語義的現代方法

稠密檢索依賴于深度學習模型將文本轉化為向量(embedding),這些向量可以捕捉語義信息、詞序和上下文。

核心原理:
使用預訓練模型(如 BERT、GTE、BGE)將文檔和查詢轉化為稠密的向量表示(維度通常為768、1024等)

使用 向量相似度(如余弦相似度、點積)進行匹配和排序

優勢:

  • 捕捉語義信息:能區分不同語義的句子
  • 支持同義詞識別、上下文推理
  • 更適合處理自然語言表達豐富的用戶提問

潛在問題:

  • 訓練成本高:需要訓練或微調 embedding 模型
  • 信息壓縮:將高維文本語義壓縮進一個定長向量,可能導致信息丟失
  • 可解釋性差:不像關鍵詞檢索那樣能清楚看到匹配邏輯

三、兩者對比

項目稀疏檢索(TF-IDF / BM25)稠密檢索(Embedding)
原理基于關鍵詞統計基于語義向量相似度
表達方式稀疏詞袋向量稠密浮點向量
優勢簡單、高效、易解釋理解語義、詞序、上下文
缺點無法處理語義變化信息壓縮、訓練成本高
同義詞識別
查詢變化適應

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/77363.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/77363.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/77363.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

LNA設計

設計目的 為后級提供足夠的增益以克服后級電路噪聲 盡可能小的噪聲和信號失真 確保輸入和輸出端的阻抗匹配 確保信號線性度 評價標準 噪聲系數 功率增益 工作頻率和帶寬 輸入信號功率動態范圍 端口電壓駐波比 穩定性 基于SP模型的LNA設計 直流分析 S參數分析 設計指標 &#xf…

Vue 常見組件及使用方式全解析

一、引言 在 Vue 開發中,組件是構建復雜用戶界面的基石。通過使用各種常見組件,我們可以快速搭建出功能豐富、交互性強的應用程序。本文將詳細介紹 Vue 開發中一些常見組件及其使用方式。 二、基礎 UI 組件 (一)按鈕組件&#…

設計測試用例模板

面試時問你一個場景,要你設計測試用例,你會怎么回答? 面試官讓你設計一個功能的測試用例,比如“上傳文件功能”,其實就是想考你: 思維是否全面能不能抓住重點會不會分類和使用測試方法有沒有考慮異常情況…

Git 解決“Filename too long”問題

在 Windows 系統中使用 Git 時,遇到 Filename too long 錯誤通常是由于系統默認的路徑長度限制(260 字符)導致的。以下是綜合多種場景的解決方案: 一、快速解決方法 啟用 Git 長路徑支持 通過 Git 配置命令允許處理超長文件名&am…

Spring Boot 3 + SpringDoc:打造接口文檔

1、背景公司 新項目使用SpringBoot3.0以上構建,其中需要對外輸出接口文檔。接口文檔一方面給到前端調試,另一方面給到測試使用。 2、SpringDoc 是什么? SpringDoc 是一個基于 Spring Boot 項目的庫,能夠自動根據項目中的配置、…

Swagger2Refit

把swagger相關接口轉成refit格式,以便其他服務調用 使用工具Refitter. Refitter 項目使用教程 Refit Client API Generator for OpenAPI 項目地址: github.com GitCode - 全球開發者的開源社區,開源代碼托管平臺 安裝 Refitter CLI 工具 首先,通過…

【java 13天進階Day05】數據結構,List,Set ,TreeSet集合,Collections工具類

常見的數據結構種類 集合是基于數據結構做出來的,不同的集合底層會采用不同的數據結構。不同的數據結構,功能和作用是不一樣的。數據結構: 數據結構指的是數據以什么方式組織在一起。不同的數據結構,增刪查的性能是不一樣的。不同…

systemctl管理指令

今天我們來繼續學習服務管理指令,接下來才是重頭戲-systemctl,那么話不多說,直接開始吧. systemctl管理指令 1.基本語法: systemctl [start | stop | restart | status]服務 注:systemctl指令管理的服務在/usr/lib/ systemd/system查看 2.systemctl設置服務的自…

STM32單片機教程:從零開始打造智能天氣時鐘

STM32單片機教程:從零開始打造智能天氣時鐘 大家好!今天我想為大家詳細介紹一下我們的STM32課程,以及如何從零基礎逐步掌握單片機開發技能,最終實現一個完整的智能天氣時鐘項目。 課程面向人群 本課程主要面向那些已經通過野火…

Neovim插件深度解析:mcphub.nvim如何用MCP協議重構開發體驗

在AI與工具鏈深度融合的今天,Neovim 作為現代開發者的生產力工具,正通過插件生態不斷突破邊界。mcphub.nvim 作為一款基于 MCP(Model Context Protocol) 協議的插件,重新定義了Neovim與智能工具的交互方式。它不僅簡化了MCP服務器的集成與管理,更通過直觀的UI和生態整合,…

第33講|遙感大模型在地學分類中的初探與實戰

目錄 ?? 一、什么是“遙感大模型”? ?? 二、遙感大模型在地學分類中的優勢 ??三、案例:使用 Segment Anything Model (SAM) 進行遙感地物分割 ?? 1. 安裝與依賴配置(PyTorch) ?? 2. 讀取遙感圖像(可用 Sentinel-2 偽彩色圖) ?? 3. SAM 模型載入 ?? …

MATLAB - 小車倒立擺的非線性模型預測控制(NMPC)

系列文章目錄 目錄 系列文章目錄 前言 一、擺錘/小車組件 二、系統方程 三、控制目標 四、控制結構 五、創建非線性 MPC 控制器 六、指定非線性設備模型 七、定義成本和約束 八、驗證非線性 MPC 控制器 九、狀態估計 十、MATLAB 中的閉環仿真 十一、使用 MATLAB 中…

JAVA文件I/O

目錄 一、三種路徑的分類: 1、絕對路徑: 2、相對路徑: 3、基準目錄: 二、文件的種類: 三、利用JAVA操作文件: 1、File類的構造方法: 2、File 類方法的使用: 使用例子&#…

焊接機器人的設計

一、引言 隨著制造業的發展,焊接工藝在各個領域得到廣泛應用。焊接機器人具有焊接質量高、效率高、勞動強度低等優點,能夠滿足現代制造業對焊接生產的要求。設計一款性能優良的焊接機器人,對于提高焊接生產的自動化水平和產品質量具有重要意…

Thymeleaf簡介

在Java中,模板引擎可以幫助生成文本輸出。常見的模板引擎包括FreeMarker、Velocity和Thymeleaf等 Thymeleaf是一個適用于Web和獨立環境的現代服務器端Java模板引擎。 Thymeleaf 和 JSP比較: Thymeleaf目前所作的工作和JSP有相似之處,Thyme…

(論文閱讀)RNNoise 基于遞歸神經網絡的噪聲抑制庫

RNNoise 是一個基于遞歸神經網絡的噪聲抑制庫。 有關該算法的描述見以下論文: J.-M. Valin, A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement, Proceedings of IEEE Multimedia Signal Processing (MMSP) Workshop, arXiv:1709.08…

DevOps-文章目錄

01什么是DevOps 02DevOps基礎環境準備 03-DevOps-安裝并初始化Gitlab 04-DevOps-安裝并初始化Jenkins 05-DevOps-Jenkins自動拉取構建代碼1 05-DevOps-Jenkins自動拉取構建代碼2 06-DevOps-自動構建Docker鏡像 07-DevOps-安裝部署Harbor鏡像倉庫 08-DevOps-向Harbor上傳自定義鏡…

UML 狀態圖:以網絡媒體教學系統為例解析

目錄 一、系統概述 二、狀態圖分析 (一)登錄認證模塊 (二)課程選擇模塊 (三)視頻播放模塊 (四)退出登錄狀態 三、UML狀態圖繪畫 四、總結 UML狀態圖是一種行為圖&#xff0c…

交易模式革新:Eagle Trader APP上線,助力自營交易考試效率提升

近年來,金融行業隨著投資者需求的日益多樣化,衍生出了眾多不同的交易方式。例如,為了幫助新手小白建立交易基礎,誕生了各類跟單社區;而與此同時,一種備受矚目的交易方式 —— 自營交易模式,正吸…

Elasticsearch BBQ 與 OpenSearch FAISS:向量搜索性能對比

作者:來自 Elastic Ugo Sangiorgi Elasticsearch BBQ 與 OpenSearch FAISS 的性能對比。 帶有二值量化的向量搜索:使用 BBQ 的 Elasticsearch 比使用 FAISS 的 OpenSearch 快 5 倍。Elastic 收到了來自社區的請求,希望澄清 Elasticsearch 與 …