RAG流程全解析:從數據到精準答案

Rag流程分析

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述


第一部分:數據處理與向量化

  1. 原始文檔進入系統,先經過格式識別,把 pdf、docx、pptx、掃描圖片等統一轉成文字流。
  2. 文字流丟進分段器,按固定長度或語義邊界切成若干文本塊,每個塊再生成唯一 id。
  3. 如果文檔里有表格或圖片,表格轉成 markdown 表格文本,圖片用 OCR 提文字后也并入相鄰文本塊。
  4. 每個文本塊先過一遍實體抽取,抽到人名、地名、產品名,再把這些實體寫進一張實體表備用。
  5. 同一塊文本再交給嵌入模型,模型輸出一串浮點數,這串數就是該塊的向量。
  6. 向量被寫到向量數據庫,數據庫里一條記錄包含:塊 id、原始文本、向量、實體列表、文件來源、頁碼。
  7. 實體表里的實體被寫進圖數據庫,形成“實體-關系-實體”三元組,便于以后做圖檢索。
  8. 全文搜索引擎也同步建索引,把每個塊的純文本做成倒排索引,支持關鍵字快速查找。
  9. 當所有文檔都完成 1-8 步,系統就得到一個“可檢索知識庫”,包含向量庫、實體圖、全文索引三份數據。
  10. 以后新文檔進來,只要重復 1-9 步即可增量更新,不需要重建全部索引。

第二部分:提問向量化然后返回結果

  1. 用戶在前端輸入自然語言問題,問題文本先進入查詢理解模塊。
  2. 查詢理解模塊用輕量模型判斷問題意圖,再把問題里的時間、地點、實體都抽取出來。
  3. 抽取后的結構化信息與原始問題一起被送入同型號的嵌入模型,生成問題的向量。
  4. 系統把問題向量發到向量數據庫做近似最近鄰搜索,召回最相似的 k 個文本塊。
  5. 同時,系統用抽取到的實體去圖數據庫做一跳或多跳查詢,拿到與這些實體直接相關的文檔 id 列表。
  6. 全文搜索引擎也用擴展后的關鍵詞做 BM25 搜索,召回另一批候選文檔 id。
  7. 三路召回結果合并后,用交叉編碼器重排模型給每條候選重新打分,保留分數最高的前 n 條文本塊。
  8. 這些文本塊按出現順序拼接成一段上下文,上下文長度超過大模型窗口時就按相關性截斷。
  9. 系統把上下文與原始問題一起塞進 prompt 模板,模板里明確要求大模型在回答中給出引用標記。
  10. 大模型生成答案文本,系統再解析答案里的引用標記,回鏈到原文位置,生成可點擊的參考鏈接。
  11. 最后,答案與參考鏈接一起回傳給前端,用戶即可看到回答并可逐條跳轉到原文驗證。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94006.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94006.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94006.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Matplotlib數據可視化實戰:Matplotlib圖表注釋與美化入門

圖表注釋與標簽:提升數據可視化效果 學習目標 通過本課程的學習,學員將掌握如何使用Matplotlib在圖表中添加文本注釋、圖例、標題和軸標簽,從而提高圖表的可讀性和信息傳達能力。本課程將通過實際案例,幫助學員理解每個元素的作用…

GitLab 安全漏洞 CVE-2025-7739 解決方案

本分分享極狐GitLab 補丁版本 18.2.2, 18.1.4, 18.0.6 的詳細內容。這幾個版本包含重要的缺陷和安全修復代碼,我們強烈建議所有私有化部署用戶應該立即升級到上述的某一個版本。對于極狐GitLab SaaS,技術團隊已經進行了升級,無需用戶采取任何…

C端高并發項目都有哪些

C端(用戶端)高并發項目通常涉及大規模用戶直接訪問的服務,其核心挑戰是如何在海量用戶同時請求下,保證系統的穩定性、高性能、高可用和一致性。以下是一些典型的C端高并發項目類型和具體案例:?核心類型與典型案例&…

OSCP - Proving Grounds - Shenzi

主要知識點 路徑爆破小技巧 windows AlwaysInstallElevated 提權 具體步驟 依舊是nmap開始,其中80/443/139/445端口值得關注一下 Starting Nmap 7.94SVN ( https://nmap.org ) at 2025-01-01 15:06 UTC Nmap scan report for 192.168.53.55 Host is up (0.0008…

結合BI多維度異常分析(日期-> 商家/渠道->日期(商家/渠道))

技術手段: BI工具(finereport )、python、sql 數據更新: 每日零點更新數據。(獨立開發) 商業智能分析平臺 | Python/FineReport/SQLAlchemy 項目描述 業務價值 :解決原有系統無法快速定位傭金異…

計算機畢設Spark項目實戰:基于大數據技術的就業數據分析系統Django+Vue開發指南

🎓 作者:計算機畢設小月哥 | 軟件開發專家 🖥? 簡介:8年計算機軟件程序開發經驗。精通Java、Python、微信小程序、安卓、大數據、PHP、.NET|C#、Golang等技術棧。 🛠? 專業服務 🛠? 需求定制化開發源碼提…

如何讓FastAPI任務系統在失敗時自動告警并自我修復?

url: /posts/2f104637ecc916e906c002fa79ab8c80/ title: 如何讓FastAPI任務系統在失敗時自動告警并自我修復? date: 2025-08-20T08:18:42+08:00 lastmod: 2025-08-20T08:18:42+08:00 author: cmdragon summary: FastAPI 和 Celery 結合提供了強大的異步任務處理能力,但在分布…

Gitee倉庫 日常操作詳細步驟

新建倉庫 → 上傳代碼 步驟1、打開Gitee倉庫網站:開源軟件 - Gitee.com 步驟2、點擊右上角加號 點擊新建倉庫。 步驟3、設置倉庫名 ,選擇是否開源 ,點擊創建。 步驟4、記住遠程倉庫URL 步驟5、本地新建文件夾,然后進行上傳代碼…

Python采集易貝(eBay)商品詳情API接口,json數據返回

Python采集易貝(eBay)商品詳情API接口要采集eBay商品詳情,你可以使用eBay官方提供的API。以下是使用Python通過eBay Finding API獲取商品詳情的完整示例:準備工作注冊賬號并獲取API密鑰:選擇適合的API(如Finding API、Shopping AP…

如何將任意文件一鍵轉為PDF?

無論你用什么軟件打開文件(Word、Excel、網頁、CAD圖紙、圖片等),只要能打印,就可以通過虛擬打印機將其轉為PDF,確保對方收到的文件看起來和你看到的一模一樣。它是小巧實用的PDF虛擬打印工具,采用安裝包形…

遷移學習+多模態融合破解跨域難題,解鎖視覺感知新范式

在近期的頂會頂刊中,遷移學習與多模態融合的熱度居高不下,相關成果頻出,部分模型在特定任務里性能提升極為顯著。登上頂刊 TPAMI 2025 的某篇研究,借助語言引導的關系遷移,大幅提升了少樣本類增量學習中模型的泛化能力…

C語言---分隔符、常量、注釋、標識符、關鍵字、空格

文章目錄分隔符注釋注意標識符標識符的定義標識符的命名要求合法與非法標識符示例關鍵字關鍵字定義關鍵字一覽(按功能分類)空格一、空格的作用:分隔令牌 (Tokens)空格的使用場景必須用空格分隔的情況不能有空格的情況分隔符 分隔符名稱主要用途;分號語句結束符,逗號…

創建Vue項目的不同方式及項目規范化配置

1 項目的創建與運行 1.1 基于webpack構建工具——vue-cli腳手架 1. 安裝腳手架 :npm i -g vue/cli # 安裝一次即可,之前安裝過則無需重復安裝 2. 切換到項目所在目錄 :cd 項目所在目錄 3. 創建項目 :vue create 項目名 4. 自定…

K距離間隔重排字符串 (LeetCode 358) — Swift解法 + 可運行Demo

文章目錄摘要描述解決方法分析問題和解決代碼代碼要點詳解示例測試和結果時間復雜度空間復雜度總結摘要 這道題的核心是:把字符串里的字符重新排一下順序,讓相同字符之間至少隔開 k 個位置。如果做不到,就返回空串。看上去像“排座位”&…

React native Navigation 詳解

Tab Navigator(標簽導航器) 概念 Tab Navigator 是 React Navigation 中用于創建底部或頂部標簽欄導航的組件。它允許用戶在不同的屏幕之間快速切換,每個標簽對應一個獨立的屏幕。 基本用法 import {createBottomTabNavigator } from @react-navigation/bottom-tabs; im…

[GraphRAG]完全自動化處理任何文檔為向量知識圖譜:AbutionGraph如何讓知識自動“活”起來?

在當今信息爆炸的時代,企業和研究人員面對大量非結構化文檔時,如何高效地提取、存儲和查詢其中的知識,已成為一個核心挑戰。傳統的關鍵詞檢索早已無法滿足深層次語義關聯和智能問答的需求。 每天面對成百上千份PDF論文、Excel報告、行業白皮…

模擬tomcat接收GET、POST請求

訪問: http://localhost:10086/mytomcatMyTomcat/ └── src/└── com/└── zhang/├── MyServer.java├── MyRequest.java├── MyResponse.java├── MyMapping.java├── MyServlet.java└── MyHttpServlet.java核心類功能說明 MyServer.java 服務…

氯化釔:科技與高性能材料的核心元素

氯化釔是釔元素的氯化物,廣泛應用于高性能材料、催化劑、光電技術等領域。作為稀土元素之一,釔因其獨特的物理和化學特性,在現代工業中具有重要地位,而氯化釔則是其中的關鍵化合物之一。氯化釔的優勢與特點1. 化學穩定性強氯化釔具…

【數據結構初階】--排序(五):計數排序,排序算法復雜度對比和穩定性分析

😘個人主頁:Cx330? 👀個人簡介:一個正在努力奮斗逆天改命的二本覺悟生 📖個人專欄:《C語言》《LeetCode刷題集》《數據結構-初階》 前言:今天這篇博客就給大家將一個計數排序,然乎就…

Incredibuild 新增 Unity 支持:擊破構建時間過長的痛點

任何開發過復雜 Unity 項目的團隊都會告訴你:構建速度已成為生產流程中的核心痛點。Unity 靈活且強大,但隨著項目規模擴大(尤其是包含 3D 資源、復雜著色器和龐大內容管線的項目),構建過程會逐漸變成一項隱性成本。 多…