RAG:檢索增強生成的范式演進、技術突破與前沿挑戰

1 核心定義與原始論文

RAG(Retrieval-Augmented Generation)由Facebook AI Research團隊于2020年提出,核心思想是將參數化記憶(預訓練語言模型)與非參數化記憶(外部知識庫檢索)結合,解決大模型的知識靜態性與幻覺問題。

原始論文信息
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
論文地址:https://arxiv.org/abs/2005.11401
代碼開源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag

該論文首次提出兩種邊緣化范式

  • RAG-Sequence:整個輸出序列基于同一組檢索文檔生成,公式為:
    pRAG-Seq(y∣x)≈∑z∈top-kpη(z∣x)pθ(y∣x,z)p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z)pRAG-Seq?(yx)ztop-k?pη?(zx)pθ?(yx,z)
  • RAG-Token:每個token生成時可選擇不同文檔,靈活性更高:
    pRAG-Token(y∣x)≈∏iN∑z∈top-kpη(z∣x)pθ(yi∣x,z,y1:i?1)p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1})pRAG-Token?(yx)iN?ztop-k?pη?(zx)pθ?(yi?x,z,y1:i?1?)

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!

往期文章推薦:

  • 20.編輯距離:理論基礎、算法演進與跨領域應用
  • 19.ROUGE-WE:詞向量化革新的文本生成評估框架
  • 18.互信息:理論框架、跨學科應用與前沿進展
  • 17.表征學習:機器認知世界的核心能力與前沿突破
  • 16.CodeBLEU:面向代碼合成的多維度自動評估指標——原理、演進與開源實踐
  • 15.Rouge:面向摘要自動評估的召回導向型指標——原理、演進與應用全景
  • 14.RoPE:相對位置編碼的旋轉革命——原理、演進與大模型應用全景
  • 13.KTO:基于行為經濟學的大模型對齊新范式——原理、應用與性能突破
  • 12.OpenRLHF:面向超大語言模型的高性能RLHF訓練框架
  • 11.LIMA:大語言模型對齊的“少即是多”革命——原理、實驗與范式重構
  • 10.Crome:因果魯棒獎勵建模框架——破解LLM對齊中的獎勵黑客難題
  • 9.CIRL:因果啟發的表征學習框架——從域泛化到獎勵分解的因果革命
  • 8.PPO:強化學習中的近端策略優化——原理、演進與大規模應用實踐
  • 7.直接偏好優化(DPO):原理、演進與大模型對齊新范式
  • 6.LIMO:僅需817樣本激活大模型數學推理能力,挑戰“數據規模至上”傳統范式
  • 5.ReasonFlux:基于思維模板與分層強化學習的高效推理新范式
  • 4.LiteCoT:難度感知的推理鏈壓縮與高效蒸餾框架
  • 3.自反饋機制(Self-Feedback)在大模型中的原理、演進與應用
  • 2.復雜度優先:基于推理鏈復雜性的提示工程新范式
  • 1.Self-Consistency:跨學科一致性的理論與AI推理的可靠性基石
2 技術架構與關鍵組件

RAG系統包含三階段流水線:

  1. 檢索器(Retriever)
    • 使用雙編碼器架構(DPR模型),將查詢與文檔映射為稠密向量
    • 通過最大內積搜索(MIPS) 從維基百科等知識庫召回Top-K文檔
  2. 生成器(Generator)
    • 采用BART-large(400M參數)作為基礎seq2seq模型
    • 輸入格式:原始查詢與檢索文檔拼接為[query; document]
  3. 邊緣化機制(Marginalization)
    • 對多文檔生成結果加權融合,抑制噪聲干擾

表:RAG在開放域QA任務的性能對比(NaturalQuestions數據集)

模型EM得分F1得分
BART-large44.557.2
T5-11B47.259.1
RAG-Sequence53.165.9
RAG-Token54.867.2
數據來源:Lewis et al. (2020) NeurIPS論文
3 范式演進與技術增強
3.1 基礎范式擴展

北京大學綜述(Zhao et al., 2024)將RAG劃分為四類范式:

  • 查詢式RAG:檢索結果直接拼入輸入提示(如REALM)
  • 隱空間式RAG:檢索內容以潛在表示融合(如FiD)
  • 概率式RAG:在logit層融合檢索分布(如kNN-LM)
  • 推測式RAG:用檢索替代部分生成以提升效率(如GPTCache)
3.2 自反思機制(Self-RAG)

華盛頓大學提出反射令牌(Reflection Tokens),實現動態決策:

  1. Retrieve:判斷是否需要檢索
  2. IsREL:評估文檔相關性
  3. IsSUP:驗證生成是否受文檔支持
  4. IsUSE:評分輸出有用性(1-5分)
    實驗顯示其在事實準確性上超越ChatGPT 12.3%(FEVER數據集)。
3.3 多模態與結構化增強
  • GraphRAG(Microsoft, 2024):
    構建多模態知識圖譜(MMKG),通過社區檢測生成分層摘要,解決全局查詢(如“數據集主題?”)的檢索失效問題。
  • MMGraphRAG(Wan et al., 2025):
    融合場景圖與文本KG,使用譜聚類實現跨模態實體鏈接,在DocBench數據集上提升長文本理解能力。
4 行業應用與評估標準
4.1 應用場景
領域任務案例代表性模型
文本開放域問答、事實驗證FiD, SELF-RAG
代碼程序修復、SQL生成SKCODER, RepoCoder
多模態圖像描述、視頻問答MMGraphRAG, ReMoDiffuse
科學藥物發現、生物醫學推理BioRAG
數據來源:Zhao et al. (2024) RAG綜述
4.2 評估維度

關鍵指標包括:

  • 忠實度(Faithfulness):生成與檢索內容的一致性(RAGAS指標)
  • 噪聲魯棒性:從含噪文檔中提取信息的能力
  • 反事實魯棒性:識別檢索內容中的邏輯錯誤
5 局限與前沿方向
現存挑戰
  • 檢索噪聲:無關文檔導致生成偏離(北大綜述指出召回率-精度平衡難題)
  • 上下文窗口限制:長文檔導致信息丟失(GraphRAG通過社區摘要緩解)
  • 跨模態對齊:圖像/視頻特征與文本嵌入空間不一致
未來方向
  1. 動態知識更新:實時索引修訂機制(如RAGFoundry框架)
  2. 端到端優化:檢索器與生成器的聯合微調(如Intel RAGFoundry支持LoRA訓練)
  3. 推理深度增強
    • DeepSieve框架(Guo et al., 2025)將LLM作為知識路由器,遞歸分解復雜查詢
    • Agentic RAG:通過多智能體協作實現檢索-生成迭代優化

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91249.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91249.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91249.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2024年藍橋杯Scratch10月圖形化stema選拔賽真題——旋轉的圖形

旋轉的圖形編程實現旋轉的圖形。具體要求1)點擊綠旗,在舞臺上出現滑桿形式的變量 r,取值范圍為-1、0、1,默認值為 0,如圖所示;2)1秒后,在舞臺上繪制出一個紅色正方形(邊長…

【音視頻】WebRTC 開發環境搭建-Web端

一、開發環境搭建 1.1 安裝vscode 下載VSCode:https://code.visualstudio.com/,下載后主要用于開發Web前端頁面,編寫前端代碼 安裝完成后下載Live Server插件,用于本地開發,實時加載前端頁面 1.1.1 前端代碼測試 下…

力扣54:螺旋矩陣

力扣54:螺旋矩陣題目思路代碼題目 給你一個 m 行 n 列的矩陣 matrix ,請按照 順時針螺旋順序 ,返回矩陣中的所有元素。 思路 思路很簡單創建一個二維數組然后按照箭頭所示的順序一層一層的給二維數組相應的位置賦值即可。難點是我們是一層一層的賦值…

【CSS】設置表格表頭固定

1.設置thead樣式在thead元素中增加樣式:position: sticky;top: 0;2.設置table樣式在table元素中增加樣式:border-collapse: separate; /* 分離邊框模式 */ border-spacing: 0;3.設置表頭偽元素樣式增加樣式:th::after {content: ;position: a…

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現標簽條碼一維碼的檢測(C#代碼,UI界面版)

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現標簽條碼一維碼的檢測(C#代碼,UI界面版))工業相機使用YoloV8模型實現標簽條碼一維碼的檢測工業相機通過YoloV8模型實現標簽條碼的檢測的技術背景在相機SDK中獲取圖像轉換…

如何編寫好的測試用例?

🍅 點擊文末小卡片 ,免費獲取軟件測試全套資料,資料在手,漲薪更快對于軟件測試工程師來說,設計測試用例和提交缺陷報告是最基本的職業技能。是非常重要的部分。一個好的測試用例能夠指示測試人員如何對軟件進行測試。在…

《Java 程序設計》第 12 章 - 異常處理

大家好!今天我們來學習《Java 程序設計》中的第 12 章 —— 異常處理。在編程過程中,錯誤和異常是不可避免的。一個健壯的程序必須能夠妥善處理各種異常情況。本章將詳細介紹 Java 中的異常處理機制,幫助大家編寫出更穩定、更可靠的 Java 程序…

STM32CubeIDE新建項目過程記錄備忘(二) GPIO輸出demo:LED閃爍

利用前面創建好的基礎模板項目文件,創建第一個應用項目,單片機的hello world:LED閃爍。打開模板文件文件--從文件系統中打開項目:在彈出的窗口中選擇之前創建的模板項目文件并打開。復制粘貼新項目 在項目管理器,復制之…

HTML基礎P2 | JS基礎講解

什么是JS JS是一個網頁的腳本語言&#xff0c;你可以理解為在HTML中寫類似于JAVA等高級編程語言的代碼&#xff0c;使得網頁可以實現一些包含邏輯處理的交互操作 簡單上手例子 接下來&#xff0c;給大家一個簡單的小例子來感受一下 <!DOCTYPE html> <html lang&qu…

QT筆記(2)——vscode + CMAKE + qtcreate的操作方式

1.vscode 下載cmake&#xff0c;clangd&#xff0c;qtConfigure&#xff0c;cmake tool的相關插件支持 2. qtConfigure插件配置 根據自己下載的qt目錄下尋找如圖的相關工具 3. qt環境變量配置 在系統變量的path中添加qt編譯需要的環境變量。 4.下載Cmake支持 CMake下…

sed編程入門

一.sed是啥sed&#xff08;流編輯器&#xff0c;Stream Editor&#xff09;是 Unix/Linux 系統中強大的文本處理工具&#xff0c;常用于對文本進行替換、刪除、插入、追加等操作。它逐行處理輸入文本&#xff0c;并根據提供的腳本命令修改文本&#xff0c;最后輸出結果。二.基本…

知識速查大全:python面向對象基礎

目錄 一、面向對象的基本概念 二、類和對象 1.類 2.對象 三、屬性&#xff08;數據&#xff09;和方法 1.數據 1.1.實例數據 1.2.類數據 2.方法 2.1.實例方法 2.2.類方法 3.數據和方法的綜合使用 四、面向對象三大特性 1.封裝 2.繼承 2.1.單繼承 2.2.多繼承 2.3.混合類 2.4.方法…

Linux系統編程Day1-- 免費云服務器獲取以及登錄操作

一、 學生黨如何“白嫖”或免費使用云服務器&#xff1f; 作為學生黨&#xff0c;資金有限的情況下確實不容易長期負擔服務器費用。但好消息是&#xff0c;有多種方式可以“白嫖”或低成本使用云服務器&#xff0c;尤其是針對學生身份、學習用途和開發者計劃。 1、使用各大云平…

15.11 單卡訓練770M參數模型!DeepSpeed ZeRO-3實戰:RTX 4090顯存直降6.8GB

單卡訓練770M參數模型!DeepSpeed ZeRO-3實戰:RTX 4090顯存直降6.8GB 實戰 DeepSpeed ZeRO-2 和 ZeRO-3 單機單卡訓練 為什么需要單機單卡訓練場景? 雖然 DeepSpeed 的 ZeRO 技術主要面向分布式訓練場景,但單機單卡訓練仍然具有重要實踐價值: 開發調試:在資源有限情況下…

HTTPS基本工作過程:基本加密過程

HTTPS基本工作過程&#xff1a;HTTPS只是HTTP的基礎上引入加密機制1.引入對稱加密首先&#xff0c;什么是對稱加密和非對稱加密&#xff1f;對稱加密&#xff1a;使用同一把密鑰加密解密非對稱加密&#xff1a;有兩把密鑰&#xff0c;為公鑰&#xff08;公開的&#xff09;和私…

ES 文件瀏覽器:多功能文件管理與傳輸利器

ES 文件瀏覽器是一款功能強大的文件管理器軟件&#xff0c;支持多種文件傳輸協議&#xff0c;能夠方便地管理手機、平板電腦和電腦中的文件。它不僅提供了豐富的文件管理功能&#xff0c;還支持多種設備之間的文件傳輸&#xff0c;滿足用戶在不同場景下的需求。 核心功能 1. 文…

github-idea新建文件就要彈窗提醒-如何關閉-2025.7.30

打開設置 進入 File&#xff08;文件&#xff09; > Settings&#xff08;設置&#xff09;。 導航到版本控制設置&#xff1a; 在左側導航欄中&#xff0c;展開 Version Control&#xff08;版本控制&#xff09;。 選擇 Confirmation&#xff08;確認&#xff09;。修改文…

滾珠導軌在電子制造中的流暢性優勢

在電子元件微米級精度要求的搬運與裝配環節&#xff0c;傳統導軌易因摩擦、磨損導致定位偏差或設備抖動。而滾珠導軌憑借滾動摩擦設計&#xff0c;將滑動阻力降低80%以上&#xff0c;成為高精度電子制造設備的首選傳動部件。微米級精度&#xff1a;在貼片機中&#xff0c;滾珠導…

數據結構——單鏈表1

1. 單鏈表1.1 概念與結構概念&#xff1a;鏈表是一種物理存儲結構上非連續、非順序的存儲結構&#xff0c;數據元素的邏輯順序是通過鏈表中的指針鏈接次序實現的。1.1.1 結點與順序表不同的是&#xff0c;鏈表里的每節都是獨立申請下來的空間&#xff0c;我們稱之為“節點/結點…

STM32CubeMX + HAL庫:基于DHT11溫濕度監測實現

1. 概述1.1 實驗目的本實驗旨在利用 DHT11 溫濕度傳感器&#xff0c;每隔 5 秒采集一次環境的溫度與濕度數據&#xff0c;并通過串口將數據循環打印輸出。所使用的 DHT11 模塊硬件結構簡單&#xff0c;包含三個接口引腳&#xff1a;電源正極&#xff08;VCC&#xff09;、電源負…