1 核心定義與原始論文
RAG(Retrieval-Augmented Generation)由Facebook AI Research團隊于2020年提出,核心思想是將參數化記憶(預訓練語言模型)與非參數化記憶(外部知識庫檢索)結合,解決大模型的知識靜態性與幻覺問題。
原始論文信息:
Lewis, P., Perez, E., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), pp. 9459-9474.
論文地址:https://arxiv.org/abs/2005.11401
代碼開源:https://github.com/huggingface/transformers/tree/main/examples/research_projects/rag
該論文首次提出兩種邊緣化范式:
- RAG-Sequence:整個輸出序列基于同一組檢索文檔生成,公式為:
pRAG-Seq(y∣x)≈∑z∈top-kpη(z∣x)pθ(y∣x,z)p_{\text{RAG-Seq}}(y|x) \approx \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y|x,z)pRAG-Seq?(y∣x)≈z∈top-k∑?pη?(z∣x)pθ?(y∣x,z) - RAG-Token:每個token生成時可選擇不同文檔,靈活性更高:
pRAG-Token(y∣x)≈∏iN∑z∈top-kpη(z∣x)pθ(yi∣x,z,y1:i?1)p_{\text{RAG-Token}}(y|x) \approx \prod_i^N \sum_{z \in \text{top-k}} p_\eta(z|x) p_\theta(y_i|x,z,y_{1:i-1})pRAG-Token?(y∣x)≈i∏N?z∈top-k∑?pη?(z∣x)pθ?(yi?∣x,z,y1:i?1?)
本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!
往期文章推薦:
- 20.編輯距離:理論基礎、算法演進與跨領域應用
- 19.ROUGE-WE:詞向量化革新的文本生成評估框架
- 18.互信息:理論框架、跨學科應用與前沿進展
- 17.表征學習:機器認知世界的核心能力與前沿突破
- 16.CodeBLEU:面向代碼合成的多維度自動評估指標——原理、演進與開源實踐
- 15.Rouge:面向摘要自動評估的召回導向型指標——原理、演進與應用全景
- 14.RoPE:相對位置編碼的旋轉革命——原理、演進與大模型應用全景
- 13.KTO:基于行為經濟學的大模型對齊新范式——原理、應用與性能突破
- 12.OpenRLHF:面向超大語言模型的高性能RLHF訓練框架
- 11.LIMA:大語言模型對齊的“少即是多”革命——原理、實驗與范式重構
- 10.Crome:因果魯棒獎勵建模框架——破解LLM對齊中的獎勵黑客難題
- 9.CIRL:因果啟發的表征學習框架——從域泛化到獎勵分解的因果革命
- 8.PPO:強化學習中的近端策略優化——原理、演進與大規模應用實踐
- 7.直接偏好優化(DPO):原理、演進與大模型對齊新范式
- 6.LIMO:僅需817樣本激活大模型數學推理能力,挑戰“數據規模至上”傳統范式
- 5.ReasonFlux:基于思維模板與分層強化學習的高效推理新范式
- 4.LiteCoT:難度感知的推理鏈壓縮與高效蒸餾框架
- 3.自反饋機制(Self-Feedback)在大模型中的原理、演進與應用
- 2.復雜度優先:基于推理鏈復雜性的提示工程新范式
- 1.Self-Consistency:跨學科一致性的理論與AI推理的可靠性基石
2 技術架構與關鍵組件
RAG系統包含三階段流水線:
- 檢索器(Retriever)
- 使用雙編碼器架構(DPR模型),將查詢與文檔映射為稠密向量
- 通過最大內積搜索(MIPS) 從維基百科等知識庫召回Top-K文檔
- 生成器(Generator)
- 采用BART-large(400M參數)作為基礎seq2seq模型
- 輸入格式:原始查詢與檢索文檔拼接為
[query; document]
- 邊緣化機制(Marginalization)
- 對多文檔生成結果加權融合,抑制噪聲干擾
表:RAG在開放域QA任務的性能對比(NaturalQuestions數據集)
模型 | EM得分 | F1得分 |
---|---|---|
BART-large | 44.5 | 57.2 |
T5-11B | 47.2 | 59.1 |
RAG-Sequence | 53.1 | 65.9 |
RAG-Token | 54.8 | 67.2 |
數據來源:Lewis et al. (2020) NeurIPS論文 |
3 范式演進與技術增強
3.1 基礎范式擴展
北京大學綜述(Zhao et al., 2024)將RAG劃分為四類范式:
- 查詢式RAG:檢索結果直接拼入輸入提示(如REALM)
- 隱空間式RAG:檢索內容以潛在表示融合(如FiD)
- 概率式RAG:在logit層融合檢索分布(如kNN-LM)
- 推測式RAG:用檢索替代部分生成以提升效率(如GPTCache)
3.2 自反思機制(Self-RAG)
華盛頓大學提出反射令牌(Reflection Tokens),實現動態決策:
- Retrieve:判斷是否需要檢索
- IsREL:評估文檔相關性
- IsSUP:驗證生成是否受文檔支持
- IsUSE:評分輸出有用性(1-5分)
實驗顯示其在事實準確性上超越ChatGPT 12.3%(FEVER數據集)。
3.3 多模態與結構化增強
- GraphRAG(Microsoft, 2024):
構建多模態知識圖譜(MMKG),通過社區檢測生成分層摘要,解決全局查詢(如“數據集主題?”)的檢索失效問題。 - MMGraphRAG(Wan et al., 2025):
融合場景圖與文本KG,使用譜聚類實現跨模態實體鏈接,在DocBench數據集上提升長文本理解能力。
4 行業應用與評估標準
4.1 應用場景
領域 | 任務案例 | 代表性模型 |
---|---|---|
文本 | 開放域問答、事實驗證 | FiD, SELF-RAG |
代碼 | 程序修復、SQL生成 | SKCODER, RepoCoder |
多模態 | 圖像描述、視頻問答 | MMGraphRAG, ReMoDiffuse |
科學 | 藥物發現、生物醫學推理 | BioRAG |
數據來源:Zhao et al. (2024) RAG綜述 |
4.2 評估維度
關鍵指標包括:
- 忠實度(Faithfulness):生成與檢索內容的一致性(RAGAS指標)
- 噪聲魯棒性:從含噪文檔中提取信息的能力
- 反事實魯棒性:識別檢索內容中的邏輯錯誤
5 局限與前沿方向
現存挑戰
- 檢索噪聲:無關文檔導致生成偏離(北大綜述指出召回率-精度平衡難題)
- 上下文窗口限制:長文檔導致信息丟失(GraphRAG通過社區摘要緩解)
- 跨模態對齊:圖像/視頻特征與文本嵌入空間不一致
未來方向
- 動態知識更新:實時索引修訂機制(如RAGFoundry框架)
- 端到端優化:檢索器與生成器的聯合微調(如Intel RAGFoundry支持LoRA訓練)
- 推理深度增強:
- DeepSieve框架(Guo et al., 2025)將LLM作為知識路由器,遞歸分解復雜查詢
- Agentic RAG:通過多智能體協作實現檢索-生成迭代優化
本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!