【論文閱讀】REFRAG：一個提升RAG解碼效率的新思路

引言

看到一則報道[1]，重組后的Meta實驗室在9月1號發布了一篇關于提升RAG解碼效率的論文，提出的思路有點啟發作用，于是把原文下載下來仔細看下。

論文標題：REFRAG: Rethinking RAG based Decoding

論文地址：https://arxiv.org/pdf/2509.01092

1. 動機

通過將外部知識檢索結果與用戶問題拼接后輸入模型，檢索增強生成（RAG）已成為提升模型回答質量的重要途徑。

然而，這種機制的代價極其高昂：拼接的上下文通常包含數千甚至上萬 Token，其中只有少數段落與問題密切相關，其余則是冗余信息。對于解碼器而言，這意味著需要維護線性增長的 KV Cache，同時在預填充階段進行近似二次復雜度的注意力計算，導致**首 Token 延遲（TTFT）**大幅增加，吞吐量下降。

現有的長上下文優化方法大多從稀疏注意力或高效緩存角度出發，但這些方案往往面向一般長文本任務，而未能利用 RAG 特有的“塊對塊低相關性”結構性特征。于是，REFRAG 的提出正是為了填補這一空白，它將 RAG 的解碼過程重新設計為一個壓縮、感知與擴展的動態過程，從而顯著降低延遲與計算成本。

2. 框架

REFRAG 的核心思路是將檢索得到的長上下文從 Token 級別提升到 Chunk 級別表示。

具檢索文檔會被切分為固定大小的塊，每個塊通過輕量級編碼器（如 RoBERTa）生成一個壓縮后的向量表示，再通過投影層映射到解碼器可理解的 Token 空間。

這樣，原本需要處理數千 Token 的解碼器輸入被壓縮為幾百個 Chunk Embedding，輸入規模大幅縮短，注意力計算也隨之減少。

并且，REFRAG 并未犧牲自回歸生成的特性，Chunk Embedding 可以插入在任意位置，與原始 Token 并存，從而保持方法的普適性。

為了避免“一刀切”壓縮帶來的信息損失，REFRAG 還引入了一個輕量的強化學習策略，動態決定哪些 Chunk 必須保留原文 Token，哪些可以以壓縮表示替代。這一機制使得模型能夠在有限算力預算下，把計算資源分配到最關鍵的上下文部分。

整體流程如下圖所示。

下圖展示了REFRAG和其它方法在以下三個指標上的加速效果：

TTFT (Time to First Token): 首詞元生成延遲，指的是模型接收到輸入指令后，生成并輸出第一個詞元（token，可以理解為一個單詞或一個漢字）所花費的時間。這個指標衡量的是模型的“反應速度”。
TTIT (Time to Iterative Token): 迭代詞元生成時間，指的是在生成第一個詞元之后，生成每一個后續詞元所花費的時間。這個指標衡量的是模型生成連續文本的“輸出速度”。
Throughput: 吞吐量，指的是單位時間內（通常是每秒）模型能夠生成的總詞元數量。這個指標是衡量模型整體處理效率和性能的關鍵指標，綜合了啟動延遲和生成速度。