14-57 劍和詩人31 - LLM/SLM 中的高級 RAG

???

首先確定幾個縮寫的意思

SLM 小模型

LLM 大模型

檢索增強生成 (RAG) 已成為一種增強語言模型能力的強大技術。通過檢索和調整外部知識，RAG 可讓模型生成更準確、更相關、更全面的文本。

RAG 架構主要有三種類型：簡單型、模塊化和高級 RAG：

Naive RAG 采用 GPT-3 這樣的單片模型，并簡單地根據檢索到的證據段落對其進行條件化，將其附加到輸入上下文中。這種方法很簡單，但存在效率和一致性問題。

模塊化 RAG 將系統分解為顯式檢索器、重新排序器和生成器模塊。這提供了更大的靈活性和專業化。

高級 RAG 通過高階檢索器、跨編碼器重排器和證據處理架構等創新進一步增強了每個模塊。它提高了準確性和可擴展性。

我將重點分析高級 RAG 系統中的創新并評估適應性。讓我分享用于大型語言模型 (LLM) 和小型語言模型 (SLM) 的高級 RAG 技術。我首先解釋 RAG 框架的基礎知識 — 如何結合檢索和生成模塊來利用外部知識。接下來，我將深入探討 RAG 系統三個主要組件的最新創新：檢索器模塊、重新排序器模塊和生成器模塊。

對于每項創新，我都會重點介紹適用于具有數十億個參數的大型 Transformer 模型以及更小、更高效的模型的適應性。我會分析準確度和效率之間的權衡，并討論哪些技術最適合哪些模型。我還研究了針對不同 RAG 組件使用不同模型大小的混合方法。

通過本次分享，您將深入了解使用 LLM 和 SLM 開發高性能可擴展 RAG 系統的先進技術和注意事項。內容旨在綜合最近的研究成果，并為構建真實 RAG 應用程序的工程師和研究人員提供技術深度和實踐指導。

RAG 框架基礎知識

從高層次來看，RAG 系統包含三個關鍵模塊：

檢索器——從知識源中檢索與上下文相關的文本段落
重新排序器（可選）——對檢索到的段落進行重新評分和排序
生成器——將上下文與檢索到的段落相結合以生成輸出文本

14-57 劍和詩人31 - LLM/SLM 中的高級 RAG

總體流程如下：

檢索器根據上下文從知識源中識別相關段落。重新排序器可選擇對這些段落進行評分和重新排序。最后，生成器根據上下文和檢索到的段落生成包含外部知識的輸出文本。

RAG 系統利用外部文本知識來增強語言生成。知識來源可以包括維基百科文章、新聞檔案、領域特定語料庫或與生成任務相關的任何文本內容集合。

通過根據檢索到的證據對生成進行調節，模型可以減少幻覺，更準確地回答問題，并生成更具信息性和相關性的文本。輸出會通過外部知識得到增強。

接下來，我們將深入研究每個 RAG 模塊內的創新，分析準確性和效率之間的權衡，并重點介紹針對 LLM 以及更高效的 SLM 定制的技術。

獵犬模型的創新

檢索模塊負責根據上下文識別相關的外部知識。關鍵目標是高召回率——即使并非所有檢索都會在最終輸出中使用，也要檢索出可能相關的段落。

常見的檢索器架構包括雙編碼器和稀疏模型。雙編碼器檢索器分別對上下文和段落進行編碼，并根據向量相似性對段落相關性進行評分。稀疏檢索器根據詞匯匹配信號直接估計相關性概率。

最近的創新提高了 LLM 和 SLM 的檢索準確性和效率：

知識增強型雙編碼器標準雙編碼器檢索器獨立編碼查詢和段落，而不對它們的相互作用進行建模。這限制了性能，因為相關性信號僅取決于向量相似性。

知識增強型雙編碼器在編碼過程中應用上下文和段落之間的交叉注意力來明確地模擬交互。這可以改善相關性匹配，尤其是對于長查詢或復雜查詢。

對于 LLM，對每段摘錄應用自注意力池和可選的自注意力可以進一步改善結果。然而，注意力仍然分別應用于查詢和段落。

另外，ColBERT 模型在編碼過程中交錯查詢和段落標記，因此注意力可以直接學習交互。性能顯著提高，但內存和計算需求也大幅增加。

對于更高效的 SLM，多編碼器等方法在平衡準確性和效率的同時顯示出強大的效果。查詢使用雙編碼器進行編碼。段落使用交叉編碼器進行編碼，該編碼器以雙編碼器輸出的查詢摘要向量為條件。這種輕量級設計減少了計算量，同時保留了強大的相關性匹配能力。

詞權重優化在稀疏檢索中，相關性匹配取決于詞匯詞權重方案。ANCE 和 ANS 等高級優化器會根據反饋數據自動學習增加重要詞的權重并降低不相關詞的權重。

對于 LLM，詞匯信號的密集近似，然后進行降維和調優，也可以提高性能。但是，存儲大小和延遲會增加。極端方法編碼、壓縮、標記化 (ECT) 最適合大規模模型，但需要進行大量基礎設施優化。

對于 SLM，直接基于 bandit 反饋優化術語權重效果很好。通過在調整之前從簡單但快速的啟發式函數初始化權重，可以進一步提高收益。在檢索過程中使用近似最近鄰搜索也可以降低計算成本。

語義詞匹配的集成雙編碼器和稀疏模型主要依賴于詞匯詞匹配信號。通過額外建模查詢和段落之間的語義相關性可以提高性能。

Condenser 等方法將密集嵌入相似性搜索有效地集成到稀疏檢索管道中。基于知識增強型雙編碼器的嵌入增強還可以改善長格式查詢的語義相關性建模。

對于 LLM，最大內積搜索可以有效地通過語義嵌入向量對段落進行索引，同時保持亞線性查詢效率。然而，編碼器大小、索引延遲和索引大小對操作化提出了挑戰。

對于 SLM，輕量級嵌入增強效果很好。使用單獨的、更快的編碼器進行檢索而不是生成可以提高整體工作流程效率。基于量化的近似搜索還可以平衡準確性和性能。

重新排序創新

雖然許多 RAG 系統僅使用單個檢索器就能取得很好的效果，但帶有重新排序器的級聯架構可以靈活地在準確度、延遲和成本之間進行權衡。重新排序器會重新評分初始檢索結果，并專注于對最終生成最有用的高精度段落。

交叉編碼器標準雙編碼器檢索器缺乏深度建模查詢-段落交互的能力。像 ColBERT 這樣的交叉編碼器明確編碼上下文與每個段落的串聯，以學習更豐富的相關性模式。

大型 Transformer LM 重排器表現出強勁的增益，但需要對每個查詢-段落對進行獨立編碼。多編碼器通過使用查詢條件向量在段落間共享計算來提高效率。

對于 LLM，完全交叉編碼器可以最大程度地提高準確率，但計算成本較高。多編碼器效率改進有所幫助，但仍然需要大型模型編碼標記化編碼設計在索引期間僅對段落進行一次編碼，然后根據預編譯索引對編碼查詢進行評分。

為了提高 SLM 的效率，一種成功的模式是使用大型語言模型作為初始檢索器，然后使用模型大小小 3-10 倍的 Poly-Encoder 重新排序器。這提供了良好的準確率-效率平衡。

弱監督擴展

跨編碼器式窮舉搜索對計算的要求很高。弱監督排名損失允許高效地訓練模型，僅通過一次前向傳遞即可對查詢段落兼容性進行評分。

從規模上看，基于語境化術語替換的自監督預訓練有助于進一步引導相關性模型。預訓練模型還可以通過僅提供幾個特定領域的示例來快速適應新領域。

對于 LLM，預訓練帶來的收益有限，因為監督微調已經得到高度優化。收益來自架構調整，例如使用 softmax 溫度來校準不確定性。

對于 SLM，預訓練可以顯著提高準確率和樣本效率。它還可以使用更高效的架構，專門用于評分而非生成。

專門的重排序架構

除了調整模型大小和預訓練之外，專門的架構還可以提高重新排序的效率。

例如，預測器-估計器模型使用小型神經網絡來預測相關性標簽。預測結果被輸入到輕量級邏輯回歸估計器中，以獲得經過良好校準的分數。通過將完全交叉注意力限制在預測器上，整體計算量大大減少，同時保留了較高的相關性估計值。

對于 LLM，極端方法是使用生成器 LLM 本身作為排序器。準確率最大化，但計算成本極高，完全抵消了級聯架構的效率提升。

對于 SLM，專門的高效排序器架構效果很好。關鍵是避免使用標準 LLM Transformer，而采用輕量級、無 dropout 且具有專門的自注意力池的模型。這些模型在準確率和高吞吐量之間實現了最佳平衡。

發電機模型的創新

生成器模塊吸收上下文以及檢索到的相關段落，并生成增強了外部知識的輸出文本。

融合方法決定如何組合和呈現檢索到的證據，而調節技術允許將這些融合的輸入集成到生成過程中。架構創新也繼續提高集成的有效性和效率。

證據融合

融合時，決策包括：

保留多少段落
每段提取多少內容
是否串聯段落或單獨呈現
如何對不同段落進行加權或排序

對于大語言模型來說，準確性重點在于融合方法。所有檢索到的內容都會被納入，以最大限度地發揮潛在證據的作用。完整的段落會帶來虛假事實的風險，因此截斷是有幫助的，盡管它會丟棄可能有用的上下文。

對于 SLM 來說，效率更為重要。嚴格提煉為幾句話可確保簡明、相關的條件。排名和權重可進一步提高質量。關鍵事實應清晰地匯編，而不會丟失重要的檢索知識。

空調設計

在生成過程中，檢索到的證據也需要適當的上下文整合。基本方法是在編碼之前將證據段落與輸入上下文連接起來。

然而，證據可能會掩蓋原始背景或帶來冗余信息。高級解決方案可提高整合的連貫性。

對于 LLM，工作記憶架構很有前景。外部知識與上下文分開編碼，然后通過基于注意力的記憶讀寫進行解碼。這避免了在證據編碼期間覆蓋原始上下文狀態。

對于 SLM，輕量級實體鏈接可提供補充，而不會產生覆蓋風險。將上下文實體鏈接到相關段落可實現以實體為中心的增強，而不會破壞上下文表示。

效率優化架構

除了融合和調節之外，整體 RAG 生成器架構也會影響效率。權衡準確度與吞吐量和成本。

編碼-操作方法通過在索引期間僅對證據進行一次編碼，然后在生成請求期間操作表示來優化效率。然而，操作函數通常很簡單，限制了表達能力。

對于 LLM，架構優化更注重準確性而非效率。多個預訓練 Transformer 鏈提供了強大的結果，但需要將生成分解為跨多個模型實例的復雜管道。

對于 SLM 來說，效率至關重要。具有查詢鍵分解和條件查詢嵌入的共享規范化架構可在生成請求期間實現證據的單次編碼。權重也可以專門用于每個操作，而不會導致參數爆炸。

這些架構創新最大限度地提高了速度和成本效率，同時保留了通過索引證據增強的令人驚訝的強大生成能力。

具有異構模型的混合 RAG

到目前為止，我僅討論了針對 LLM 或 SLM 量身定制的創新。然而，現代 RAG 解決方案實際上集成了混合架構中利用大型和小型模型的混合搭配組件。

LLM 可最大程度提高關鍵階段的準確性，然后將壓縮后的輸出傳遞到更高效的 SLM 中進行后續操作。這實現了質量和效率的優化融合。

例如，初始檢索可能會利用 LLM 實現最大召回率。最相關的結果由中型模型重新排序，然后最頂部的段落被輸入到專業的 SLM 中進行最終集成。某些 SLM 還專門處理特定內容形式，例如長文檔、表格和列表，以最大限度地提高集成一致性。

這種混合方法平衡了準確性和吞吐量。它還通過維護較大的模型（主要用于離線索引）來優化成本，然后利用高效的模型進行高吞吐量計算。針對不同任務的專業化可以避免不必要的抽象和過度參數化。

最終結果是高性能 RAG 解決方案，可提供針對實際生產用例定制的強大準確性和可擴展性 – LLM 質量和 SLM 效率的最佳結合。

關鍵要點

讓我們回顧一下 LLM 和 SLM 的高級 RAG 技術的關鍵課程：

RAG 通過外部知識檢索補充語言模型，以提高生成的準確性、相關性和信息覆蓋率
檢索器創新增強了長格式查詢和關鍵字查詢的詞匯、語義和上下文相關性匹配信號
重排器架構專注于使用結合預訓練、模型大小和網絡架構的策略進行精度相關性預測
生成器使用截斷、蒸餾、加權、工作記憶和實體基礎技術順利地融合積分外部證據
混合 RAG 系統融合了可最大限度提高質量的 LLM 和可實現可擴展性和吞吐量的高效 SLM

我討論了檢索、排名和生成模塊中的各種技術——重點強調了網絡規模和架構的適應性。

通過結合查詢理解、證據選擇、上下文集成和輸出生成方面的創新，現代 RAG 提供了非常強大的結果，釋放了為下一代應用程序提供動力所需的外部知識。

隨著工業研究和學術進步的不斷快速發展。我希望我的分析能夠為先進技術的整合提供有益的指導原則，以繼續在高級大語言模型和更高效的法律碩士領域進行創新。

14-57 劍和詩人31 - LLM/SLM 中的高級 RAG