RAG-分塊策略

分塊策略在檢索增強生成（RAG）方法中起著至關重要的作用，它使文檔能夠被劃分為可管理的部分，同時保持上下文。每種方法都有其特定的優勢，適用于特定的用例。將大型數據文件拆分為更易于管理的段是提高LLM應用效率的最關鍵步驟之一。目標是向LLM提供完成特定任務所需的確切信息，不多也不少。

什么是分塊

分塊涉及將文本劃分為可管理的單元或“塊”，以實現高效處理。這種分割對于語義搜索、信息檢索和生成式 AI 應用等任務至關重要。每個塊都保留上下文和語義完整性，以確保結果連貫。

分塊技術及其策略

策略名稱	描述	優點	缺點	實施建議
固定長度分塊	將文本按預定義長度（如基于令牌或字符）分割，適合簡單文檔或快速處理。	簡單性、統一性、效率	上下文丟失、相關性問題、潛在信息丟失	選擇合適大小，考慮使用重疊窗口以保持上下文
基于句子的分塊	按句子邊界分割，確保每個塊是完整的思想，適合短響應如客戶查詢。	保持上下文、易于實現、更好的可讀性	塊大小不一致、不適合長句、控制力弱	使用NLP庫檢測句子，必要時合并短句
段落分塊	將文檔按段落分割，每個段落通常包含完整想法或主題，適合結構化文檔。	更豐富的上下文、邏輯分割	大小不一致、可能超出行牌限制	監控塊大小，必要時分割大段落以保持上下文
文檔分塊	將整個文檔視為一個塊或最小分割，保持完整結構和上下文，適合法律或醫學文檔。	保持完整上下文、適合結構化文本、簡單	可擴展性問題、效率低、缺乏細節提取	適用于不希望分割影響流程的場景
滑動窗口分塊	通過滑動窗口創建重疊塊，確保相鄰塊共享內容，適合需保持跨部分上下文的文檔。	上下文連續性、提高檢索效果	冗余、計算成本高	優化窗口大小和重疊，使用去重技術處理冗余
語義分塊	使用嵌入或機器學習模型按語義意義分割，確保每個塊主題連貫。	上下文相關性、靈活性、提高檢索準確性	復雜性、處理時間長、計算成本高、閾值調整	利用預訓練模型，平衡成本和粒度
遞歸分塊	使用層次分隔符或多個分隔符逐步分割為小塊，適合大型結構化文檔。	層次上下文、可擴展性、意義塊、細粒度控制	實現復雜、可能丟失上下文、復雜性高、計算開銷大	使用文檔結構標識層次，存儲塊位置元數據
上下文增強分塊	為每個塊添加周圍塊的摘要或元數據，保持序列間的上下文，適合長文檔。	增強上下文、提高連貫性	復雜性、存儲開銷大	生成簡潔摘要，考慮用關鍵術語或概念作為元數據
模式特定分塊	按內容類型（如文本、表格、圖像）分別處理，每個類型按其性質分塊。	定制方法、提高準確性	實現復雜、集成困難	使用OCR處理圖像，將表格轉為結構化數據，保持索引一致
代理分塊	使用AI（如大型語言模型）按內容結構和語義建議塊邊界，或按代理角色任務組織。	任務導向效率、聚焦相關數據、靈活性、智能分割	復雜設置、計算密集、成本高、可能過分專業化、丟失全局上下文	選擇性使用，優化LLM提示，明確代理角色和任務規則
子文檔分塊	總結整個文檔或大節并將摘要作為元數據附加到單個塊，適合大型文檔集。	層次檢索、上下文深度	額外處理、元數據管理復雜	自動化摘要生成，高效存儲摘要
混合分塊	結合多種分塊策略，動態適應不同查詢類型或文檔結構，適合多用途系統。	靈活性、優化性能	邏輯復雜、維護難度大	制定選擇策略的標準，廣泛測試以確保可靠性
基于令牌的分塊	按預定義令牌數（如單詞或子詞）分割，確保塊在模型令牌限制內。	優化語言模型、精確控制塊大小、一致性	上下文碎片化、忽略語義結構、靈活性有限	確保塊在模型令牌限制內

分塊優化關鍵策略

重疊塊：包括塊之間的某些重疊可以確保在段落之間不會丟失關鍵信息。這對于需要無縫過渡的任務尤其重要，如對話生成或摘要。
動態塊大小：根據模型的容量或文本的復雜性調整塊大小可以提升性能。較小的塊適合 BERT 等模型，而較大的塊適用于需要更廣泛上下文的生成任務。
遞歸：遞歸或多級分塊允許處理復雜的文本結構，例如將文檔拆分為章節、節和段落。
向量化的對齊：分塊技術的選擇對檢索系統中的向量表示有顯著影響。句子轉換器和 BERT 或 GPT 等嵌入通常用于與分塊粒度對齊的最佳向量化

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/79437.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/79437.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/79437.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！