langchain從入門到精通（三十四）——RAG優化策略（十）父文檔檢索器實現拆分和存儲平衡

1. 拆分文檔與檢索的沖突

在 RAG 應用開發中，文檔拆分和文檔檢索通常存在相互沖突的愿望，例如：

我們可能希望擁有小型文檔，以便它們的嵌入可以最準確地反映它們的含義，如果太長，嵌入/向量沒法記錄太多文本特征。
但是又希望文檔足夠長，這樣能保留每個塊的上下文。
這個時候就可以考慮通過 拆分子文檔塊，檢索父文檔塊 的策略來實現這種平衡，即在檢索中，首先獲取小塊，然后再根據小塊元數據中存儲的 id，使用 id 來查找這些塊的父文檔，并返回那些更大的文檔，該策略適合一些不是特別能拆分的文檔，或者是文檔上下文關聯性很強的場景。
請注意，這里的“父文檔”指的是小塊來源的文檔，可以是整個原始文檔，也可以是切割后比較大的文檔塊。
子文檔->父文檔 的運行流程也非常簡單，其實和多向量檢索器一模一樣，如下:

除了使用 MultiVectorRetriever 來實現該運行流程，在 LangChain 中，還封裝了 ParentDocumentRetriever，可以更加便捷地完成該功能，使用技巧也非常簡單，傳遞向量數據庫、文檔數據庫和子文檔分割器即可。
代碼示例:

import dotenv
import weaviate
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import LocalFileStore
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_weaviate import WeaviateVectorStore
from weaviate.auth import AuthApiKeydotenv.load_dotenv()# 1.創建加載器與文檔列表，并加載文檔
loaders = [UnstructuredFileLoader("./電商產品數據.txt"),UnstructuredFileLoader("./項目API文檔.md"),
]
docs = []
for loader in loaders:docs.extend(loader.load())# 2.創建文本分割器
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500,chunk_overlap=50,
)# 3.創建向量數據庫與文檔數據庫
vector_store = WeaviateVectorStore(client=weaviate.connect_to_wcs(cluster_url="https://mbakeruerziae6psyex7ng.c0.us-west3.gcp.weaviate.cloud",auth_credentials=AuthApiKey("xxxxxxxxxxxxxxxxxxxxxxxxxxxx"),),index_name="ParentDocument",text_key="text",embedding=OpenAIEmbeddings(model="text-embedding-3-small"),
)
store = LocalFileStore("./parent-document")# 4.創建父文檔檢索器
retriever = ParentDocumentRetriever(vectorstore=vector_store,byte_store=store,child_splitter=text_splitter,
)# 5.添加文檔
retriever.add_documents(docs, ids=None)# 6.檢索并返回內容
search_docs = retriever.invoke("分享關于LLMOps的一些應用配置")
print(search_docs)
print(len(search_docs))

輸出內容會返回完整的文檔片段，而不是拆分后的片段（但是在向量數據庫中存儲的是分割后的片段）

[Document(metadata={'source': './項目API文檔.md'}, page_content='LLMOps 項目 API 文檔\n\n應用 API 接口統一以 JSON 格式返回，并且包含 3 個字段：code、data 和 message，分別代表業務狀態碼、業務數據和接口附加信息。\n\n業務狀態碼共有 6 種，其中只有 success(成功) 代表業務操作成功，其他 5 種狀態均代表失敗，并且失敗時會附加相關的信息：fail(通用失敗)、not_found(未找到)、unauthorized(未授權)、forbidden(無權限)和validate_error(數據驗證失敗)。\n\n接口示例：\n\njson\n{\n    "code": "success",\n    "data": {\n        "redirect_url": "https://github.com/login/oauth/authorize?client_id=f69102c6b97d90d69768&redirect_uri=http%3A%2F%2Flocalhost%3A5001%2Foauth%2Fauthorize%2Fgithub&scope=user%3Aemail"\n    },\n    "message":...')]

2.父文檔檢索器檢索較大塊

在上面的示例中，我們使用拆分的文檔塊檢索數據原文檔，但是有時候完整文檔可能太大，我們不希望按原樣檢索它們。在這種情況下，我們真正想要做的是先將原始文檔拆分成較大的塊（例如 1000-2000 個 Token），然后將其拆分為較小塊，接下來索引較小塊，但是檢索時返回較大塊（非原文檔）。
運行流程變更如下
在這里插入圖片描述

在 ParentDocumentRetriever 中，只需要傳遞多一個父文檔分割器即可，其他流程無需任何變化，更新后的部分代碼如下

parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)retriever = ParentDocumentRetriever(vectorstore=vector_store,byte_store=store,parent_splitter=parent_splitter,child_splitter=child_splitter,
)

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/87175.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/87175.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/87175.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！