langchain框架輕松實現本地RAG

一什么是RAG?

? ? ? RAG（Retrieval-Augmented Generation）是一種結合了檢索和生成模型的方法，主要用于解決序列到序列的任務，如問答、對話系統、文本摘要等。它的核心思想是通過從大量文檔中檢索相關信息，然后利用這些信息來增強生成模型的輸出。

原理如下圖：

二 RAG實現思路

? RAG實現思路分為準備數據與應用檢索兩階段，如圖：

階段一數據準備階段

數據提取：對多種格式（如 PDF、Word、Markdown、數據庫和 API 等）的數據進行處理，包括過濾、壓縮、格式化等，使其成為統一的范式。
分塊（chunking）：將初始文檔分割成合適大小的塊，在不丟失語義的前提下，盡量保持句子或段落的完整性。可以根據換行、句號、問號、感嘆號等進行切分，或以其他合適的原則進行分割。最終將語料分割成 chunk 塊，以便在檢索時獲取相關性最高的 top_n 塊。
向量化（embedding）：使用嵌入模型將文本數據轉化為向量矩陣。常用的 embedding 模型有很多，例如 moka-ai/m3e-base、ganymedenil/text2vec-large-chinese 等，也可以參考 huggingface 推出的嵌入模型排行榜。向量的質量會直接影響到后續檢索的效果。
數據入庫：將向量化后的數據構建索引，并寫入向量數據庫。適用于 RAG 場景的向量數據庫包括 facebookresearch/faiss（本地）、chroma、elasticsearch、milvus 等。可以根據業務場景、硬件、性能需求等因素綜合考慮，選擇合適的數據庫。

階段二?應用階段：

問題向量化：使用與數據準備階段相同的嵌入模型，將用戶的提問轉化為向量。
數據檢索：通過計算查詢向量與向量數據庫中存儲向量的相似性得分，采用相似性檢索的方式從數據庫中召回與提問最相關的知識。常見的相似性計算方法包括余弦相似性、歐氏距離、曼哈頓距離等。
獲取索引數據：獲取檢索到的相關數據。
注入 prompt：將用戶查詢和檢索到的相關知識整合成一個提示模板。prompt 中通常包括任務描述、背景知識（即檢索得到的相關內容）、任務指令（一般為用戶提問）等。根據任務場景和大模型性能，也可以在 prompt 中適當加入其他指令以優化大模型的輸出。
LLM 生成答案：將增強后的提示輸入到大型語言模型（LLM）中，讓模型生成相應的答案。

三用Python代碼實現RAG

使用langchain框架用python代碼實現,代碼如下：

import os
import faiss
from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import PromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.llms.ollama import Ollama
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_text_splitters import RecursiveCharacterTextSplitter
import config as cfg
from log_util import LogUtil
from auto_directory_loader import AutoDirectoryLoader
from BCEmbedding.tools.langchain import BCERerankdoc_path = cfg.load_doc_dir# 在線 embedding model
embedding_model_name = 'maidalun1020/bce-embedding-base_v1'model1_path = r'F:\ai\ai_model\maidalun1020_bce_embedding_base_v1'
model2_path = r'F:\ai\ai_model\maidalun1020_bce_reranker_base_v1'# 本地模型路徑
embedding_model_kwargs = {'device': 'cuda:0'}
embedding_encode_kwargs = {'batch_size': 32, 'normalize_embeddings': True}embeddings = HuggingFaceEmbeddings(model_name=model1_path,model_kwargs=embedding_model_kwargs,encode_kwargs=embedding_encode_kwargs
)reranker_args = {'model': model2_path, 'top_n': 5, 'device': 'cuda:0'}reranker = BCERerank(**reranker_args)# 檢查FAISS向量庫是否存在
if os.path.exists(cfg.faiss_index_path):# 如果存在，從本地加載LogUtil.info("FAISS index exists. Loading from local path...")vectorstore = FAISS.load_local(cfg.faiss_index_path, embeddings, allow_dangerous_deserialization=True)LogUtil.info("FAISS index exists. Loading from local path...")else:# 如果不存在，加載txt文件并創建FAISS向量庫LogUtil.info("FAISS index does not exist. Loading txt file and creating index...")loader = AutoDirectoryLoader(doc_path, glob="**/*.txt")docs = loader.load()LogUtil.info(f"Loaded documents num:{len(docs)}")# 從文檔創建向量庫# 文本分割text_splitter = RecursiveCharacterTextSplitter(chunk_size=cfg.chunk_size, chunk_overlap=cfg.chunk_overlap)documents = text_splitter.split_documents(docs)LogUtil.info(f"Text splits num :{len(documents)}", )# 創建向量存儲vectorstore = FAISS.from_documents(documents, embeddings)LogUtil.info("create db ok.")# 保存向量庫到本地vectorstore.save_local(cfg.faiss_index_path)LogUtil.info("Index saved to local ok.")# 將索引搬到 GPU 上
res = faiss.StandardGpuResources()
gpu_index = faiss.index_cpu_to_gpu(res, 0, vectorstore.index)
vectorstore.index = gpu_indexretriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 10})
test_ask="宴桃園豪杰三結義有誰參加了?"
# 調試查看結果
retrieved_docs = retriever.invoke(test_ask)
for doc in retrieved_docs:print('++++++單純向量庫提取++++++++')print(doc.page_content)compression_retriever = ContextualCompressionRetriever(base_compressor=reranker, base_retriever=retriever
)response = compression_retriever.get_relevant_documents(test_ask)print("============================================compression_retriever")
print(response)
print("---------------------end")# 定義Prompt模板
prompt_template = """
問題：{question}相關信息：
{retrieved_documents}請根據以上信息回答問題。
"""prompt = PromptTemplate(input_variables=["question", "retrieved_documents"],template=prompt_template,
)# 創建LLM模型
llm = Ollama(model="qwen2:7b")def format_docs(all_docs):txt = "\n\n".join(doc.page_content for doc in all_docs)print('+++++++++使用bce_embedding + bce-reranker 上下文內容++++++')print(txt)return txtrag_chain = ({"retrieved_documents": compression_retriever | format_docs, "question": RunnablePassthrough()}| prompt| llm| StrOutputParser()
)r = rag_chain.invoke(test_ask)
print("++++++加 LLM模型處理最終結果++++++++")
print(r)

?在上面代碼中我準備了一些文檔，上傳到向量庫，其中就有三國演義的，并提出了問題：宴桃園豪杰三結義有誰參加了?運行后回答也與文檔一致，測試結果正確，并在不同的環節輸出相應的結果，如下圖：

第一步，直接向量庫檢索，相近最近的10條內容如下：

經過?bce-embedding與bce_reranker兩在模型的處理，結果也是準確的

?再提交給LLM處理后的效果

?本地環境：win10系統，本地安裝了ollama 并使用的是阿里最新的qwen2：7b，其實qwen:7b測試結果也是準確的。另外還使用了bce-embedding作為嵌入模型，之前測試使用過Lam2+nomic-embed-text做了很多測試發現中文無論怎么調試，都不是很理想，回答的問題總是在胡說八道的感覺。RAG應用個人感覺重點資料輸入這塊也很重要，像圖片里的文字非得要ocr技術，這一點發現有道的qanything做得非常好，以后看來要花點時間查看qanything的源代碼好好惡補一下自己這一塊。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/39885.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/39885.shtml
英文地址，請注明出處：http://en.pswp.cn/web/39885.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！