【GPT入門】第21課 langchain核心組件

1. langchain 核心組件
2.文檔加載器 Document loader
3.文檔處理器
3.1 langchain_text_splitters
3.3 FAISS向量數據庫和向量檢索
- - 主要作用
  - 應用場景
4. 對話歷史管理

1. langchain 核心組件

模型 I/O 封裝
LLMs：大語言模型
Chat Models：一般基于 LLMs，但按對話結構重新封裝
PromptTemple：提示詞模板
OutputParser：解析輸出
數據連接封裝
Document Loaders：各種格式文件的加載器
Document Transformers：對文檔的常用操作，如：split, filter, translate, extract metadata, etc
Text Embedding Models：文本向量化表示，用于檢索等操作（啥意思？別急，后面詳細講）
Verctorstores: （面向檢索的）向量的存儲
Retrievers: 向量的檢索
對話歷史管理
對話歷史的存儲、加載與剪裁

在這里插入圖片描述

2.文檔加載器 Document loader

from langchain_community.document_loaders import PyMuPDFLoaderloader = PyMuPDFLoader("llama2.pdf")
pages = loader.load_and_split()
print(pages[0].page_content)
print(len(pages))

3.文檔處理器

3.1 langchain_text_splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200,chunk_overlap=100,length_function=len,add_start_index=True
)
paragraphs = text_splitter.create_documents([pages[0].page_content])
for para in paragraphs:print(para)print('-'*20)

輸出結果：

page_content='models outperform open-source chat models on most benchmarks we tested, and based on
our human evaluations for helpfulness and safety

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/73445.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/73445.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/73445.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！