AI(學習筆記第五課) 使用langchain進行AI開發 load documents(web)

文章目錄

AI(學習筆記第五課) 使用langchain進行AI開發 load documents(web)
學習內容：
- 1.load documents（web）
- - 1.1 學習`url`
  - 1.2 提前安裝`python`的`package`
  - 1.2 使用`WebBaseLoader`進行`webpage`的`load`
  - 1.3 使用`BeautifulSoup4`進行`webpage`的部分截取
  - 1.4 使用`UnstructuredURLLoader`的部分截取
  - 1.5 使用`UnstructuredULoader`的截取父子關系的節點
  - - 1.5.1 使用時候的注意點
    - 1.5.2 代碼解析
    - 1.5.3 代碼執行
- 2. 使用定位結果進行檢索`Vector search over page content`
- - 2.1 最終代碼
  - 2.2 執行結果

AI(學習筆記第五課) 使用langchain進行AI開發 load documents(web)

使用langchain如何解析web page
使用vector_store 對search的docs進行ai檢索

學習內容：

從webpage中構建vector store，并使用進行檢索

1.load documents（web）

1.1 學習`url`

langchain的load documents(web)文檔。

1.2 提前安裝`python`的`package`

langchain-community
beautifulsoup4
langchain_core

1.2 使用`WebBaseLoader`進行`webpage`的`load`

import asyncio
import bs4,os
from langchain_community.document_loaders import WebBaseLoader, UnstructuredURLLoader
from typing import List
from langchain_core.documents import Document
page_url = "https://python.langchain.com/docs/how_to/chatbots_memory/"
# 設置USER_AGENT避免警告
os.environ["USER_AGENT"] = "MyApp/1.0"
async def load_whole_web():loader = WebBaseLoader(web_paths=[page_url])pages = []async for page in loader.alazy_load():pages.append(page)print(f"{pages[0].metadata}\n")print(pages[0].page_content[:500].strip())asyncio.run(load_whole_web())

這里，使用WebBaseLoader對代碼對指定的webpage進行load到pages變量中，之后使用metadata和page_content進行輸出。
metadata輸出如下json
在這里插入圖片描述

1.3 使用`BeautifulSoup4`進行`webpage`的部分截取

實際上，很可能需要對特定的<div>或者特定的class，來對特定的webpage部分進行截取。

async def load_partial_web():loader = WebBaseLoader(web_paths=[page_url],bs_kwargs={"parse_only": bs4.SoupStrainer(class_="theme-doc-markdown markdown"),},bs_get_text_kwargs={"separator": " | ", "strip": True},)docs = []async for doc in loader.alazy_load():docs.append(doc)assert len(docs) == 1doc = docs[0]print(f"{doc.metadata}\n")print(doc.page_content[:500])print(doc.page_content[-500:])
asyncio.run(load_partial_web())

在這里插入圖片描述
這樣保證，截取的是<div class="theme-doc-markdown markdown">的部分。

1.4 使用`UnstructuredURLLoader`的部分截取

和pdf的loader一樣，想要對內容進行洗的切分，可以使用UnstructuredURLLoader。
注意，這里練習時候使用的UnstructuredURLLoader的版本較低，對示例的代碼進行了調整。

async def load_web_with_unstructured():loader = UnstructuredURLLoader(urls=[page_url],  # 替換為實際URLmode="elements",strategy='fast')docs = []async for doc in loader.alazy_load():docs.append(doc)for doc in docs[:5]:print(f'{doc.metadata["category"]}: {doc.page_content}')return docsasyncio.run(load_web_with_unstructured())

可以看出，這里將web內容解析到doc中，保存起來，并將前5個doc進行category和page_content進行打印。
在這里插入圖片描述

1.5 使用`UnstructuredULoader`的截取父子關系的節點

1.5.1 使用時候的注意點

這里需要注意兩點：

不是from langchain_community.document_loader的UnstructuredURLLoader，這里需要換成from langchain_unstructure的UnstructuredLoader`
langchain_unstructured的包，版本需要>=0.1.5

1.5.2 代碼解析

import asyncio
import bs4,os
from langchain_community.document_loaders import WebBaseLoader,UnstructuredURLLoader
from langchain_unstructured import UnstructuredLoader
from typing import List
from langchain_core.documents import Document
async def get_setup_docs():page_urls = ["https://python.langchain.com/docs/how_to/chatbots_memory/","https://python.langchain.com/docs/how_to/chatbots_tools/",]setup_docs = []for url in page_urls:page_setup_docs = await _get_setup_docs_from_url(url)setup_docs.extend(page_setup_docs)for doc in setup_docs[:3]:print(f'{doc.metadata["category"]}: {doc.page_content}')return setup_docsasync def _get_setup_docs_from_url(url: str) -> List[Document]:loader = UnstructuredLoader(web_url=url)setup_docs = []parent_id = -1async for doc in loader.alazy_load():metadata = doc.metadataif metadata.get("category") == "Title" and doc.page_content.startswith("Setup"):parent_id = metadata.get("element_id")if metadata.get("parent_id") == parent_id:setup_docs.append(doc)return setup_docsasyncio.run(get_setup_docs())

這里，可以看出是定位到category==Title并且startWith(Setup)的部分，之后記錄下parent_id，之后接下來便利其他doc，如果parent_id是上面記錄的parent_id那么就將該doc都作為setup的說明文檔，保存起來。

1.5.3 代碼執行

在這里插入圖片描述

2. 使用定位結果進行檢索`Vector search over page content`

2.1 最終代碼

import asyncio
import bs4,os
from langchain_community.document_loaders import WebBaseLoader,UnstructuredURLLoader
from langchain_unstructured import UnstructuredLoader
from typing import List
from langchain_core.documents import Document
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_core.vectorstores import InMemoryVectorStorepage_url = "https://python.langchain.com/docs/how_to/chatbots_memory/"
# 設置USER_AGENT避免警告
os.environ["USER_AGENT"] = "MyApp/1.0"# 替換 OpenAIEmbeddings 配置為 Ollama 本地模型
embeddings = OllamaEmbeddings(model="nomic-embed-text",  # 或其他支持的本地模型如 "mistral", "nomic-embed-text"base_url="http://192.168.2.208:11434"  # Ollama 默認地址
)
async def _get_setup_docs() -> List[Document]:page_urls = ["https://python.langchain.com/docs/how_to/chatbots_memory/","https://python.langchain.com/docs/how_to/chatbots_tools/",]setup_docs = []for url in page_urls:page_setup_docs = await _get_setup_docs_from_url(url)setup_docs.extend(page_setup_docs)return setup_docsasync def _get_setup_docs_from_url(url: str) -> List[Document]:loader = UnstructuredLoader(web_url=url)setup_docs = []parent_id = -1async for doc in loader.alazy_load():metadata = doc.metadataif metadata.get("category") == "Title" and doc.page_content.startswith("Setup"):parent_id = metadata.get("element_id")if metadata.get("parent_id") == parent_id:setup_docs.append(doc)return setup_docsasync def search_vector_store():setup_docs =await _get_setup_docs()vector_store = InMemoryVectorStore.from_documents(setup_docs, embeddings)retrieved_docs = vector_store.similarity_search("Install Tavily", k=2)for doc in retrieved_docs:print(f'Page {doc.metadata["url"]}: {doc.page_content[:300]}\n')asyncio.run(search_vector_store())

這里看出，使用本地構建的ollama模型nomic-embed-text，進行ai的檢索。

2.2 執行結果

在這里插入圖片描述
基于webpage，ai大模型給出了檢索結果。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/88769.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/88769.shtml
英文地址，請注明出處：http://en.pswp.cn/web/88769.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！