Dify工作流：爬蟲文章到AI知識庫

部署Dify

代碼拉取

git clone https://github.com/langgenius/dify.git
cd dify/docker

啟動容器

docker-compose up -d

啟動成功

在這里插入圖片描述

準備知識庫

創建知識庫

創建一個空的知識庫

在這里插入圖片描述

要先從網址中，找到這個知識庫的id，記下后面需要用到。

在這里插入圖片描述

新建API密鑰

創建密鑰，后面通過API將數據寫入知識庫用到
在這里插入圖片描述

記下創建文檔的API

后面通過這個API將數據寫入知識庫用到

在這里插入圖片描述

安裝工具

安裝模型

打開插件，選擇模型

在這里插入圖片描述

安裝模型

在這里插入圖片描述

配置模型

在這里插入圖片描述

這里使用通義千問，因為開通的180天內免費100萬個token。沒有API Key可以從左下角獲取。

安裝Firecrawl

Firecrawl是一個爬蟲工具。

在這里插入圖片描述

配置Firecrawl

在這里插入圖片描述

獲取Firecrawl的API Key

在這里插入圖片描述

創建爬蟲知識庫

創建Chatflow

在這里插入圖片描述

創建參數提取器

在這里插入圖片描述

創建爬蟲

在這里插入圖片描述

要抓取的URL：填寫上一步返回的website

結果的格式：markdown

僅抓取主要內容：選擇true

請求頭: {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

創建模板轉換

模板轉換的作用是獲取上一步的爬蟲內容的text，給下一步用。

在這里插入圖片描述

創建提取標題與正文

在這里插入圖片描述

創建代碼執行

過濾爬蟲內容的特殊字符

在這里插入圖片描述

function main({arg1}) {return {content: arg1.replace(/\\/g, '\\\\').replace(/"/g, '\\"').replace(/\n/g, '\\n').replace(/\r/g, '\\r').replace(/\t/g, '\\t')}
}

創建HTTP 請求

將爬蟲的數據通過知識庫API保存到上面創建的知識庫

在這里插入圖片描述

將上面復制的接口粘貼到這里

在這里插入圖片描述

curl --location --request POST 'http://192.168.51.101/v1/datasets/{dataset_id}/document/create-by-text' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{"name": "text","text": "text","indexing_technique": "high_quality","process_rule": {"mode": "automatic"}}'

將dataset_id替換成上面保存的知識庫id

添加接口的鑒權

在這里插入圖片描述

填寫上面保存的API-Key

在這里插入圖片描述

填寫BODY

在這里插入圖片描述

最后的回復

在這里插入圖片描述

測試

在這里插入圖片描述

測試成功

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/915811.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/915811.shtml
英文地址，請注明出處：http://en.pswp.cn/news/915811.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！