部署Dify
代碼拉取
git clone https://github.com/langgenius/dify.git
cd dify/docker
啟動容器
docker-compose up -d
啟動成功
準備知識庫
創建知識庫
創建一個空的知識庫
要先從網址中,找到這個知識庫的id,記下后面需要用到。
新建API密鑰
創建密鑰,后面通過API將數據寫入知識庫用到
記下創建文檔的API
后面通過這個API將數據寫入知識庫用到
安裝工具
安裝模型
打開插件,選擇模型
安裝模型
配置模型
這里使用通義千問,因為開通的180天內免費100萬個token。沒有API Key可以從左下角獲取。
安裝Firecrawl
Firecrawl是一個爬蟲工具。
配置Firecrawl
獲取Firecrawl的API Key
創建爬蟲知識庫
創建Chatflow
創建參數提取器
創建爬蟲
要抓取的URL:填寫上一步返回的website
結果的格式:markdown
僅抓取主要內容:選擇true
請求頭: {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
創建模板轉換
模板轉換的作用是獲取上一步的爬蟲內容的text
,給下一步用。
創建提取標題與正文
創建代碼執行
過濾爬蟲內容的特殊字符
function main({arg1}) {return {content: arg1.replace(/\\/g, '\\\\').replace(/"/g, '\\"').replace(/\n/g, '\\n').replace(/\r/g, '\\r').replace(/\t/g, '\\t')}
}
創建HTTP 請求
將爬蟲的數據通過知識庫API保存到上面創建的知識庫
將上面復制的接口粘貼到這里
curl --location --request POST 'http://192.168.51.101/v1/datasets/{dataset_id}/document/create-by-text' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{"name": "text","text": "text","indexing_technique": "high_quality","process_rule": {"mode": "automatic"}}'
將dataset_id替換成上面保存的知識庫id
添加接口的鑒權
填寫上面保存的API-Key
填寫BODY
最后的回復
測試
測試成功