Dify工作流:爬蟲文章到AI知識庫

部署Dify

代碼拉取

git clone https://github.com/langgenius/dify.git
cd dify/docker

啟動容器

docker-compose up -d

啟動成功

在這里插入圖片描述

準備知識庫

創建知識庫

創建一個空的知識庫

在這里插入圖片描述
在這里插入圖片描述

要先從網址中,找到這個知識庫的id,記下后面需要用到。

在這里插入圖片描述

新建API密鑰

創建密鑰,后面通過API將數據寫入知識庫用到
在這里插入圖片描述

記下創建文檔的API

后面通過這個API將數據寫入知識庫用到

在這里插入圖片描述

安裝工具

安裝模型

打開插件,選擇模型

在這里插入圖片描述

安裝模型

在這里插入圖片描述

配置模型

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

這里使用通義千問,因為開通的180天內免費100萬個token。沒有API Key可以從左下角獲取。

安裝Firecrawl

Firecrawl是一個爬蟲工具。

在這里插入圖片描述

配置Firecrawl

在這里插入圖片描述

獲取Firecrawl的API Key

在這里插入圖片描述

創建爬蟲知識庫

創建Chatflow

在這里插入圖片描述

創建參數提取器

在這里插入圖片描述

創建爬蟲

在這里插入圖片描述

在這里插入圖片描述

要抓取的URL:填寫上一步返回的website

結果的格式:markdown

僅抓取主要內容:選擇true

請求頭: {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

創建模板轉換

模板轉換的作用是獲取上一步的爬蟲內容的text,給下一步用。

在這里插入圖片描述

創建提取標題與正文

在這里插入圖片描述

創建代碼執行

過濾爬蟲內容的特殊字符

在這里插入圖片描述

function main({arg1}) {return {content: arg1.replace(/\\/g, '\\\\').replace(/"/g, '\\"').replace(/\n/g, '\\n').replace(/\r/g, '\\r').replace(/\t/g, '\\t')}
}

創建HTTP 請求

將爬蟲的數據通過知識庫API保存到上面創建的知識庫

在這里插入圖片描述

將上面復制的接口粘貼到這里

在這里插入圖片描述

curl --location --request POST 'http://192.168.51.101/v1/datasets/{dataset_id}/document/create-by-text' \
--header 'Authorization: Bearer {api_key}' \
--header 'Content-Type: application/json' \
--data-raw '{"name": "text","text": "text","indexing_technique": "high_quality","process_rule": {"mode": "automatic"}}'

將dataset_id替換成上面保存的知識庫id

添加接口的鑒權

在這里插入圖片描述

填寫上面保存的API-Key

在這里插入圖片描述

填寫BODY

在這里插入圖片描述

在這里插入圖片描述

最后的回復

在這里插入圖片描述

測試

在這里插入圖片描述

在這里插入圖片描述

測試成功

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/915811.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/915811.shtml
英文地址,請注明出處:http://en.pswp.cn/news/915811.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

支付鑒權方案介紹

前后端交互中的鑒權是確保請求來源合法、身份可信、權限合適的關鍵手段。不同系統架構和業務類型下,使用的鑒權方式略有不同,但主要可分為以下幾類: ? 一、前后端交互常見的鑒權方式概覽 鑒權方式 優點 缺點 適用場景 Cookie + Session 簡單、成熟,服務端易控制 不適合跨域…

halcon處理灰度能量圖

使用halcon處理射線圖像,對高能區域和低能區域分割處理感興趣區域,篩選區域下的灰度值區間范圍。圖像灰度值為16位深度圖。* 讀取灰度圖像 read_image (Image, /123.tif)** 獲取圖像尺寸 get_image_size (Image, Width, Height)* 分割圖像為左右兩部分&a…

Oracle From查看彈性域設置

打開彈性與設置:【應用開發員->彈性域->說明性->段】打開后界面如下: 把光標定位到標題,然后點擊“手電筒”搜索名稱(名稱就是你要查詢的那個彈性域的名稱)我這里就是搜索“附加題頭信息”&#xff0…

git初始流程

對于一個新項目,從 Git 倉庫拉取 test_tool 分支并進行后續修改提交的完整流程如下: 一、首次拉取項目(克隆倉庫并切換分支)克隆遠程倉庫到本地 打開終端(或 PyCharm 的 Terminal),進入你想存放…

emuelec模擬器 ,s905盒子樹莓派街機游戲

EmuELEC支持的盒子類型相當廣泛,主要包括使用以下芯片方案的機頂盒等設備: S905系列及其變體:如S905、S905D、S905L、S905M、S905X、S905X2、S905X3、S905X4、S905W、S905Y等。 S912:這也是EmuELEC支持的一個常見芯片方案。 S922x…

Ansible部署

Ansible部署 一、部署環境及前置操作 1、測試環境 注:主機復用原測試環境,主機hostname根據需求調整 硬件環境:N100 x86主機 Proxmox系統 軟件環境:Ubuntu 22.04.3 LTS 軟件版本:redis-7.4.0.tar.gz 主機環境:主機IP …

智慧教室:科技賦能,奏響個性化學習新樂章

在傳統教育模式中,課堂互動的局限性猶如一道無形的枷鎖,束縛著學生主動學習的熱情與能力。課堂上,往往是教師單向的知識輸出,僅有少數學生能獲得發言機會,大部分學生只能被動聆聽,逐漸在枯燥的學習氛圍中喪…

Android埋點實現方案深度分析

埋碼是數據驅動業務決策、產品優化、用戶行為分析的核心基礎,其實現方案的優劣直接影響數據的準確性、完整性、實時性、可維護性以及開發效率。 以下從多個維度對主流方案進行剖析: 一、核心目標與挑戰目標: 精準采集: 在用戶觸發…

萬界星空科技銅線/漆包線行業智能化MES系統解決方案

萬界星空科技針對銅線及漆包線行業開發的智能化MES系統,專門解決該行業原材料管理復雜、工藝控制嚴、質量追溯困難等核心痛點。該系統通過數字化手段實現生產全流程的可視化與精準控制,助力企業提升生產效率、降低運營成本并增強市場競爭力。一、行業專屬…

Git 完全手冊:從入門到團隊協作實戰(3)

Hello大家好&#xff01;很高興我們又見面啦&#xff01;給生活添點passion&#xff0c;開始今天的編程之路&#xff01; 我的博客&#xff1a;<但凡. 我的專欄&#xff1a;《編程之路》、《數據結構與算法之美》、《C修煉之路》、《Linux修煉&#xff1a;終端之內 洞悉真理…

使用Docker搭建SearXNG搜索引擎

1、安裝Docker# 安裝Docker https://docs.docker.com/get-docker/# 安裝Docker Compose https://docs.docker.com/compose/install/# CentOS安裝Docker https://mp.weixin.qq.com/s/nHNPbCmdQs3E5x1QBP-ueA2、安裝SearXNG詳見&#xff1a; https://docs.searxng.org/admin/inst…

基于pi/4-QPSK擴頻解擴和gardner環定時同步的通信系統matlab性能仿真

目錄 1.引言 2.算法仿真效果演示 3.數據集格式或算法參數簡介 4.算法涉及理論知識概要 4.1 π/4-QPSK 4.2 直接序列擴頻與解擴 4.3 Gardner環定時同步 5.參考文獻 6.完整算法代碼文件獲得 1.引言 π/4-QPSK是一種特殊的QPSK調制方式&#xff0c;其相鄰符號間的相位跳變…

CGA老年人能力評估師:提升老年生活質量

一、CGA老年人能力評估師是提升老年生活質量的“導航者” 老年生活質量的提升&#xff0c;始于對老年人真實需求的精準把握。CGA老年人能力評估師正是這樣一群“導航者”&#xff0c;他們運用CGA老年綜合評估系統&#xff0c;深入了解老年人在生理、心理、社會參與等方面的狀況…

開源的大語言模型(LLM)應用開發平臺Dify

概述Dify 是一個開源的大語言模型&#xff08;LLM&#xff09;應用開發平臺&#xff0c;結合了后端即服務&#xff08;Backend-as-a-Service&#xff09;和 LLMOps 的理念&#xff0c;旨在幫助開發者快速構建生產級的生成式 AI 應用。它通過直觀的界面、強大的功能和靈活的部署…

RAG(檢索增強生成)里的文檔管理

RAG&#xff08;檢索增強生成&#xff09;是結合檢索與生成式 AI 的技術框架。核心邏輯是先從外部知識庫精準檢索相關信息&#xff0c;再將其作為上下文輸入大模型生成回答。技術上依賴檢索引擎&#xff08;如向量數據庫、BM25&#xff09;、大語言模型&#xff08;如 GPT、LLa…

床上肢體康復機器人的機械結構設計cad【7張】三維圖+設計說明書

摘要 近年來&#xff0c;隨著人口老齡化問題的加重&#xff0c;常年臥床的老年人數增多&#xff0c;同時因為各種疾病的原因&#xff0c;患肢體功能障礙的人數也在增加。嚴重影響著患者的生活質量&#xff0c;同時給社會和家庭增加了很多麻煩。他們迫切希望盡快康復&#xff0c…

主要分布在背側海馬體(dHPC)CA1區域(dCA1)的時間細胞對NLP中的深層語義分析的積極影響和啟示

時間細胞&#xff08;time cells&#xff09;作為海馬體CA1區域中編碼時間信息的神經元&#xff0c;其工作機制對自然語言處理&#xff08;NLP&#xff09;中的深層語義分析具有多方面的啟示。這些神經元通過整合時空信息、動態競爭機制和序列編碼能力&#xff0c;為解決NLP中語…

數字ic后端設計從入門到精通12(含fusion compiler, tcl教學)全定制設計進階

標準單元庫中幾種時序單元介紹 C2MOS觸發器C2MOS觸發器的工作分為兩個階段&#xff1a; 1&#xff09;φ0&#xff08;φ1&#xff09;時&#xff0c;第一個三態驅動器導通&#xff08;三態門主要體現在&#xff0c;此時主級處于求值模式。同時從級處在高阻抗模式&#xff0c;即…

Qt調試技巧與常見錯誤解決方法

一、調試工具與環境配置 1.1 Qt Creator調試器集成 Qt Creator內置GDB/Lldb調試器&#xff0c;支持斷點、單步執行、變量監視等功能。 啟動調試&#xff1a;按F5或點擊"Debug"按鈕斷點設置&#xff1a;在代碼行號旁點擊添加斷點調試工具欄&#xff1a;包含繼續、暫停…

VRRP技術(虛擬路由器冗余協議)

1. VRRP的概念及應用場景&#xff08;優先級數值越大&#xff0c;越優先&#xff09;VRRP&#xff08;虛擬路由器冗余協議&#xff09;是 IETF&#xff08;互聯網工程任務組&#xff09;提出的一種容錯協議&#xff0c;主要用于解決局域網中網關單點故障的問題。VRRP 通過把多個…