基于AI的Web數據管道,使用n8n、Scrapeless和Claude

引言

在當今數據驅動的環境中,組織需要高效的方法來提取、處理和分析網絡內容。傳統的網絡抓取面臨著諸多挑戰:反機器人保護、復雜的JavaScript渲染以及持續的維護需求。此外,理解非結構化的網絡數據則需要復雜的處理能力。

本指南演示了如何使用 n8n 工作流自動化、Scrapeless 網絡抓取、Claude AI 進行智能提取,以及 Qdrant 向量數據庫進行語義存儲,構建完整的網絡數據管道。無論您是構建知識庫、進行市場研究,還是開發 AI 助手,此工作流都提供了強大的基礎。

您將構建的內容

我們的 n8n 工作流結合了幾種尖端技術:

  • Scrapeless 網絡解鎖器:先進的網絡抓取與 JavaScript 渲染
  • Claude 3.7 詩集:人工智能驅動的數據提取和結構化
  • Ollama 嵌入:本地向量嵌入生成
  • Qdrant 向量數據庫:語義存儲和檢索
  • 通知系統:通過網絡鉤子實現實時監控

這個端到端的管道將凌亂的網絡數據轉化為結構化、向量化的信息,準備進行語義搜索和 AI 應用。

使用 n8n、Scrapeless 和 Claude 構建 AI 驅動的網絡數據管道

安裝與設置

安裝 n8n

n8n 需要 Node.js v18、v20 或 v22。如果您遇到版本兼容性問題:

Copy

# 檢查您的 Node.js 版本
node -v# 如果您有一個較新不受支持的版本(例如 v23+),請安裝 nvm
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# 或者對于 Windows,使用 NVM for Windows 安裝程序# 安裝兼容的 Node.js 版本
nvm install 20# 使用已安裝的版本
nvm use 20# 全局安裝 n8n
npm install n8n -g# 運行 n8n
n8n

您的 n8n 實例現在應該可以在?http://localhost:5678?訪問。

設置 Claude API

  1. 訪問 Anthropic 控制臺并創建一個帳戶
  2. 導航到 API 密鑰部分
  3. 點擊“創建密鑰”,并設置適當的權限
  4. 復制您的 API 密鑰以用于 n8n 工作流(在 AI 數據檢查器、Claude 數據提取器和 Claude AI 代理中)

設置 Claude API

設置 Scrapeless

  1. 訪問?Scrapeless?并創建一個帳戶
  2. 導航到儀表板中的通用抓取 API 部分?Effortless Web Scraping Toolkit - Scrapeless

設置 Scrapeless

  1. 復制您的令牌以用于 n8n 工作流

復制您的令牌以用于 n8n 工作流

您可以使用此 curl 命令自定義您的 Scrapeless 網絡抓取請求,并將其直接導入到 n8n 的 HTTP 請求節點中:

Copy

curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \-H "Content-Type: application/json" \-H "x-api-token: scrapeless_api_key" \-d '{"actor": "unlocker.webunlocker","proxy": {"country": "ANY"},"input": {"url": "https://www.scrapeless.com","method": "GET","redirect": true,"js_render": true,"js_instructions": [{"wait":100}],"block": {"resources": ["image","font","script"],"urls": ["https://example.com"]}}}'

您可以自定義您的 Scrapeless 網絡抓取請求

使用 Docker 安裝 Qdrant

Copy

# 拉取 Qdrant 鏡像
docker pull qdrant/qdrant# 以數據持久化運行 Qdrant 容器
docker run -d \--name qdrant-server \-p 6333:6333 \-p 6334:6334 \-v $(pwd)/qdrant_storage:/qdrant/storage \qdrant/qdrant

驗證 Qdrant 是否正在運行:

Copy

curl http://localhost:6333/healthz

安裝 Ollama

macOS:

Copy

brew install ollama

Linux:

Copy

curl -fsSL https://ollama.com/install.sh | sh

Windows:從 Ollama 的網站下載并安裝。

啟動 Ollama 服務器:

Copy

ollama serve

安裝所需的嵌入模型:

Copy

ollama pull all-minilm

驗證模型安裝:

Copy

ollama list

設置 n8n 工作流

工作流概述

我們的工作流由以下關鍵組件組成:

  1. 手動/計劃觸發:啟動工作流
  2. 集合檢查:驗證 Qdrant 集合是否存在
  3. URL 配置:設置目標 URL 和參數
  4. Scrapeless 網絡請求:提取 HTML 內容
  5. Claude 數據提取:處理和結構化數據
  6. Ollama 嵌入:生成向量嵌入
  7. Qdrant 存儲:保存向量和元數據
  8. 通知:通過網絡鉤子發送狀態更新

步驟 1:配置工作流觸發器和集合檢查

首先添加一個手動觸發節點,然后添加一個 HTTP 請求節點以檢查您的 Qdrant 集合是否存在。您可以在此初始步驟中自定義集合名稱 - 如果集合不存在,工作流將自動創建它。

重要說明:?如果您想使用與默認“hacker-news”不同的集合名稱,請確保在所有引用 Qdrant 的節點中一致地更改它。

步驟 2:配置 Scrapeless 網絡請求

添加一個 HTTP 請求節點用于 Scrapeless 網絡抓取。使用之前提供的 curl 命令配置節點,將 YOUR_API_TOKEN 替換為您實際的 Scrapeless API 令牌。

您可以在 Scrapeless Web Unlocker 中配置更高級的抓取參數。

步驟 3:Claude 數據提取

添加一個節點處理 HTML 內容,使用 Claude。您需要提供您的 Claude API 密鑰以進行身份驗證。Claude 提取器分析 HTML 內容并以 JSON 格式返回結構化數據。

步驟 4:格式化 Claude 輸出

此節點獲取 Claude 的響應,并通過提取相關信息并適當地格式化來為向量化做準備。

步驟 5:生成 Ollama 嵌入

此節點將結構化文本發送到 Ollama 以生成嵌入。確保您的 Ollama 服務器正在運行,并且已安裝 all-minilm 模型。

步驟 6:Qdrant 向量存儲

此節點將生成的嵌入存儲在您的 Qdrant 集合中,連同相關的元數據。

步驟 7:通知系統

最后一個節點通過您配置的網絡鉤子發送工作流執行狀態的通知。

常見問題排查

n8n Node.js 版本問題

如果您看到如下錯誤:

Copy

您的 Node.js 版本 X 當前不受 n8n 支持。  
請使用 Node.js v18.17.0(推薦)、v20 或 v22!  

通過安裝 nvm 并使用兼容的 Node.js 版本來修復,如設置部分所述。

Scrapeless API 連接問題

  • 驗證您的 API 令牌是否正確
  • 檢查您是否超出了 API 速率限制
  • 確保 URL 格式正確

Ollama 嵌入錯誤

常見錯誤:connect ECONNREFUSED ::1:11434

修復:

  • 確保 Ollama 正在運行:ollama serve
  • 驗證模型是否已安裝:ollama pull all-minilm
  • 使用直接 IP(127.0.0.1)而不是 localhost
  • 檢查是否有其他進程在使用端口 11434

高級用法場景

批處理多個 URL

要在一次工作流執行中處理多個 URL:

  1. 使用批次拆分節點并行處理 URL
  2. 為每個批次配置適當的錯誤處理
  3. 使用合并節點合并結果

定期數據更新

通過定期更新保持您的向量數據庫最新:

  1. 用計劃節點替換手動觸發
  2. 配置更新頻率(每日、每周等)
  3. 使用如果節點僅處理新或更改的內容

自定義提取模板

為不同內容類型調整 Claude 的提取:

  1. 為新聞文章、產品頁面、文檔等創建特定提示
  2. 使用開關節點選擇合適的提示
  3. 將提取模板存儲為環境變量

結論

此 n8n 工作流創建了一個強大的數據管道,結合了 Scrapeless 網絡抓取、Claude AI 提取、向量嵌入和 Qdrant 存儲的優勢。通過自動化這些復雜的過程,您可以專注于使用提取的數據,而不是獲取它的技術挑戰。

n8n 的模塊化特性使您能夠擴展此工作流,增加更多處理步驟、與其他系統的集成或自定義邏輯,以滿足您的特定需求。無論您是構建 AI 知識庫、進行競爭分析,還是監控網絡內容,這個工作流都提供了堅實的基礎。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81613.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81613.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81613.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Cadence學習筆記之---PCB器件放置與布局

目錄 01 | 引 言 02 | 環境描述 03 | 元件放置 04 | 布局相關操作 06 | 總 結 01 | 引 言 在上一篇文章中,介紹了如何設置PCB的電氣規則約束,以及如何設置層疊,到此我們已經完成了使用Cadence設計PCB的前期準備工作; 在本篇…

力扣HOT100之二叉樹:199. 二叉樹的右視圖

這道題沒啥好說的,首先定義一個向量來保存每一層的最后一個元素,直接用層序遍歷(廣度優先搜索)遍歷二叉樹,然后將每一層的最后一個元素加入到這個向量中即可。屬于是二叉樹層序遍歷的模板題。 /*** Definition for a …

CSS:三大特性

文章目錄 一、層疊性二、繼承性三、優先級 一、層疊性 二、繼承性 可以在MDN網站上查看屬性是否可以被繼承 例如color 三、優先級

C++經典庫介紹

在 C 開發的漫長歷程中,涌現出了許多經典的庫,它們在不同的領域發揮著重要作用,極大地提升了 C 開發的效率和質量。下面為你介紹一些 C 開發中的經典庫。 標準模板庫(STL) STL 堪稱 C 編程領域的基石,是每…

Git本地使用小Tips

要將本地倉庫 d:\test 的更新推送到另一個本地倉庫 e:\test,可以使用 Git 的遠程倉庫功能。以下是具體步驟: ??在 e:\test 中添加 d:\test 作為遠程倉庫?? 在 e:\test 目錄中打開 Git Bash 或命令行,執行以下命令: git remo…

AWS SageMaker vs Bedrock:該選哪個?

隨著生成式 AI 的快速崛起,越來越多企業希望借助云上工具,加速 AI 應用的構建與落地。AWS 作為領先的云服務提供商,提供了兩款核心 AI 服務:Amazon SageMaker 和 Amazon Bedrock。它們雖然同屬 AWS AI 生態系統,但定位…

51單片機的lcd12864驅動程序

#include <reg51.h> #include <intrins.h>#define uchar

Git .gitattributes 文件用途詳解

.gitattributes 是 Git 版本控制系統中的一個配置文件&#xff0c;用于定義特定文件或路徑的屬性&#xff0c;從而控制 Git 如何處理這些文件。它類似于 .gitignore&#xff0c;但功能更廣泛&#xff0c;可以精細化管理文件在版本控制中的行為。 主要用途 以下是 .gitattribut…

使用 Apache POI 生成 Word 文檔

創建一個包含標題、段落和表格的簡單文檔。 步驟 1:添加依賴 確保你的項目中已經添加了 Apache POI 的依賴。如果你使用的是 Maven,可以在 pom.xml 中添加以下內容: <dependency><groupId>org.apache.poi</groupId>

數據中心 智慧機房解決方案

該文檔介紹數據中心智慧機房解決方案,涵蓋模塊化數據中心(機柜式、微模塊),具備低成本快速部署、標準化建設等特點;監控管理系統(DCIM)可實現設施、資產、容量、能效管理;節能解決方案含精密空調節能控制柜,節能率高達 30%;還有7X24 小時云值守運維服務。方案亮點包括…

java -jar命令運行 jar包時如何運行外部依賴jar包

java -jar命令運行 jar包時如何運行外部依賴jar包 場景&#xff1a; 打包發不完,運行時。發現一個問題&#xff0c; java java.lang.NoClassDefFoundError: org/apache/commons/lang3/ArrayUtils 顯示此&#xff0c;基本表明&#xff0c;沒有這個依賴&#xff0c;如果在開發…

Halcon與C#:工業級機器視覺開發

Halcon&#xff08;由MVTec開發&#xff09;是一款廣泛應用于工業機器視覺的高性能軟件庫&#xff0c;支持C#、C、Python等多種語言。以下是基于C#的Halcon開發詳解&#xff0c;涵蓋環境配置、核心流程、關鍵API及最佳實踐。 ??1. 開發環境配置?? ??1.1 安裝Halcon?? …

ALTER COLLATION使用場景

ALTER COLLATION 是 SQL 中用于修改字符集排序規則&#xff08;Collation&#xff09;的操作。排序規則定義了字符數據的比較和排序方式&#xff0c;包括字母順序、大小寫敏感性、重音符號處理等。ALTER COLLATION 的使用場景主要集中在需要調整數據庫或表的字符集排序規則時。…

Kafka消息路由分區機制深度解析:架構設計與實現原理

一、消息路由系統的核心架構哲學 1.1 分布式系統的三元悖論 在分布式消息系統的設計過程中&#xff0c;架構師需要平衡三個核心訴求&#xff1a;數據一致性、系統可用性和分區容忍性。Kafka的分區路由機制本質上是對CAP定理的實踐解&#xff1a; 一致性維度&#xff1a;通過…

【網絡實驗】-BGP-EBGP的基本配置

實驗拓撲 實驗要求&#xff1a; 使用兩種方式建立不同AS號的BGP鄰居&#xff0c;不同AS號路由器之間建立的鄰居稱為EBGP鄰居 實驗目的&#xff1a; 熟悉使用物理口和環回口建立鄰居的方式 IP地址規劃&#xff1a; 路由器接口IP地址AR1G0/0/012.1.1.1/24AR1Loopback 01.1.1…

JavaScript:PC端特效--緩動動畫

一、緩動效果原理 緩動動畫就是讓元素運動速度有所變化&#xff0c;最常見的就是讓元素慢慢停下來 思路&#xff1a; 讓盒子每次移動的距離慢慢變小&#xff0c;速度就會慢慢降下來核心算法&#xff1a;&#xff08;目標值-現在位置&#xff09;/10作為每次移動距離的步長停…

高效管理多后端服務:Nginx 配置與實踐指南

在現代的 Web 開發和運維中&#xff0c;一個系統往往由多個后端服務組成&#xff0c;每個服務負責不同的功能模塊。例如&#xff0c;一個電商網站可能包括用戶服務、訂單服務和支付服務&#xff0c;每個服務都運行在獨立的服務器或容器中。為了高效地管理這些服務并提供統一的訪…

2025年PMP 學習二十一 14章 項目立項管理

2025年PMP 學習二十一 14章 項目立項管理 項目立項管理 項目建議 (Project Proposal)項目可行性分析 (Project Feasibility Analysis)項目審批 (Project Approval)項目招投標 (Project Tendering)項目合同談判和簽訂 (Project Contract Negotiation and Signing) 文章目錄 20…

用Caffeine和自定義注解+AOP優雅實現本地防抖接口限流

一、背景與需求 在實際項目開發中&#xff0c;經常遇到接口被前端高頻觸發、按鈕被多次點擊或者接口重復提交的問題&#xff0c;導致服務壓力變大、數據冗余、甚至引發冪等性/安全風險。 常規做法是前端節流/防抖、后端用Redis全局限流、或者API網關限流。但在很多場景下&…

【IP101】紋理特征提取與分析:從統計方法到深度表征的系統解析

紋理分析詳解 &#x1f3a8; 紋理分析就像是給圖像做"指紋識別"&#xff01;每種紋理都有其獨特的"指紋"&#xff0c;就像木紋的條紋、布料的編織、草地的隨機分布一樣。讓我們一起來探索這個既有趣又實用的圖像處理領域吧&#xff01; 目錄 1. 什么是紋理…