Crawl4AI: 賦能AI用戶的開源智能網頁爬蟲與數據提取

在當今人工智能時代，網絡爬蟲扮演著至關重要的角色。它們不僅是數據收集的強大工具，更是驅動機器學習、自然語言處理等技術發展的關鍵引擎。

然而，對于用戶來說，在面對復雜多變的網絡環境和各異的網站結構時，常常會遇到諸多挑戰。爬取中文網站時，編碼問題、反爬機制、以及對中文語義的理解都成為了阻礙數據獲取的絆腳石。

正是在這樣的背景下，我發現了 Crawl4AI，一款專為大型語言模型（LLM）和人工智能應用設計的高效、靈活且完全開源的網頁爬蟲與數據提取工具。

它致力于降低用戶在數據獲取方面的門檻，賦能開發者以快速、高效、便捷的方式從網絡中提取所需信息。

概覽

Crawl4AI 是一款功能豐富、且對 LLM 非常友好的爬蟲框架。它擁有以下核心優勢：

完全開源且免費：Crawl4AI 采用 Apache 2.0 協議，允許用戶自由使用、修改和分發，無需擔心付費或商業限制。
專為 AI 設計：自動將網頁內容轉換為結構清晰、簡潔的 Markdown 格式，極大地簡化了 RAG（檢索增強生成）流程和微調任務的數據獲取步驟。
速度快，效率高：Crawl4AI 擁有出色的性能，能夠在短時間內抓取大量頁面，并通過啟發式算法降低對昂貴模型的依賴。
高度靈活可配置：支持多種配置選項，包括自定義 User-Agent、代理設置、會話管理等，輕松應對各種反爬策略。

核心優勢

Crawl4AI 的強大之處體現在以下幾個核心方面：

速度與效率
Crawl4AI 追求極致性能，憑借其架構優化，能以極快的速度抓取網頁。與同類工具相比，Crawl4AI 在速度上具有顯著優勢。
靈活的配置

Crawl4AI 提供了兩個核心配置類，BrowserConfig? 和 CrawlerRunConfig?，方便用戶靈活地定制爬蟲的行為：
- ?BrowserConfig?：用于配置瀏覽器級別的設置，例如是否啟用無頭模式、設置 User-Agent、配置代理等。
- ?CrawlerRunConfig?：用于配置單次抓取任務的行為，例如緩存模式、內容選擇、內容過濾、JavaScript 執行等。
多結構數據提取

Crawl4AI 支持多種數據提取策略，能夠從網頁中提取出結構化的信息：
- JSON CSS Extraction：使用 CSS 選擇器從結構化的網頁中提取數據，速度快、效率高。
- JSON XPath Extraction：使用 XPath 表達式從 XML 或 HTML 文檔中提取數據，更加靈活。
- LLM Extraction：結合大型語言模型，從非結構化的網頁中提取信息，適用于處理復雜或語義化的內容。
可擴展的大規模數據處理能力
Crawl4AI 通過內存自適應調度器（MemoryAdaptiveDispatcher?）來支持大規模并發爬取，可以根據系統內存使用情況動態地調整并發任務數量，防止內存溢出，保證爬蟲的穩定運行。同時還提供了流式處理的支持，能夠在抓取的同時處理數據，無需等待所有任務完成，大大提高了效率。
協議支持
Crawl4AI 默認支持 HTTP(S) 協議，但同時也考慮到網絡爬蟲的倫理和法律問題，提供了 robots.txt? 協議的支持，可以通過設置 check_robots_txt=True? 來遵守網站的爬取規則，避免對網站造成不必要的負擔。

快速上手

以下是使用 Crawl4AI 的快速上手指南：

1. 安裝

使用 pip 安裝 Crawl4AI：

pip install crawl4ai
crawl4ai-setup

2. 編寫 Python 腳本

創建一個 Python 腳本，例如 crawl.py?，并添加以下代碼：

import asyncio
from crawl4ai import AsyncWebCrawlerasync def main():async with AsyncWebCrawler() as crawler:result = await crawler.arun(url="https://www.example.com")print(result.markdown[:500])if __name__ == "__main__":asyncio.run(main())

3. 運行腳本

在命令行中運行該腳本：

python crawl.py

4. 使用命令行界面(CLI)

如果你只需要快速的抓取一個網頁，可以使用我們提供的CLI工具：

crwl https://www.nbcnews.com/business -o markdown

高級功能

Crawl4AI 提供了許多高級功能，可以滿足各種復雜的爬取需求。

1. 高級的網頁遍歷方法：深度爬取

Crawl4AI 支持深度爬取，可以通過配置 deep_crawl_strategy? 參數來控制爬取的深度和范圍。目前支持三種深度爬取策略：

?BFSDeepCrawlStrategy?（廣度優先搜索）：逐層遍歷網頁。
?DFSDeepCrawlStrategy?（深度優先搜索）：沿著一條路徑深入挖掘，直到無法再深入為止。
?BestFirstCrawlingStrategy?：基于評分函數來決定下一個要爬取的鏈接，優先爬取最有價值的頁面。

2. 代理與安全

你可以通過 BrowserConfig? 中的 proxy? 或 proxy_config? 參數來配置代理，實現 IP 輪換和匿名爬取。

browser_config = BrowserConfig(proxy_config={"server": "http://proxy.example.com:8080","username": "user","password": "pass",}
)

3. 會話管理

通過設置 CrawlerRunConfig? 中的 session_id? 參數，可以在多次請求之間保持會話狀態，例如模擬用戶登錄后的操作。

run_config = CrawlerRunConfig(session_id="my_session"
)

4. 瀏覽器配置與用戶代理

你可以通過 BrowserConfig? 中的 user_agent? 參數來設置自定義的用戶代理，或者使用 user_agent_mode? 參數來隨機生成用戶代理，以模擬真實用戶的行為，避免被網站的反爬機制識別。

browser_config = BrowserConfig(user_agent_mode="random",user_agent_generator_config={"device_type": "mobile", "os_type": "android"},
)

5. LLM配置

Crawl4AI現在提供 LlmConfig? 對象，用于配置 LLM 提供程序。這簡化了在需要 LLM 的策略和函數中傳遞provider字符串、API 令牌和基本 URL 的過程，從而可以重復使用并快速試驗不同的 LLM 配置。
您可以通過以下兩種方式傳遞LLM密鑰：

a)在本地設置環境變量并在 LlmConfig 對象內部調用它

os.environ["OPENAI_API_KEY"] = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"llm_config = LlmConfig(provider="openai/gpt-4", api_token=os.getenv("OPENAI_API_KEY"))

b)將 api_token 直接傳遞給 LlmConfig 對象：

llm_config = LlmConfig(provider="openai/gpt-4", api_token="sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx")

6. 結構化數據提取

Crawl4AI 支持多種結構化數據提取方式，包括：

JSON CSS Extraction：使用 CSS 選擇器從 HTML 頁面中提取數據。
JSON XPath Extraction：使用 XPath 表達式從 HTML 頁面中提取數據。
LLM Extraction：使用大型語言模型從非結構化的文本中提取數據。

7. 內容過濾

Crawl4AI 提供了多種內容過濾策略，可以根據關鍵詞、BM25 算法或大型語言模型來過濾網頁內容，提取出最相關的信息。例如，使用 BM25ContentFilter? 可以根據用戶查詢來過濾網頁內容：

from crawl4ai.content_filter_strategy import BM25ContentFilterfilter = BM25ContentFilter(user_query="machine learning")

應用場景

Crawl4AI 在實際應用中擁有廣泛的應用場景：

研究助手：用于快速抓取和整理學術論文、研究報告等信息，輔助科研人員進行文獻綜述和數據分析。
數據分析：用于抓取電商網站的商品信息、社交媒體的用戶數據等，為商業決策提供數據支持。
AI 模型訓練：用于構建高質量的訓練數據集，提升 AI 模型的性能。
新聞聚合：定時抓取多個新聞網站的內容，生成個性化的新聞摘要或報告。

提問環節：

請具體說明一下該項目的數據緩存和多網頁爬取？

1. 數據緩存

數據緩存是 Crawl4AI 的一項重要特性，它可以將抓取到的網頁內容保存在本地，下次再次請求相同頁面時，直接從緩存中讀取，而無需重新發起網絡請求。這極大地提高了爬取效率，并降低了對目標網站的訪問壓力。

1.1 緩存模式

Crawl4AI 使用 CacheMode? 枚舉類型來控制緩存行為。你可以在 CrawlerRunConfig? 中指定緩存模式：

from crawl4ai import CrawlerRunConfig, CacheModeconfig = CrawlerRunConfig(cache_mode=CacheMode.ENABLED)  # 啟用緩存（默認）

以下是 CacheMode? 的各個選項：

??CacheMode.ENABLED??: 默認模式，先嘗試從緩存讀取數據，如果緩存不存在，則發起網絡請求，并將結果寫入緩存。
??CacheMode.DISABLED??: 禁用所有緩存功能，每次都發起網絡請求。
??CacheMode.READ_ONLY??: 只從緩存讀取數據，不寫入新數據到緩存。
??CacheMode.WRITE_ONLY??: 只將數據寫入緩存，不從緩存讀取數據。
??CacheMode.BYPASS??: 繞過緩存，直接發起網絡請求，并將結果寫入緩存。

1.2 清理緩存

Crawl4AI 提供了 aclear_cache()? 和 aflush_cache()? 兩個方法來管理緩存：

?aclear_cache()?：清空數據庫中的所有緩存數據，但保留數據庫文件。
```
async with AsyncWebCrawler() as crawler:await crawler.aclear_cache()
```
?aflush_cache()?：直接刪除數據庫文件，下次使用時會重新創建數據庫。
```
async with AsyncWebCrawler() as crawler:await crawler.aflush_cache()
```

2. 多網頁爬取

Crawl4AI 提供了 arun_many()? 方法，可以同時抓取多個網頁，大幅提升爬取效率。同時，Crawl4AI 通過調度器（Dispatcher）來控制并發數量，避免對目標網站造成過大的壓力。

2.1 使用 `arun_many()`? 方法

import asyncio
from crawl4ai import AsyncWebCrawler, CrawlerRunConfigasync def main():urls = ["https://example.com/page1","https://example.com/page2","https://example.com/page3"]async with AsyncWebCrawler() as crawler:results = await crawler.arun_many(urls=urls)  # 自動處理并發for result in results:if result.success:print(f"成功抓取：{result.url}")else:print(f"抓取失敗：{result.url}，錯誤信息：{result.error_message}")if __name__ == "__main__":asyncio.run(main())

2.2 調度器（Dispatcher）

Crawl4AI 使用調度器來管理并發任務，主要有兩種調度器：

?MemoryAdaptiveDispatcher?：根據系統內存使用情況動態調整并發數量，避免內存溢出。
```
from crawl4ai import MemoryAdaptiveDispatcherdispatcher = MemoryAdaptiveDispatcher(memory_threshold_percent=80)
```
- ?memory_threshold_percent?：內存使用閾值，當內存使用超過該值時，調度器會暫停任務。
- ?max_session_permit?：允許的最大并發任務數。
- ?check_interval?：檢查內存使用情況的間隔時間（秒）。
?SemaphoreDispatcher?：使用信號量來控制并發數量，簡單直接。
```
from crawl4ai import SemaphoreDispatcherdispatcher = SemaphoreDispatcher(semaphore_count=5)
```
- ?semaphore_count?：允許的最大并發任務數。

2.3 使用示例：內存自適應調度器

import asyncio
from crawl4ai import AsyncWebCrawler, CrawlerRunConfig, MemoryAdaptiveDispatcherasync def main():urls = ["https://example.com/page1","https://example.com/page2","https://example.com/page3"]dispatcher = MemoryAdaptiveDispatcher(memory_threshold_percent=80)async with AsyncWebCrawler() as crawler:results = await crawler.arun_many(urls=urls, config=CrawlerRunConfig(), dispatcher=dispatcher)for result in results:if result.success:print(f"Successfully crawled: {result.url}")else:print(f"Failed to crawl: {result.url}")if __name__ == "__main__":asyncio.run(main())

2.4 流式處理（Streaming）

?arun_many()? 也支持流式處理，可以在抓取的同時處理數據，無需等待所有任務完成。

import asyncio
from crawl4ai import AsyncWebCrawler, CrawlerRunConfigasync def main():urls = ["https://example.com/page1","https://example.com/page2","https://example.com/page3"]config = CrawlerRunConfig(stream=True)  # 開啟流式處理async with AsyncWebCrawler() as crawler:async for result in crawler.arun_many(urls=urls, config=config):if result.success:print(f"Successfully crawled: {result.url}")else:print(f"Failed to crawl: {result.url}")if __name__ == "__main__":asyncio.run(main())