?FireCrawl?是一款開源的AI爬蟲工具,專門用于Web數據提取,并將其轉換為Markdown格式或其他結構化數據。FireCrawl特別適合處理使用JavaScript動態生成的網站,能夠自動抓取網站及其所有可訪問的子頁面內容,并將其轉換為適合大語言模型訓練的數據格式?。
主要功能
- ?強大的抓取能力?:FireCrawl能夠抓取任何網站的內容,無論是靜態頁面還是復雜的動態網頁?1。
- ?智能的爬取狀態管理?:提供分頁、流式傳輸等功能,使得大規模網頁抓取更加高效。此外,它還具備清晰的錯誤提示功能,方便問題排查?。
- ?多樣的輸出格式?:支持將抓取的內容轉換為Markdown格式,還可以輸出為結構化數據(如JSON)。
- ?增強Markdown解析?:優化Markdown解析邏輯,輸出更干凈、更高質量的文本?。
- ?全面的SDK支持?:提供豐富的SDK,支持多種編程語言(如Go、Rust等),并全面兼容v1 API?1。
- ?快速收集相關鏈接?:新增/map端點,可以快速收集網頁中的相關鏈接?
用法:
CURL
curl -X POST 'https://api.firecrawl.dev/v1/scrape' \-H 'Authorization: Bearer fc-YOUR_API_KEY' \-H 'Content-Type: application/json' \-d $'{"url": "firecrawl.dev"}'
?