大模型——Crawl4AI 中的數據提取策略
在本章中,將詳細介紹在 Crawl4AI 中可用的數據提取策略。這些策略包括:
- LLMExtractionStrategy:用于詳細內容提取。
- JsonCssExtractionStrategy:使用 CSS 選擇器進行結構化數據檢索。
- CosineStrategy:基于余弦相似性進行有效的語義分段。
1. LLMExtractionStrategy
LLMExtractionStrategy
利用語言模型(LLM)從 HTML 內容中提取有意義的信息。此策略依賴于外部提供者來獲取 LLM 的完成,以根據說明執行提取。
何時使用
- 適合需要細致理解的復雜提取任務。
- 適合能夠通過詳細說明來指導提取過程的場景。
- 完美適用于提取特定類型的信息或內容。
參數
provider
(字符串,可選):語言模型完成的提供者(例如:openai/gpt-4&#