1. 引言
1.1 研究背景
在數字化時代,互聯網公開信息已成為國家治理、企業決策與學術研究的戰略資源。據 Statista 統計,2023 年全球互聯網數據總量突破 120ZB,其中可通過公開渠道獲取的情報信息占比超 30%。傳統人工信息收集方式受限于效率與廣度,難以應對海量數據處理需求,因此亟需自動化工具支撐。
Python 爬蟲技術憑借生態豐富、開發便捷的優勢,成為數據采集的主流方案,其 Requests 庫、Scrapy 框架等工具已廣泛應用于網頁信息提取。SpiderFoot 作為開源 OSINT 工具,集成 200 + 信息收集模塊,可從域名、IP 等起點自動關聯 WHOIS、DNS、子域名等信息,但存在定制化能力弱、新興數據源覆蓋不足等局限 [3]。兩者的結合有望突破單一工具的瓶頸,實現 “廣度與深度” 兼具的情報收集。
1.2 研究意義
本研究的理論與實踐價值體現在:
- 技術融合創新:首次系統提出 Python 爬蟲與 SpiderFoot 的協同架構,填補兩者集成應用的研究空白;</