- 安裝scrapy
pip install scrapy
- 創建scrapy項目,需要在終端里創建
注意:項目的名字開頭不能是數字,也不能包含中文
scrapy startproject 項目名稱
示例:
scrapy startproject scra_baidu_36
創建好后的文件
3. 創建爬蟲文件:
要在spider文件里面創建爬蟲文件
先在終端中cd到spider文件里
創建爬蟲文件
scrapy genspider 爬蟲文件名 要爬取的網頁
示例:
scrapy genspider baidu http://www.baiud.com
創建的爬蟲文件內容:
name 爬蟲的名字,用于運行爬蟲的時候使用的值
allowed_domains 允許訪問的域名
start_urls 起始url地址,指的是第一次要訪問的域名
parse 是執行了start_urls之后執行的方法,方法中的response就是返回的那個對象
- 運行爬蟲文件
寫一個print()
在終端輸入
scrapy crawl 爬蟲的名字
示例:
scrapy crawl baidu
但是運行完并沒有給我們返回任何數據
這是因為有robots協議
解決辦法:只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 給注釋掉就可以了(或者把True改成False也可以)
然后再重新運行一遍就可以獲取到數據了