Python爬蟲——scrapy

Python爬蟲——scrapy_基本使用

安裝scrapy

pip install scrapy

創建scrapy項目，需要在終端里創建
注意：項目的名字開頭不能是數字，也不能包含中文

scrapy startproject 項目名稱
示例：
scrapy startproject scra_baidu_36

創建好后的文件
在這里插入圖片描述
3. 創建爬蟲文件：
要在spider文件里面創建爬蟲文件
先在終端中cd到spider文件里
創建爬蟲文件

scrapy genspider 爬蟲文件名 要爬取的網頁
示例：
scrapy genspider baidu http://www.baiud.com

創建的爬蟲文件內容：
在這里插入圖片描述
name 爬蟲的名字，用于運行爬蟲的時候使用的值
allowed_domains 允許訪問的域名
start_urls 起始url地址，指的是第一次要訪問的域名
parse 是執行了start_urls之后執行的方法，方法中的response就是返回的那個對象

運行爬蟲文件
寫一個print()

在終端輸入

scrapy crawl 爬蟲的名字
示例：
scrapy crawl baidu

但是運行完并沒有給我們返回任何數據
在這里插入圖片描述
這是因為有robots協議
解決辦法：只需要在settings.py文件里把 ROBOTSTXT_OBEY = True 給注釋掉就可以了(或者把True改成False也可以)

然后再重新運行一遍就可以獲取到數據了

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/37716.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/37716.shtml
英文地址，請注明出處：http://en.pswp.cn/news/37716.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！