python爬蟲反爬機制_Python Scrapy突破反爬蟲機制(項目實踐)

對于 BOSS 直聘這種網站,當程序請求網頁后,服務器響應內容包含了整個頁面的 HTML 源代碼,這樣就可以使用爬蟲來爬取數據。但有些網站做了一些“反爬蟲”處理,其網頁內容不是靜態的,而是使用 JavaScript 動態加載的,此時的爬蟲程序也需要做相應的改進。

使用 shell 調試工具分析目標站點

本項目爬取的目標站點是 https://unsplash.com/,該網站包含了大量高清、優美的圖片。本項目的目標是爬蟲程序能自動識別并下載該網站上的所有圖片。

在開發該項目之前,依然先使用 Firefox 瀏覽該網站,然后查看該網站的源代碼,將會看到頁面的

元素幾乎是空的,并沒有包含任何圖片。

現在使用 Scrapy 的 shell 調試工具來看看該頁面的內容。在控制臺輸入如下命令,啟動 shell 調試:

scrapy shell https://unsplash.com/

執行上面命令,可以看到 Scrapy 成功下載了服務器響應數據。接下來,通過如下命令來嘗試獲取所有圖片的 src 屬性(圖片都是 img 元素,src 屬性指定了圖片的 URL):

response.xpath('//img/@src').extract()

執行上面命令,將會看到返回一系列圖片的URL,但它們都不是高清圖片的 URL。

還是通過"Ctrl+Shift+I"快捷鍵打開 Firefox 的調試控制臺,再次向 https://unsplash.com/ 網站發送請求,接下來可以在 Firefox 的調試控制臺中看到如圖 1 所示的請求。

2-1Z31215534GA.gif

圖 1 動態獲取圖片的請求

可見,該網頁動態請求圖片的 URL 如下:

https://unsplash.com/napi/photos?page=4&per_page=12

上面 URL 中的 page 代表第幾頁,per_page 代表每頁加載的圖片數。使用 Scrapy 的 shell 調試工具來調試該網址,輸入如下命令:

scrapy shell https://unsplash.com/napi/photos?page=1&per_page=10

上面命令代表請求第 1 頁,每頁顯示 10 張圖片的響應數據。執行上面命令,服務器響應內容是一段 JSON 數據,接下來在 shell 調試工具中輸入如下命令:

>>> import json

>>> len(json.loads(response.text))

10

從上面的調試結果可以看到,服務器響應內容是一個 JSON 數組(轉換之后對應于 Python 的 list 列表),且該數組中包含 10 個元素。

使用 Firefox 直接請求 https://unsplash.com/napi/photos?page=1&per_page=12 地址(如果希望使用更專業的工具,則可選擇 Postman),可以看到服務器響應內容如圖 2 所示。

2-1Z3121554429B.gif

圖 2 服務器響應的JSON 數據

在圖 2 所示為所有圖片的 JSON 數據,每張圖片數據都包含 id、created_at(創建時間)、updated_at(更新時間)、width(圖片寬度)、height(圖片高度)等基本信息和一個 links 屬性,該屬性值是一個對象(轉換之后對應于 Python 的 dict),它包含了 self、html、download、download_location 屬性,其中 self 代表瀏覽網頁時的圖片的 URL;而 download 才是要下載的高清圖片的 URL。

網絡爬蟲畢竟是針對別人的網站“爬取” 數據的,而目標網站的結構隨時可能發生改變,讀者應該學習這種分析方法,而不是“生搬硬套”照抄本節的分析結果。

嘗試在 shell 調試工具中查看第一張圖片的下載 URL,應該在 shell 調試工具中輸入如下命令:

>>> json.loads(response.text)[0]['links']['download']

'https://unsplash.com/photos/-RMY4j97SsM/download'

與圖 2 中 JSON 數據對比不難看出,shell 調試工具輸出的第一張圖片的下載 URL 與圖 2 所顯示的第一張圖片的下載 URL 完全相同。

由此得到一個結論,該網頁加載時會自動向 https://unsplash.com/napi/photos?age=N&per_page=N 發送請求,然后根據服務器響應的 JSON 數據來動態加載圖片。

由于該網頁是“瀑布流”設計(所謂“瀑布流”設計,就是網頁沒有傳統的分頁按鈕,而是讓用戶通過滾動條來實現分頁,當用戶向下拖動滾動條時,程序會動態載入新的分頁),

當我們在 Firefox 中拖動滾動條時,可以在 Firefox 的調試控制臺中看到再次向 https://unsplash.com/napi/photos?page=N&per_page=N 發送了請求,

只是 page 參數發生了改變。可見,為了不斷地加載新的圖片,程序只要不斷地向該 URL 發送請求,并改變 page 參數即可。

經過以上分析,下面我們開始正式使用 Scrapy 來實現爬取高清圖片。

使用Scrapy 爬取高清圖片

按照慣例,使用如下命令來創建一個 Scrapy 項目:

scrapy startproject UnsplashimageSpider

然后在命令行窗口中進入 UnsplashlmageSpider 所在的目錄下(不要進入 UnsplashImageSpider\UnsplashImageSpider目錄下),執行如下命令來生成 Spider 類:

scrapy genspider unsplash_image 'unsplash.com

上面兩個命令執行完成之后,一個簡單的 Scrapy 項目就創建好了。

接下來需要修改 UnsplashImageSpider\items.py、UnsplashImageSpider\pipelines.py、UnsplashImageSpider\spiders\unsplash_image.py、UnsplashImageSpider\settings.py 文件,將它們全部改為使用 UTF-8 字符集來保存。

現在按照如下步驟來開發該爬蟲項目:

定義 Item 類。由于本項目的目標是爬取高清圖片,因此其所使用的 Item 類比較簡單,只要保存圖片 id 和圖片下載地址即可。

下面是該項目的 Item 類的代碼:

import scrapy

class ImageItem(scrapy.Item):

# 保存圖片id

image_id = scrapy.Field()

# 保存圖片下載地址

download = scrapy.Field()

上面程序為 Item 類定義了兩個變量,分別用于保存圖片 id 和圖片下載地址。

開發 Spider。開發 Spider 就是指定 Scrapy 發送請求的 URL,并實現 parse(self, response) 方法來解析服務器響應數據。

下面是該項目的 Spider 程序:

import scrapy, json

from UnsplashImageSpider.items import ImageItem

class UnsplashImageSpider(scrapy.Spider):

# 定義Spider的名稱

name = 'unsplash_image'

allowed_domains = ['unsplash.com']

# 定義起始頁面

start_urls = ['https://unsplash.com/napi/photos?page=1&per_page=12']

def __init__ (self):

self.page_index = 1

def parse(self, response):

# 解析服務器響應的JSON字符串

photo_list = json.loads(response.text) # ①

# 遍歷每張圖片

for photo in photo_list:

item = ImageItem()

item['image_id'] = photo['id']

item['download'] = photo['links']['download']

yield item

self.page_index += 1

# 獲取下一頁的鏈接

next_link = 'https://unsplash.com/napi/photos?page='\

+ str(self.page_index) + '&per_page=12'

# 繼續獲取下一頁的圖片

yield scrapy.Request(next_link, callback=self.parse)

上面程序中第 9 行代碼指定的 URL 是本項目爬取的第一個頁面,由于該頁面的響應是一個 JSON 數據,因此程序無須使用 XPath 或 CSS 選擇器來“提取”數據,而是直接使用 json 模塊的 loads() 函數來加載該響應數據即可。

在獲取 JSON 響應數據之后,程序同樣將 JSON 數據封裝成 Item 對象后返回給 Scrapy 引擎。

Spider 到底應該使用 XPath 或 CSS 選擇器來提取響應數據,還是使用 JSON,完全取決于目標網站的響應內容,怎么方便怎么來!總之,提取到數據之后,將數據封裝成 Item 對象后返回給 Scrapy 引擎就對了。

上面程序中倒數第 2 行代碼定義了加載下一頁數據的 URL,接下來使用 scrapy.Request 向該 URL 發送請求,并指定使用 self.parse 方法來處理服務器響應內容,這樣程序就可以不斷地請求下一頁的圖片數據。

開發 Pipeline。Pipeline 負責保存 Spider 返回的 Item 對象(封裝了爬取到的數據)。本項目爬取的目標是圖片,因此程序得到圖片的 URL 之后,既可將這些 URL 地址導入專門的下載工具中批量下載,也可在 Python 程序中直接下載。

本項目的 Pipeline 將使用 urllib.request 包直接下載。下面是該項目的 Pipeline 程序:

from urllib.request import *

class UnsplashimagespiderPipeline(object):

def process_item(self, item, spider):

# 每個item代表一個要下載的圖片

print('----------' + item['image_id'])

real_url = item['download'] + "?force=true"

try:

pass

# 打開URL對應的資源

with urlopen(real_url) as result:

# 讀取圖片數據

data = result.read()

# 打開圖片文件

with open("images/" + item['image_id'] + '.jpg', 'wb+') as f:

# 寫入讀取的數據

f.write(data)

except:

print('下載圖片出現錯誤' % item['image_id'])

上面程序中第 7 行代碼用于拼接下載圖片的完整地址。可能有讀者會問,為何要在圖片下載地址的后面追加“?force=true”?這并不是本項目所能決定的,讀者可以把鼠標指針移動到 https://unsplash.com 網站中各圖片右下角的下載按鈕上,即可看到各圖片的下載地址都會在 download 后追加“?force=true”,此處只是模擬這種行為而已。

程序中第 11 行代碼使用 urlopen() 函數獲取目標 URL 的數據,接下來即可讀取圖片數據,并將圖片數據寫入下載的目標文件中。

經過上面 3 步,基于 Scrapy 開發的高清圖片爬取程序基本完成。接下來依然需要對 settings.py 文件進行修改,即增加一些自定義請求頭(用于模擬瀏覽器),設置啟用指定的 Pipeline。下面是本項目修改后的 settings.py 文件:

BOT_NAME = 'UnsplashImageSpider'

SPIDER_MODULES = ['UnsplashImageSpider.spiders']

NEWSPIDER_MODULE = 'UnsplashImageSpider.spiders'

ROBOTSTXT_OBEY = True

# 配置默認的請求頭

DEFAULT_REQUEST_HEADERS = {

"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0",

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

}

# 配置使用Pipeline

ITEM_PIPELINES = {

'UnsplashImageSpider.pipelines.UnsplashimagespiderPipeline': 300,

}

至此,這個可以爬取高清圖片的爬蟲項目開發完成,讀者可以在 UnsplashlmageSpider 目錄下執行如下命令來啟動爬蟲。

scrapy crawl unsplash_image

#或者

scrapy runspider unsplash_image

區別:

命令

說明

是否需要項目

示例

runspider

未創建項目的情況下,運行一個編寫在Python文件中的spider

no

$ scrapy runspider myspider.py

crawl

使用spider進行爬取

yes

$ scrapy crawl myspider

運行該爬蟲程序之后,可以看到在項目的 images 目錄下不斷地增加新的高清圖片(對圖片的爬取速度在很大程度上取決于網絡下載速度),這些高清圖片正是 https://unsplash.com 網站中所展示的圖片。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/374288.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/374288.shtml
英文地址,請注明出處:http://en.pswp.cn/news/374288.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

樹的算法 已知二叉樹的前序序列和中序序列求解樹

題目: 已知二叉樹的前序序列和中序序列求解樹 比如 6 4    8 3  5   7 前序序列為6,4,3,5,8,7 中序序列為3,4,5,6,7,8 思路: 前序遍歷序列的第一個元素必為根節點 則中序遍歷序列中,該節點之前的為左子樹,該節點之后的為右子樹,若該節…

使用Spring配置LogBack日志記錄

LogBack是由Log4j的同一作者創建的用于記錄日志的API(較新的實現,它類似于新版本),在本文中,我將展示如何在Spring項目中對其進行集成和使用。 在本教程中,我假設您正在使用一個簡單的Spring ROO項目&…

自定義URL Scheme完全指南

iPhone / iOS SDK 最酷的特性之一就是應用將其自身”綁定”到一個自定義 URL scheme 上,該 scheme 用于從瀏覽器或其他應用中啟動本應用。 注冊自定義 URL Scheme 注冊自定義 URL Scheme 的第一步是創建 URL Scheme — 在 Xcode Project Navigator 中找到并點擊工程…

C學習雜記(五)形參實參筆試題

大意失荊州 不要以為簡單就輕視&#xff0c;謹慎&#xff0c;細節&#xff0c;基礎。 一、有以下程序 #include <stdio.h>typedef struct {int b, p;} A;void f(A c) {c.b 1; c.p 2; }void main(void) {A a {1, 2};f(a);printf("%d, %d\n", a.b, a.p); } …

avframe轉byte數組_C# amp; VB6.0 圖像與二維數組 互轉

背景最近在研究C#進行圖像處理&#xff0c;在圖像處理中算法中&#xff0c;往往都是針對的是矩陣運算的。矩陣其實就是一個二維的數組。為了圖像處理的速度&#xff0c;我們都需要放在內存中處理。但網絡上收集的代碼&#xff0c;往往都是以一維數組的樣子提供結果&#xff0c;…

C學習雜記(六)%2.0f打印輸出寬度

%m.nf&#xff0c;m表示整個浮點數的輸出寬度&#xff0c;n表示小數輸出寬度。 1、printf("%f\n", 12.34); 輸出為12.340000。 2、printf("%2.0f\n", 12.34); 輸出為12。 3、printf("%2.1f\n", 12.34); 輸出為12.3。 4、printf(&qu…

P6 音頻格式—— AAC

目錄 前言 01 AAC是什么&#xff1f; 02 為什么需要進行AAC進行音頻壓縮處理&#xff1f; 03 AAC的特點以及優勢 04 AAC格式詳解&#xff1a; 4.1. ADIF的數據結構&#xff1a; 4.1.1 ADIF Header具體的表格: 4.2. ADTS的結構&#xff08;重點&#xff09;&#xff1a; …

Android開發筆記——ListView模塊、緩存及性能

ListView是Android開發中最常用的組件之一。本文將重點說明如何正確使用ListView&#xff0c;以及使用過程中可能遇到的問題。 ListView開發模塊圖片緩存可能遇到的問題一、ListView開發模塊 從項目實踐的角度來看&#xff0c;ListView適合“自底向上”的開發模式&#xff0c;即…

python實現excel篩選功能并輸出_python如何實現excel按顏色篩選功能

離島 2020-07-09 09:37 已采納 不太了解具體需求&#xff0c;提供一些示例代碼和思路供你參考&#xff1a; 整體思路&#xff1a;首先已知excel中的顏色值&#xff0c;根據編碼實現顏色篩選的功能 示例&#xff1a; 1、首先安裝pip install openpyxl 2、示例代碼可以獲取Excel中…

什么是CDI,它與@EJB和Spring有什么關系?

簡要概述了Java EE中的依賴項注入&#xff0c; Resource / EJB和Inject之間的區別以及它們與Spring的關系-主要是鏈接形式。 上下文依賴注入&#xff08;CDI&#xff0c; JSR 299 &#xff09;是Java EE 6 Web Profile的一部分&#xff0c;它本身基于Java依賴注入&#xff08;…

C學習雜記(七)extern聲明可省略變量類型

工作三年&#xff0c;看C的書也不少。第一次知道extern可以省略變量類型。 b.c有一個全局變量unsigned int data_length&#xff0c;a.c想要調用它&#xff0c;通常使用: extern unsigned int data_length&#xff1b; 在聲明時可以把外部變量類型去掉&#xff1a;extern da…

KMP模板

1 ///KMP模板2 ///生成next數組3 void get_next()4 {5 int i0,j-1;6 next[0]-1;7 while (s1[i])8 {9 if (j-1||s1[i]s1[j]) 10 { 11 i; 12 j; 13 next[i]j; 14 } 15 else jnext[j]; 16 …

使用Apache CXF進行Web服務學習

在我的最后幾個項目中&#xff0c;我使用了Web服務&#xff0c;在某些地方創建它們并在其他地方使用它們。 我覺得創建客戶端&#xff0c;創建Web服務等標準任務非常簡單&#xff0c;如果遇到問題&#xff0c;有足夠的資源。 但是對于Web服務&#xff0c;這是一項瑣碎的任務&am…

python的easygui_Python的easygui學習

1.調用方法 &#xff08;1&#xff09;import easygui easygui.msgbox(…) &#xff08;2&#xff09;from easygui import msgbox(…) 2.函數方法 import easygui a easygui.msgbox(’…’, title‘title’) # show a:返回ok,none b easygui.enterbox( ‘plaese give a solu…

c#遞歸

一種算法&#xff0c;通過簡潔的語句定義無限集合、函數或者子程序在運行時直接或間接調用自身產生重入的現象。 特點&#xff1a;遞歸算法分遞推&#xff08;簡單到復雜的推理過程&#xff09;和回歸&#xff08;獲得簡單解后逐級返回得到復雜的解&#xff09;2個階段。 可理解…

HDU5724

題意&#xff1a; 一個 n * 20 的棋盤&#xff0c;棋盤上有若干棋子&#xff0c;Alice 和 Bob 輪流走&#xff0c;每人每次可以選擇任一行的一顆棋子向右移動到最近的一個空格 &#xff1b;也就是說如果右邊與它相鄰的格子里沒有棋子&#xff0c;就移到右邊與他相鄰的格子去&am…

C語言代碼規范(九)運算符優先級使用括號提高閱讀性

舉簡單例子 a b | c << d 2; 對于大牛沒有問題&#xff0c;對于我這樣的碼農需要思考一下運算優先級 對于這種情況華某有規范使用括號來表示運算順序&#xff0c;從而提高代碼可閱讀性 a b | ( c << (d 2) ); 這樣一目了然&#xff0c;大家好才是真的好。…

linux 內存取證_【取證流程】電子數據證據遠程勘驗

原創&#xff1a;弘連網絡電子數據證據遠程勘驗在日常的取證工作中必不可少&#xff0c;但由于存在信息安全差、數據可能被篡改的問題。取證過程中&#xff0c;有明確的取證要求來確保取證過程的規范顯得至關重要&#xff0c;今天我們就一起來回顧下遇到遠程勘驗的取證場景&…

OSGi –帶有服務的簡單Hello World

在本文中&#xff0c;我們將使用OSGi開發一個簡單的Hello World應用程序。 我們將使用Felix作為OSGi容器 。 在下一篇文章中&#xff0c;我們將繼續使用該應用程序&#xff0c;并使用Spring Dynamic Modules對其進行改進。 為了使開發有趣&#xff0c;我們將創建兩個捆綁包&…

Shell - 特殊變量

$0 表示所執行程序的路徑名。 [hueyhuey-K42JE ~]$ ll ~/bin total 4 -rwxrwxr-x 1 huey huey 21 Oct 24 14:39 hello [hueyhuey-K42JE ~]$ cat ~/bin/hello #!/bin/bashecho $0: $0 [hueyhuey-K42JE ~]$ hello /home/huey/bin/hello [hueyhuey-K42JE ~]$ $n 表示傳遞給腳本…