目錄
前言:基本庫urllib的使用
一、urlopen方法
二、Request類
三、高級用法
前言:基本庫urllib的使用
????????開始學習爬蟲時,第一步就是要模擬瀏覽器給服務器發送請求。這個時候,你可能會有很多問題:該從哪里開始做呢?需不需要自己來構造請求?要不要去關心請求數據結構是怎么實現的?需不需要了解HTTP、TCP、IP層的網絡傳輸通信原理?要不要知道服務器是怎么響應和應答的?
????????你可能會不知道該怎么做,但別擔心。Python很厲害,它有功能齊全的類庫,能幫我們完成這些請求。最基礎的HTTP庫有urllib、httplib2、requests、treg等。
????????就拿urllib庫來說,用它的時候,我們只要關注請求的鏈接、要傳的參數,還有怎么設置可選的請求頭就行,不用去深究它底層的傳輸和通信機制。用這個庫,只需要兩行代碼,就能完成請求和響應的處理,拿到網頁內容,是不是很方便?接下來,我們從最基礎的部分開始,學習這些庫的使用方法。
????????在Python2里,有urllib和urllib2這兩個庫可以用來發送請求。不過到了Python3,urllib2庫沒了,統一成了urllib。它的官方文檔鏈接是:https://docs.python.org/3/library/urllib.html 。urllib是Python自帶的HTTP請求庫,不用額外安裝就能用。它包含下面4個模塊:
????????- request:這是最基本的HTTP請求模塊,能模擬發送請求。就像在瀏覽器地址欄輸入網址然后回車一樣,只要給庫方法傳入URL和額外的參數,就能模擬這個操作。
????????- error:這是異常處理模塊。要是請求的時候出了錯誤,可以捕獲這些異常,然后重試或者做其他操作,保證程序不會突然停止。
????????- parse:這是個工具模塊,有很多處理URL的方法,像拆分、解析、合并URL等。
????????- robotparser:主要是用來識別網站的robots.txt文件,判斷哪些網站能爬,哪些不能爬。在實際用的時候,這個模塊用得比較少。
??????? 本節先講講 request 模塊。使用urllib的request模塊,能便捷地實現請求的發送,并獲取響應。下面來看其具體用法。
一、urlopen方法
????????urllib.request模塊有構造HTTP請求最基礎的方法,用它能模擬瀏覽器發起請求的過程。而且,它還可以處理授權驗證(authenticaton)、重定向(redirection)、瀏覽器Cookies這些內容。?
????????下面以抓取Python官網為例,展示其功能,不過要迅速訪問Python官網需要使用外網:
import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))
????????運行上述代碼,僅用兩行代碼,便完成了Python官網的抓取,輸出了網頁的源代碼。獲取源代碼后,就可以從中提取所需的鏈接、圖片地址、文本信息等。
接下來,查看urlopen()返回的內容類型。利用type()方法輸出響應類型:
import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(type(response))
????????輸出結果是`<class 'http.client.HTTPResponse'>`,這說明返回的是HTTPResponse類型的對象。這個對象有read()、readinto()、getheader(name)、getheaders()、fileno()等方法,還有msg、version、status、reason、debuglevel、closed等屬性。我們把返回對象賦值給response變量后,就能用這個變量調用上述方法和屬性,得到返回結果的各種信息。
????????舉個例子,調用read()方法,就能拿到返回的網頁內容;調用status屬性,能獲取返回結果的狀態碼。一般來說,狀態碼200意味著請求成功,404則表示網頁沒找到。
下面再通過一個實例加深理解:
import urllib.request
response = urllib.request.urlopen("https://www.python.org")
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))
運行結果如下:
200
[('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('X-Clacks-Overhead', 'GNu Terry Pratchett'), ('Content-Length', '47397'), ('Accept-Ranges', 'bytes'), ('Date', 'Mon, 01 Aug 2016 09:57:31 GMT'), ('Via', '1.1 varnish'), ('Age', '2473'), ('Connection', 'close'), ('X-Served-By', 'cache-lcy1125-LCY'), ('X-Cache', 'HIT'), ('X-Cache-Hits', '23'), ('Vary', 'Cookie'), ('Strict-Transport-Security','max-age=63072000;includeSubDomains')]
nginx
????????從輸出結果能看到,前兩個輸出分別是響應狀態碼和響應頭信息。最后一個輸出,是調用`getheader()`方法,并把`Server`作為參數傳進去,獲取到了響應頭里`Server`的值,結果是`nginx`,這就說明服務器是用Nginx搭建的。
????????通過最基本的`urlopen()`方法,能完成簡單網頁最基礎的GET請求抓取。
????????要是想給鏈接傳遞參數,該怎么做呢?我們先看看`urlopen()`函數的API:
`urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)`
????????可以知道,除了第一個參數用來傳遞URL,還能傳遞其他信息,比如`data`(附加數據)、`timeout`(超時時間)等。下面,我來詳細講講這幾個參數的用法。
- data參數:`data`參數不是必須的。要是添加這個參數,而且數據是字節流編碼格式(也就是`bytes`類型),就得用`bytes()`方法進行轉換。另外,一旦傳遞了這個參數,請求方式就從GET變成POST了 。
下面通過實例說明:
????????這次我們傳遞了一個參數,參數名為word,值是hello。由于程序要求參數是bytes(字節流)類型,所以得進行轉碼。轉碼時用的是bytes()方法,這個方法的第一個參數得是str(字符串)類型。因此,我們要借助urllib.parse模塊里的urlencode()方法,把參數字典轉換成字符串。bytes()方法的第二個參數用來指定編碼格式,這里我們設置為utf8。?
????????這次請求的網站是httpbin.org,這個網站專門提供HTTP請求測試服務。請求的URL是http://httpbin.org/post,這個鏈接可以用來測試POST請求。使用該鏈接測試時,網站會輸出請求的相關信息,其中就包含我們傳遞的data參數。?
運行結果如下:
{"args": {},"data": "","files": {},"form": {"word": "hello"},"headers": {"Accept-Encoding": "identity","Content-Length": "10","Content-Type": "application/x-www-form-urlencoded","Host": "httpbin.org","User-Agent": "Python-urllib/3.5"},"json": null,"origin": "123.124.23.253","url": "http://httpbin.org/post"
}
????????我們傳遞的參數出現在了form字段里,這說明我們模擬了表單提交操作,數據是以POST方式進行傳輸的。
- timeout參數:timeout參數的作用是設置超時時間,單位為秒。也就是說,當請求發出后,如果超過了設定的時間,還沒有收到服務器的響應,程序就會拋出異常。要是不設置這個參數,程序就會采用全局默認的超時時間。這個參數在HTTP、HTTPS、FTP請求中都能使用。
下面通過實例展示:
import urllib.request
response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
print(response.read())
運行結果如下:
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
? file "/var/py/python/urllibtest.py", line 4, in <module>
??? response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
...
urllib.error.URLError: <urlopen error timed out>
????????這里設置超時時間為1秒。1秒過后,服務器仍未響應,于是拋出了URLError異常。該異常屬于urllib.error模塊,錯誤原因是超時。
????????因此,可通過設置超時時間,控制若網頁長時間未響應,就跳過其抓取。這可利用try - except語句實現,相關代碼如下:
import socket
import urllib.request
import urllib.errortry:response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
except urllib.error.URLError as e:if isinstance(e.reason, socket.timeout):print('TIME OUT')
????????這次我們請求了http://httpbin.org/get這個測試鏈接,還把超時時間設成了0.1秒。程序運行時,會捕獲可能出現的URLError異常。捕獲到異常后,再判斷這個異常是不是socket.timeout類型,要是屬于這種類型,那就說明是因為超時而報錯,然后程序就會打印輸出“TIME OUT”。
????????實際運行的結果就是輸出了“TIME OUT”。一般來說,0.1秒的時間太短,服務器很難在這么短時間內給出響應,所以就出現了這個提示。由此可見,設置timeout參數來處理超時情況,有時候真的很有用。
- 其他參數:除了data參數和timeout參數,urlopen()函數還有個context參數。這個參數得是ssl.SSLContext類型,主要用來指定SSL的設置。另外,cafile和capath這兩個參數,分別是用來指定CA證書和證書的路徑,在請求HTTPS鏈接的時候會用到它們。不過cadefault這個參數現在已經不用了,它原來的默認值是False。
????????上面講了urlopen()方法的用法,用這個最基礎的方法,能夠完成一些簡單的請求,也能抓取網頁內容。要是你還想知道更詳細的內容,可以去看官方文檔,鏈接是:https://docs.python.org/3/library/urllib.request.html。
二、Request類
????????用urlopen()方法,能發起最基本的請求。不過,要是只靠它那幾個簡單參數,沒辦法構建出完整的請求。要是請求里需要添加Headers這些信息,就得用功能更強大的Request類來構建請求了。
????????首先,通過實例感受Request的用法:
import urllib.request
request = urllib.request.Request('https://python.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))
????????我們會發現,發送請求還是用urlopen()方法。但這次,urlopen()方法的參數不再是網址URL,而是一個Request類型的對象。創建這樣一個Request對象有不少好處,一來能讓請求作為一個獨立對象存在,二來配置請求參數時,可選擇的方式更多,也更靈活。?
????????下面查看Request可通過哪些參數進行構造,其構造方法如下:
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
????????- 第一個參數是url,用來確定請求的URL,這個參數必須要填寫,其他參數則是可選的。
????????- 第二個參數是data。要是打算傳遞這個參數,數據必須是bytes(字節流)類型。要是數據原本是字典格式,得先用urllib.parse模塊里的urlencode()函數進行編碼。
????????- 第三個參數headers是一個字典,它代表請求頭。我們既可以在創建請求時,直接通過headers參數進行設置,也能在請求實例創建后,調用add_header()方法來添加請求頭信息。在添加請求頭的操作中,最常見的就是修改User - Agent來偽裝瀏覽器。默認的User - Agent是Python-urllib,要是想偽裝成火狐瀏覽器,可以把User - Agent設置成`Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11`。
????????- 第四個參數origin_req_host,表示發起請求一方的host名稱或者IP地址。
????????- 第五個參數unverifiable,用來判斷這個請求是否無法驗證,它的默認值是False。這意味著正常情況下,用戶沒有足夠權限決定是否接收請求結果。舉個例子,當我們請求HTML文檔里的圖片,但又沒有自動抓取圖片的權限時,unverifiable的值就會是True。
????????- 第六個參數method是個字符串,作用是指定請求使用的方法,常見的有GET、POST和PUT等 。
下面傳入多個參數構建請求:
from urllib import request, parse
url = 'http://httpbin.org/post'
headers = {'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)','Host': 'httpbin.org'
}
dict = {'name': 'Germey'}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))
????????這次我們用4個參數構建了一個請求。其中,url參數是請求的網址;headers參數里設置了User - Agent和Host;參數data先用urlencode()方法處理,再用bytes()方法轉換成了字節流。還有,我們把請求方式設定成了POST。?
運行結果如下:
{
??? "args": {},
??? "data": "",
??? "files": {},
??? "form": {
??????? "name": "Germey"
??? },
??? "headers": {
??????? "Accept-Encoding": "identity",
??????? "Content-Length": "11",
??????? "Content-Type": "application/x-www-form-urlencoded",
??????? "Host": "httpbin.org",
??????? "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"
??? },
??? "json": null,
??? "origin": "219.224.169.11",
??? "url": "http://httpbin.org/post"
}
????????觀察結果可知,成功設置了data、headers和method。另外,headers也可用add_header()方法添加:
req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
如此,就能更便捷地構造請求,實現請求的發送。
三、高級用法
????????在前面的操作里,我們已經能構造請求了。不過,要是遇到更高級的操作,像處理Cookies、設置代理這些,該怎么弄呢?這時候,更厲害的工具Handler就派上用場了。簡單講,Handler就像是各種不同的處理器,有的專門處理登錄驗證,有的處理Cookies,還有的處理代理設置。有了它們,HTTP請求里的大部分操作我們都能完成。
????????先說說urllib.request模塊里的BaseHandler類,它是其他所有Handler的父類,提供了一些最基礎的方法,像default_open()、protocol_request()這些。
????????然后,有很多Handler子類繼承了BaseHandler類,下面舉幾個例子:
- HTTPDefaultErrorHandler:專門處理HTTP響應出錯的情況,一旦出錯就會拋出HTTPError類型的異常。
- HTTPRedirectHandler:用來處理重定向的問題。
- HTTPCookieProcessor:負責處理Cookies。
- ProxyHandler:可以設置代理,默認是沒有代理的。
- HTTPPasswordMgr:用來管理密碼,它會記錄用戶名和密碼。
- HTTPBasicAuthHandler:處理認證相關的事情,如果打開一個鏈接需要認證,就可以用它來解決。
????????除了上面這些,還有其他的Handler類,這里就不一個一個說了,詳細信息可以看官方文檔:https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler。
????????后面會通過具體例子來講怎么用這些Handler。
????????還有一個比較重要的類叫OpenerDirector,我們可以簡稱它為Opener。之前用過的urlopen()方法,其實就是urllib給我們提供的一個Opener。
????????那為什么要引入Opener呢?是為了實現更高級的功能。之前用的Request和urlopen(),就像是類庫給我們封裝好的常用請求方法,用它們能完成一些基本的請求。但現在我們要做更高級的功能,就得再深入一些進行配置,用更底層的實例來操作,這就需要用到Opener了。
????????Opener可以用open()方法,它返回的類型和urlopen()一樣。那Opener和Handler有啥關系呢?簡單說,就是用Handler來創建Opener。
????????下面通過幾個例子看看它們怎么用。
- 驗證:有些網站打開的時候會彈出一個框,讓你輸入用戶名和密碼,輸對了才能看頁面,就像下面這個圖顯示的一樣。
????????若要請求這樣的頁面,借助HTTPBasicAuthHandler就能完成,相關代碼如下:
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLErrorusername = 'username'
password = 'password'
url = 'http://localhost:5000/'
p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)
try:result = opener.open(url)html = result.read().decode('utf-8')print(html)
except URLError as e:print(e.reason)
????????這里第一步,我們創建一個HTTPPasswordMgrWithDefaultRealm對象,將它作為參數,去實例化HTTPBasicAuthHandler對象。緊接著,通過對象的add_password()方法,把用戶名和密碼添加進去,如此一來,一個專門處理驗證的Handler就搭建好了。?
????????第二步,借助剛才創建的Handler,調用build_opener()方法,就能構建出一個Opener。這個Opener在發送請求時,等同于已經通過驗證。最后,使用Opener的open()方法打開目標鏈接,驗證操作便順利完成。這時獲取到的,就是通過驗證后網頁的源代碼。?
- 代理:做爬蟲時,免不了要使用代理。若要添加代理,可按如下方式操作:
from urllib.error import URLError
from urllib.request import ProxyHandler, build_openerproxy_handler = ProxyHandler({'http': 'http://127.0.0.1:9743','https': 'https://127.0.0.1:9743'
})
opener = build_opener(proxy_handler)
try:response = opener.open("https://www.baidu.com")print(response.read().decode('utf-8'))
except URLError as e:print(e.reason)
????????這里我們在本地搭建了一個代理,它運行在9743端口上。這里使用了ProxyHandler,其參數是一個字典,鍵名是協議類型(比如HTTP或者HTTPS等),鍵值是代理鏈接,可以添加多個代理。
????????然后,利用這個Handler及build_opener()方法構造一個Opener,之后發送請求即可。
- Cookies
????????Cookies的處理就需要相關的Handler了。
????????我們先用實例來看看怎樣將網站的Cookies獲取下來,相關代碼如下
import http.cookiejar, urllib.request
cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:print(item.name + "=" + item.value)
????????首先,我們得創建一個CookieJar對象。然后,用HTTPCookieProcessor來創建一個Handler。最后,使用build_opener()方法創建Opener,再調用open()函數就可以了。?
運行結果如下:
BAIDUID=2E65A683F8A8BA3DF521469DF8EFF1E1:FG=1
BIDUPSID=2E65A683F8A8BA3DF521469DF8EFF1E1
H_PS_PSSID=20987 14211 8282 17949 21122 17001 21227 21189 21161 20927
PSTM=1474900615
BDSVRTM=0
BD_HOME=0
????????從輸出結果能看到,每條Cookie的名稱和值都被打印出來了。既然能實現輸出,那能不能把它們輸出保存成文件呢?畢竟Cookies本質上是以文本形式存儲的。答案是可以的,下面通過實例來演示一下:
filename = 'cookies.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)
????????這時候,得把CookieJar換成MozillaCookieJar。MozillaCookieJar是CookieJar的子類,生成Cookies文件時會用到它。它專門用來處理Cookies和文件相關操作,像讀取Cookies文件,以及把Cookies保存為Mozilla瀏覽器使用的Cookies格式文件。?
????????運行之后,可以發現生成了一個cookies.txt文件,其內容如下:
# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file! Do not edit.
.baidu.com?????? TRUE??? /?????? FALSE?? 3622386254? BAIDUID 05AE39B5F56C1DEC474325CDA522D44F:FG=1
.baidu.com?????? TRUE??? /?????? FALSE?? 3622386254? BIDUPSID??????? 05AE39B5F56C1DEC474325CDA522D44F
.baidu.com?????? TRUE??? /?????? FALSE?? 3622386254? H_PS_PSSID????? 19638 1453 17710 18240 21091 118560 17001 21191 21161
.baidu.com?????? TRUE??? /?????? FALSE?? 1474902606? PSTM??? 1474902606
www.baidu.com??? FALSE?? /?????? FALSE?? 0?????? BDSVRTM?????? 0
www.baidu.com??? FALSE?? /?????? FALSE?? 0?????? BD_HOME?????? 0
????????另外,LWPCookieJar同樣可以讀取和保存Cookies,但是保存的格式和MozillaCookieJar不一樣,它會保存成libwww-perl(LWP)格式的Cookies文件。要保存成LWP格式的Cookies文件,可以在聲明時就改為:
cookie = http.cookiejar.LWPCookieJar(filename)
此時生成的內容如下:
#LWP-Cookies-2.0
Set-Cookie3:BAIDUID="0CE9C56F598E69DB375B7C294AE5C591:FG=1"; path="/"; domain=".baidu.com"; path_spec;domain_dot;expires="2084-10-14 18:25:19Z";version=0
Set-Cookie3: BIDUPSID=0CE9C56F598E69DB375B7C294AE5C591; path="/"; domain=".baidu.com"; path_spec; domain dot;expires="2084-10-14 18:25:19Z":version=0
Set-Cookie3:H_PS_PSSID=20048 1448 18240 17944 21089 21192 21161 20929; path="/"; domain=".baidu.com";path_spec;domain dot;discard;version=0
Set-Cookie3: PSTM=1474902671; path="/"; domain=".baidu.com"; path_spec; domain dot; expires="2084-10-1418:25:19Z";version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/";domain="www.baidu.com"; path_spec; discard; version=0
????????從上面可以看出,兩種格式生成的Cookies文件差別挺大。既然已經生成了Cookies文件,那怎么從文件里讀取Cookies,并在程序里使用它們呢?下面,我們以LWPCookieJar格式的Cookies文件為例,來介紹具體做法。?
cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookies.txt',ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open("http://www.baidu.com")
print(response.read().decode('utf-8'))
????????從代碼中能看到,我們調用load()方法讀取本地的Cookies文件,這樣就獲取到了Cookies內容。但有個前提,得先生成LWPCookieJar格式的Cookies,并保存成文件。獲取Cookies后,按照之前構建Handler和Opener的方法操作,就能完成后續流程。
????????正常情況下,運行程序會輸出百度網頁的源代碼。通過上述方法,大部分請求功能都能進行設置。
????????這些就是urllib庫中request模塊的基本使用方法。要是你想實現更多功能,可查看官方文檔:https://docs.python.org/3/library/urllib.request.html#basehandler-objects 。
參考學習書籍:Python 3網絡爬蟲開發實戰