【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用

廣東職業技術學院 ?歐浩源 2017-10-15?

1、引言

? ? 實現網絡爬蟲的第一步就是要建立網絡連接并向服務器或網頁等網絡資源發起請求。urllib是目前最常用的做法,然而Requests會比urlib更加方便,能夠讓人以更加簡單的方式獲取網絡資源。

2、什么是Requests?

? ? Requests是用Python語言編寫,基于urllib,采用Apache2 Licensed開源協議的HTTP庫。它比urllib更加方便,可以節約我們大量的工作,完全滿足HTTP測試需求。
? ? Requests對象有Get、Post、Put、Delete、Head、Options等HTTP方法,使用起來非常簡單。對于WEB系統,一般只支持Get和Post方法。在網絡爬蟲中,Get方法最常用。在本文中也重點討論該方法相關的應用,其他方法即更加詳細的使用,見用戶手冊:
? ? http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

3、發起網絡請求

? ? 使用RequestsGet方法發送網絡請求非常簡單
? ? 首先,導入Requests模塊:
? ? import requests
? ? 然后,通過URL向網頁發起請求:
? ? res = requests.get('http://www.gdptc.cn/')
? ? 這時,我們有一個名為res的Requests對象,從這個對象中我們可以獲取所有我們想要的信息,例如將網頁的URL打印出來。
? ? print(res.url)

4、獲取響應內容

? ? 我們能讀取服務器響應的內容。Requests會自動解碼來自服務器的內容,大多數unicode字符集都能被無縫地解碼

? ? 請求發出后,Requests會基于HTTP頭部對響應的編碼作出有根據的推測。當你訪問res.text 之時,Requests會使用其推測的文本編碼。你可以找出 Requests使用了什么編碼,并且能夠使用res.encoding屬性來改變它

? ? 如果你改變了編碼,每當你訪問 res.text ,Request 都將會使用res.encoding的新值

5、響應頭的內容

? ? 服務器響應頭以一個Python字典的形式來表示。這個字典比較特殊,它是僅為HTTP頭部而生的。
? ? res.headers的結果是:
{
? 'Content-Length' : '39037'
? 'X-Powered-By' : 'ASP.NET'
? 'Date' : 'Sat, 14 Oct 2017 13:58:41 GMT'
? 'X-AspNet-Version' : '2.0.50727'
? 'Cache-Control' : 'private'
? 'Content-Type' : 'text/html; charset=utf-8'
? 'Server' : 'Microsoft-IIS/7.5'
}
? ? 通過這個服務器的響應頭,我們可以知道服務器的一些基本數據信息。根據 RFC2616, HTTP頭部是大小寫不敏感的。因此,我們可以使用任意大寫形式來訪問這些響應頭字段。例如我們想查看服務器的編碼和服務器型號:

6、定制請求頭

? ? 如果你想為請求添加HTTP頭部,只要簡單地傳遞一個dictheaders參數就可以了。很多服務器對于非正常的請求往往會拒絕,這時候就需要給網絡請求穿上合法的外衣,而偽裝請求頭部則是最常用的手段。
? ? 用戶代理User Agent,是HTTP協議中的一部分,屬于請求頭的組成部分。它是一個特殊字符串頭,是一種向訪問網站提供你所使用的瀏覽器類型及版本、操作系統及版本、瀏覽器內核等信息的標識。通過添加合法瀏覽器的UA信息,可以將爬蟲的請求偽裝成瀏覽器的請求。
? ? 例如,IE9瀏覽器的User Agent為:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
? ? 這些常用的瀏覽器UA在網上都可以查到。
? ? 如果要模擬IE9瀏覽器訪問百度網站,可以這樣實現:

? ? Requests不會基于定制 header 的具體情況改變自己的行為。只不過在最后的請求中,所有的header信息都會被傳遞進去

7、小結

? ? Requests的用法遠不止此,但作為網絡爬蟲的入門應用,上述知識基本足夠。向服務器發送請求的方法也不止一種,怎么熟悉怎么用,怎么方便怎么用,作為入門,多了解,多學習,多練習,多應用才是正道。

轉載于:https://www.cnblogs.com/ALittleBee/p/7669180.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/282160.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/282160.shtml
英文地址,請注明出處:http://en.pswp.cn/news/282160.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

5分鐘內看懂機器學習和深度學習的區別

歡迎大家前往騰訊云社區,獲取更多騰訊海量技術實踐干貨哦~ 本文由liuxuewen 發表于云社區專欄 在本文中,我們將研究深度學習和機器學習之間的差異。我們將逐一了解它們,然后討論他們在各個方面的不同之處。除了深度學習和機器學習的比較外&am…

《零信任的基石:使用 SPIFFE 為基礎設施創建通用身份》翻譯電子書分享

國慶假期除了去浙江和安徽玩了一圈欣賞江南山水和徽派建筑之外,還抽空翻譯了一本電子書。本書譯自 Solving the Bottom Turtle — a SPIFFE Way to Establish Trust in Your Infrastructure via Universal Identity。你可以選擇在線閱讀(推薦&#xff09…

《Outlook時間整理術》一創建和使用自己的文件夾結構

本節書摘來異步社區《Outlook時間整理術》一書中的第1章,作者: 【德】Lothar Seiwert , Holger Woeltje 譯者: 歐陽宇,更多章節內容可以訪問云棲社區“異步社區”公眾號查看。 創建和使用自己的文件夾結構 花費約兩小時為電子郵件…

PHP 使用 OSS上傳文件

一、安裝阿里云 oss sdk 1、在網站根目錄執行下面命令,安裝oss sdk。 composer require aliyuncs/oss-sdk-php 安裝后,會在 網站根目錄/vendor 下找到一個名為 aliyuncs 的文件夾。 注:[阿里云 oss - sdk 文檔(可不用關注&…

webpack常用配置

1.加載CSS 命令行輸入 npm install --save-dev style-loader css-loader webpack.config.js配置如下 const path require(path);module.exports {entry: ./src/index.js,output: {filename: bundle.js,path: path.resolve(__dirname, dist)},module: {rules: [{test: /\.css$…

《實用軟件架構:從系統環境到軟件部署 》——2.4 架構視圖與架構視點

本節書摘來自華章出版社《實用軟件架構:從系統環境到軟件部署》一書中的第2章,第2.4節,作者:[印]蒂拉克米特拉(Tilak Mitra)著,愛飛翔 譯,更多章節內容可以訪問云棲社區“華章計算機…

TCP:當初取代NCP,如今害怕被取代

我叫TCP(Transmission Control Protocol)也叫傳輸控制協議。不覺回憶1983年,親手將NCP協議淘汰,取而代之的是我,成了火遍大江南北的網絡紅人之一。現如今,我感受到前所未有的恐懼,因為我一生的敵…

js截取字符串實例

// JS截取字符串可使用 substring()或者slice() // // 函數:substring() // 定義:substring(start,end)表示從start到end之間的字符串,包括start位置的字符但是不包括end位置的字符。 // 功能:字符串截取,…

PHP 使用 OSS 批量刪除圖片

1、控制器 OssImageController.php&#xff08;不必關注此層&#xff09; <?php declare(strict_types 1); namespace app\controllers; use app\services\OssImageService; class OssImageController extends BaseController {/*** oss 批量刪除圖片** throws null*/pub…

批處理中的IF詳解

在CMD使用IF /?打開IF的系統幫助會發現IF有3種基本的用法! 第一種用法&#xff1a;IF [NOT] ERRORLEVEL number command 這種用法現在很少用了&#xff0c;因為它需要使用到CHOICE命令&#xff0c;這個命令現在被set /p代替了&#xff0c;它是判斷CHOICE命令選擇的選項的&…

fullcalendar 顯示的時間間隔只有四十五分鐘_【體能新視點】——女子籃球運動員比賽期間的心率、血乳酸濃度和時間運動分析...

女子籃球運動員比賽期間的心率、血乳酸濃度和時間-運動分析—摘要—本研究的目的是檢驗女子籃球運動員在比賽規則改變后的生理需求和運動模式。在九場正式比賽中&#xff0c;對九名大學代表隊隊員進行了研究。每場比賽都被錄像以確定主要動作的頻率&#xff0c;連續記錄心率&am…

《JavaScript機器人編程指南》——1.2 NodeBot是什么,基本詞匯還有哪些

本節書摘來異步社區《JavaScript機器人編程指南》一書中的第1章&#xff0c;第1.2節&#xff0c;作者&#xff1a;【美】Kassandra Perch&#xff08;珀芝&#xff09;&#xff0c;更多章節內容可以訪問云棲社區“異步社區”公眾號查看。 1.2 NodeBot是什么&#xff0c;基本詞…

解決在Python中使用Win32api報錯的問題,No module named win32api

一、系統環境 操作系統: Win7 64位 Python&#xff1a;3.7.0 二、在使用import win32api時&#xff0c;報錯:No module named win32api 網上查到有下面解決辦法&#xff1a; 方法1&#xff1a;pip install pypiwin32或pip3 install pypiwin32 或 python -m pip install pypiwin…

web網頁調用本地cs客戶端程序exe

1.reg注冊表文件注冊WST Windows Registry Editor Version 5.00[HKEY_CLASSES_ROOT\WST]"URL Protocol""C:\\WSTStart.exe""WSTProtocol"[HKEY_CLASSES_ROOT\WST\DefaultIcon]"C:\\WSTStart.exe,1"[HKEY_CLASSES_ROOT\WST\shell][HKEY…

國慶快樂!

加油我的國&#xff01;繁榮強大我的國&#xff01;

《Python游戲編程入門》——1.2 初識Python

本節書摘來自異步社區《Python游戲編程入門》一書中的第1章&#xff0c;第1.2節&#xff0c;作者[美]Jonathan S. Harbour &#xff0c;李強 譯&#xff0c;更多章節內容可以訪問云棲社區“異步社區”公眾號查看。 1.2 初識Python Python既是一個軟件工具包&#xff0c;也是一種…

大數據:Parquet文件存儲格式

一、Parquet的組成 Parquet僅僅是一種存儲格式&#xff0c;它是語言、平臺無關的&#xff0c;并且不需要和任何一種數據處理框架綁定&#xff0c;目前能夠和Parquet適配的組件包括下面這些&#xff0c;可以看出基本上通常使用的查詢引擎和計算框架都已適配&#xff0c;并且可以…

“數據門”事件頻發 如何避免人為因素導致數據泄露?

前段時間&#xff0c;某酒店集團數據泄露引起軒然大波&#xff0c;泄露的數據中包含了用戶姓名、手機號、郵箱、號等多項信息。賣家對這個約5億條數據打包出售價格為8比特幣或520門羅幣。而關于此次信息泄露事件的原因&#xff0c;目前尚未定論。據悉&#xff0c;由于集團某程序…

lamda獲取參數集合去空_JAVA集合框架知識

1. Vector用法和ArrayList區別(1) Vector的特有方法有哪些&#xff1f;void addElement(E obj) 將指定的組件添加到此向量的末尾&#xff0c;將其大小增加1。(2) Vector與ArrayList的區別是什么&#xff1f;①Vector的add()方法是同步方法&#xff0c;ArrayList的add()方法是非…

阿里云ECS服務器多種實例規格如何選擇

一、什么是 ECS 云服務器ECS&#xff08;Elastic Compute Service&#xff09;是一種簡單高效、處理能力可彈性伸縮的計算服務。 二、常見的幾種實例規格 &#xff11;、個人類 &#xff08;1&#xff09;突發型&#xff08;t5、t6&#xff09; 特點&#xff1a;性能基線和積…