一、爬蟲基本概念

一、爬蟲根據使用場景分類

爬蟲： 通過編寫程序，模擬瀏覽器上網，讓其去互聯網上抓取數據的過程。
① 通用爬蟲：抓取系統重要的組成部分，抓取的是一整張頁面的數據
② 聚焦爬蟲：建立在通用爬蟲的基礎之上，抓取頁面中特定的局部區域內容
③ 增量式爬蟲：檢測網站中數據更新的情況，只會抓取網站中最新更新出來的數據

二、反爬機制和反反爬策略

反爬機制： 門戶網站通過制定相應的策略或者技術手段，防止爬蟲程序來進行對網站數據的爬取

反反爬策略： 爬蟲程序可以通過制定相關的策略或者技術手段，破解門戶網站中具備反爬機制，從而可以獲取門戶網站的信息

三、robots.txt協議

又稱為君子協議，規定了網站中哪些數據可以被爬蟲爬取，哪些數據不可以被爬取
通過在指定域名后面加入/robots.txt即可查看
例如：https://www.baidu.com/robots.txt，即可看見相關不允許(Disallow)爬取的網頁，以及相關允許(Allow)爬取的網頁，當然，一般不允許之外的都是允許爬取的網頁。
在這里插入圖片描述

四、http&https協議

Ⅰ，http協議

超文本傳輸協議(Hyper Text Transfer Protocol，HTTP)：服務器和客戶端進行數據交互的一種形式

Ⅱ，常用的請求頭和響應頭信息

請求頭：
① User-Agent：請求載體的身份表示
② Connection：請求完畢后，是斷開連接還是保持連接

響應頭：
Content-Type：服務器響應回客戶端的數據類型
例如：https://blog.csdn.net/qq_41264055
按下F12，點擊Network，F5刷新重新訪問服務器，就可以看見請求頭和響應頭的一些內容信息
在這里插入圖片描述

Ⅲ，https協議

基于http協議的安全的超文本傳輸協議(Hyper Text Transfer Protocol over SecureSocket Layer)

Ⅳ，加密方式

① 對稱密鑰加密方式
在這里插入圖片描述
② 非對稱密鑰加密方式

③ 證書密鑰加密方式
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/377614.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/377614.shtml
英文地址，請注明出處：http://en.pswp.cn/news/377614.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！