一、爬蟲基本概念

一、爬蟲根據使用場景分類

爬蟲: 通過編寫程序,模擬瀏覽器上網,讓其去互聯網上抓取數據的過程。
① 通用爬蟲:抓取系統重要的組成部分,抓取的是一整張頁面的數據
② 聚焦爬蟲:建立在通用爬蟲的基礎之上,抓取頁面中特定的局部區域內容
③ 增量式爬蟲:檢測網站中數據更新的情況,只會抓取網站中最新更新出來的數據

二、反爬機制和反反爬策略

反爬機制: 門戶網站通過制定相應的策略或者技術手段,防止爬蟲程序來進行對網站數據的爬取

反反爬策略: 爬蟲程序可以通過制定相關的策略或者技術手段,破解門戶網站中具備反爬機制,從而可以獲取門戶網站的信息

三、robots.txt協議

又稱為君子協議,規定了網站中哪些數據可以被爬蟲爬取,哪些數據不可以被爬取
通過在指定域名后面加入/robots.txt即可查看
例如:https://www.baidu.com/robots.txt,即可看見相關不允許(Disallow)爬取的網頁,以及相關允許(Allow)爬取的網頁,當然,一般不允許之外的都是允許爬取的網頁。
在這里插入圖片描述

四、http&https協議

Ⅰ,http協議

超文本傳輸協議(Hyper Text Transfer Protocol,HTTP):服務器和客戶端進行數據交互的一種形式

Ⅱ,常用的請求頭和響應頭信息

請求頭:
① User-Agent:請求載體的身份表示
② Connection:請求完畢后,是斷開連接還是保持連接

響應頭:
Content-Type:服務器響應回客戶端的數據類型
例如:https://blog.csdn.net/qq_41264055
按下F12,點擊Network,F5刷新重新訪問服務器,就可以看見請求頭和響應頭的一些內容信息
在這里插入圖片描述

Ⅲ,https協議

基于http協議的安全的超文本傳輸協議(Hyper Text Transfer Protocol over SecureSocket Layer)

Ⅳ,加密方式

① 對稱密鑰加密方式
在這里插入圖片描述
② 非對稱密鑰加密方式
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

③ 證書密鑰加密方式
在這里插入圖片描述

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/377614.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/377614.shtml
英文地址,請注明出處:http://en.pswp.cn/news/377614.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

經營你的iOS應用日志(二):異常日志

如果你去4S店修車,給小工說你的車哪天怎么樣怎么樣了,小工有可能會立即搬出一臺電腦,插上行車電腦把日志打出來,然后告訴你你的車發生過什么故障。汽車尚且如此,何況移動互聯網應用呢。 本文第一篇:經營你的…

Discuz 升級X3問題匯總整理

最近一段時間公司的社區垃圾帖數量陡然上漲,以至于社區首頁的推薦版塊滿滿都是垃圾帖的身影,為了進一步解決垃圾帖問題我們整整花了1天時間刪垃圾貼,清除不良用戶,刪的手都酸了,可見垃圾帖的數量之多!可恥的…

【C++grammar】格式化輸出與I/O流函數

目錄1、格式化輸出1. setw manipulator(“設置域寬”控制符)2. setprecision manipulator(“設置浮點精度”控制符)3. setfill manipulator(“設置填充字符”控制符)4. Formatting Output in File Operation(在文件操作中格式化輸入/輸出)5.小練習2、用于輸入/輸出流的函數1. g…

python 忽略 異常_如何忽略Python中的異常?

python 忽略 異常什么是例外? (What is an Exception?) An exception is an event, which occurs during the execution of a program that interrupts the normal execution of the application. Generally, any application when encountered with a situation t…

三、實戰---爬取百度指定詞條所對應的結果頁面(一個簡單的頁面采集器)

在第一篇博文中也提及到User-Agent,表示請求載體的身份,也就是說明通過什么瀏覽器進行訪問服務器的,這一點很重要。 ① UA檢測 門戶網站服務器會檢測請求載體的身份。如果檢測到載體的身份表示為某一款瀏覽器的請求,則說明這是一…

Spring MVC攔截器實現分析

SpringMVC的攔截器不同于Spring的攔截器,SpringMVC具有統一的入口DispatcherServlet,所有的請求都通過DispatcherServlet,所以只需要在DispatcherServlet上做文章即可,DispatcherServlet也沒有代理,同時SpringMVC管理的…

碩士畢業后去國外讀法學博士_法學碩士的完整形式是什么?

碩士畢業后去國外讀法學博士法學碩士:豆科大法師(拉丁)/法學碩士 (LLM: Legum Magister (Latin)/ Master of Law) LLM is an abbreviation of Legum Magister. It is in term of Latin which states the masters degree of Law. In the majority, LLM is generally …

android:layout_weight屬性的簡單使用

效果&#xff1a; style.xml <style name"etStyle2"><item name"android:layout_width">match_parent</item><item name"android:layout_height">wrap_content</item><item name"android:background"…

一、環境配置安裝

一、Anaconda Ⅰ下載 最新版的anaconda可能會需要各種各樣的問題&#xff0c;python3.6版本比較穩定&#xff0c;建議使用。 老鐵們可以通過&#xff0c;Anaconda以前版本所自帶Python版本&#xff0c;查看Anaconda所帶的python版本 我用的是這個&#xff0c;Anaconda3-5.2.0…

leetcode 35. 搜索插入位置 思考分析

目錄題目暴力二分迭代二分遞歸題目 給定一個排序數組和一個目標值&#xff0c;在數組中找到目標值&#xff0c;并返回其索引。如果目標值不存在于數組中&#xff0c;返回它將會被按順序插入的位置。 你可以假設數組中無重復元素。 示例 1: 輸入: [1,3,5,6], 5 輸出: 2 示例 2:…

java優秀算法河內之塔_河內塔的Java程序

java優秀算法河內之塔Tower of Hanoi is a mathematical puzzle where we have three rods and n disks. The objective of the puzzle is to move all disks from source rod to destination rod using the third rod (say auxiliary). The rules are: 河內塔是一個數學難題&a…

轉——C# DataGridView控件 動態添加新行

DataGridView控件在實際應用中非常實用&#xff0c;特別需要表格顯示數據時。可以靜態綁定數據源&#xff0c;這樣就自動為DataGridView控件添加相應的行。假如需要動態為DataGridView控件添加新行&#xff0c;方法有很多種&#xff0c;下面簡單介紹如何為DataGridView控件動態…

分享通用基類庫-C#通用緩存類

1 /************************************************************************************* 2 * 代碼:吳蔣 3 * 時間:2012.03.30 4 * 說明:緩存公共基類 5 * 其他: 6 * 修改人&#xff1a; 7 * 修改時間&#xff1a; 8 * 修改說明&#xff1a; 9 ******************…

二、PyTorch加載數據

一、常用的兩個函數 dir()函數可以理解為打開某個包&#xff0c;help()可以理解為返回如何使用某個具體的方法 例如&#xff1a;若一個A錢包里面有a&#xff0c;b&#xff0c;c&#xff0c;d四個小包&#xff0c;則可通過dir(A)&#xff0c;打開該A錢包&#xff0c;返回a&…

leetcode 1005. K 次取反后最大化的數組和 思考分析

題目 給定一個整數數組 A&#xff0c;我們只能用以下方法修改該數組&#xff1a;我們選擇某個索引 i 并將 A[i] 替換為 -A[i]&#xff0c;然后總共重復這個過程 K 次。&#xff08;我們可以多次選擇同一個索引 i。&#xff09; 以這種方式修改數組后&#xff0c;返回數組可能…

三、TensorBoard

一、安裝TensorBoard 管理員身份運行Anaconda Prompt&#xff0c;進入自己的環境環境 conda activate y_pytorch&#xff0c;pip install tensorboard 進行下載&#xff0c;也可以通過conda install tensorboard進行下載。其實通俗點&#xff0c;pip相當于菜市場&#xff0c;c…

IT資產管理系統SQL版

你難道還在用Excel登記IT資產信息嗎&#xff1f; 那你一定要好好考慮如何面對以下問題 1&#xff1a;IT人員需要面對自身部門以下問題用戶申請了資產it部未處理的單還有哪些?庫存里面還有哪些資產?有多少設備在維修?有多少設備已經報廢了?哪些資產低于安全庫存需要采購?使…

詳細講解設計跳表的三個步驟(查找、插入、刪除)

目錄寫在前面跳表概要查找步驟插入步驟刪除步驟完整代碼寫在前面 關于跳表的一些知識可以參考這篇文章,最好是先看完這篇文章再看詳細的思路->代碼的復現步驟: Redis內部數據結構詳解(6)——skiplist 關于跳表的插入、刪除基本操作其實也就是鏈表的插入和刪除&#xff0c;所…

php 類靜態變量 和 常量消耗內存及時間對比

在對類執行100w次循環后&#xff0c; 常量最快&#xff0c;變量其次&#xff0c;靜態變量消耗時間最高 其中&#xff1a; 常量消耗&#xff1a;101.1739毫秒 變量消耗&#xff1a;2039.7689毫秒 靜態變量消耗&#xff1a;4084.8911毫秒 測試代碼&#xff1a; class Timer_profi…

一個機器周期 計算機_計算機科學組織| 機器周期

一個機器周期 計算機機器周期 (Machine Cycle) The cycle during which a machine language instruction is executed by the processor of the computer system is known as the machine cycle. If a program contains 10 machine language instruction, 10 separate machine …