爬蟲中網絡知識基礎

HTTP(HyperText Transfer Protocol)和 HTTPS(HyperText Transfer Protocol Secure)是互聯網上用于傳輸網頁內容等數據的兩種主要協議,以下是它們的定義和基本工作原理:

HTTP

  • 定義 :HTTP 是一種超文本傳輸協議,用于在客戶端(如瀏覽器)和服務器之間傳輸網頁內容、圖片、視頻等超文本資源。

  • 工作原理

    • 請求 - 響應模式 :客戶端向服務器發送請求,服務器根據請求返回相應的響應。例如,當用戶在瀏覽器中輸入網址并訪問網頁時,瀏覽器會向服務器發送 HTTP 請求,服務器接收到請求后,會根據請求的內容返回相應的網頁數據等作為響應。

    • 無狀態協議 :HTTP 是無狀態的,即服務器不會記錄客戶端之前發送的請求信息,每次請求都是獨立的。服務器處理完一個請求并返回響應后,連接就會關閉,不會保留與該請求相關的任何狀態信息。例如,用戶在瀏覽一個普通新聞網站時,每次點擊不同的新聞鏈接,瀏覽器向服務器發送不同的請求,服務器處理完每個請求并返回相應頁面后,不會記住之前已經處理過哪些請求。

  • 特點

    • 簡單快速 :協議本身比較簡單,傳輸速度快,適合傳輸一些對安全性要求不高的數據,如普通網頁內容等。

    • 靈活 :可以傳輸多種類型的數據,如文本、圖片、視頻等,并且可以通過各種方法和狀態碼來處理不同的請求和響應情況。

    • 無連接 :每次請求都需要建立新的連接,請求完成后連接就會關閉,這種機制相對簡單,但在頻繁請求的場景下,可能會增加網絡開銷。

HTTPS

  • 定義 :HTTPS 是 HTTP 的安全版本,它在 HTTP 的基礎上添加了 SSL/TLS 加密層,用于在客戶端和服務器之間建立加密通道,確保數據傳輸的安全性。

  • 工作原理

    • 握手階段 :當客戶端連接到服務器時,首先會進行 SSL/TLS 握手過程。客戶端和服務器會協商加密算法、交換加密密鑰等信息,以建立安全的加密通道。這個過程包括客戶端向服務器發送加密請求、服務器回應客戶端并發送數字證書、客戶端驗證服務器的合法性、客戶端準備密鑰交換信息、服務器解密預主密鑰并生成會話密鑰等步驟。

    • 加密通信階段 :握手完成后,客戶端和服務器之間通過加密通道進行數據傳輸。雙方使用會話密鑰對數據進行加密和解密,確保數據在傳輸過程中不被竊取和篡改。

  • 特點

    • 安全性高 :通過 SSL/TLS 加密層對數據進行加密,可以有效防止數據在網絡傳輸過程中被竊取、篡改和偽造,保護用戶的隱私和安全。

    • 身份驗證 :服務器需要向客戶端提供數字證書,客戶端可以驗證服務器的身份,確保連接到的是真實的服務器,而不是假冒的網站。

    • 兼容性好 :在現有 HTTP 協議的基礎上進行了擴展,與 HTTP 兼容,可以在不影響現有網站架構的情況下,為網站提供更安全的訪問方式

URL(Uniform Resource Locator,統一資源定位器),也常被稱為網址(Web 地址),用于標識和定位互聯網上的資源(如網頁、圖片、視頻、文件等),是萬維網(WWW)中用于指定信息位置的標準方法。

URL 的基本結構

一個典型的 URL 通常由以下幾個部分組成:

  • 協議(Protocol) :也稱為方案(Scheme),它指定了用于訪問資源的協議類型。最常見的協議有 HTTP(超文本傳輸協議)和 HTTPS(安全的超文本傳輸協議),此外還有 FTP(文件傳輸協議)、file(用于訪問本地文件)、mailto(用于發送電子郵件)等。

    • 例如,在 “https://www.baidu.com/s?wd=爬蟲” 中,“https” 就是協議部分,表示使用安全的超文本傳輸協議來訪問資源。

  • 子域名(Subdomain) :用于進一步劃分和標識網站的不同部分或服務。

    • 例如,在 “https://www.baidu.com/s?wd=爬蟲” 中,“www” 是子域名,通常代表該網站的主頁面或主要服務部分。

  • 頂級域名(Top-level domain,TLD) :頂級域名是域名層級結構中的最頂層,用于標識網站所屬的通用類別或國家和地區等。常見的頂級域名有 “.com”(商業機構)、“.org”(非營利組織)、“.net”(網絡服務提供商)、“.edu”(教育機構)、“.cn”(中國國家頂級域名)等。

    • 在 “https://www.baidu.com/s?wd=爬蟲” 中,“com” 就是頂級域名。

  • 二級域名(Second-level domain) :二級域名是頂級域名下的具體域名,由個人或組織注冊和管理,用于標識特定的網站。在 “https://www.baidu.com/s?wd=爬蟲” 中,“baidu” 是二級域名,用于標識百度這個特定的網站。

  • 端口號(Port number)(可選) :端口號用于標識特定的網絡服務或應用程序,它幫助瀏覽器確定將請求發送到服務器的哪個端口。在 URL 中,端口號一般跟在域名或 IP 地址后面,用冒號 “:” 分隔。如果省略端口號,瀏覽器會使用默認端口,如 HTTP 默認使用 80 端口,HTTPS 默認使用 443 端口。

    • 例如,“http://example.com:8080/page” 中,“8080” 是端口號,表示該資源位于服務器的 8080 號端口上。

  • 路徑(Path) :路徑用于服務器指定上具體資源的位置,從網站的根目錄開始,層層深入地指定資源所在的目錄結構。

    • 在 “https://www.baidu.com/s?wd=爬蟲” 中,“/s” 是路徑,表示要訪問的是服務器上 “/s” 這個位置的資源,通常對應一個網頁或程序的入口。

  • 查詢字符串(Query string)(可選) :查詢字符串用于向服務器傳遞額外的參數信息,以指定對資源的特定操作或請求特定的內容。它通常以問號 “?” 開頭,后面跟著一個或多個鍵值對(參數名和參數值用等號 “=” 連接,多個鍵值對之間用 “&” 分隔)。

    • 在 “https://www.baidu.com/s?wd=爬蟲” 中,“wd=爬蟲” 是查詢字符串,表示向服務器傳遞了一個名為 “wd” 的參數,其值為 “爬蟲”,用于在百度中搜索 “爬蟲” 相關的內容。

Cookie 是存儲在用戶本地終端上的數據(通常經過加密),由用戶端的瀏覽器依照需要存取。

**一、工作原理**

? 1. 當用戶訪問一個網站時,服務器可以通過 HTTP 響應頭將 Cookie 信息發送給瀏覽器。
? 2. 瀏覽器會將這些 Cookie 信息存儲在本地。當用戶再次訪問該網站時,瀏覽器會通過 HTTP 請求頭自動將這些 Cookie 發送給服務器。
? 3. 例如,用戶登錄一個網站,服務器驗證用戶身份后,會在響應頭中設置一個 Cookie,其中可能包含用戶的身份標識等信息。當用戶后續訪問該網站的其他頁面時,瀏覽器會將這個 Cookie 發送給服務器,服務器通過識別這個 Cookie 來知道這個用戶已經登錄過,從而為用戶提供一個無縫的、個性化的訪問體驗。

**二、作用**

? 1. **會話管理**
? ? ?* 在 Web 應用中,Cookie 是用于會話狀態管理的常用方式。它可以幫助服務器記住用戶的登錄狀態。例如,當用戶登錄一個電商網站后,網站會在用戶的瀏覽器中設置一個包含會話信息的 Cookie。在用戶瀏覽網站的不同頁面時,這個 Cookie 會被發送到服務器,服務器通過驗證這個 Cookie 來確認用戶的身份,讓用戶可以持續地進行購物車操作、查看訂單等需要登錄狀態的功能而無需反復登錄。

? 2. **個性化體驗**
? ? ?* 網站可以根據 Cookie 中的信息為用戶提供更個性化的頁面內容。比如,一個新聞網站可以根據用戶之前瀏覽的新聞類別(這些類別信息可能存儲在 Cookie 中)來推薦類似的新聞。如果一個用戶經常瀏覽體育新聞,網站就可以為該用戶優先顯示體育相關的新聞內容。

? 3. **網站分析**
? ? ?* Cookie 可以用于網站流量分析。網站可以通過 Cookie 來跟蹤用戶的訪問來源、訪問頻率、在網站上的停留時間等信息。這些信息可以幫助網站管理員了解用戶的行為習慣,從而優化網站的內容和布局。例如,通過分析 Cookie 數據,網站可以發現用戶在某些頁面上停留時間較長,這可能表明這些頁面內容比較吸引用戶,或者存在加載速度慢等問題。

**三、限制和隱私問題**

? 1. **限制**
? ? ?* 瀏覽器對 Cookie 的數量和大小有一定的限制。一般來說,每個域名下的 Cookie 總大小有限制,通常在 4KB 左右,并且每個網站可以存儲的 Cookie 數量也有上限,例如一般不允許超過 20 - 50 個 Cookie。這是為了防止 Cookie 占用過多的存儲空間以及避免影響瀏覽器的性能。

? 2. **隱私問題**
? ? ?* Cookie 可能會引發隱私擔憂。因為 Cookie 可以存儲用戶的個人信息,并且在不同網站之間可能會有第三方 Cookie 的跟蹤。例如,一些廣告公司通過在不同網站上設置第三方 Cookie 來跟蹤用戶在多個網站上的行為,以便為用戶推送更有針對性的廣告。不過,現在瀏覽器提供了很多隱私設置選項,用戶可以選擇禁止第三方 Cookie 或者定期清除 Cookie 來保護自己的隱私。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86256.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86256.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86256.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

安全工具-二進制安全-testssl.sh

1 需求 --openssl <PATH> &#xff1a;use this openssl binary (default: look in $PATH, $RUN_DIR of testssl.sh) --quiet&#xff1a;dont output the banner. By doing this you acknowledge usage terms normally appearing in the banner --severity <severity…

WHAT - 組件庫與 Storybook

文章目錄 什么是 Storybook&#xff1f;使用場景舉例快速上手教程&#xff08;React 為例&#xff09;1. 安裝 Storybook2. 創建一個 Story&#xff08;組件故事&#xff09;3. 啟動 Storybook 常用功能常見生態擴展示例&#xff1a;用 Args 和 Controls 動態控制 Props推薦資料…

魔音音樂 5.0.2 | 無損下載 同步網易云歌單UI美觀

魔音音樂是一款功能豐富的音樂播放軟件&#xff0c;提供高保真音質、智能推薦系統和用戶友好界面。其豐富的音樂庫幾乎覆蓋了所有類型的音樂&#xff0c;無論是流行歌曲還是小眾音樂&#xff0c;都能在這里找到。這款應用非常適合音樂愛好者使用&#xff0c;它不僅讓你享受高品…

云原生時代的中國答案:OLARDB、OceanBase與PostgreSQL的共生革命

以下是對阿里自研數據庫的全景式技術調查,重點梳理其產品體系、與PostgreSQL的技術關聯及發展歷程: 一、阿里自研數據庫全景圖譜 ??1. 核心自研產品?? ??數據庫名稱????類型????技術定位????與PostgreSQL關系????PolarDB??云原生分布式數據庫存儲計…

HTTP 請求方法與狀態碼

前言&#xff1a;構建可靠前端應用的 HTTP 通信基礎 在當今復雜的 Web 應用生態中&#xff0c;前端開發已遠超簡單的頁面構建&#xff0c;轉而成為與后端系統緊密交互的復雜體系。作為這一交互的核心機制&#xff0c;HTTP 協議承載著幾乎所有的前后端數據交換&#xff0c;其設…

WIFI原因造成ESP8266不斷重啟的解決辦法

一、報錯 報錯信息如下&#xff1a; 21:37:21.799 -> ets Jan 8 2013,rst cause:2, boot mode:(3,7) 21:37:21.799 -> 21:37:21.799 -> load 0x4010f000, len 3424, room 16 21:37:21.799 -> tail 0 21:37:21.799 -> chksum 0x2e 21:37:21.799 -> loa…

13.5-13.8. 計算機視覺【2】

文章目錄 13.5. 多尺度目標檢測13.5.1. 多尺度錨框13.5.2. 多尺度檢測13.5.3. 小結 13.6. 目標檢測數據集13.6.2. 讀取數據集13.6.3. 演示 13.7. 單發多框檢測&#xff08;SSD&#xff09;13.7.1. 模型13.7.1.1. 類別預測層13.7.1.2. 邊界框預測層13.7.1.3. 連結多尺度的預測13…

RSS解析并轉換為JSON的API集成指南

RSS解析并轉換為JSON的API集成指南 引言 隨著互聯網的發展&#xff0c;信息的傳播和共享變得越來越重要。RSS&#xff08;簡易信息聚合&#xff09;作為一種廣泛采用的格式&#xff0c;用于發布經常更新的內容&#xff0c;如博客文章、新聞頭條或播客等。它允許用戶訂閱這些內…

java數據類型詳解篇

1、8種基本數據類型 數據類型分類字節數內存位數是否最高位為符號位&#xff08;0正數1負數&#xff09;取值范圍&#xff08;數值形式&#xff09;取值說明byte整數類型18是-128 ~ 127-2^7 ~ 2^7 - 1 &#xff08;冪形式&#xff09;short整數類型216是-32,768 ~ 32,767-2^15…

vue 瀏覽器樣式警告:“unknown property name“

瀏覽器樣式警告&#xff1a;"unknown property name"&#xff0c;但在部分電腦上的瀏覽器又是沒有問題的。 這個問題因為沒有安裝sass或者less&#xff0c;卻直接使用了他的語法&#xff0c;比如嵌套樣式&#xff1a; body {/* 按鈕 */.el-button {background: lin…

postgresql DDL腳本

在PostgreSQL中&#xff0c;數據定義語言&#xff08;DDL&#xff09;腳本用于定義、修改或刪除數據庫的結構。DDL 操作包括創建表、修改表結構、刪除表等。以下是幾種常見的DDL操作示例以及如何在腳本中實現它們。 1. 創建表 CREATE TABLE employees (employee_id SERIAL PR…

C#語言入門-task3 :C# 語言的面向對象技術

C# 面向對象編程技術概述 C# 是一種現代化的面向對象編程語言&#xff0c;提供了豐富的特性來支持面向對象的編程范式。以下是 C# 中面向對象編程的核心概念和技術&#xff1a; 核心概念 1. 類與對象 類是對象的藍圖&#xff0c;定義了對象的屬性和行為。對象是類的實例。 …

感知框2D反投是咋回事?

一、感知框&#xff1a;“2D 框反投” 是咋回事&#xff1f;&#xff08;以自動駕駛識別車輛為例&#xff09; 1. 核心邏輯&#xff1a;從圖像特征 “反推” 目標框 簡單說&#xff0c;先用算法在 2D 圖像里識別特征&#xff08;比如車輛的輪廓、顏色、紋理&#xff09;&#…

五分鐘了解@ExcelIgnoreUnannotated注解

ExcelIgnoreUnannotated 是 EasyExcel 框架中的一個注解&#xff0c;用于控制 Excel 導入/導出時對實體類字段的處理方式。它的作用如下&#xff1a; 核心功能 忽略未標注 ExcelProperty 的字段 當添加 ExcelIgnoreUnannotated 到類上時&#xff0c;EasyExcel 會 跳過所有未顯…

Windows電腦數據恢復終極指南:從原理到實戰

Windows電腦數據恢復終極指南&#xff1a;從原理到實戰 數據丟失是每個電腦用戶都可能遭遇的噩夢。本文將為您全面解析Windows平臺下的數據恢復技術&#xff0c;從基礎原理到高級技巧&#xff0c;幫助您在文件誤刪、格式化、系統崩潰等情況下找回寶貴數據。 一、數據恢復基礎…

【網絡入侵檢測】基于Suricata源碼分析應用協議識別實現

【作者主頁】只道當時是尋常 【專欄介紹】Suricata入侵檢測。專注網絡、主機安全&#xff0c;歡迎關注與評論。 1. 概要 &#x1f44b; 本文聚焦Suricata網絡安全引擎的協議解析器實現&#xff0c;詳細剖析HTTP、SSL/TLS、FTP、SSH、SMTP等協議的解析流程。 2. 源碼分析 2.1 H…

Nginx SSL/TLS協議棧中配置深度解析與實踐指南-優雅草卓伊凡

Nginx SSL/TLS協議棧中配置深度解析與實踐指南-優雅草卓伊凡 引言&#xff1a;SSL/TLS的重要性與Nginx配置挑戰 在當今互聯網環境中&#xff0c;SSL/TLS加密已成為網站安全的基本要求。根據Google透明度報告顯示&#xff0c;截至2023年&#xff0c;全球Chrome瀏覽器加載的網頁…

C++字符串的行輸入

1、字符串的輸入 下面用一個真實的示例來進行演示&#xff1a; #include<iostream> #include<string>int main() {using namespace std;const int ArSize 20;char name[ArSize];char dessert[ArSize];cout << "Enter your name:\n";cin >>…

征服分布式系統:阿里云 Linux 多機互聯與資源共享實戰指南

征服分布式系統&#xff1a;阿里云 Linux 多機互聯與資源共享實戰指南 文章目錄 征服分布式系統&#xff1a;阿里云 Linux 多機互聯與資源共享實戰指南一、分布式系統架構概述二、阿里云網絡基礎架構解析三、多機互聯基礎配置1. 環境準備2. 網絡連通性測試3. SSH 密鑰認證配置 …

AI三步診斷心理:比ChatGPT更懂人心

用人工智能(大語言模型)輔助心理治療的研究 解決心理治療中專業人員不足的問題,提出了一種叫“思維診斷”(DoT)的方法,讓AI通過三個步驟來識別患者的“認知扭曲”(也就是負面、不合理的思維模式)。 背景:心理治療的困境 全世界約八分之一的人有心理問題,但心理咨詢師…