Linux 軟件編程(十一)網絡編程：TCP 機制與 HTTP 協議

TCP 頭部的標志位是控制通信行為的 “開關”，常用標志位功能：

TCP 采用 **“序列號 + 確認號”** 實現可靠應答：

示例：發送方發?[0-999]?數據，序列號為?0；接收方回復確認號?1000，表示 “0-999 已收到，繼續發 1000 開頭的數據”。

發送方數據發出后，若超時未收到確認號，則認為數據丟失，觸發重傳。類似 “快遞沒收到，重新發貨”，保障數據不丟包。

TCP 用滑動窗口管理發送與確認：

發送數據的同時，接收方不立即回復?ACK，而是等待一段時間（攢一批數據再回復），減少 ACK 報文數量，降低網絡開銷。

通過 TCP 頭部 **“窗口大小（Window Size）”（滑動窗口）** 字段實現：

ACK?報文有時候不單獨發送，而是 “附著” 在應用層數據里一起發（類似于變為三次揮手），減少單獨發 ACK 的次數，提升效率。

WWW（萬維網）：由網頁、服務器、客戶端（瀏覽器）組成的信息系統，通過 URL 定位資源。
URL（統一資源定位符）：格式?<協議>://<主機>:<端口>/<路徑>?，示例：https://www.baidu.com/s?wd=關鍵詞?，精準定位網絡資源。
HTTP（超文本傳輸協議）：應用層協議，基于 TCP 傳輸，默認端口?80/8080，負責客戶端與服務器的請求 - 響應交互。
HTML（超文本標記語言）：瀏覽器解析后展示網頁內容的語言，HTTP 響應報文里的 “實體主體” 常包含 HTML 代碼。

建立 TCP 連接：客戶端與服務器通過 TCP 三次握手建立連接（如訪問百度時，先建 TCP 連接）。
發送 HTTP 請求報文：客戶端向服務器發請求，包含 “請求方法（如 GET/POST）、URL、協議版本” 等（示例：GET / HTTP/1.1?表示用 GET 方法請求根路徑資源）。
接收 HTTP 響應報文：服務器處理請求后，回復包含 “狀態碼、響應頭、實體主體（如 HTML 內容）” 的報文（示例：HTTP/1.1 200 OK?表示請求成功）。
斷開 TCP 連接：默認短連接（Connection: close?）直接斷開；長連接（Connection: keep-alive?）會保持連接一段時間，復用傳輸其他資源。

請求行：方法 URL 版本 CRLF  （如：GET /index.html HTTP/1.1\r\n）
首部行：字段名: 值 CRLF    （如：Host: www.baidu.com\r\n）
...（更多首部行）
空行：CRLF
實體主體：（GET 通常無實體主體，POST 可帶數據）

狀態行：版本 狀態碼 短語 CRLF  （如：HTTP/1.1 200 OK\r\n）
首部行：字段名: 值 CRLF        （如：Content-Type: text/html\r\n）
...（更多首部行）
空行：CRLF
實體主體：（如 HTML 代碼、文件內容等）

狀態碼分類	含義	典型碼值	場景
1xx	通知信息	100	表示 “繼續”，常為中間響應
2xx	成功	200	請求成功，服務器正常返回數據
3xx	重定向	302	請求的資源 “搬家了”，需重新定向
4xx	客戶端錯誤	404	資源不存在；400 表示請求語法錯
5xx	服務器錯誤	500	服務器內部故障；502 表示網關錯誤

HTTP 定義了多種請求方法，控制對資源的操作：

爬蟲（Web Crawler）?是一種自動化程序，模擬瀏覽器的 HTTP 請求 - 響應流程，批量抓取網絡資源：

工作邏輯：
- 構造 HTTP 請求（模仿瀏覽器發 GET/POST），獲取網頁 HTML；
- 解析 HTML 提取鏈接、數據；
- 遞歸抓取新鏈接，形成 “自動瀏覽 - 采集” 的流程。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/94271.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/94271.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/94271.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！