# 爬蟲設計領域
- 工商:企查查、天眼查
- 短視頻:抖音、快手、西瓜 ---> 飛瓜
- 電商:京東、淘寶、聚美優品、亞馬遜 ---> 分析店鋪經營決策標題、排名
- 航空:抓取所有航空公司價格 ---> 去哪兒
- 自媒體:采集自媒體數據進行匯總 ---> 新榜
- 外賣:餓了么、美團
# 爬蟲基本原理解讀
- 數據采集三大領域:網站、app、小程序
- 基本流程:采集數據、提取信息(結構化信息+非結構化數據)、保存數據
# 網絡核心請求
- 請求方法
方法 描述 get 請求頁面,返回頁面內容 head 類似于get請求,只不過返回的響應中無具體內容,用于獲取報頭
post
用于表單提交、上傳文件,數據包含在請求體中 put 從客戶端向服務器傳送的數據取代指定文檔中的內容
delete 請求服務器刪除指定的頁面 connect 請求服務器當做挑板,讓服務器代替客戶端訪問其他網頁 options 允許客戶端查看服務器的性能?
trace 回顯服務器收到的請求,主要用于測試或者診斷 - 請求網址
- 請求頭
- 請求體
# 網絡響應核心