Python爬蟲01_Requests第一血獲取響應數據

引入requests包，發起請求并獲取響應數據。

import requestsif __name__ == "__main__":#step 1：指定urlurl = 'http://www.7k7k.com/'#step 2：發起請求，get方法會返回一個響應對象response = requests.get(url)#step 3：獲取響應數據.text返回的是字符川形式的響應數據page_text = response.textprint(page_text)#step 4：持久化存儲with open('e:/Reptile/sogou.html','w',encoding='utf-8') as fp:fp.write(page_text)print('爬取數據結束！！！|')

爬蟲的本質是：
用自動化方式高效地模擬人類瀏覽網頁的行為，批量獲取并解析公開的數據。
更具體來講是一組程序邏輯，實現核心的三件事：

像瀏覽器一樣請求網頁（發送 HTTP 請求，拿到 HTML/JSON/文件等原始數據）
像人一樣提取信息（用規則或算法從原始數據中解析出你需要的內容）
像蜘蛛一樣發現新鏈接（自動跟蹤頁面中的 URL，持續擴大抓取范圍）

所以，爬蟲 = 自動化請求 + 數據解析 + 鏈接發現，本質是一種批量化、系統化的數據搬運工，把互聯網上的公開信息“搬”到你的本地數據庫或文件里。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/91159.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/91159.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/91159.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！