引入requests包,發起請求并獲取響應數據。
import requestsif __name__ == "__main__":#step 1:指定urlurl = 'http://www.7k7k.com/'#step 2:發起請求,get方法會返回一個響應對象response = requests.get(url)#step 3:獲取響應數據.text返回的是字符川形式的響應數據page_text = response.textprint(page_text)#step 4:持久化存儲with open('e:/Reptile/sogou.html','w',encoding='utf-8') as fp:fp.write(page_text)print('爬取數據結束!!!|')
爬蟲的本質是:
用自動化方式高效地模擬人類瀏覽網頁的行為,批量獲取并解析公開的數據。
更具體來講是一組程序邏輯,實現核心的三件事:
- 像瀏覽器一樣請求網頁(發送 HTTP 請求,拿到 HTML/JSON/文件等原始數據)
- 像人一樣提取信息(用規則或算法從原始數據中解析出你需要的內容)
- 像蜘蛛一樣發現新鏈接(自動跟蹤頁面中的 URL,持續擴大抓取范圍)
所以,爬蟲 = 自動化請求 + 數據解析 + 鏈接發現,本質是一種批量化、系統化的數據搬運工,把互聯網上的公開信息“搬”到你的本地數據庫或文件里。