一、爬蟲-爬取豆瓣電影案例

1、環境配置

????????你需要一個pycharm和requests第三方庫，在安裝完成之后即可繼續瀏覽。

2、操作流程

????????（1）打開豆瓣電影網站，點擊排行榜，點擊喜劇，檢查

????????（2）可以看到鼠標每次下移，都會出現新的電影，所以該頁面屬于局部刷新，返回數據為json格式數據，得到url，并且得到type參數

????????""如何查看此處不演示，主要是不敢""

? ? ? ? （3）編寫代碼

import json
import requests
if __name__ == "__main__":get_url = "https://movie.douban.com/j/chart/top_list"get_param = {"type": "24","interval_id": "100:90","action": "",# start代表從豆瓣電影庫中第120部電影獲取"start": "1",# 每次請求去除的數量是limit"limit": "20",}get_headers = {'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36"}# 響應response = requests.get(url=get_url, params=get_param, headers=get_headers)# 獲取響應數據list_data = response.json()# 持久化存儲fp = open('./html/douban.json', 'w', encoding='UTF-8')json.dump(list_data, fp=fp, ensure_ascii=False)print("over")

3、爬取結果

? ? ? ? 在運行成功之后，會得到一個json格式文件，文件目錄為：

./爬蟲/html/douban.json

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/160279.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/160279.shtml
英文地址，請注明出處：http://en.pswp.cn/news/160279.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！