1、環境配置
????????你需要一個pycharm和requests第三方庫,在安裝完成之后即可繼續瀏覽。
2、操作流程
????????(1)打開豆瓣電影網站,點擊排行榜,點擊喜劇,檢查
????????(2)可以看到鼠標每次下移,都會出現新的電影,所以該頁面屬于局部刷新,返回數據為json格式數據,得到url,并且得到type參數
????????""如何查看此處不演示,主要是不敢""
? ? ? ? (3)編寫代碼
import json
import requests
if __name__ == "__main__":get_url = "https://movie.douban.com/j/chart/top_list"get_param = {"type": "24","interval_id": "100:90","action": "",# start代表從豆瓣電影庫中第120部電影獲取"start": "1",# 每次請求去除的數量是limit"limit": "20",}get_headers = {'User-Agent': "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Mobile Safari/537.36"}# 響應response = requests.get(url=get_url, params=get_param, headers=get_headers)# 獲取響應數據list_data = response.json()# 持久化存儲fp = open('./html/douban.json', 'w', encoding='UTF-8')json.dump(list_data, fp=fp, ensure_ascii=False)print("over")
3、爬取結果
? ? ? ? 在運行成功之后,會得到一個json格式文件,文件目錄為:
./爬蟲/html/douban.json