爬蟲項目(四)---采集從01月22日以來全國各省疫情數據

采集從03月02日以來全國各省疫情數據

當然，數據來源仍然是丁香園新型冠狀病毒肺炎疫情實時動態首頁
url：https://ncov.dxy.cn/ncovh5/view/pneumonia

分析

確定01月22日以來全國各省疫情數據的URL
由項目(三)可以獲取全國各省疫情數據點擊可下載：https://file1.dxycdn.com/2020/0223/331/3398299755968040033-135.json
在這里插入圖片描述

思路

1，采集從01月23日以來全國各省疫情數據

加載最近一日全國疫情信息
遍歷最近一日全國疫情信息，獲取各省疫情URL
發送請求，獲取各省疫情json字符串
解析各省疫情json字符串，并添加到列表中
以json格式保存疫情信息

2，代碼重構

抽取重復的代碼到新方法中，提高代碼復用

import requests
import re
import json
from bs4 import BeautifulSoup
from tqdm import tqdm#進度條class CoronaSpider(object):def __init__(self):self.home_url = 'https://ncov.dxy.cn/ncovh5/view/pneumonia'def get_content_from_url(self,url):#根據URL獲取響應內容的字符串數據#URL：請求的URL#返回：響應內容的字符串response = requests.get(url)return response.content.decode()def parse_home_page(self,home_page,tag_id): #解析首頁內容，獲取解析后的Python數據#home_page：首頁內容#返回：解析后的Python類型數據#2，從疫情首頁提取最近一日各國疫情數據soup = BeautifulSoup(home_page,'lxml')script = soup.find(id=tag_id)text = script.text#print(text)#3，從疫情數據中獲取json格式的字符串json_str = re.findall(r'\[.+\]',text)[0]#由于中括號是個特殊的字符，需要在前面加個轉義符；最后的結果會存在列表中，故使用[0]來獲取完整json格式#print(json_str)#4，把json格式的字符串轉換為Python類型data = json.loads(json_str)#print(last_day_nature_num)return datadef parse_corona_virus(self,last_day_corona_virus_of_china,desc):#定義列表，用于存儲各國從1月23號以來的疫情數據corona_virus = []#2，遍歷各國疫情數據，獲取從01月22號以來的世界各國疫情的URLfor country in tqdm(last_day_corona_virus_of_china,desc):#發送請求，獲取各省疫情json字符串statustics_data_url = country['statisticsData']statustics_data_json_str = self.get_content_from_url(statustics_data_url)#4，解析各省疫情json字符串，并添加到列表中statustics_data = json.loads(statustics_data_json_str)['data']#print(statustics_data)for one_day in statustics_data:#statustics_data這個數據里面沒有國家的一些信息，需要補充上去one_day['provinceName'] = country['provinceName']if country.get('countryShortCode'):one_day['countryShortCode'] = country['countryShortCode']#print(statustics_data)corona_virus.extend(statustics_data)#把每個國家的疫情信息statustics_data，都添加到一個大的corona_virus列表里面#print(corona_virus)return corona_virusdef load(self,path):#根據路徑加載數據with open(path) as fp:#'E:\Jupyter_workspace\study\python\爬蟲\craw_last_day_corona_virus_of_china.json'data = json.load(fp)return datadef save(self,data,path):#5，以json格式保存最近一日各國疫情數據with open(path,'w') as fp:json.dump(data,fp)#,ensure_ascii=Falsec'''def save(self,data):#5，以json格式保存最近一日各國疫情數據with open('yy1.json','w') as fp:json.dump(data,fp)#,ensure_ascii=False'''def crawl_last_day_corona_virus(self):#采集最近一天各國疫情信息#1，發送請求，獲取首頁內容home_page = self.get_content_from_url(self.home_url)#2，解析首頁內容，獲取最近一天的各國疫情數據last_data_corona_virus = self.parse_home_page(home_page,tag_id='getListByCountryTypeService2true')#3，保存數據self.save(last_data_corona_virus,'E:\Jupyter_workspace\study\python\爬蟲\last_day_nature_num111.json')def crawl_corona_virus(self):#采集從01月23號以來的世界各國疫情數據#1，加載最近一日各國疫情數據#with open('yy1.json') as fp:last_day_corona_virus = self.load('E:\Jupyter_workspace\study\python\爬蟲\last_day_nature_num.json')#print(last_day_corona_virus)#定義列表，用于存儲各國從1月23號以來的疫情數據corona_virus = self.parse_corona_virus(last_day_corona_virus,desc='獲取從01月23號以來的世界各國疫情信息')'''corona_virus = []#2，遍歷各國疫情數據，獲取從01月23號以來的世界各國疫情的URLfor country in tqdm(last_day_corona_virus,''):statustics_data_url = country['statisticsData']#3，發送請求，獲取從01月23號以來的世界各國疫情的json字符串statustics_data_json_str = self.get_content_from_url(statustics_data_url)#4，解析各個國家疫情的json字符串，轉化為Python類型數據，添加到列表中statustics_data = json.loads(statustics_data_json_str)['data']#print(statustics_data)for one_day in statustics_data:#statustics_data這個數據里面沒有國家的一些信息，需要補充上去one_day['provinceName'] = country['provinceName']one_day['countryShortCode'] = country['countryShortCode']#print(statustics_data)corona_virus.extend(statustics_data)#把每個國家的疫情信息statustics_data，都添加到一個大的corona_virus列表里面'''#5，將該列表以json格式保存從01月23號以來的世界各國疫情數據信息self.save(corona_virus,'E:\Jupyter_workspace\study\python\爬蟲\corona_virus.json')def craw_last_day_corona_virus_of_china(self):#采集最近一日國內各省疫情數據#1，發送請求，獲取疫情首頁信息home_page = self.get_content_from_url(self.home_url)craw_last_day_corona_virus_of_china = self.parse_home_page(home_page,tag_id='getAreaStat')'''#2，解析疫情首頁信息，獲取最近一日各省疫情數據soup = BeautifulSoup(home_page,'lxml')script = soup.find(id='getAreaStat')text = script.text#print(text)#從疫情數據中獲取json格式的字符串json_str = re.findall(r'\[.+\]',text)[0]#由于中括號是個特殊的字符，需要在前面加個轉義符；最后的結果會存在列表中，故使用[0]來獲取完整json格式#print(json_str)#把json格式的字符串轉換為Python類型data = json.loads(json_str)#print(last_day_nature_num)'''#3，保存疫情數據self.save(craw_last_day_corona_virus_of_china,'E:\Jupyter_workspace\study\python\爬蟲\craw_last_day_corona_virus_of_china.json')def crawl_corona_virus_of_china(self):#采集從01月22日以來的全國各省的疫情數據#加載最近一日全國疫情信息#with open('E:\Jupyter_workspace\study\python\爬蟲\craw_last_day_corona_virus_of_china.json') as fp:last_day_corona_virus_of_china = self.load('E:\Jupyter_workspace\study\python\爬蟲\craw_last_day_corona_virus_of_china.json')#遍歷最近一日全國疫情信息，獲取各省疫情URLcorona_virus = self.parse_corona_virus(last_day_corona_virus_of_china,'采集01月22號以來各省疫情信息')#以json格式保存疫情信息self.save(corona_virus,'E:\Jupyter_workspace\study\python\爬蟲\last_day_corona_virus_of_china.json')def run(self):#self.crawl_last_day_corona_virus()self.crawl_corona_virus()#self.craw_last_day_corona_virus_of_china()self.crawl_corona_virus_of_china()if  __name__ == '__main__':spider = CoronaSpider()spider.run()

在這里插入圖片描述

由前面的四個爬蟲項目可以得出總結：
1，每個爬蟲任務都是由發送請求，獲取響應，解析數據，保存數據三部分組成
2，發送請求，獲取響應的代碼和保存數據的代碼可以提取出來，提高代碼的復用性和可維護性
3，如果訪問的是相似的結構網頁，解析數據代碼也可以進行提取出來，提高代碼的復用性和可維護性
4，每一個功能封裝成一個方法，方便擴展和維護

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/378185.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/378185.shtml
英文地址，請注明出處：http://en.pswp.cn/news/378185.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！