【爬蟲實戰】——Python爬取天氣信息

🍉CSDN小墨&曉末:https://blog.csdn.net/jd1813346972

???個人介紹: 研一|統計學|干貨分享
???????? 擅長Python、Matlab、R等主流編程軟件
???????? 累計十余項國家級比賽獎項,參與研究經費10w、40w級橫向

文章目錄

  • 1 Python網頁爬蟲簡介
  • 2 爬蟲實戰
    • 2.1 導入相關包
    • 2.2 爬取時間范圍及城市設置
    • 2.3 爬取信息設置
    • 2.4 天氣信息抓取
    • 2.4 結果存儲
    • 2.5 效果展示
  • 3 完整代碼

該篇將進行城市天氣信息爬取實戰,主要涉及到網頁url解析、正則表達匹配等技術,可用作網頁爬蟲練手項目。

1 Python網頁爬蟲簡介

??Python是一種流行的編程語言,用于開發各種應用程序,包括網頁爬蟲。網頁爬蟲(Web Crawler)是一種自動化程序,用于在互聯網上瀏覽和收集數據。Python提供了許多庫和工具,使開發人員能夠輕松地構建網頁爬蟲。

??Python進行網頁爬蟲的基本原理是模擬人類在互聯網上瀏覽網頁的行為。爬蟲程序會向目標網站發送請求,獲取網頁的HTML代碼,然后解析這個HTML代碼,提取出所需的數據。Python中的requests和BeautifulSoup庫是實現這個過程的重要工具。

??Python爬蟲架構主要由以下幾個部分組成:

  1. 調度器(Scheduler):負責調度URL管理器、下載器、解析器之間的協調工作。
  2. URL管理器(URL Manager):包括待爬取的URL地址和已爬取的URL地址,防止重復抓取URL和循環抓取URL。
  3. 網頁下載器(Web Downloader):負責從互聯網上下載網頁的HTML代碼。
  4. 網頁解析器(Web Parser):負責解析網頁的HTML代碼,提取出所需的數據。
  5. 應用程序(Application):從網頁中提取的有用數據組成的一個應用。

??在Python中進行網頁爬蟲開發時,還需要注意遵守網站的robots.txt文件規定,以避免對網站造成不必要的負擔或違反法律法規。同時,爬蟲程序也需要處理各種網絡異常和錯誤,以確保程序的穩定性和可靠性。

??總之,Python是一種非常適合進行網頁爬蟲開發的編程語言,通過掌握相關的庫和工具,開發人員可以輕松地構建出高效、穩定的爬蟲程序,從互聯網上獲取所需的數據。

2 爬蟲實戰

2.1 導入相關包

import requests
import pandas as pd
import re

2.2 爬取時間范圍及城市設置

months = [1,2,3,4,5,6,7,8,9,10,11,12]
years = [2016,2017,2018,2019,2020,2021,2022,2023] 
citys = [59287]

此處城市代碼選取‘59287’,實際操作可另選區域或多區域。

2.3 爬取信息設置

index_ = ['MaxTemp','MinTemp', 'WindDir', 'Wind', 'Weather','Aqi','AqiInfo','AqiLevel'] 
# 選取的氣象要素

2.4 天氣信息抓取

data = pd.DataFrame(columns=index_)  # 建立一個空dataframe
for c in citys:for y in years:for m in months:# 找到json格式數據的urlif (y<2017) or (y==2017)&(m<=11):url = "http://tianqi.2345.com/t/wea_history/js/"+str(c)+"_"+str(y)+str(m)+".js" # ?qq-pf-to=pcqq.c2celse:url = "http://tianqi.2345.com/t/wea_history/js/"+str(y)+str(m).zfill(2)+"/"+str(c)+"_"+str(y)+str(m).zfill(2)+".js"print(url)response = requests.get(url=url)if response.status_code == 200:  # 防止url請求無響應response2 = response.text.replace("'", '"')  # 這一步可以忽略#  利用正則表達式獲取各個氣象要素(方法不唯一)date = re.findall("[0-9]{4}-[0-9]{2}-[0-9]{2}", response2)[:-2]mintemp = re.findall('yWendu:"(.*?)℃', response2)maxtemp = re.findall('bWendu:"(.*?)℃', response2)winddir = re.findall('fengxiang:"([\u4E00-\u9FA5]+)',response2)wind = re.findall('fengli:"([\u4E00-\u9FA5]+)',response2)weather = re.findall('tianqi:"([[\u4E00-\u9FA5]+)~?', response2)aqi = re.findall('aqi:"(\d*)',response2)aqiInfo = re.findall('aqiInfo:"([\u4E00-\u9FA5]+)',response2)aqiLevel = re.findall('aqiLevel:"(\d*)',response2)data_spider = pd.DataFrame([maxtemp,mintemp, winddir, wind, weather,aqi,aqiInfo,aqiLevel]).Tdata_spider.columns = index_  # 修改列名data_spider.index = date  # 修改索引data = pd.concat((data,data_spider), axis=0)  # 數據拼接print('%s年%s月的數據抓取成功' % (y, m))else:print('%s年%s月的數據不存在' % (y, m))break

2.4 結果存儲

data.to_excel('D:\\天氣數據可視化\\天氣數據可視化.xlsx')
print('爬取數據展示:\n', data)

2.5 效果展示

3 完整代碼

import requests
import pandas as pd
import remonths = [1,2,3,4,5,6,7,8,9,10,11,12]
years = [2016,2017,2018,2019,2020,2021,2022,2023] 
citys = [59287] index_ = ['MaxTemp','MinTemp', 'WindDir', 'Wind', 'Weather','Aqi','AqiInfo','AqiLevel']  # 選取的氣象要素
data = pd.DataFrame(columns=index_)  # 建立一個空dataframe
for c in citys:for y in years:for m in months:# 找到json格式數據的urlif (y<2017) or (y==2017)&(m<=11):url = "http://tianqi.2345.com/t/wea_history/js/"+str(c)+"_"+str(y)+str(m)+".js" # ?qq-pf-to=pcqq.c2celse:url = "http://tianqi.2345.com/t/wea_history/js/"+str(y)+str(m).zfill(2)+"/"+str(c)+"_"+str(y)+str(m).zfill(2)+".js"print(url)response = requests.get(url=url)if response.status_code == 200:  # 防止url請求無響應response2 = response.text.replace("'", '"')  # 這一步可以忽略#  利用正則表達式獲取各個氣象要素(方法不唯一)date = re.findall("[0-9]{4}-[0-9]{2}-[0-9]{2}", response2)[:-2]mintemp = re.findall('yWendu:"(.*?)℃', response2)maxtemp = re.findall('bWendu:"(.*?)℃', response2)winddir = re.findall('fengxiang:"([\u4E00-\u9FA5]+)',response2)wind = re.findall('fengli:"([\u4E00-\u9FA5]+)',response2)weather = re.findall('tianqi:"([[\u4E00-\u9FA5]+)~?', response2)aqi = re.findall('aqi:"(\d*)',response2)aqiInfo = re.findall('aqiInfo:"([\u4E00-\u9FA5]+)',response2)aqiLevel = re.findall('aqiLevel:"(\d*)',response2)data_spider = pd.DataFrame([maxtemp,mintemp, winddir, wind, weather,aqi,aqiInfo,aqiLevel]).Tdata_spider.columns = index_  # 修改列名data_spider.index = date  # 修改索引data = pd.concat((data,data_spider), axis=0)  # 數據拼接print('%s年%s月的數據抓取成功' % (y, m))else:print('%s年%s月的數據不存在' % (y, m))break
data.to_excel('D:\\天氣數據可視化\\天氣數據可視化.xlsx')
print('爬取數據展示:\n', data)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/719556.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/719556.shtml
英文地址,請注明出處:http://en.pswp.cn/news/719556.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大模型推薦落地啦!融合知識圖譜,螞蟻集團發布!

引言&#xff1a;電商推薦系統的新突破 隨著電子商務平臺的蓬勃發展&#xff0c;推薦系統已成為幫助用戶在信息過載時代中篩選和發現產品的關鍵工具。然而&#xff0c;傳統的推薦系統主要依賴歷史數據和用戶反饋&#xff0c;這限制了它們在新商品推出和用戶意圖轉變時的有效性…

使用AspectJ進行面向切面編程(AOP)

第1章 引言 大家好&#xff0c;我是小黑&#xff0c;業務開發中&#xff0c;咱們經常會遇到這樣的情況&#xff1a;有些代碼幾乎在每個方法里都要用到&#xff0c;比如日志記錄、權限校驗、或者性能監測。如果每次都手動加入這些代碼&#xff0c;不僅效率低下&#xff0c;而且…

深入了解接口測試:方法、工具和關鍵考慮因素

接口測試是軟件測試中的一項重要工作&#xff0c;它涉及到系統與系統之間的交互點。接口可以是外部接口&#xff0c;也可以是內部接口&#xff0c;包括上層服務與下層服務接口以及同級接口。在接口測試中&#xff0c;我們需要確保接口能夠按照預期的方式進行通信和交互&#xf…

C++ 模擬OJ

目錄 1、1576. 替換所有的問號 2、 495. 提莫攻擊 3、6. Z 字形變換 4、38. 外觀數列 5、 1419. 數青蛙 1、1576. 替換所有的問號 思路&#xff1a;分情況討論 ?zs&#xff1a;左邊沒有元素&#xff0c;則僅需保證替換元素與右側不相等&#xff1b;z?s&#xff1a;左右都…

Java - List排序

List排序方法 主要有三種方法&#xff08;按推薦度排序&#xff09;&#xff1a; JDK8的streamComparator#compare()Comparable#compareTo() 法1&#xff1a;list的sort() package com.example.a;import java.util.ArrayList; import java.util.Comparator; import java.util…

pyqt5 QWebEngineView 重寫mousepressevent捕獲鼠標點擊事件,無響應

QWebEngineView 加載網頁后&#xff0c;重寫mousepressevent捕獲鼠標點擊事件&#xff0c;無響應原因是 QWebEngineView在加載界面后&#xff0c;被本身的child接收了該事件&#xff0c; 解決辦法&#xff1a;同過重載event&#xff0c;截取QEvent::ChildAdded事件 from PyQ…

islide2024免費版PPT插件下載

一、功能概覽 iSlide PPT插件是一款專為PowerPoint用戶設計的輔助工具&#xff0c;其功能全面且實用&#xff0c;主要包括但不限于以下幾點&#xff1a; 設計元素庫&#xff1a;提供豐富的設計元素&#xff0c;如主題、布局、圖標、配色等&#xff0c;用戶可以直接拖拽使用&a…

動態規劃|【雙指針】|611.有效三角形個數

題目 611. 有效三角形的個數 給定一個包含非負整數的數組 nums &#xff0c;返回其中可以組成三角形三條邊的三元組個數。 示例 1: 輸入: nums [2,2,3,4] 輸出: 3 解釋:有效的組合是: 2,3,4 (使用第一個 2) 2,3,4 (使用第二個 2) 2,2,3示例 2: 輸入: nums [4,2,3,4] 輸出…

【Python】OpenCV-使用ResNet50進行圖像分類

使用ResNet50進行圖像分類 如何使用ResNet50模型對圖像進行分類。 import os import cv2 import numpy as np from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input, decode_predictions from tensorflow.keras.preprocessing import image# 設置…

03-03學習筆記 內存管理初始化

當指針位數為32位時&#xff0c;virtual space 的大小就是 2^32&#xff0c;只有當指針位數是64位時&#xff0c;virtual space 才會增大。 通常virtual space 的劃分方式為 3:1, 依靠 PAGE_OFFSET 常數控制&#xff0c;影響著內核空間和用戶空間的上下文切換效率。 像路由器這…

【Python】進階學習:pandas--read_excel()函數的基本使用

【Python】進階學習&#xff1a;pandas–read_excel()函數的基本使用 &#x1f308; 個人主頁&#xff1a;高斯小哥 &#x1f525; 高質量專欄&#xff1a;Matplotlib之旅&#xff1a;零基礎精通數據可視化、Python基礎【高質量合集】、PyTorch零基礎入門教程&#x1f448; 希…

【好書推薦-第七期】《RTC程序設計:實時音視頻權威指南》(音視頻開發必看!)

&#x1f60e; 作者介紹&#xff1a;我是程序員洲洲&#xff0c;一個熱愛寫作的非著名程序員。CSDN全棧優質領域創作者、華為云博客社區云享專家、阿里云博客社區專家博主、前后端開發、人工智能研究生。公粽號&#xff1a;洲與AI。 &#x1f388; 本文專欄&#xff1a;本文收錄…

AWTK-MVVM 配置文件模型

配置文件模型 AWTK-MVVM 內置了一些配置文件模型&#xff0c;用于讀寫各種配置文件&#xff0c;比如&#xff0c;JSON/XML/INI/CSV/UBJSON 等。 文件名中可以引用下面的變量。 ${app_dir} 應用程序目錄${user_dir} 用戶目錄${temp_dir} 臨時目錄 json(url${app_dir}/demos/de…

nodejs,JSDOM 補 window環境

window[atob] 是一個在瀏覽器中使用的 JavaScript 函數&#xff0c;用于將 base64 編碼的字符串解碼為原始數據。具體來說&#xff0c;atob 函數會將 base64 字符串解碼為一個 DOMString&#xff0c;其中包含解碼后的二進制數據。這在處理從服務器獲取的 base64 編碼的數據或在…

多平臺拼音輸入法軟件的開發

拼音輸入法從上個世紀發展到現在, 已經發展了幾十年了, 技術上已經非常成熟了. 換句話說, 就是實際上沒多少技術含量, 隨便來個人就能手搓一個. 本文介紹一個簡單的多平臺拼音輸入法軟件的設計和實現, 支持 GNU/Linux (ibus) 平臺 (PC) 和 Android 平臺 (手機). 目錄 1 中文輸…

E: 無法修正錯誤,因為您要求某些軟件包保持現狀,就是它們破壞了軟件包間的依賴關系。

比如&#xff0c;安裝ros的時候&#xff0c;用 執行&#xff1a; sudo apt install ros-melodic-desktop-full 出現如下問題&#xff1a; 如果你根據提示&#xff0c;安裝ros-melodic-desktop&#xff0c;他有會說類似“E: 無法修正錯誤&#xff0c;因為您要求某些軟件包保持…

Vue.js入門指南:簡介、環境配置與Yarn創建項目

一、Vue.js簡介 Vue.js&#xff0c;一個流行的JavaScript框架&#xff0c;以其直觀、靈活和高效的特點&#xff0c;在前端開發者中贏得了廣泛的贊譽。Vue.js的核心庫專注于視圖層&#xff0c;使得開發者能夠構建出響應式的數據綁定和組合的視圖組件。Vue.js的目標是通過盡可能簡…

BUUCTF---[極客大挑戰 2019]Http1

1.題目描述&#xff0c;在地址框輸入下面的網址 2.來到頁面&#xff0c;ctrlu查看源碼&#xff0c;仔細觀察會看到一個.php的跳轉頁面 3.點進去頁面提示It doesnt come from https://Sycsecret.buuoj.cn 4.頁面提示它不是來源于這個網址&#xff0c;我們需要用bp抓包對數據進行…

多波束水深數據粗差剔除方法總結(不斷更新)

目錄 一、粗差產生原因 二、粗差剔除方法 三、自動濾波方法分類 3.1 趨勢面濾波 3.1.1 現有方法 3.1.2 缺點