DAY 15 復習日

@浙大疏錦行

數據使用爬蟲爬取weibo數據，下面是代碼

import datetime
import os
import csv
import timeimport numpy as np
import random
import re
import urllib.parse
import requests
from fake_useragent import UserAgentdef init():if not os.path.exists('../weiboDeatail.csv'):with open('../weiboDeatail.csv', 'a', newline='', encoding='utf-8') as wf:writer = csv.writer(wf)writer.writerow(['articleId','created_at','likes_counts','region','content','authorName','authorGender','authorAddress','authorAvatar',])def save_to_file(resultData):with open('../weiboDeatail.csv', 'a', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(resultData)def get_data(url,params):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0','cookie': 'SINAGLOBAL=8782631946839.119.1699202998560; SUB=_2AkMQaTYef8NxqwFRmfoUz2jhb451yAzEieKmNcfFJRMxHRl-yj8XqhEbtRB6O-kY8WFdEr155S_EPSDhRZ5dRRmT-_aC; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WWcQpMfOClpsGU0ylkr.Dg2; XSRF-TOKEN=pMdYpIdaKB-vThaLz_RPmMy7; _s_tentry=weibo.com; Apache=3448313847055.298.1731574115528; ULV=1731574115668:1:1:1:3448313847055.298.1731574115528:; WBPSESS=V0zdZ7jH8_6F0CA8c_ussWO_XbISeXyf_cdQhE-a7tA9YWqKR0HqFFlwwlm4O_tCVqfBbTqYra_IEAKvR3DtVLRWcGHqKNMZv9wHENJbx4l6rpBH3A2CNiiAuRQVin2ZNgg7rPufq9s7kOHoQJsAbLrUReKu8_UTai8PbfZrq7M='}response = requests.get(url, headers=headers,params=params)print(f"Response Status Code: {response.status_code}")print(f" response.text: { response.text }")if response.status_code == 200:return response.json()['data']else:return None
def getAllArticleTypeList():articleList=[]with open('weibo1.csv', 'r', encoding='utf-8') as f:readerCsv = csv.reader(f)next(readerCsv)for nav in readerCsv:articleList.append(nav)return articleListdef prase_json(response,articleId):for comment in response:articleId = articleIdcreated_at = datetime.datetime.strptime(comment['created_at'], '%a %b %d %H:%M:%S +0800 %Y').strftime('%Y-%m-%d %H:%M:%S')likes_counts = comment['like_counts']try:region = comment['source'].replace('來自','')except:region = '無'content = comment['text_raw']authorName = comment['user']['screen_name']authorGender = comment['user']['gender']authorAddress = comment['user']['location']authorAvatar = comment['user']['avatar_large']print(articleId,created_at,likes_counts,region,content,authorName,authorGender,authorAddress,authorAvatar)save_to_file([articleId,created_at,likes_counts,region,content,authorName,authorGender,authorAddress,authorAvatar])# breakdef start():commentUrl='https://weibo.com/ajax/statuses/buildComments'articleList=getAllArticleTypeList()typeNumCount = 0for article in articleList[1:]:articleId=article[0]print('正在獲取id為%s的評論數據'%articleId)time.sleep(random.randint(1,5))params = {'id': int(articleId),'is_show_bulletin':3}response = get_data(commentUrl,params)prase_json(response,articleId)# breakif __name__ == '__main__':init()start()

查看數據形狀

import pandas as pd# 讀取數據
# 讀取數據并添加表頭
data = pd.read_csv(r'weiboDeatail.csv', header=None, names=['articleId', 'created_at', 'likes_counts', 'region', 'content', 'authorName', 'authorGender', 'authorAddress', 'authorAvatar'])# 打印數據集的基本信息（列名、非空值數量、數據類型等）
print("data.info() - 數據集的基本信息（列名、非空值數量、數據類型等）：")
print(data.info())# 打印數據集的形狀（行數和列數）
print("\ndata.shape - 數據集的形狀（行數, 列數）：")
print(data.shape)# 打印數據集的所有列名
print("\ndata.columns - 數據集的所有列名：")
print(data.columns)# 查看前5行數據
print("\n查看前5行數據：")
print(data.head())# 查看后5行數據
print("\n查看后5行數據：")
print(data.tail())# 查看是否有缺失值
print("\n查看是否有缺失值：")
print(data.isnull().sum())# 檢測是否有重復值
print("\n檢測是否有重復值：")
print(data.duplicated().sum())# 描述性統計
print("\n描述性統計：")
print(data.describe(include='all'))# 刪除操作：刪除某一列（例如刪除authorAvatar列）
print("\n刪除操作：刪除authorAvatar列")
data = data.drop(columns=['authorAvatar'])
print(data.columns)# 查詢操作：查詢點贊數大于100的文章
print("\n查詢操作：查詢點贊數大于100的文章")
filtered_data = data[data['likes_counts'] > 100]
print(filtered_data)# 排序操作：按點贊數降序排序
print("\n排序操作：按點贊數降序排序")
sorted_data = data.sort_values(by='likes_counts', ascending=False)
print(sorted_data.head())# 分組操作：按地區分組并統計每個地區的文章數量
print("\n分組操作：按地區分組并統計每個地區的文章數量")
grouped_data = data.groupby('region').size()
print(grouped_data)

繪制分析圖

可視化需求和圖表類型
需求：繪制文章點贊數分布直方圖
圖表類型：直方圖
含義：展示文章點贊數的分布情況，觀察點贊數的集中區間和分布趨勢。
需求：繪制文章發布地區分布柱形圖
圖表類型：柱形圖
含義：展示不同地區發布文章的數量，識別文章發布最活躍的地區。
需求：繪制作者性別分布餅圖
圖表類型：餅圖
含義：展示作者性別的比例，了解性別在作者群體中的分布情況。
需求：繪制文章內容關鍵詞詞云圖
圖表類型：詞云圖
含義：通過關鍵詞的大小和顏色展示文章內容中最常見的詞匯，識別熱門話題。
需求：繪制文章作者地址分布柱形圖
圖表類型：柱形圖
含義：展示不同地址的作者數量，識別作者分布最集中的地區。
需求：繪制文章發布時間分布直方圖
圖表類型：直方圖
含義：展示文章發布時間的分布情況，觀察文章發布的高峰時段。import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import matplotlib.font_manager as fm# 設置matplotlib支持中文字體
plt.rcParams['font.sans-serif'] = ['SimHei']  # 使用黑體
plt.rcParams['axes.unicode_minus'] = False  # 解決負號'-'顯示為方塊的問題# 讀取數據
# 讀取數據并添加表頭
data = pd.read_csv(r'weiboDeatail.csv', header=None, names=['articleId', 'created_at', 'likes_counts', 'region', 'content', 'authorName', 'authorGender', 'authorAddress', 'authorAvatar'])# 1. 繪制文章點贊數分布直方圖
plt.figure(figsize=(10, 6))
sns.histplot(data['likes_counts'], bins=30, kde=True)
plt.title('文章點贊數分布直方圖')
plt.xlabel('點贊數')
plt.ylabel('頻數')
plt.show()# 2. 繪制文章發布地區分布柱形圖
plt.figure(figsize=(12, 6))
region_counts = data['region'].value_counts().head(10)
sns.barplot(x=region_counts.index, y=region_counts.values)
plt.title('文章發布地區分布柱形圖')
plt.xlabel('地區')
plt.ylabel('文章數量')
plt.xticks(rotation=45)
plt.show()# 3. 繪制作者性別分布餅圖
plt.figure(figsize=(8, 8))
gender_counts = data['authorGender'].value_counts()
plt.pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('作者性別分布餅圖')
plt.show()# 4. 繪制文章內容關鍵詞詞云圖
plt.figure(figsize=(12, 8))
# 獲取系統中的中文字體路徑
font_path = fm.findfont(fm.FontProperties(family=['SimHei']))
wordcloud = WordCloud(width=800, height=400, background_color='white', font_path=font_path).generate(' '.join(data['content']))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('文章內容關鍵詞詞云圖')
plt.show()# 5. 繪制文章作者地址分布柱形圖
plt.figure(figsize=(12, 6))
address_counts = data['authorAddress'].value_counts().head(10)
sns.barplot(x=address_counts.index, y=address_counts.values)
plt.title('文章作者地址分布柱形圖')
plt.xlabel('作者地址')
plt.ylabel('作者數量')
plt.xticks(rotation=45)
plt.show()# 6. 繪制文章發布時間分布直方圖
plt.figure(figsize=(10, 6))
data['created_at'] = pd.to_datetime(data['created_at'])
sns.histplot(data['created_at'].dt.hour, bins=24, kde=True)
plt.title('文章發布時間分布直方圖')
plt.xlabel('小時')
plt.ylabel('頻數')
plt.show()