@浙大疏錦行
數據使用爬蟲爬取weibo數據,下面是代碼
import datetime
import os
import csv
import timeimport numpy as np
import random
import re
import urllib.parse
import requests
from fake_useragent import UserAgentdef init():if not os.path.exists('../weiboDeatail.csv'):with open('../weiboDeatail.csv', 'a', newline='', encoding='utf-8') as wf:writer = csv.writer(wf)writer.writerow(['articleId','created_at','likes_counts','region','content','authorName','authorGender','authorAddress','authorAvatar',])def save_to_file(resultData):with open('../weiboDeatail.csv', 'a', newline='', encoding='utf-8') as f:writer = csv.writer(f)writer.writerow(resultData)def get_data(url,params):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0','cookie': 'SINAGLOBAL=8782631946839.119.1699202998560; SUB=_2AkMQaTYef8NxqwFRmfoUz2jhb451yAzEieKmNcfFJRMxHRl-yj8XqhEbtRB6O-kY8WFdEr155S_EPSDhRZ5dRRmT-_aC; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WWcQpMfOClpsGU0ylkr.Dg2; XSRF-TOKEN=pMdYpIdaKB-vThaLz_RPmMy7; _s_tentry=weibo.com; Apache=3448313847055.298.1731574115528; ULV=1731574115668:1:1:1:3448313847055.298.1731574115528:; WBPSESS=V0zdZ7jH8_6F0CA8c_ussWO_XbISeXyf_cdQhE-a7tA9YWqKR0HqFFlwwlm4O_tCVqfBbTqYra_IEAKvR3DtVLRWcGHqKNMZv9wHENJbx4l6rpBH3A2CNiiAuRQVin2ZNgg7rPufq9s7kOHoQJsAbLrUReKu8_UTai8PbfZrq7M='}response = requests.get(url, headers=headers,params=params)print(f"Response Status Code: {response.status_code}")print(f" response.text: { response.text }")if response.status_code == 200:return response.json()['data']else:return None
def getAllArticleTypeList():articleList=[]with open('weibo1.csv', 'r', encoding='utf-8') as f:readerCsv = csv.reader(f)next(readerCsv)for nav in readerCsv:articleList.append(nav)return articleListdef prase_json(response,articleId):for comment in response:articleId = articleIdcreated_at = datetime.datetime.strptime(comment['created_at'], '%a %b %d %H:%M:%S +0800 %Y').strftime('%Y-%m-%d %H:%M:%S')likes_counts = comment['like_counts']try:region = comment['source'].replace('來自','')except:region = '無'content = comment['text_raw']authorName = comment['user']['screen_name']authorGender = comment['user']['gender']authorAddress = comment['user']['location']authorAvatar = comment['user']['avatar_large']print(articleId,created_at,likes_counts,region,content,authorName,authorGender,authorAddress,authorAvatar)save_to_file([articleId,created_at,likes_counts,region,content,authorName,authorGender,authorAddress,authorAvatar])# breakdef start():commentUrl='https://weibo.com/ajax/statuses/buildComments'articleList=getAllArticleTypeList()typeNumCount = 0for article in articleList[1:]:articleId=article[0]print('正在獲取id為%s的評論數據'%articleId)time.sleep(random.randint(1,5))params = {'id': int(articleId),'is_show_bulletin':3}response = get_data(commentUrl,params)prase_json(response,articleId)# breakif __name__ == '__main__':init()start()
查看數據形狀
import pandas as pd# 讀取數據
# 讀取數據并添加表頭
data = pd.read_csv(r'weiboDeatail.csv', header=None, names=['articleId', 'created_at', 'likes_counts', 'region', 'content', 'authorName', 'authorGender', 'authorAddress', 'authorAvatar'])# 打印數據集的基本信息(列名、非空值數量、數據類型等)
print("data.info() - 數據集的基本信息(列名、非空值數量、數據類型等):")
print(data.info())# 打印數據集的形狀(行數和列數)
print("\ndata.shape - 數據集的形狀(行數, 列數):")
print(data.shape)# 打印數據集的所有列名
print("\ndata.columns - 數據集的所有列名:")
print(data.columns)# 查看前5行數據
print("\n查看前5行數據:")
print(data.head())# 查看后5行數據
print("\n查看后5行數據:")
print(data.tail())# 查看是否有缺失值
print("\n查看是否有缺失值:")
print(data.isnull().sum())# 檢測是否有重復值
print("\n檢測是否有重復值:")
print(data.duplicated().sum())# 描述性統計
print("\n描述性統計:")
print(data.describe(include='all'))# 刪除操作:刪除某一列(例如刪除authorAvatar列)
print("\n刪除操作:刪除authorAvatar列")
data = data.drop(columns=['authorAvatar'])
print(data.columns)# 查詢操作:查詢點贊數大于100的文章
print("\n查詢操作:查詢點贊數大于100的文章")
filtered_data = data[data['likes_counts'] > 100]
print(filtered_data)# 排序操作:按點贊數降序排序
print("\n排序操作:按點贊數降序排序")
sorted_data = data.sort_values(by='likes_counts', ascending=False)
print(sorted_data.head())# 分組操作:按地區分組并統計每個地區的文章數量
print("\n分組操作:按地區分組并統計每個地區的文章數量")
grouped_data = data.groupby('region').size()
print(grouped_data)
繪制分析圖
可視化需求和圖表類型
需求:繪制文章點贊數分布直方圖
圖表類型:直方圖
含義:展示文章點贊數的分布情況,觀察點贊數的集中區間和分布趨勢。
需求:繪制文章發布地區分布柱形圖
圖表類型:柱形圖
含義:展示不同地區發布文章的數量,識別文章發布最活躍的地區。
需求:繪制作者性別分布餅圖
圖表類型:餅圖
含義:展示作者性別的比例,了解性別在作者群體中的分布情況。
需求:繪制文章內容關鍵詞詞云圖
圖表類型:詞云圖
含義:通過關鍵詞的大小和顏色展示文章內容中最常見的詞匯,識別熱門話題。
需求:繪制文章作者地址分布柱形圖
圖表類型:柱形圖
含義:展示不同地址的作者數量,識別作者分布最集中的地區。
需求:繪制文章發布時間分布直方圖
圖表類型:直方圖
含義:展示文章發布時間的分布情況,觀察文章發布的高峰時段。import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
import matplotlib.font_manager as fm# 設置matplotlib支持中文字體
plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑體
plt.rcParams['axes.unicode_minus'] = False # 解決負號'-'顯示為方塊的問題# 讀取數據
# 讀取數據并添加表頭
data = pd.read_csv(r'weiboDeatail.csv', header=None, names=['articleId', 'created_at', 'likes_counts', 'region', 'content', 'authorName', 'authorGender', 'authorAddress', 'authorAvatar'])# 1. 繪制文章點贊數分布直方圖
plt.figure(figsize=(10, 6))
sns.histplot(data['likes_counts'], bins=30, kde=True)
plt.title('文章點贊數分布直方圖')
plt.xlabel('點贊數')
plt.ylabel('頻數')
plt.show()# 2. 繪制文章發布地區分布柱形圖
plt.figure(figsize=(12, 6))
region_counts = data['region'].value_counts().head(10)
sns.barplot(x=region_counts.index, y=region_counts.values)
plt.title('文章發布地區分布柱形圖')
plt.xlabel('地區')
plt.ylabel('文章數量')
plt.xticks(rotation=45)
plt.show()# 3. 繪制作者性別分布餅圖
plt.figure(figsize=(8, 8))
gender_counts = data['authorGender'].value_counts()
plt.pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('作者性別分布餅圖')
plt.show()# 4. 繪制文章內容關鍵詞詞云圖
plt.figure(figsize=(12, 8))
# 獲取系統中的中文字體路徑
font_path = fm.findfont(fm.FontProperties(family=['SimHei']))
wordcloud = WordCloud(width=800, height=400, background_color='white', font_path=font_path).generate(' '.join(data['content']))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('文章內容關鍵詞詞云圖')
plt.show()# 5. 繪制文章作者地址分布柱形圖
plt.figure(figsize=(12, 6))
address_counts = data['authorAddress'].value_counts().head(10)
sns.barplot(x=address_counts.index, y=address_counts.values)
plt.title('文章作者地址分布柱形圖')
plt.xlabel('作者地址')
plt.ylabel('作者數量')
plt.xticks(rotation=45)
plt.show()# 6. 繪制文章發布時間分布直方圖
plt.figure(figsize=(10, 6))
data['created_at'] = pd.to_datetime(data['created_at'])
sns.histplot(data['created_at'].dt.hour, bins=24, kde=True)
plt.title('文章發布時間分布直方圖')
plt.xlabel('小時')
plt.ylabel('頻數')
plt.show()