我們前面爬取過國家統計局數據爬取——機器學習-CSDN博客的數據,我們接下來就對爬取的數據進行分析。
這是一個完整的數據分析代碼,主要用于加載、清洗和探索政府統計數據。讓我為你詳細解釋每個部分:
1. 導入必要的庫
import pandas as pd # 數據處理和分析的核心庫
import matplotlib.pyplot as plt # 數據可視化庫
import seaborn as sns # 基于matplotlib的統計可視化庫
from IPython.display import display, HTML # Jupyter Notebook中的顯示工具
這些是Python數據分析中最常用的庫:
-
pandas: 提供DataFrame數據結構,用于處理表格數據
-
matplotlib: 基礎繪圖庫
-
seaborn: 提供更美觀的統計圖表
-
IPython.display: 在Jupyter中更好地展示數據
2. 設置顯示選項函數
def set_display_options():# Pandas顯示設置pd.set_option('display.max_rows', None) # 顯示所有行(不限行數)pd.set_option('display.max_columns', None) # 顯示所有列(不限列數)pd.set_option('display.width', 1000) # 設置顯示寬度為1000字符pd.set_option('display.float_format', '{:.2f}'.format) # 浮點數顯示2位小數# Matplotlib中文顯示設置plt.rcParams['font.sans-serif'] = ['SimHei'] # 使用黑體解決中文顯示問題plt.rcParams['axes.unicode_minus'] = False # 解決負號顯示為方塊的問題plt.style.use('ggplot') # 使用ggplot主題樣式
這部分代碼設置了pandas和matplotlib的顯示選項,確保數據能夠完整顯示