學習筆記(34):matplotlib繪制圖表-房價數據分析與可視化

分析房價分布情況，通過直方圖、核密度估計和正態分布擬合來直觀展示房價的分布特征，并進行統計檢驗。

一、房價數據分析與可視化，代碼分析

1.1、導入必要的庫

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import os

導入數據處理 (pandas)、繪圖 (matplotlib, seaborn)庫
導入數學計算 (numpy, scipy) 和文件操作 (os) 庫

1.2、設置中文字體和負號顯示

# 設置 Windows 系統的中文字體
plt.rcParams["font.family"] = ["SimHei", "Microsoft YaHei"]
plt.rcParams['axes.unicode_minus'] = False ?# 解決負號顯示問題

設置了適用于 Windows 系統的中文字體，確保圖表中的中文能正常顯示
解決了負號顯示為方塊的問題

1.3、數據加載函數 load_data()

def load_data(file_path):"""加載房價數據"""try:# 嘗試讀取CSV文件data = pd.read_csv(file_path)print(f"數據加載成功，共{data.shape[0]}條記錄，{data.shape[1]}個特征")print(f"數據特征: {', '.join(data.columns.tolist())}")return dataexcept FileNotFoundError:print(f"錯誤: 文件 '{file_path}' 不存在")# 創建示例數據用于演示print("創建示例數據用于演示...")np.random.seed(42)size = 500data = pd.DataFrame({'price': np.random.normal(15000, 3000, size),  # 房價，單位：萬元'area': np.random.normal(100, 20, size),  # 面積，單位：平方米'age': np.random.randint(1, 30, size),  # 房齡，單位：年})# 確保房價與面積正相關，與房齡負相關data['price'] = data['price'] + 50 * data['area'] - 100 * data['age']data['price'] = data['price'].clip(lower=5000)  # 設置價格下限return data

嘗試從指定路徑加載 CSV 文件
如果文件不存在，會生成模擬數據：
- 使用正態分布生成房價、面積數據
- 使用均勻分布生成房齡數據
- 通過公式price = base_price + 50*area - 100*age確保房價與面積正相關，與房齡負相關
- 設置房價下限為 5000 萬元

數據house_prices.csv

area,price,age,bedrooms
120,15000,10,3
140,18000,5,4
90,12000,15,2
160,20000,8,3
100,13000,12,2
92,12000,15,2
162,20000,8,3
102,13000,12,2
91,12000,15,2
161,20000,8,3
101,12000,12,2
121,13000,10,3
142,16000,5,4
122,13000,10,3
142,15000,5,4
123,17000,10,3
144,17000,5,4
124,17000,10,3
144,17000,5,4
125,18000,10,3
145,18000,5,4

1.4、房價分布可視化函數?`plot_price_distribution()`

def plot_price_distribution(data, price_col='price'):"""繪制房價分布直方圖"""plt.figure(figsize=(10, 6))# 繪制直方圖和核密度估計sns.histplot(data[price_col], kde=True, bins=30, color='skyblue')# 添加均值和中位數線mean_val = data[price_col].mean()median_val = data[price_col].median()plt.axvline(mean_val, color='red', linestyle='dashed', linewidth=2, label=f'均值: {mean_val:.2f}')plt.axvline(median_val, color='green', linestyle='dashed', linewidth=2, label=f'中位數: {median_val:.2f}')# 添加正態分布擬合曲線mu, sigma = stats.norm.fit(data[price_col])x = np.linspace(data[price_col].min(), data[price_col].max(), 100)plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,'r--', linewidth=2, label=f'正態分布擬合: μ={mu:.2f}, σ={sigma:.2f}')plt.title('房價分布直方圖')plt.xlabel('房價 (萬元)')plt.ylabel('頻數')plt.legend()plt.grid(axis='y', alpha=0.5)plt.tight_layout()# 保存圖像if not os.path.exists('plots'):os.makedirs('plots')plt.savefig('plots/price_distribution.png', dpi=300)plt.show()# 打印統計信息print("\n房價統計信息:")print(data[price_col].describe())# 檢驗正態性stat, p = stats.normaltest(data[price_col])print(f"\n正態性檢驗 (p值): {p:.4f}")if p < 0.05:print("房價分布顯著偏離正態分布")else:print("房價分布近似正態分布")

創建 10x6 英寸的圖表
使用 seaborn 繪制直方圖和核密度估計曲線
添加均值 (紅色虛線) 和中位數 (綠色虛線) 參考線
擬合正態分布曲線并繪制 (紅色虛線)
設置圖表標題、軸標簽，添加圖例和網格線
將圖表保存到 plots 文件夾，并顯示圖表
打印房價的描述性統計信息 (計數、均值、標準差等)
使用stats.normaltest進行正態性檢驗并輸出結果

1.5、主函數 main()

def main():"""主函數：執行數據加載和價格分布分析"""file_path = '../../data/house_prices.csv'  # 替換為實際文件路徑# 1. 加載數據data = load_data(file_path)# 2. 繪制房價分布直方圖plot_price_distribution(data)print("\n數據分析完成！圖表已保存到 'plots' 文件夾")

設置數據文件路徑
調用load_data()加載數據
調用plot_price_distribution()分析并可視化房價分布
打印分析完成信息

1.6、程序入口

if __name__ == "__main__":
main()

確保程序作為腳本直接運行時才執行main()函數
如果作為模塊導入，則不會執行

代碼優化建議

添加更多錯誤處理，如處理空數據的情況
可以將圖表保存路徑作為參數傳入
正態分布曲線的高度計算可以更精確
可以添加更多的房價分析維度，如不同房齡、面積段的價格分布

二、代碼和執行結果

2.1、代碼

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import os# 設置 Windows 系統的中文字體
plt.rcParams["font.family"] = ["SimHei", "Microsoft YaHei"]
plt.rcParams['axes.unicode_minus'] = False  # 解決負號顯示問題def load_data(file_path):"""加載房價數據"""try:# 嘗試讀取CSV文件data = pd.read_csv(file_path)print(f"數據加載成功，共{data.shape[0]}條記錄，{data.shape[1]}個特征")print(f"數據特征: {', '.join(data.columns.tolist())}")return dataexcept FileNotFoundError:print(f"錯誤: 文件 '{file_path}' 不存在")# 創建示例數據用于演示print("創建示例數據用于演示...")np.random.seed(42)size = 500data = pd.DataFrame({'price': np.random.normal(15000, 3000, size),  # 房價，單位：萬元'area': np.random.normal(100, 20, size),  # 面積，單位：平方米'age': np.random.randint(1, 30, size),  # 房齡，單位：年})# 確保房價與面積正相關，與房齡負相關data['price'] = data['price'] + 50 * data['area'] - 100 * data['age']data['price'] = data['price'].clip(lower=5000)  # 設置價格下限return datadef plot_price_distribution(data, price_col='price'):"""繪制房價分布直方圖"""plt.figure(figsize=(10, 6))# 繪制直方圖和核密度估計sns.histplot(data[price_col], kde=True, bins=30, color='skyblue')# 添加均值和中位數線mean_val = data[price_col].mean()median_val = data[price_col].median()plt.axvline(mean_val, color='red', linestyle='dashed', linewidth=2, label=f'均值: {mean_val:.2f}')plt.axvline(median_val, color='green', linestyle='dashed', linewidth=2, label=f'中位數: {median_val:.2f}')# 添加正態分布擬合曲線mu, sigma = stats.norm.fit(data[price_col])x = np.linspace(data[price_col].min(), data[price_col].max(), 100)plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,'r--', linewidth=2, label=f'正態分布擬合: μ={mu:.2f}, σ={sigma:.2f}')plt.title('房價分布直方圖')plt.xlabel('房價 (萬元)')plt.ylabel('頻數')plt.legend()plt.grid(axis='y', alpha=0.5)plt.tight_layout()# 保存圖像if not os.path.exists('plots'):os.makedirs('plots')plt.savefig('plots/price_distribution.png', dpi=300)plt.show()# 打印統計信息print("\n房價統計信息:")print(data[price_col].describe())# 檢驗正態性stat, p = stats.normaltest(data[price_col])print(f"\n正態性檢驗 (p值): {p:.4f}")if p < 0.05:print("房價分布顯著偏離正態分布")else:print("房價分布近似正態分布")def main():"""主函數：執行數據加載和價格分布分析"""file_path = '../../data/house_prices.csv'  # 替換為實際文件路徑# 1. 加載數據data = load_data(file_path)# 2. 繪制房價分布直方圖plot_price_distribution(data)print("\n數據分析完成！圖表已保存到 'plots' 文件夾")if __name__ == "__main__":main()

2.2、執行結果

數據加載成功，共21條記錄，4個特征
數據特征: area, price, age, bedrooms
房價統計信息:
count ? ? ? 21.000000
mean ? ? 15619.047619
std ? ? ? 2854.403449
min ? ? ?12000.000000
25% ? ? ?13000.000000
50% ? ? ?16000.000000
75% ? ? ?18000.000000
max ? ? ?20000.000000
Name: price, dtype: float64
正態性檢驗 (p值): 0.0725
房價分布近似正態分布
數據分析完成！圖表已保存到 'plots' 文件夾

三、1.4中的部分詳解

1.4.1、正態分布擬合曲線繪制代碼詳解

mu, sigma = stats.norm.fit(data[price_col])
x = np.linspace(data[price_col].min(), data[price_col].max(), 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma) * len(data) * (x.max() - x.min()) / 100,
'r--', linewidth=2, label=f'正態分布擬合: μ={mu:.2f}, σ={sigma:.2f}')