數據集:Household Electricity Consumption | Kaggle
目錄
數據集簡介
探索性分析
Prophet預測
Prophet模型
Prophet理念
Prophet優點
數據集簡介
240000-household-electricity-consumption-records數據集包含了一個家庭6個月的用電數據,收集于2007年1月至2007年6月。這些數據包括全球有功功率、全球無功功率、電壓、全球強度、分項計量1(廚房)、分項計量2(洗衣房)和分項計量3(電熱水器和空調)等信息。該數據集共有260,640個測量值。
列名 | 說明 |
---|---|
Date | 日期 |
Time | 時間 |
Globalactivepower | 該家庭所消耗的總有功功率(千瓦) |
Globalreactivepower | 該家庭消耗的總無功功率(千瓦) |
Voltage | 向家庭輸送電力的電壓(伏特) |
Global_intensity | 輸送到家庭的平均電流強度(安培) |
Submetering1 | 廚房消耗的有功功率(千瓦) |
Submetering2 | 洗衣房所消耗的有功功率(千瓦) |
Submetering3 | 電熱水器和空調所消耗的有功功率(千瓦) |
探索性分析
導入數據集并讀取頭部?
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path,index_col='index')
df.head()
面向特定客戶時可將列名替換為中文
# # 將列名替換為中文
# df.rename(columns={
# 'Date': '日期',
# 'Time': '時間',
# 'Global_active_power': '有功功率',
# 'Global_reactive_power': '無功功率',
# 'Voltage': '電壓',
# 'Global_intensity': '電流',
# 'Sub_metering_1': '廚房的有功功率',
# 'Sub_metering_2': '洗衣房的有功功率',
# 'Sub_metering_3': '電熱水器和空調的有功功率',
# },inplace=1)
# # 再次預覽前5行數據
# df.head()
對DataFrame 中的數值列進行統計
df.describe()
?查看DataFrame中各列的數據類型
df.dtypes
轉換數據格式
from tqdm.auto import tqdm
from ipywidgets import HBox, FloatProgress, HTML
# 將'Date'列轉換為日期時間格式
df['Date']=pd.DatetimeIndex(df['Date'])
# 定義需要轉換為數字的列
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
# 定義一個函數,將字符串轉換為浮點數,如果轉換失敗則返回0
def floating(string):try:return float(string)except:return float(0)
# 遍歷需要轉換為數字的列
for column in tqdm(make_em_num):# 將列中的每個元素應用floating函數,轉換為浮點數df[column] = df[column].apply(lambda item: floating(item))
# 創建一個水平布局,包含一個浮點進度條和一個HTML元素
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))
?查看轉換效果,轉換后的數據類型
df.dtypes
?查看轉換效果,轉換后的數據頭部
df.head()
繪制相關系數熱力圖。使用Seaborn庫中的heatmap函數來繪制一個熱力圖,展示數據框df中各列之間的相關性
- df.drop表示刪除名為index、Date和Time的列。axis=1表示按列刪除。
- annot=True,使得熱力圖上顯示相關系數的具體數值。
import seaborn as sns
sns.heatmap(df.drop(['Date','Time'], axis=1).corr(), annot=True)
?
Prophet預測
https://github.com/facebook/prophet
Prophet是一種基于可加性模型預測時間序列數據的程序,其中非線性趨勢可以按年度、每周和每日的季節性,以及假日效應進行擬合。它最適合于具有強烈季節效應的時間序列和有幾個季節的歷史數據。Prophet對于缺失的數據和趨勢的變化是穩健的,并且通常能夠很好地處理異常值。
獲取DataFrame的形狀?
from prophet import Prophet
df.shape
通過?Prophet 對有功功率和電壓進行預測
# 從數據框中隨機抽取10000行
df=df.sample(n=10000)
# 定義一個函數,用于使用Prophet模型進行預測
def prophet_forecaster(data, x, y, period=100):# 創建一個新的數據框,包含日期和目標變量new_df = pd.DataFrame(columns=['ds', 'y'])new_df['ds']= data[x]new_df['y'] = data[y]# 創建一個Prophet模型model = Prophet()# 使用新的數據框進行模型訓練model.fit(new_df)# 創建未來日期的數據框future_dates = model.make_future_dataframe(periods=period)# 使用模型進行預測forecast = model.predict(future_dates)# 繪制預測結果model.plot(forecast)# 設置圖表標題plt.title(f"Forecasting on the next {period} days for {y}")
# 使用Prophet模型對Global_active_power進行預測
prophet_forecaster(df, x='Date', y='Global_active_power', period=180)
# 使用Prophet模型對Global_reactive_power進行預測
prophet_forecaster(df, x='Date', y='Global_reactive_power', period=180)
# 使用Prophet模型對Voltage進行預測
prophet_forecaster(df, x='Date', y='Voltage', period=180)
# 使用Prophet模型對Global_intensity進行預測
prophet_forecaster(df, x='Date', y='Global_intensity', period=180)
未來半年有功功率預測結果:
未來半年無功功率預測結果?
未來半年電壓預測結果:
未來半年電流預測結果
Prophet模型
-
g(t) 表示趨勢函數,能夠擬合非周期性變化;
-
s(s)表示周期性變化,例如每周,每年,每季節等;
-
h(t)表示假期變化,節假日通常為一天或多天;
-
?t為噪聲項,表示隨機無法預測的波動,通常假設?t是高斯的。
Prophet理念
-
趨勢中有兩個增長函數,分別是分段線性函數(linear)和非線性邏輯回歸函數(logistic)。通過從數據中選擇變化點,Prophet自動探測趨勢變化;
-
使用傅里葉級數建模每年的季節分量;
-
使用虛變量代表過去,將來的相同節假日,屬于節假日就為1,不屬于就是0;
-
用戶提供的重要節假日列表
-
Modeling:建立時間序列模型。分析師根據預測問題的背景選擇一個合適的模型。
-
Forecast Evaluation:模型評估。根據模型對歷史數據進行仿真,在模型的參數不確定的情況下,我們可以進行多種嘗試,并根 據對應的仿真效果評估哪種模型更適合。
-
Surface Problems:呈現問題。如果嘗試了多種參數后,模型的整體表現依然不理想,這個時候可以將誤差較大的潛在原因呈現給分析師。
-
Visually Inspect Forecasts:以可視化的方式反饋整個預測結果。當問題反饋給分析師后,分析師考慮是否進一步調整和構建模型。
Prophet優點
- 準確,快速,高效率地擬合,可以針對所需關鍵數據進行交互式探索
- 集成全自動流程,無需人工操作就能對混亂的數據做出合理的預測
- 可調整的預測,預測模型的參數非常容易解釋,可用業務知識改進或調整預測
- 對缺失值和變化劇烈的時間序列和離散值有很好的魯棒性,不需要填補缺失值;