Python統計實戰：時間序列分析之簡單指數平滑和Holt指數平滑

為了解決特定問題而進行的學習是提高效率的最佳途徑。這種方法能夠使我們專注于最相關的知識和技能，從而更快地掌握解決問題所需的能力。

（以下練習題來源于《統計學—基于Python》。請在Q群455547227下載原始數據。）

練習題

下表是某只股票連續35個交易日的收盤價格（前3行和后3行）。

（1）分別采用m=5和m=10對收盤價格進行平滑，并繪制實際值和平滑值的圖形進行比較。

（2）分別采用以下方法進行預測，并繪制預測圖和殘差圖，對結果進行比較。

（a）簡單指數平滑和Holt指數平滑；
（b）一元線性回歸和指數曲線；
（c）二階曲線和三階曲線。

圖形繪制與分析

鑒于篇幅原因，本文先就（1）題及（2a）題展開分析。

（1）計算m=5（5期移動平均）和m=10（10期移動平均）的移動平均

# 移動平均
import pandas as pd
df = pd.read_csv('exercise11_1.csv')
# df.head()
ma5 = df['收盤價'].rolling(window = 5, center = True).mean()  # 5期移動平均
ma10 = df['收盤價'].rolling(window = 10, center = True).mean()  # 10期移動平均
df_ma = pd.DataFrame({'時間':df['時間'], '收盤價':df['收盤價'], '5期移動平均':ma5, '10期移動平均':ma10})
round(df_ma,2)

顯示前20行：

繪制實際值和平滑值的折線圖

# 繪制實際值和平滑值的折線圖
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = Falseplt.figure(figsize = (8, 5.5))
l1, = plt.plot(df_ma['收盤價'], linestyle = '-', marker = 'o', linewidth = 0.8)
l2, = plt.plot(df_ma['5期移動平均'], linestyle = '-', marker = '+', linewidth = 0.8)
l3, = plt.plot(df_ma['10期移動平均'], linestyle = '-', marker = '*', linewidth = 0.8)
plt.xticks(range(0, 36, 2), df['時間'][::2])
plt.legend(handles = [l1, l2, l3], labels = ['收盤價','5期移動平均', '10期移動平均'], loc = 'best', prop = {'size':10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)

分析：移動間隔越長，曲線就越平滑。在實際應用中，可根據數據的波動情況和分析目的合理選擇移動間隔的長度。當數據量較大時，移動間隔可長一些。但如果數據是以固定長度的周期采集的，則移動間隔的長度最好與數據的采集周期一致，這樣可以有效去除序列中的隨機波動。比如，如果數據是按季節采集的，則移動間隔的長度應取4；如果數據是按月采集的，則移動間隔的長度應取12。

（2a）題的第一問要求進行簡單指數平滑預測

? 先建立模型并輸出相關參數信息

# 簡單指數平滑
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.holtwinters import SimpleExpSmoothing
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = False
df = pd.read_csv('exercise11_1.csv')# df.index = pd.date_range(start = '1', end = '35', freq = 'AS')# 擬合簡單指數平滑模型（alpha = 0.3）
model = SimpleExpSmoothing(df['收盤價']).fit(smoothing_level = 0.3, optimized = True)
model.params # 輸出模型參數

注：Smoothing_level：0.3為事先指定的平滑系數。initial_level：33.82為系統確定的初始平滑值。

接下來繪制實際值和擬合值圖

# 繪制實際值和擬合值圖
df['price_ses'] = model.fittedvalues
plt.figure(figsize = (7, 4.5))
l1, = plt.plot(df['收盤價'], linestyle = '-', marker = 'o', linewidth = 0.8)
l2, = plt.plot(df['price_ses'], linestyle = '--', marker = '*', linewidth = 0.8)
plt.legend(handles = [l1, l2], labels = ['收盤價', '擬合值'], loc = 'best', prop = {'size': 10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)

上圖展示了收盤價的簡單指數平滑的擬合效果，可以觀察到預測模型看似較合適。后續觀察殘差圖做出判斷。

# 計算第36期的預測值
p_model = model.forecast(1) # 向后預測1期
p_model

計算結果：

繪制預測圖和殘差圖

# 繪制預測圖和殘差圖
import scipy
df = pd.read_csv('exercise11_1.csv')# 圖（a）預測圖
plt.subplots(1, 2, figsize = (11, 4))
plt.subplot(121)ax = df['收盤價'].plot(marker = 'o', linewidth = 0.8, color = 'black')  # 繪制實際值
ax.set_ylabel('收盤價', size = 12)
ax.set_xlabel('時間', size = 12)
model.forecast(1).plot(ax = ax, style = '--', marker = 'o', color = 'red')  # 繪制預測值# 計算置信區間并繪圖
simulations = model.simulate(nsimulations = 2, repetitions = 1000, error = 'add', random_errors = scipy.stats.norm) # 重復模擬100次，模擬步長為2
random_errors = 'bootstrap'
low_CI_95 = p_model-1.96*simulations.std(axis = 1)
high_CI_95 = p_model+1.96*simulations.std(axis = 1)
low_CI_80 = p_model-1.28*simulations.std(axis = 1)
high_CI_80 = p_model+1.28*simulations.std(axis = 1)plt.fill_between([36], low_CI_95, high_CI_95, alpha = 0.3, color = 'grey', linewidth = 20)
plt.fill_between([36], low_CI_80, high_CI_80, alpha = 0.3, color = 'blue', linewidth = 20)
plt.xlim(-1, 36)
plt.title('(a)收盤價的簡單指數平滑預測', size = 13)# 圖（b）殘差圖
res = model.resid
plt.subplot(122)
plt.scatter(range(len(res)), res, marker = 'o')
plt.hlines(0, 0, 35, linestyle = '--', color = 'red')
plt.xticks(range(0, 35, 2), df['時間'][::2])
plt.xlabel('時間', size = 12)
plt.ylabel('殘差', size = 12)
plt.title('(b)簡單指數平滑預測殘差', size = 13)plt.tight_layout()

分析：左圖中的折線圖是收盤價的實際值，紅色圓點是第36期的預測值，藍色和灰色區域是置信區間，其中的灰色區域是95%的置信區間，藍色是區域是80%的置信區間。右圖的殘差圖顯示，殘差雖然圍繞0軸波動，但是呈現出U型的形態，表明采用簡單指數平滑預測模型可能是不合適的。

（2a）題的第二問要求進行Holt指數平滑預測

Holt指數平滑預測是以其提出者C.C.Holt 的名字命名的，通常簡稱 Holt 模型。當時間序列存在趨勢成分時，簡單指數平滑的預測值總是滯后于實際值。而Holt模型則改進了簡單指數平滑模型，它將趨勢成分也考慮造來，用平滑值對序列的線性趨勢進行修正，建立線性平滑模型進行預測。

先建立模型并輸出相關參數：

import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.holtwinters import SimpleExpSmoothing, ExponentialSmoothing, Holt
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = Falsedf = pd.read_csv('exercise11_1.csv')# 擬合Holt指數平滑模型（model_h）
model_h = Holt(df['收盤價']).fit(optimized = True)
model_h.params # 輸出模型系數

注：smoothing_level為系統確定的平滑指數α（反映隨機成分）；smoothing_trend為系統確定的平滑系數β（反映趨勢成分）；initial_level為初始平滑值；initial_trend為初始趨勢值。

?繪制實際值和擬合值圖

# 繪制實際值和擬合值圖
df['收盤價_holt'] = model_h.fittedvalues
plt.figure(figsize = (7, 4.5))
l1, = plt.plot(df['收盤價'], linestyle = '-', marker = 'o', linewidth = 1) # 實際值
l2, = plt.plot(df['收盤價_holt'], linestyle = '--', marker = '^', linewidth = 1) # 擬合值
plt.legend(handles = [l1, l2], labels = ['收盤價', '擬合值'], loc = 'best', prop = {'size': 10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)
plt.title('收盤價的Holt指數平滑擬合', size = 13)

上圖展示了收盤價的Holt指數平滑的擬合效果，從擬合值和實際值的接近程度來看，預測模型比較理想。

# 計算第36期的預測值
model_h.forecast(1)

計算結果：

可以發現其計算結果與簡單指數平滑預測是不同的。

接下來繪制預測圖和殘差圖：

# 繪制預測圖和殘差圖
import scipy
df = pd.read_csv('exercise11_1.csv')# 圖（a）預測圖
plt.subplots(1, 2, figsize = (11, 4))
plt.subplot(121)ax = df['收盤價'].plot(marker = 'o', linewidth = 0.8, color = 'black')  # 繪制實際值
ax.set_ylabel('收盤價', size = 12)
ax.set_xlabel('時間', size = 12)
model_h.forecast(1).plot(ax = ax, style = '--', marker = 'o', color = 'red')  # 繪制預測值# 計算置信區間并繪圖
simulations = model_h.simulate(nsimulations = 2, repetitions = 1000, error = 'add', random_errors = scipy.stats.norm) # 重復模擬100次，模擬步長為2
#random_errors = 'bootstrap'
low_CI_95 = model_h.forecast(1)-1.96*simulations.std(axis = 1)
high_CI_95 = model_h.forecast(1)+1.96*simulations.std(axis = 1)
low_CI_80 = model_h.forecast(1)-1.28*simulations.std(axis = 1)
high_CI_80 = model_h.forecast(1)+1.28*simulations.std(axis = 1)plt.fill_between([36], low_CI_95, high_CI_95, alpha = 0.3, color = 'grey', linewidth = 20)
plt.fill_between([36], low_CI_80, high_CI_80, alpha = 0.3, color = 'blue', linewidth = 20)
plt.xlim(-1, 36)
plt.title('(a)收盤價的Holt指數平滑預測', size = 13)# 圖（b）殘差圖
plt.subplot(122)
res = model_h.resid
plt.scatter(range(len(res)), res, marker = 'o')
plt.hlines(0, 0, 35, linestyle = '--', color = 'red')
plt.xticks(range(0, 35, 2), df['時間'][::2])
plt.xlabel('時間', size = 12)
plt.ylabel('殘差', size = 12)
plt.title('(b)Holt指數平滑預測殘差', size = 13)plt.tight_layout()