為了解決特定問題而進行的學習是提高效率的最佳途徑。這種方法能夠使我們專注于最相關的知識和技能,從而更快地掌握解決問題所需的能力。
(以下練習題來源于《統計學—基于Python》。請在Q群455547227下載原始數據。)
練習題
下表是某只股票連續35個交易日的收盤價格(前3行和后3行)。
(1)分別采用m=5和m=10對收盤價格進行平滑,并繪制實際值和平滑值的圖形進行比較。
(2)分別采用以下方法進行預測,并繪制預測圖和殘差圖,對結果進行比較。
- (a)簡單指數平滑和Holt指數平滑;
- (b)一元線性回歸和指數曲線;
- (c)二階曲線和三階曲線。
圖形繪制與分析
鑒于篇幅原因,本文先就(1)題及(2a)題展開分析。
(1)計算m=5(5期移動平均)和m=10(10期移動平均)的移動平均
# 移動平均
import pandas as pd
df = pd.read_csv('exercise11_1.csv')
# df.head()
ma5 = df['收盤價'].rolling(window = 5, center = True).mean() # 5期移動平均
ma10 = df['收盤價'].rolling(window = 10, center = True).mean() # 10期移動平均
df_ma = pd.DataFrame({'時間':df['時間'], '收盤價':df['收盤價'], '5期移動平均':ma5, '10期移動平均':ma10})
round(df_ma,2)
顯示前20行:
繪制實際值和平滑值的折線圖
# 繪制實際值和平滑值的折線圖
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = Falseplt.figure(figsize = (8, 5.5))
l1, = plt.plot(df_ma['收盤價'], linestyle = '-', marker = 'o', linewidth = 0.8)
l2, = plt.plot(df_ma['5期移動平均'], linestyle = '-', marker = '+', linewidth = 0.8)
l3, = plt.plot(df_ma['10期移動平均'], linestyle = '-', marker = '*', linewidth = 0.8)
plt.xticks(range(0, 36, 2), df['時間'][::2])
plt.legend(handles = [l1, l2, l3], labels = ['收盤價','5期移動平均', '10期移動平均'], loc = 'best', prop = {'size':10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)
分析:移動間隔越長,曲線就越平滑。在實際應用中,可根據數據的波動情況和分析目的合理選擇移動間隔的長度。當數據量較大時,移動間隔可長一些。但如果數據是以固定長度的周期采集的,則移動間隔的長度最好與數據的采集周期一致,這樣可以有效去除序列中的隨機波動。比如,如果數據是按季節采集的,則移動間隔的長度應取4;如果數據是按月采集的,則移動間隔的長度應取12。
# 簡單指數平滑
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.holtwinters import SimpleExpSmoothing
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = False
df = pd.read_csv('exercise11_1.csv')# df.index = pd.date_range(start = '1', end = '35', freq = 'AS')# 擬合簡單指數平滑模型(alpha = 0.3)
model = SimpleExpSmoothing(df['收盤價']).fit(smoothing_level = 0.3, optimized = True)
model.params # 輸出模型參數
# 繪制實際值和擬合值圖
df['price_ses'] = model.fittedvalues
plt.figure(figsize = (7, 4.5))
l1, = plt.plot(df['收盤價'], linestyle = '-', marker = 'o', linewidth = 0.8)
l2, = plt.plot(df['price_ses'], linestyle = '--', marker = '*', linewidth = 0.8)
plt.legend(handles = [l1, l2], labels = ['收盤價', '擬合值'], loc = 'best', prop = {'size': 10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)
# 計算第36期的預測值
p_model = model.forecast(1) # 向后預測1期
p_model
計算結果:
繪制預測圖和殘差圖
# 繪制預測圖和殘差圖
import scipy
df = pd.read_csv('exercise11_1.csv')# 圖(a)預測圖
plt.subplots(1, 2, figsize = (11, 4))
plt.subplot(121)ax = df['收盤價'].plot(marker = 'o', linewidth = 0.8, color = 'black') # 繪制實際值
ax.set_ylabel('收盤價', size = 12)
ax.set_xlabel('時間', size = 12)
model.forecast(1).plot(ax = ax, style = '--', marker = 'o', color = 'red') # 繪制預測值# 計算置信區間并繪圖
simulations = model.simulate(nsimulations = 2, repetitions = 1000, error = 'add', random_errors = scipy.stats.norm) # 重復模擬100次,模擬步長為2
random_errors = 'bootstrap'
low_CI_95 = p_model-1.96*simulations.std(axis = 1)
high_CI_95 = p_model+1.96*simulations.std(axis = 1)
low_CI_80 = p_model-1.28*simulations.std(axis = 1)
high_CI_80 = p_model+1.28*simulations.std(axis = 1)plt.fill_between([36], low_CI_95, high_CI_95, alpha = 0.3, color = 'grey', linewidth = 20)
plt.fill_between([36], low_CI_80, high_CI_80, alpha = 0.3, color = 'blue', linewidth = 20)
plt.xlim(-1, 36)
plt.title('(a)收盤價的簡單指數平滑預測', size = 13)# 圖(b)殘差圖
res = model.resid
plt.subplot(122)
plt.scatter(range(len(res)), res, marker = 'o')
plt.hlines(0, 0, 35, linestyle = '--', color = 'red')
plt.xticks(range(0, 35, 2), df['時間'][::2])
plt.xlabel('時間', size = 12)
plt.ylabel('殘差', size = 12)
plt.title('(b)簡單指數平滑預測殘差', size = 13)plt.tight_layout()
分析:左圖中的折線圖是收盤價的實際值,紅色圓點是第36期的預測值,藍色和灰色區域是置信區間,其中的灰色區域是95%的置信區間,藍色是區域是80%的置信區間。 右圖的殘差圖顯示,殘差雖然圍繞0軸波動,但是呈現出U型的形態,表明采用簡單指數平滑預測模型可能是不合適的。
(2a)題的第二問要求進行Holt指數平滑預測
Holt指數平滑預測是以其提出者C.C.Holt 的名字命名的,通常簡稱 Holt 模型。當時間序列存在趨勢成分時,簡單指數平滑的預測值總是滯后于實際值。而Holt模型則改進了簡單指數平滑模型,它將趨勢成分也考慮造來,用平滑值對序列的線性趨勢進行修正,建立線性平滑模型進行預測。
先建立模型并輸出相關參數:
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.holtwinters import SimpleExpSmoothing, ExponentialSmoothing, Holt
plt.rcParams['font.sans-serif'] = ['Songti SC']
plt.rcParams['axes.unicode_minus'] = Falsedf = pd.read_csv('exercise11_1.csv')# 擬合Holt指數平滑模型(model_h)
model_h = Holt(df['收盤價']).fit(optimized = True)
model_h.params # 輸出模型系數
注:smoothing_level為系統確定的平滑指數α(反映隨機成分);smoothing_trend為系統確定的平滑系數β(反映趨勢成分);initial_level為初始平滑值;initial_trend為初始趨勢值。
?繪制實際值和擬合值圖
# 繪制實際值和擬合值圖
df['收盤價_holt'] = model_h.fittedvalues
plt.figure(figsize = (7, 4.5))
l1, = plt.plot(df['收盤價'], linestyle = '-', marker = 'o', linewidth = 1) # 實際值
l2, = plt.plot(df['收盤價_holt'], linestyle = '--', marker = '^', linewidth = 1) # 擬合值
plt.legend(handles = [l1, l2], labels = ['收盤價', '擬合值'], loc = 'best', prop = {'size': 10})
plt.xlabel('時間', size = 12)
plt.ylabel('收盤價', size = 12)
plt.title('收盤價的Holt指數平滑擬合', size = 13)
上圖展示了收盤價的Holt指數平滑的擬合效果,從擬合值和實際值的接近程度來看,預測模型比較理想。
# 計算第36期的預測值
model_h.forecast(1)
計算結果:
可以發現其計算結果與簡單指數平滑預測是不同的。
接下來繪制預測圖和殘差圖:
# 繪制預測圖和殘差圖
import scipy
df = pd.read_csv('exercise11_1.csv')# 圖(a)預測圖
plt.subplots(1, 2, figsize = (11, 4))
plt.subplot(121)ax = df['收盤價'].plot(marker = 'o', linewidth = 0.8, color = 'black') # 繪制實際值
ax.set_ylabel('收盤價', size = 12)
ax.set_xlabel('時間', size = 12)
model_h.forecast(1).plot(ax = ax, style = '--', marker = 'o', color = 'red') # 繪制預測值# 計算置信區間并繪圖
simulations = model_h.simulate(nsimulations = 2, repetitions = 1000, error = 'add', random_errors = scipy.stats.norm) # 重復模擬100次,模擬步長為2
#random_errors = 'bootstrap'
low_CI_95 = model_h.forecast(1)-1.96*simulations.std(axis = 1)
high_CI_95 = model_h.forecast(1)+1.96*simulations.std(axis = 1)
low_CI_80 = model_h.forecast(1)-1.28*simulations.std(axis = 1)
high_CI_80 = model_h.forecast(1)+1.28*simulations.std(axis = 1)plt.fill_between([36], low_CI_95, high_CI_95, alpha = 0.3, color = 'grey', linewidth = 20)
plt.fill_between([36], low_CI_80, high_CI_80, alpha = 0.3, color = 'blue', linewidth = 20)
plt.xlim(-1, 36)
plt.title('(a)收盤價的Holt指數平滑預測', size = 13)# 圖(b)殘差圖
plt.subplot(122)
res = model_h.resid
plt.scatter(range(len(res)), res, marker = 'o')
plt.hlines(0, 0, 35, linestyle = '--', color = 'red')
plt.xticks(range(0, 35, 2), df['時間'][::2])
plt.xlabel('時間', size = 12)
plt.ylabel('殘差', size = 12)
plt.title('(b)Holt指數平滑預測殘差', size = 13)plt.tight_layout()
分析:左圖中的折線是收盤價的實際值,紅色圓點是第36期的預測值,灰色和藍色區域是置信區間,其中灰色區域是95%的置信區間,藍色區域是80%的置信區間。 右圖的殘差圖顯示,殘差圍繞0軸隨機波動,無固定的模型,表明采用Holt指數平滑預測模型是合適的。
都讀到這里了,不妨關注、點贊一下吧!