4.1自回歸
? ? ? ? 自回歸是一種時間序列預測方法,僅依賴于時間序列的先前輸出:該技術假設下一個時間戳的未來觀測值與先前時間戳的觀測值存在線性關系。
? ? ? ?在自回歸中,前一個時間戳的輸出值成為預測下一個時間戳的輸入值,并且誤差遵循簡單線性回歸模型中關于誤差的一般假設。在自回歸中,時間序列中用于預測下一個時間戳的先前輸入值的數量稱為順序(我們一般用字母p表示順序)。該順序值決定了將使用多少個先前的數據點:通常,數據科學家通過測試不同的值并觀測使用最小的赤池信息量準則(AIC)得出的模型來估計p值。我們將在后面討論(AIC)和貝葉斯信息量準則(BIC)懲罰似然準則。
? ? ? ? 一階自回歸:將當前預測值(輸出)基于緊接在前的值(輸入)的自回歸。
? ? ? ? 二階自回歸:使用前兩個值來預測下一個時間戳值。
? ? ? ? n階自回歸是多重線性回歸,其中在任何時間t的序列值都是該同一時間序列中先前值的線性函數。由于這種序列依賴性,自回歸的另一個重要方面是自相關:自相關是一種統計特性,當時間序列與其自身的之前或滯后版本線性相關時,就會出現這種特性。
? ? ? ? 自相關是自回歸的相關概念,輸出(即需要預測的目標變量)和特定的滯后變量(即先前時間戳用作輸入的一組值)之間的相關性越強,自回歸賦予該特定變量的權重越大。因此該變量被認為具有很強的預測能力。
? ? ? ? 參數方法:線性回歸、普通最小二乘回歸依賴于隱含的假設,即用于訓練模型的訓練集中不存在自相關。與他們一起使用的數據集呈現正態分布,并且它們的回歸函數是根據有限數量的未知參數定義的,這些未知參數是從數據中估計得到的。
? ? ? ? 因此,自相關可以幫助data scientist 為時間序列預測解決方案選擇最合適的方法。此外自相關對于從數據和變量之間獲得額外的洞察力以及識別隱藏的模式(如時間序列中的季節性和趨勢)非常有用。
????????????????
? ? ? ? data scientist 還經常使用自相關圖 通過計算波動時滯后數據值的自相關性 來檢查時間序列中的隨機性。如果時間序列是隨機的,則所有時間滯后的自相關值應該接近于零。如果時間序列不是隨機的,那么一個或多個自相關將顯著非零。
? ? ? ? ? ? ? ?
????????由于ts data load 集非常精細,并且包含大量每小時的數據點,所以我們無法看到
應該在自相關圖中顯示的水平線。因此,我們可以創建數據集的子集(例如,可以選擇
2014年8月的第一周),然后再次應用自相關圖函數,如下所示:
????????????????
????????如圖4.5所示,自相關圖顯示了垂直軸上的自相關函數值。它的范圍是-1到1。圖
中顯示的水平線對應于 95%和 99%置信區間,虛線對應于99%置信區間。自相關圖旨
在揭示時間序列的數據點是正相關、負相關還是相互獨立的。
? ? ? ? 時間序列的滯后自相關圖也稱為自相關函數(ACF)。
? ? ? ? 運行這些示例會創建兩個二維圖,分別顯示x軸上的滯后值和y軸上-1和1之間的相關性。
????????????????
????????????????
? ? ? ? 從這兩個圖中可以看出,置信區間被繪制成圓錐形。默認情況下,置信區間設置為95%,這表明該圓錐體之外的值很可能是相關的。
????????如何理解95%的置信區間(超易懂)_嗶哩嗶哩_bilibili
? ? ? ?一個視頻講清楚置信區間!怎么理解、定義、評價、計算、與參考值區別,與P值關系_嗶哩嗶哩_bilibili
????????一個視頻搞清楚最大似然估計,6min超簡單~_嗶哩嗶哩_bilibili
? ? ? ? 另一個需要考慮的重要概念是部分相關函數(PACF),它是一種條件相關。假設我們考慮一些其他變量集的值,這就是兩個變量之間的相關性。在回歸中,可以通過關聯兩個不同回歸的殘差來找到這部分相關性。
? ? ? ? 在時間序列數據集中,一個時間戳上的一個值和一個先前時間戳上的另一個值的自相關包括這兩個值之間的直接相關性和間接相關性。這些間接相關性是觀測值的相關性的線性函數,其值介于其間的時間戳值。
? ? ? ? 滯后參數顯示將繪制PACF的滯后數。運行這些示例會創建兩個二維圖,分別顯示前20個滯后和30個滯后的部分自相關。
????????
????????
????????