前言
最優估計理論中研究的最小二乘估計(LS)為線性最小二乘估計(LLS),包括古典最小二乘估計(CLS)[1]、加權最小二乘估計(WLS)和遞推最小二乘估計(RLS)。本文將詳細介紹加權最小二乘估計(WLS)。
線性參數估計問題描述
這里重復文章[1]的相關描述。設XXX為nnn維未知參數向量,ZZZ為kkk維觀測向量,表示經過kkk組實驗觀測得到的觀測值向量,其中元素ziz_{i}zi?表示第i次觀測實驗得到的觀測值,顯然其是1維觀測標量,VVV為kkk維觀測噪聲向量,其中元素viv_{i}vi?表示第i次觀測實驗的觀測噪聲,顯然其是1維噪聲標量。一般情況下k>nk > nk>n且希望kkk比nnn大得多。單次觀測值為多維的情況將在其他篇幅討論。觀測實驗依據的自變量為θ\thetaθ,則將觀測量ziz_{i}zi?表示為關于θ\thetaθ的未知函數f(θ,X)f(\theta,X)f(θ,X):
zi=f(θ,X)=∑j=1n[xjhi,j(θ)]+vi=x1hi,1(θ)+x2hi,2(θ)+?+xnhi,n(θ)+vi\begin{align*} z_{i} = f(\theta,X) = \sum_{j=1}^{n} \left [ x_{j}h_{i,j}(\theta) \right ]+ v_{i} = x_{1}h_{i,1}(\theta)+ x_{2}h_{i,2}(\theta) + \cdots + x_{n}h_{i,n}(\theta) + v_{i} \tag{1} \\ \end{align*} zi?=f(θ,X)=j=1∑n?[xj?hi,j?(θ)]+vi?=x1?hi,1?(θ)+x2?hi,2?(θ)+?+xn?hi,n?(θ)+vi??(1)?
其中
X=[x1x2?xn]Z=[z1z2?zk]V=[v1v2?vk]\begin{align*} X = \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} Z = \begin{bmatrix} z_{1} \\ z_{2} \\ \vdots \\ z_{k} \end{bmatrix} V = \begin{bmatrix} v_{1} \\ v_{2} \\ \vdots \\ v_{k} \end{bmatrix} \end{align*} X=?x1?x2??xn???Z=?z1?z2??zk???V=?v1?v2??vk????
式(1)中hi,j(θ)h_{i,j}(\theta)hi,j?(θ)表示第iii次觀測第jjj個基函數,常用為多項式、三角函數或自然指數函數形式:
hi,j(θ)=θj?1hi,j(θ)=sin(jθ)hi,j(θ)=exp(λjθ)\begin{align*} h_{i,j}(\theta) &= \theta ^{j-1} \\ h_{i,j}(\theta) &= sin(j\theta) \\ h_{i,j}(\theta) &= exp(\lambda_{j} \theta) \\ \end{align*} hi,j?(θ)hi,j?(θ)hi,j?(θ)?=θj?1=sin(jθ)=exp(λj?θ)?
其中,λj\lambda_{j}λj?為自然數指數參數。
當觀測實驗進行,上述基函數均可根據θ\thetaθ求得。令hi=[hi,1(θ)hi,2(θ)?hi,n(θ)]h_{i} = \begin{bmatrix} h_{i,1}(\theta) & h_{i,2}(\theta) & \cdots & h_{i,n}(\theta) \\ \end{bmatrix}hi?=[hi,1?(θ)?hi,2?(θ)???hi,n?(θ)?]且為已知,其為nnn維常向量,將式(1)改寫為:
Z=HX+V\begin{align*} Z= HX+ V \tag{2} \\ \end{align*} Z=HX+V?(2)?
其中,HHH為參數向量XXX到觀測向量ZZZ的k×nk \times nk×n維轉移矩陣:
H=[h1h2?hk]=[h1,1(θ)h1,2(θ)?h1,n(θ)h2,1(θ)h2,2(θ)?h2,n(θ)????hk,1(θ)hk,2(θ)?hk,n(θ)]\begin{align*} H = \begin{bmatrix} h_{1} \\ h_{2} \\ \vdots \\ h_{k} \end{bmatrix} = \begin{bmatrix} h_{1,1}(\theta) & h_{1,2}(\theta) & \cdots & h_{1,n}(\theta) \\ h_{2,1}(\theta) & h_{2,2}(\theta) & \cdots & h_{2,n}(\theta) \\ \vdots & \vdots & \ddots & \vdots\\ h_{k,1}(\theta) & h_{k,2}(\theta) & \cdots & h_{k,n}(\theta) \end{bmatrix} \\ \end{align*} H=?h1?h2??hk???=?h1,1?(θ)h2,1?(θ)?hk,1?(θ)?h1,2?(θ)h2,2?(θ)?hk,2?(θ)??????h1,n?(θ)h2,n?(θ)?hk,n?(θ)???
顯然,觀測向量ZZZ與被估參數向量XXX存在線性關系,依據最優準則求對XXX的估計值X^\hat{X}X^是一個線性參數估計問題,自然對應線性最小二乘估計(LLS)。
這里討論下超定方程組的矛盾:當k=nk = nk=n時,線性方程組有唯一精確解,但當k>nk > nk>n,線性方程數大于未知被估參數向量的維度,線性方程組變成線性超定方程組,其解不唯一。最小二乘法的思想是需求統計意義上的近似解,使線性超定方程組中各方程能得到近似相等。
加權最小二乘估計(Weighted Least Squares Estimation, WLSE)
最小二乘估計(LS) 假設每次觀測量對于估計結果的影響程度相同,但實際上觀測數據的權重與該次觀測的殘差平方呈反比更為合理,因此引出加權最小二乘估計(WLS)。
加權最小二乘估計(WLS) 估計準則為:加權殘差平方和最小。
根據式(3)代價函數改寫如下:
J=E^TWE^=(Z?HX^)TW(Z?HX^)=∑i=1kwie^i2=∑i=1kwi(zi?hiX^)2=min\begin{align*} J = \hat{E}^{T}W\hat{E} &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) = \sum_{i=1}^{k} w_{i}\hat{e}_{i}^{2} = \sum_{i=1}^{k}w_{i}(z_{i}-h_{i}\hat{X})^{2}=min \tag{3} \\ \end{align*} J=E^TWE^?=(Z?HX^)TW(Z?HX^)=i=1∑k?wi?e^i2?=i=1∑k?wi?(zi??hi?X^)2=min?(3)?
其中,e^i\hat{e}_{i}e^i?為第iii次觀測的殘差(Residual Error),E^\hat{E}E^為kkk維殘差向量有:
e^i=zi?hiX^E^=Z?HX^=[e^1e^2?e^k]\begin{align*} \hat{e}_{i} &= z_{i}-h_{i}\hat{X} \\ \hat{E} &= Z-H\hat{X} = \begin{bmatrix} \hat{e}_{1} \\ \hat{e}_{2} \\ \vdots \\ \hat{e}_{k} \end{bmatrix} \\ \end{align*} e^i?E^?=zi??hi?X^=Z?HX^=?e^1?e^2??e^k????
WWW為可根據實際情況適當選取的k×kk\times kk×k階對稱正定加權矩陣,但當W=IW=IW=I時,加權最小二乘估計退化為最小二乘估計。
W=[w10?00w2?0????00?wk]\begin{align*} W &= \begin{bmatrix} w_{1} & 0& \cdots& 0\\ 0& w_{2} & \cdots& 0 \\ \vdots& \vdots& \ddots & \vdots\\ 0& 0& \cdots& w_{k} \end{bmatrix} \\ \end{align*} W?=?w1?0?0?0w2??0??????00?wk????
加權最小二乘估計(WLS)方法
根據式(3)進行對如下代價函數進行最小化:
J=(Z?HX^)TW(Z?HX^)\begin{align*} J &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) \tag{4} \\ \end{align*} J?=(Z?HX^)TW(Z?HX^)?(4)?
令JJJ對X^\hat{X}X^求偏導,并令其為0,有:
?J?X^=0?J?(Z?HX^)?(Z?HX^)?X^=0?2HTW(Z?HX^)=0X^=(HTWH)?1HTWZ\begin{align*} \frac{\partial J}{\partial \hat{X}} &= 0 \\ \frac{\partial J}{\partial (Z-H\hat{X})}\frac{\partial (Z-H\hat{X})}{\partial \hat{X}} &=0 \\ -2H^{T}W(Z-H\hat{X}) &= 0 \\ \hat{X} &= (H^{T}WH)^{-1}H^{T}WZ \tag{5} \end{align*} ?X^?J??(Z?HX^)?J??X^?(Z?HX^)??2HTW(Z?HX^)X^?=0=0=0=(HTWH)?1HTWZ?(5)?
再由?2J?X^2=2HTWH>0\frac{\partial^{2} J}{\partial \hat{X}^{2}}=2H^{T}WH > 0?X^2?2J?=2HTWH>0,為X^\hat{X}X^為被估參數向量XXX的加權最小二乘估計,顯然其是觀測向量ZZZ的線性估計。
Jmin=(Z?HX^)TW(Z?HX^)=ZT(I?H(HTWH)?1HTW)T(I?H(HTWH)?1HTW)Z\begin{align*} J_{min} &= (Z-H\hat{X})^{T}W(Z-H\hat{X}) \\ &= Z^{T}(I-H(H^{T}WH)^{-1}H^{T}W)^{T}(I-H(H^{T}WH)^{-1}H^{T}W)Z \tag{6} \\ \end{align*} Jmin??=(Z?HX^)TW(Z?HX^)=ZT(I?H(HTWH)?1HTW)T(I?H(HTWH)?1HTW)Z?(6)?
加權最小二乘估計(WLS)無偏性
令估計誤差為X~\tilde{X}X~,定義被估參數向量XXX與估計值向量X^\hat{X}X^的偏差,有:
X~=X?X^=(HTWH)?1HTWHX?(HTWH)?1HTWZ=(HTWH)?1HTW(HX?Z)=?(HTWH)?1HTWV\begin{align*} \tilde{X} &= X - \hat{X} \tag{7} \\ &= (H^{T}WH)^{-1}H^{T}WHX - (H^{T}WH)^{-1}H^{T}WZ \\ &= (H^{T}WH)^{-1}H^{T}W(HX - Z) \\ &= -(H^{T}WH)^{-1}H^{T}WV \tag{8} \\ \end{align*} X~?=X?X^=(HTWH)?1HTWHX?(HTWH)?1HTWZ=(HTWH)?1HTW(HX?Z)=?(HTWH)?1HTWV?(7)(8)?
估計誤差X~\tilde{X}X~的數學期望為:
E[X~]=E[X?X^]=E[?(HTWH)?1HTWV]=?(HTWH)?1HTWE[V]\begin{align*} E[\tilde{X}] &= E[X - \hat{X}] \tag{9} \\ &= E[-(H^{T}WH)^{-1}H^{T}WV] \\ &= -(H^{T}WH)^{-1}H^{T}WE[V] \tag{10} \\ \end{align*} E[X~]?=E[X?X^]=E[?(HTWH)?1HTWV]=?(HTWH)?1HTWE[V]?(9)(10)?
由式(10)可知,如果觀測噪聲VVV為白噪聲,即E[V]=0E[V]=0E[V]=0,則加權最小二乘估計X^\hat{X}X^為無偏線性估計。在該無偏估計情況下,估計誤差X^\hat{X}X^的方差矩陣與估計量X^\hat{X}X^的均方誤差矩陣相等,推導見[1],即:
Var(X~)=MSE(X^)=E[X~X~T]=E[(?(HTWH)?1HTWV)(?(HTWH)?1HTWV)T]=(HTWH)?1HTWE[VVT]WH(HTWH)?1=(HTWH)?1HTWRWH(HTWH)?1\begin{align*} Var(\tilde{X}) &= MSE(\hat{X}) \tag{11} \\ &= E[\tilde{X}\tilde{X}^{T}] \\ &= E[(-(H^{T}WH)^{-1}H^{T}WV)(-(H^{T}WH)^{-1}H^{T}WV)^{T}] \\ &= (H^{T}WH)^{-1}H^{T}WE[VV^{T}]WH(H^{T}WH)^{-1} \\ &= (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \tag{12} \\ \end{align*} Var(X~)?=MSE(X^)=E[X~X~T]=E[(?(HTWH)?1HTWV)(?(HTWH)?1HTWV)T]=(HTWH)?1HTWE[VVT]WH(HTWH)?1=(HTWH)?1HTWRWH(HTWH)?1?(11)(12)?
其中,RRR為觀測噪聲向量VVV的方差矩陣:
R=[σ120?00σ22?0????00?σk2]\begin{align*} R &= \begin{bmatrix} \sigma_{1}^{2} & 0& \cdots& 0\\ 0& \sigma_{2}^{2} & \cdots& 0 \\ \vdots& \vdots& \ddots & \vdots\\ 0& 0& \cdots& \sigma_{k}^{2} \end{bmatrix} \\ \end{align*} R?=?σ12?0?0?0σ22??0??????00?σk2????
由式(8)和(14)可知,即使在無偏估計前提下,二者并不一定相等。因此,加權最小二乘無偏估計只能保證加權殘差平方和最小,但不能保證估計誤差方差最小。
最優加權最小二乘估計
由于WWW為可設定的對稱正定加權矩陣,在無偏估計前提下,WWW取某個值可使估計誤差方差矩陣式(12)最小,令R=CTCR=C^{T}CR=CTC,則:
Var(X~)=(HTWH)?1HTWRWH(HTWH)?1=(CWH(HTWH)?1)TCWH(HTWH)?1\begin{align*} Var(\tilde{X}) &= (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \\ &= (CWH(H^{T}WH)^{-1})^{T} CWH(H^{T}WH)^{-1} \tag{13} \\ \end{align*} Var(X~)?=(HTWH)?1HTWRWH(HTWH)?1=(CWH(HTWH)?1)TCWH(HTWH)?1?(13)?
令A=CWH(HTWH)?1A=CWH(H^{T}WH)^{-1}A=CWH(HTWH)?1,B=C?1HB=C^{-1}HB=C?1H,根據施瓦次(Schwarz)不等式:
Var(X~)=ATA≥(ATB)T(BTB)?1(BTA)=(HTR?1H)?1\begin{align*} Var(\tilde{X}) &= A^{T} A \geq (A^{T}B)^{T}(B^{T}B)^{-1} (B^{T}A) = (H^{T}R^{-1}H)^{-1} \tag{14} \\ \end{align*} Var(X~)?=ATA≥(ATB)T(BTB)?1(BTA)=(HTR?1H)?1?(14)?
若式(14)取最小值,W=R?1W=R^{-1}W=R?1,此時有
X^=(HTR?1H)?1HTR?1ZVar(X~)=(HTR?1H)?1\begin{align*} \hat{X} &= (H^{T}R^{-1}H)^{-1}H^{T}R^{-1}Z \tag{15} \\ Var(\tilde{X}) &= (H^{T}R^{-1}H)^{-1} \tag{16} \\ \end{align*} X^Var(X~)?=(HTR?1H)?1HTR?1Z=(HTR?1H)?1?(15)(16)?
當噪聲向量VVV的統計均值為E[V]=0E[V]=0E[V]=0,且加權殘差平方和中的最優加權矩陣W=R?1W=R^{-1}W=R?1時,最優加權最小二乘估計是缺少初值條件下的線性無偏最小方差估計,又稱為馬爾可夫(Markov)估計。
綜上,根據加權最小二乘估計原理,做如下總結:
- 求加權最小二乘估計量X^\hat{X}X^不需要任何觀測噪聲向量VVV的任何統計信息;
- 加權最小二乘估計的無偏性取決于噪聲向量VVV的數學期望,如VVV為白噪聲,即為無偏估計;
- 無論是否具備無偏性,最小二乘估計只能保證加權殘差平方和最小而不是估計誤差方差最小;
- 當噪聲向量VVV的均值為0,且已知其方差矩陣RRR,最優加權矩陣W=R?1W=R^{-1}W=R?1,此時為最優加權最小二乘估計,即馬爾可夫估計。
參考文獻
[1] 最優估計準則與方法(4)最小二乘估計(LS)_學習筆記
https://blog.csdn.net/jimmychao1982/article/details/149656745
[2] 《最優估計理論》,周鳳歧,2009,高等教育出版社。
[3] 《最優估計理論》,劉勝,張紅梅著,2011,科學出版社。