PRML第二章下-非參數估計
- 1.直方圖
- 2. 核方法
- 3. K近鄰
概率密度建模-參數化方法-概率密度的形式一定,由數據集確定密度中的參數即可。
局限性–概率模型選的不對,不能夠描述數據模態
此時,介紹一下非參數方法–直方圖,核方法, K緊鄰
1.直方圖
直方圖–密度估計–每個直方處密度,nin_ini?該直方內的樣本數,N總樣本數,Δ\DeltaΔ該直方寬度
pi=niNΔip_i=\frac{n_i}{N\Delta_i}pi?=NΔi?ni??
缺點:
- 在直方交界處概率密度不連續
- D維變量,每個維度都劃分成MMM維度,將會有MDM^DMD個箱子。
估計某個特定位置的概率密度,應該考慮位于那個點的某個鄰域內的數據點。
某個點處的概率密度–K 鄰域內樣本數,NNN總樣本數,VVV鄰域半徑:
p(x)=KNVp(x)=\frac{K}{NV}p(x)=NVK?
2. 核方法
固定鄰域大小,計算鄰域內樣本數K。
Parzen 窗核函數密度估計(在窗中的才算):
p(x)=1N∑n=1N1hDk(x?xnh)p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{h^D}k(\frac{x-x_n}{h})p(x)=N1?n=1∑N?hD1?k(hx?xn??)
高斯核密度估計(所有樣本都算):
p(x)=1N∑n=1N1(2πh2)D2exp??∣∣x?xn∣∣22h2p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{(2\pi h^2)^{\frac{D}{2}}}\exp{-\frac{||x-x_n||^2}{2h^2}}p(x)=N1?n=1∑N?(2πh2)2D?1?exp?2h2∣∣x?xn?∣∣2?
3. K近鄰
固定鄰域內樣本數K,計算包含K個樣本鄰域體積。
由K近鄰方法導出的K-NN 分類器。
數據集NkN_kNk?個樣本屬于類別CkC_kCk?,數據總數為NNN,如果想對數據xxx分類;以x為中心的球體中包含CkC_kCk?類樣本KkK_kKk?個,x 與每個類別關聯的概率:
p(x∣Ck)=KkVNkp(x|C_k)=\frac{K_k}{VN_k}p(x∣Ck?)=VNk?Kk??
類別先驗:
p(Ck)=NkNp(C_k)=\frac{N_k}{N}p(Ck?)=NNk??
x的后驗概率:
p(ck∣x)=p(x,Ck)p(x)=KkVNkNkNKVN=KkKp(c_k|x)=\frac{p(x,C_k)}{p(x)}=\frac{\frac{K_k}{VN_k}\frac{N_k}{N}}{\frac{K}{VN}}=\frac{K_k}{K}p(ck?∣x)=p(x)p(x,Ck?)?=VNK?VNk?Kk??NNk???=KKk??