PRML緒論

1.1 多項式曲線擬合
- 1.1.1 問題描述
- 1.1.2 最小化平方和誤差
- 1.1.3 多項式階數確定
- 1.1.4 有趣問題--高階模型為什么效果不好
- 1.1.4 數據集規模對模型的影響
- 1.1.5 參數正則化緩解過擬合問題
1.2 概率論
- 1.2.1離散型隨機變量
- 1.2.2 連續型隨機變量
- 1.2.3 期望和方差
- 1.2.4 貝葉斯概率
- 1.2.5 單高斯分布參數的最大似然估計
- 1.2.6 重新考慮曲線擬合問題--MLE,MAP
- 1.2.7 貝葉斯曲線擬合

模式識別領域希望利用個計算機算法自動發現數據中的規律，然后依據這些規律采取一些行動。模式識別的關鍵是獲得反映數據規律的模型。

泛化能力(generalization)–不同于機理建模需要大量的專業知識，機器學習建模過程中使用（大規模）訓練集(training set)來調節模型參數，測試集(test set)測試模型性能，反映模型的泛化能力（書中說的是–正確分類于訓練集不同的新樣本的能力）。

特征抽取(feature extract)–在實際應用中，原始數據的量化向量（圖像-像素值向量，音頻-波形向量）通常需要預處理(pre-processed)，變換到新的變量空間中。

預處理可以過濾一些無關的特干擾（大小，角度，光亮…側面模型能力還遠遠不足，人對這些干擾的魯棒性強的多）;
預處理抽取有用特征，降低輸入數據緯度，加快計算速度
預處理會濾掉有效信息，使系統整體精度下降
測試集數據必須采取和訓練集一致的方法進行預處理

模式識別主要研究內容：

有監督學習–分類問題，回歸問題
無監督學習–聚類、密度估計、降維
強化學習–在給定條件下，找到合適的動作，使得累計獎勵最大

本章主要包括：一個demo，三個重要工具–概率論、決策論、信息論

1.1 多項式曲線擬合

1.1.1 問題描述

問題描述：觀測到一個輸入變量x（實數），希望能夠預測目標變量t（實數）的值。

給定 x 和 t 的N次觀測作為訓練集，自變量集合記作 $x≡(x1,x2,...,xN)T\bm{x}\equiv(x_1,x_2,...,x_N)^T$ ，對應的目標標量集合記作 $t≡(t1,t2...,tN)T\bm{t}\equiv(t_1,t_2...,t_N)^T$ 。

目標變量 t 的特點：擁有一個內在規律t = f(x)，這個規律是我們想要探索的。但是目標變量的觀測值被隨機噪聲干擾。

圖1.2

目標：利用訓練集，建模自變量和因變量之間的內在規律，實現預測新的輸入變量 $x^\hat{x}$ 對應的目標變量 $t^\hat{t}$ 的值。

對于實現這個目標，概率論提供了以精確的形式描述（目標變量）不確定性的解題框架；決策論提供合適的標準用于最優決策（采取下一步的應對措施）。

1.1.2 最小化平方和誤差

下面先介紹一種（通用？習慣性）做法 – 采用M階多項式函數擬合數據：
$y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj(1.1)y(x,\bm{w}) = w_0 + w_1x +w_2x^2+...+w_Mx^M=\sum_{j=0}^Mw_jx^j\tag{1.1}$

其中：多項式系數 ${w_0,w_1,...,w_M\}$ 記作 $w\bm{w}$ 。 key point: 雖然 $y(x,w)y(x,\bm{w})$ 是 $x$ 的非線性函數，卻是系數的 $w\bm{w}$ 的線性函數。這一類關于未知參數滿足線性關系的函數，被叫做 線性模型，有重要的性質，將在第三章第四章展開討論。

我們需要調整 $y(x,w)y(x,\bm{w})$ 的參數，找到使 $y(x,w)y(x,\bm{w})$ 與對應的 $t\bm{t}$ 之間的差距最小的參數組合。常用的做法為構造一個衡量差距度量函數，該差距度量函數為w的函數；通過梯度下降法最小化該差距度量函數，得到最優的參數組合。差距度量函數常被稱作誤差函數(error function), 在擬合問題中可以使用平方誤差函數（1/2是為了計算方便加入的）：
$E(w)=12∑n=1N{y(xn,w)?tn}2(1.2)E(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2\tag{1.2}$

其實還有許多函數也能作為誤差函數用于衡量模型輸出與目標值之間的差距，這類函數有兩個特點：
（1）非負
（2）當且僅當模型輸出與目標值相同時，誤差函數取得最小值為0.

求解 $w\bm{w}$ : $E(w)E(\bm{w})$ 為 $w\bm{w}$ 的二次函數，所以存在唯一的最小值解。可以通過對 $w\bm{w}$ 的各個分量求導，另梯度為0，解方程組得到最優的解 $w?\bm{w^*}$ ，最終多項式函數由 $y(x,w?)y(x,\bm{w^*})$ 給出。

1.1.3 多項式階數確定

問題解決了么？沒有！不同的M必定得到不同的多項式函數，這多項式的階數M該怎么確定呢？圖1.4展示了四種不同階數的擬合曲線（紅色）：當M較小時(M=1,2)模型無法準確表示觀測數據規律，欠擬合現象發生；當M較大時（M=9），模型曲線可以完美適配所有訓練數據點，但是震蕩現象太明顯，將無法準確預測新數據的值，過擬合現象發生。圖1.4

如何選擇合適的M涉及到模型選擇(model selection)/模型對比(model comaprison)的問題。通過不同M對應的模型在測試集上的性能指標完成模型選擇。性能指標推薦使用根均方誤差，其中去除了樣本規模（N）、量綱的影響。
$ERMS=2E(w?)/N(1.3)E_{RMS} = \sqrt{2E(\bm{w^*})/N}\tag{1.3}$

圖1.5 為不同的M對應的訓練集和測試集合根均方誤差折線圖，選擇測試集合誤差小且M小的M，即最優的M=3。

1.1.4 有趣問題–高階模型為什么效果不好

考慮一個有趣問題： 直覺高階數的多項式包含了低階數的多項式（多出來的系數置為0即可），那么M = 9的多項式至少能產生和 M = 3 的多項式一樣好的結果才對，可是結果卻與直覺相反，問題出在哪里？
觀察到的現象是：M越大時，最優解對應的系數也會較大。（書中描述，不甚理解）：更大的M使得模型被過渡調參，使得多項式被調節成與噪聲相符的模型。

1.1.4 數據集規模對模型的影響

給定M，訓練數據集規模越大，過擬合現象越不明顯。也就是說，數據集規模越大，能夠用來擬合的模型就越復雜。一個粗略的啟示：數據數量不應該 < 模型可以調節參數的若干倍（5/10倍）。但是實際上很多參數都是不必要的。

問題在哪？以上啟示使得我們需要依據數據集來確定模型的復雜度，但是更加合理的方式應該是：依據待解決問題的復雜性來確定模型復雜度。

在1.2.3中將看到最小化平方誤差擬合實際是最大似然(Max likelihood)的一種特例，而過擬合問題是最大似然的通用屬性。而使用**貝葉斯(Bayesan)**可以避免過擬合問題，（模型參數超過訓練數據的情形并不難解）==（書中描述，不甚理解）==在貝葉斯模型中，參數的有效數量會自動依據數據集規模調節。

1.1.5 參數正則化緩解過擬合問題

正則化(regularization)–給目標函數增加參數w懲罰項，限制參數w的大小。懲罰項可以使用參數的一范數（減少參數數量），二范數（限制參數大小）。二范數和平方和是等價的（書中此處用平方和），加了正則想的誤差函數為：
$E~(w)=12∑n=1N{y(xn,w)?tn}2+λ2∣∣w∣∣2(1.4)\tilde{E}(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2+\frac{\lambda}{2}||\bm{w}||^2\tag{1.4}$

其中： $∣∣w∣∣2=wTw||\bm{w}||^2=\bm{w}^T\bm{w}$ ， $λ\lambda$ 為這則化系數，又是需要通過驗證集來確定其大小（1.4）式也可用解析的形式求解最小值。相關技術在神經網絡中叫權值衰減(weight decay)，==（書中描述，不甚理解）==在統計學中叫收縮(shrinkage)，二次正則項的一個特殊情況叫山脊回歸(ride regresion).

1.2 概率論

不確定性是模式識別領域的一個關鍵概念，概率論提供了一個合理的框架，用來描述、量化、計算不確定性；結合決策論，使我們能夠依據所提供的信息作出最優決策。

1.2.1離散型隨機變量

demo1:盒子抽球
假設我們有紅藍兩個盒子，紅盒子中有2個蘋果和6個橘子，藍盒子中有3個蘋果和1個橘子。每次隨機選擇一個盒子，然后再從該盒子中隨機抽一個水果論；觀察是什么水果后放回盒中。

在概率論中: 每次選的盒子的顏色是一個隨機變量，記作B，這個隨機變量的實際取之為紅?或者藍(b); 盒子中水果的種類也是一個隨機變量，記作F，這個隨機變量的取之為蘋果(a)或者橘子(o).

由這個概率demo引發的問題：選擇蘋果的整體概率是多少？如果取出的是橘子，那么這個橘子來自藍色盒子的概率是多少？

要解決這些問題，需要找我概率論的兩個基本規則：加和規則(sum rule)、乘積規則(product relu)，以下使用更為一般的符號系統。

假定有兩個隨機變量X、Y；其中X的可能取值為 ${x_i|i=1,2,...,M\}$ ；Y的可能取值為 ${x=y_j|j=1,2,...,L\}$ 。從X與Y的集合中隨機的選取一個取值構成一次隨機實驗，重復N次隨機實驗。將 $X=x_i\ and\ Y=y_j$ 出現的次數記為 $n_{i,j}$ ；將 $X=x_i$ 出現的次數記為 $c_i$ ；將 $Y=y_j$ 出現的次數記為 $r_j$ 。（依據概率論基礎, 不嚴謹敘述，概率頻率，不難得出）

聯合概率(joint probability - - $X=x_i\ and\ Y=y_j$ 兩者同時出現的概率(joint probability) $p(X=x_i,Y=y_j)$ 為：
$p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}$

加和規則，得到各個隨機變量的邊緣概率(marginal probability)：
$p(X=xi)=ciN=∑j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^Lp(X=x_i,Y=y_j)\tag{1.7}$

條件概率 - - 給定 $X=x_i$ 條件下， $Y=y_j$ 的概率：
$p(Y=yi∣X=xi)=nijci(1.8)p(Y=y_i|X=x_i)=\frac{n_{ij}}{c_i}\tag{1.8}$

乘積規則：由邊緣概率和條件概率得到聯合概率：
$p(X=x_i,Y=y_j) = p(Y=y_i|X=x_i)p(X=x_j)$

符號規定： $p (B)$ 表示隨機變量B的分布， $p (r)$ 隨機變量B取特定的值 $r$ 時的估計。重寫加和規則和乘積規則(PRML一書所有概率推導的基礎)：
$p(X)=∑Yp(X,Y)(1.10)p(X)=\sum_Yp(X,Y)\tag{1.10}$

$p(X,Y)=p(Y∣X)p(X)(1.11)p(X,Y)=p(Y|X)p(X)\tag{1.11}$

貝葉斯定理(Bayes’ theorem)–在模式識別和機器學習中扮演著中心角色（實現條件轉換）
$p(Y∣X)=p(X∣Y)p(Y)p(X)(1.12)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}$

分母可以寫為加和規則的展開，那么就完全轉換為條件Y了。

先驗概率：在沒有觀測到取出的水果是啥時，紅盒子和藍盒子被選中的先驗概率(prior probability)分別是 $(410,610)(\frac{4}{10},\frac{6}{10})$ 。
后驗概率：假定已經觀察到了取出的水果是橘子，那么紅盒子和藍盒子被選中的后驗概率(posterior probability)分別是 $(23,13)(\frac{2}{3},\frac{1}{3})$ 。

兩個隨機變量相互獨立：聯合分布可以分解成邊緣分布的乘積，只能定性的理解一個變量對另一個變量的取值并沒有影響（沒有關系隨機變量的分布就不能畫在同一個直角坐標系下，但是聯合概率密度是可以畫在X和Y為軸的坐標系中）。
$p (X, Y) = p (X) p (Y)$

1.2.2 連續型隨機變量

概率密度(probability density): 如果一維實值隨機變量x在區間 $x+\delta x)$ 的概率用 $p(x)δxp(x)\delta x$ 表示，那么 $p (x)$ 就叫做x的概率密度。

x在區間(a, b)上的概率：
$p(x∈(a,b))=∫abp(x)dx(1.24)p(x\in(a,b))=\int_a^bp(x)dx\tag{1.24}$

概率密度的兩大性質：
$p(x)>0(1.25)p(x)>0\tag{1.25}$

$∫?∞∞p(x)dx=1(1.26)\int_{-\infty}^{\infty}p(x)dx=1\tag{1.26}$

隨機變量函數變換（與通常的表示習慣相反）： $x = g (y)$ ，如果有函數f(x)，那么 $f^(y)=f(g(y))\hat{f}(y)=f(g(y))$ 。如果x 的概率密度用 $p_x{x}$ 表示，那么y的概率密度 $p_y(y)$ 可以表示為：[存在一個同倫關系 $px(x)δx?py(y)δyp_x(x)\delta x\simeq p_y(y)\delta y$ ,式子的左邊可以連續變換到右邊]
$py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣p_y(y)=p_x(x)|\frac{dx}{dy}|=p_x(g(y))|g'(y)|$

累計分布函數(cumulative distribution function)–又叫概率分布函數[有點像變上限積分函數]。
$P(z)=∫?∞zp(x)dx(1.28)P(z)=\int_{-\infty}^zp(x)dx \tag{1.28}$

累計分布函數的導數就是概率密度： $P^{'} (x) = p (x)$

向量 $x=[x1,x2,...,xD]\bm{x}=[x_1,x_2,...,x_D]$ 的規律類比于一維度 $p(x)=p(x1,x2,...,xD)p(\bm{x})=p(x_1,x_2,...,x_D)$ 。

概率質量函數(probability mass function)：離散隨機變量的p(x)，可以看作集中在合法的x值處的“概率質量”的集合。

連續型隨機變量的概率加和規則和乘積規則：
$p(x)=∫p(x,y)dy(1.31)p(x)=\int p(x,y)dy \tag{1.31}$

$\tag{1.32}$

1.2.3 期望和方差

期望(expectation) : 函數 $f (x)$ 對于隨機變量x的均值。離散型隨機變量和連續型隨機變量的期望分別定義為：
$E[f]=∑xp(x)f(x)(1.33)\mathbb{E}[f]=\sum_{x}p(x)f(x)\tag{1.33}$

$E[f]=∫p(x)f(x)dx(1.34)\mathbb{E}[f] = \int p(x)f(x)dx\tag{1.34}$

在實際應用中，用樣本均值來近似樣本的期望：
$E[f]≈1N∑n=1Nf(xn)(1.35)\mathbb{E}[f]\approx \frac{1}{N}\sum_{n=1}^Nf(x_n)\tag{1.35}$

方差(variance)：隨機變量在均值附近的離散程度，定義為：
$var[f]=E[(f(x)?E[f(x)])2]var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$

將中間的平方項展開可以轉化為：
$var[f]=E[f(x)2]?E[f(x)]2(1.39)var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2\tag{1.39}$

協方差(covariance):描述兩個隨機變量x,y之間有多大程度會共同變化，定義為：
$KaTeX parse error: Expected 'EOF', got '}' at position 124: …E}[y]\tag{1.42}}?$

1.2.4 貝葉斯概率

頻率學家：利于用隨機重復事件發生的頻率來考察概率，數據集合可重復，參數是確定的。常用最大似然來計算w。
貝葉斯觀點：定量描述不確定性，依據少量新的證據修正不確定性，數據集合只有一個，參數具有不確定性

回顧水果盒子：利用貝葉斯定理，通過觀察到的水果類型，將選擇盒子的先驗概率轉化為后驗概率。

在對模型參數w進行推斷時，在觀測到數據之前，我們有關于w的一些假設，以先驗概率 $p (w)$ 的形式給出。觀測數據集 $D={t1,t2,...,tN}\mathcal{D}=\{t_1, t_2,...,t_N\}$ 的效果可以通過條件概率 $p(D∣w)p(\mathcal{D}|w)$ 表示，此時觀測數據集合利用貝葉斯定理修正模型參數：
$p(w∣D)=P(D∣w)?p(w)p(D)(1.43)p(w|\mathcal{D})=\frac{P(\mathcal{D}|w)*p(w)}{p(\mathcal{D})}\tag{1.43}$

其中 $p(D∣w)p(\mathcal{D|w})$ 在 $w$ 已知的情況下依據具體觀測數據集計算，被稱作似然函數。表示在不同 $w$ 條件下，觀測數據出現的可能性。移項，兩端對w積分可以得到 $p(D)p(\mathcal{D})$ 。

貝葉斯定理的自然語言描述方式：
$\propto likelihood \times prior$

扔硬幣3次朝上的例子：
概率學家：未來所有的投擲都會是正面朝上–極端結論
貝葉斯觀點：依據新的觀察來糾正現有的結論–嚴重依賴先驗假設。

貝葉斯框架源于18世紀，但是近來才被重視。主要困難：執行完整的貝葉斯步驟，需要在整個參數空間求和或者求期望。

1.2.5 單高斯分布參數的最大似然估計

高斯分布/正態分布：一元實值隨機變量x服從高斯分布，其概率密度可以寫為：
$N(x∣μ,σ2)=1(2πσ2)12exp?{?12σ2(x?μ)2}\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$

隨機變量x的N次獨立觀測構成數據集合 $x_1,x_2,...,x_N)$ 。各個數據獨立同分布，相互獨立的兩個事件的聯合概率可以由邊緣概率的乘積得到，那么抽取到該數據集的概率為(似然函數)：
$p(x1,x2,...,xN∣μ,σ)=∏n=1NN(xn∣μ,σ2)p(x_1,x_2,...,x_N|\mu,\sigma)=\prod_{n=1}^N\mathcal{N}(x_n|\mu,\sigma^2)$

有兩種說法

給定數據集下最大化概率的參數–（最大化參數才不自然吧）
給定參數的情況下，最大化數據集出現的概率–（最大化概率才自然吧）

最大化對數似然函數（對應參數求導，令其等于零）來求解 $μ,σ\mu,\sigma$ –對數似然可以簡化計算和避免小概率乘積下溢。

均值與方差的最大似然解為：
$μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n$

$σML=1N∑n=1N(xn?μML)2\sigma_{ML}=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2$

對以上最大似然解求期望，可得到 $μML\mu_{ML}$ 為無偏估計， $σML2\sigma^2_{ML}$ 為有偏差估計。修正 $σML2\sigma^2_{ML}$ 為無偏估計量，有：
$σ^2=1N?1∑n=1N(xn?μML)2\hat{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu _{ML})^2$