1.3 模型選擇

模型過復雜會造成過擬合問題，需要通過一些技術來降低模型的復雜度。
就最大似然而言，可以增加一個懲罰項來補償過于復雜的模型造成的過擬合問題。

赤池信息準則，使式1.73最大,M是模型中可調節參數的數量：
$lnp(D∣wML)?Mlnp(\mathcal{D}|\bm{w}_ML)-M$

1.73式？是一個變體，被稱作貝葉斯信息準則，但是沒有考慮模型參數的不確定性。

1.4 緯度災難

一個三分類問題畫格子分類。隨著輸入維度的增加會造成的問題：

單元格的數量會隨輸入空間維度的增加而增加
為了保證單元格不空，訓練數據的量需要增加

高維空間中的直覺錯誤：
3. 高維空間中，一個球的體積大部分會聚集在表面附近薄球上
4. 在高緯空間中，高斯分布的概率質量會集中在某一半徑的薄球上

1.5 決策論

決策論和概率論結合：能夠在涉及不確定性的條件下作出最優決策。

例如：依據病人X光片，判斷病人是否得了癌癥，并依據判斷給出是否需要治療的決定。

概率論如何在決策時起作用

1.5.1最小錯誤分率

需要一個規則將不同的x分到合適的類別中，按照規則會把輸入空間分成不同的決策區域 $Rk\mathcal{R}_k$ 。在 $Rk\mathcal{R}_k$ 中的點將被分為 $Ck\mathcal{C}_k$ 類。

考慮一維數軸上的兩分類問題，錯分概率為：
$p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78}$

為了使(1.78)式最小，那么可以得到一個決策規則：如果 $p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)$ 就將x劃分為類別1。也等價于將x 分入到具有最大后驗概率的類別中。

1.5.2最小化期望損失

實際引用中，目標遠比最小化錯誤分類率更加復雜。

就癌癥判斷例子中每種錯誤分類所帶來的決策損失是不同的：健康誤判為有病–多了復查，有病誤判為健康–錯過最佳治療時間。

損失函數(loss function) 也被稱為代價函數(cost function):對所有可能的決策或者動作可能產生的損失的一種整體度量。目標是：最小化期望損失。

期望損失的計算：x屬于 $Ck\mathcal{C}_k$ 類，我們將其劃分為 $Cj\mathcal{C}_j$ 類，造成的損失為 $Lkj\mathcal{L}_{kj}$
$E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dx$

得出的結論還是需要：后驗概率

1.5.3拒絕選項

在類別歸屬相對不確定的時候，避免作出決策是更合適的選擇。這樣會使模型的分類錯誤率降低，這被稱為拒絕選項（reject option）。

癌癥的例子：使用自動化系統來對幾乎沒有懷疑的X光片進行分類，把不易分類的留給人類專家。

一種簡單的拒絕實現方式：引入一個閾值 $θ\theta$ ，拒絕后驗概率 $p(Ck∣x)p(\mathcal{C}_k|x)$ 的最大值小于等 $θ\theta$ 的那些輸入x。

1.5.4推斷和決策

解決決策問題的三種方法：

推斷類條件密度 $p(x∣Ck)p(x|\mathcal{C}_k)$ ,推斷類先驗概率密度 $p(Ck)p(\mathcal{C}_k)$ ,計算后驗概率->決策（生成式模型）。
直接推斷后驗概率 $p(Ck∣x)p(\mathcal{C}_k|x)$ ->決策(判別式模型)。
找到一個判別函數 $f (x)$ ，直接把輸入x映射到類別標簽中。

三種方法各有優缺點。

1.5.5 回歸問題的損失函數

回到曲線擬合問題：對于每一個輸入x，對應目標值t的估計值為y(x), 造成的損失是L(t,y(x))，那么期望損失為：
$E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdt$

L(t,y(x))常用平方損失函數– $L(t,y(x))=[y(x)-t]^2$ 。我們的目標是選擇合適的y(x)來使 $E[L]\mathbb{E}[L]$ 最小化。形式變分法求解y(x)（不會求）：
$δE[L]δy(x)=2∫{y(x)?t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0$

使用概率的加和規則和乘積規則有(對上式子進行移項和相除操作得到)：
$y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}$

$Et[t∣x]\mathbb{E}_t[t|x]$ 符號迷惑，理解成 t 在給定x條件下的期望會更容易理解。 $Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]$

所以y(x)最優解就是t的條件期望。

同樣有三種方法來解決回歸問題：

確定p(x,t),計算p(t|x)，依據1.89式進行積分
推斷p(t|x),依據1.89式進行積分
直接通過數據找到回歸函數模型y(x)

閔可夫斯基損失函數–平方損失函數的推廣
$E[L]q=∫∫∣y(x)?t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdt$

1.6 信息論

信息量的概念：觀察到一個離散型隨機變量時，我們能獲得多少信息？直覺上，低概率事件具有高信息量。尋找一個表達信息量的函數 $h(?)h(\cdot)$ 是p(x)的遞減函數。且如果有兩個不相關的事件x,y，觀察到兩個事件同時發生的信息量應該等于兩件事各自發生時的概率，即 $h (x, y) = h (x) + h (y)$ ,兩件不相關的事是統計獨立的，因此有 $p (x, y) = p (x) p (y)$ 。容易得出h(x)與p(x)是對數關系。因此有（單個隨機變量的信息量）：
$h(x)=-\log_2p(x)$

熵：傳輸隨機變量x的平均信息量為：
$H[x]=?∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)$

非均勻分布的熵比均勻分布的熵要小。

無噪聲編碼定理：熵是傳輸一個隨機變量狀態值所需比特位的下界。

熵起源于物理學：N個物體放到若干個箱子中，所有的方案數構成乘數。乘數通過合適參數縮放對數乘數，且當 $N?>∞N->\infty$ 時，就可以得到自然對數熵的定義。

離散型隨機變量的熵特性：
熵是非負數；熵的最小值為0；利用概率歸一化約束，使用拉格朗日乘子法找到熵的最大值為所有的值都相等，且等于 $1M\frac{1}{M}$ 時，熵值最大。M為 $x_i$ 的狀態總數。

熵的概念從離散型隨機變量擴展到連續型隨機變量：將連續型隨機變量離散化，然后讓 $Δ?>0\Delta->0$ ，得到微分熵的概念：
$?∫p(x)ln?p(x)dx-\int p(x)\ln p(x) dx$
熵的離散形式和連續形式相差一個 $ln?Δ\ln \Delta$ 在 $Δ?>0\Delta->0$ 的情況下是發散的。反映一個重要的事實：具體化一個連續型隨機變量需要大量的比特位。

連續型隨機變量的熵特性：
最大化微分熵的分布是高斯分布，最大的熵值還由分布的方差決定。隨著方差的增大而增大（越平越大的趨勢還是在的）
$H[x]=12{1+ln?(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}$
微分熵可以為負數。

條件熵：

**KL散度：**目標分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ –平均附加信息量,比原來的信息量多出來的信息量。KL散度不是一個對稱量。
$KL(p∣∣q)=?∫p(x)ln?{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dx$

**凸函數：**弦在函數圖像上,對應的函數的二階導數為正。
$f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)$

**凹函數：**弦在函數圖像的下方，對應的二階導數為負數
$f (x) = ? f (x)$

利用Jensen 不等式+ $?ln?x-\ln x$ 函數是凸函數證明了KL散度非負數。因此可以將KL散度看作兩分布之間不相似程度的度量。（解釋性說明）

最大似然等價與最小化**目標分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ 之間的KL散度。

**互信息：**獲知一個隨機變量的值后另一個隨機變量不確定度減少的量。
$I (x, y) = H (x) ? H (x ∣ y) = H (y) ? H (y ∣ x)$

關鍵概念：
誤差函數(error function)
泛化能力(generalization)
特征抽取(feature extract)
預處理(pre-processed)
模型選擇(model selection)
模型對比(model comparison)
正則化(regularization)
權值衰減(weight decay)
收縮(shrinkage)
加和規則(sum rule)
乘積規則(product relu)