PRML(1)--緒論(上)多項式曲線擬合、概率論

PRML緒論

  • 1.1 多項式曲線擬合
    • 1.1.1 問題描述
    • 1.1.2 最小化平方和誤差
    • 1.1.3 多項式階數確定
    • 1.1.4 有趣問題--高階模型為什么效果不好
    • 1.1.4 數據集規模對模型的影響
    • 1.1.5 參數正則化緩解過擬合問題
  • 1.2 概率論
    • 1.2.1離散型隨機變量
    • 1.2.2 連續型隨機變量
    • 1.2.3 期望和方差
    • 1.2.4 貝葉斯概率
    • 1.2.5 單高斯分布參數的最大似然估計
    • 1.2.6 重新考慮曲線擬合問題--MLE,MAP
    • 1.2.7 貝葉斯曲線擬合

模式識別領域 希望 利用個計算機算法自動發現數據中的規律,然后依據這些規律采取一些行動。模式識別的關鍵是獲得反映數據規律的模型。

泛化能力(generalization)–不同于機理建模需要大量的專業知識,機器學習建模過程中使用(大規模)訓練集(training set)來調節模型參數,測試集(test set)測試模型性能,反映模型的泛化能力(書中說的是–正確分類于訓練集不同的新樣本的能力)。

特征抽取(feature extract)–在實際應用中, 原始數據的量化向量(圖像-像素值向量, 音頻-波形向量)通常需要預處理(pre-processed),變換到新的變量空間中。

  1. 預處理可以過濾一些無關的特干擾(大小,角度,光亮…側面模型能力還遠遠不足,人對這些干擾的魯棒性強的多);
  2. 預處理抽取有用特征,降低輸入數據緯度,加快計算速度
  3. 預處理會濾掉有效信息,使系統整體精度下降
    測試集數據必須采取和訓練集一致的方法進行預處理

模式識別主要研究內容:

  1. 有監督學習–分類問題,回歸問題
  2. 無監督學習–聚類、密度估計、 降維
  3. 強化學習–在給定條件下,找到合適的動作,使得累計獎勵最大

本章主要包括:一個demo, 三個重要工具–概率論、決策論、信息論

1.1 多項式曲線擬合

1.1.1 問題描述

問題描述:觀測到一個輸入變量x(實數),希望能夠預測目標變量t(實數)的值。

給定 x 和 t 的N次觀測作為訓練集,自變量集合記作x≡(x1,x2,...,xN)T\bm{x}\equiv(x_1,x_2,...,x_N)^Tx(x1?,x2?,...,xN?)T,對應的目標標量集合記作t≡(t1,t2...,tN)T\bm{t}\equiv(t_1,t_2...,t_N)^Tt(t1?,t2?...,tN?)T

目標變量 t 的特點:擁有一個內在規律t = f(x),這個規律是我們想要探索的。但是目標變量的觀測值被隨機噪聲干擾。

圖1.2

目標:利用訓練集,建模自變量和因變量之間的內在規律,實現預測新的輸入變量x^\hat{x}x^對應的目標變量t^\hat{t}t^的值。

對于實現這個目標,概率論 提供了以精確的形式描述(目標變量)不確定性 的解題框架; 決策論提供合適的標準用于最優決策(采取下一步的應對措施)。

1.1.2 最小化平方和誤差

下面先介紹一種(通用?習慣性)做法 – 采用M階多項式函數擬合數據:
y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj(1.1)y(x,\bm{w}) = w_0 + w_1x +w_2x^2+...+w_Mx^M=\sum_{j=0}^Mw_jx^j\tag{1.1}y(x,w)=w0?+w1?x+w2?x2+...+wM?xM=j=0M?wj?xj(1.1)

其中:多項式系數{w0,w1,...,wM}\{w_0,w_1,...,w_M\}{w0?,w1?,...,wM?}記作w\bm{w}wkey point: 雖然y(x,w)y(x,\bm{w})y(x,w)xxx的非線性函數,卻是系數的w\bm{w}w的線性函數。這一類關于未知參數滿足線性關系的函數,被叫做 線性模型,有重要的性質,將在第三章第四章展開討論。

我們需要調整y(x,w)y(x,\bm{w})y(x,w)的參數,找到使y(x,w)y(x,\bm{w})y(x,w)與對應的t\bm{t}t之間的差距最小的參數組合。常用的做法為構造一個衡量差距度量函數,該差距度量函數為w的函數;通過梯度下降法最小化該差距度量函數,得到最優的參數組合。差距度量函數常被稱作 誤差函數(error function), 在擬合問題中可以使用平方誤差函數(1/2是為了計算方便加入的):
E(w)=12∑n=1N{y(xn,w)?tn}2(1.2)E(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2\tag{1.2}E(w)=21?n=1N?{y(xn?,w)?tn?}2(1.2)

其實還有許多函數也能作為誤差函數用于衡量模型輸出與目標值之間的差距,這類函數有兩個特點:
(1)非負
(2)當且僅當模型輸出與目標值相同時,誤差函數取得最小值為0.

求解w\bm{w}w: E(w)E(\bm{w})E(w)w\bm{w}w的二次函數,所以存在唯一的最小值解。可以通過對w\bm{w}w的各個分量求導,另梯度為0,解方程組得到最優的解w?\bm{w^*}w?,最終多項式函數由y(x,w?)y(x,\bm{w^*})y(x,w?)給出。

1.1.3 多項式階數確定

問題解決了么?沒有!不同的M必定得到不同的多項式函數,這多項式的階數M該怎么確定呢?圖1.4展示了四種不同階數的擬合曲線(紅色):當M較小時(M=1,2)模型無法準確 表示 觀測數據規律,欠擬合現象發生; 當M較大時(M=9),模型曲線可以完美適配所有訓練數據點,但是震蕩現象太明顯,將無法準確預測新數據的值,過擬合現象發生。圖1.4

如何選擇合適的M涉及到模型選擇(model selection)/模型對比(model comaprison)的問題。通過不同M對應的模型在測試集上的性能指標 完成模型選擇。性能指標推薦使用根均方誤差,其中去除了樣本規模(N)、量綱的影響。
ERMS=2E(w?)/N(1.3)E_{RMS} = \sqrt{2E(\bm{w^*})/N}\tag{1.3}ERMS?=2E(w?)/N?(1.3)

圖1.5 為不同的M對應的訓練集和測試集合根均方誤差折線圖,選擇測試集合誤差小且M小的M,即最優的M=3。

1.1.4 有趣問題–高階模型為什么效果不好

考慮一個有趣問題: 直覺高階數的多項式 包含了 低階數的多項式(多出來的系數置為0即可) ,那么M = 9的多項式 至少能產生和 M = 3 的多項式一樣好的結果才對,可是結果卻與直覺相反,問題出在哪里?
觀察到的現象是:M越大時,最優解對應的系數也會較大。(書中描述,不甚理解):更大的M使得模型被過渡調參,使得多項式被調節成與噪聲相符的模型。

1.1.4 數據集規模對模型的影響

給定M,訓練數據集規模越大,過擬合現象越不明顯。也就是說,數據集規模越大,能夠用來擬合的模型就越復雜。一個粗略的啟示:數據數量不應該 < 模型可以調節參數的若干倍(5/10倍)。但是實際上很多參數都是不必要的。

問題在哪?以上啟示使得我們需要依據數據集來確定模型的復雜度,但是更加合理的方式應該是:依據待解決問題的復雜性來確定模型復雜度。

在1.2.3中將看到 最小化平方誤差擬合 實際是最大似然(Max likelihood)的一種特例,而過擬合問題 是 最大似然的通用屬性。而使用**貝葉斯(Bayesan)**可以避免過擬合問題,(模型參數超過訓練數據的情形并不難解)==(書中描述,不甚理解)==在貝葉斯模型中,參數的有效數量 會自動依據 數據集規模調節。

1.1.5 參數正則化緩解過擬合問題

正則化(regularization)–給目標函數增加參數w懲罰項,限制參數w的大小。懲罰項可以使用參數的一范數(減少參數數量),二范數(限制參數大小)。二范數和平方和是等價的(書中此處用平方和),加了正則想的誤差函數為:
E~(w)=12∑n=1N{y(xn,w)?tn}2+λ2∣∣w∣∣2(1.4)\tilde{E}(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2+\frac{\lambda}{2}||\bm{w}||^2\tag{1.4}E~(w)=21?n=1N?{y(xn?,w)?tn?}2+2λ?w2(1.4)

其中:∣∣w∣∣2=wTw||\bm{w}||^2=\bm{w}^T\bm{w}w2=wTwλ\lambdaλ為這則化系數,又是需要通過驗證集來確定其大小 (1.4)式也可用解析的形式求解最小值。相關技術在神經網絡中叫權值衰減(weight decay),==(書中描述,不甚理解)==在統計學中叫收縮(shrinkage),二次正則項的一個特殊情況叫山脊回歸(ride regresion).

1.2 概率論

不確定性 是模式識別領域的一個關鍵概念, 概率論提供了一個合理的框架,用來描述、量化、計算不確定性;結合決策論,使我們能夠依據所提供的信息作出最優決策。

1.2.1離散型隨機變量

demo1:盒子抽球
假設我們有紅藍兩個盒子,紅盒子中有2個蘋果和6個橘子,藍盒子中有3個蘋果和1個橘子。每次隨機選擇一個盒子,然后再從該盒子中隨機抽一個水果論;觀察是什么水果后放回盒中。

在概率論中: 每次選的盒子的顏色是一個隨機變量,記作B,這個隨機變量的實際取之為紅?或者藍(b); 盒子中水果的種類也是一個隨機變量,記作F,這個隨機變量的取之為蘋果(a)或者橘子(o).

由這個概率demo引發的問題:選擇蘋果的整體概率是多少?如果取出的是橘子,那么這個橘子來自藍色盒子的概率是多少?

要解決這些問題,需要找我概率論的兩個基本規則:加和規則(sum rule)、乘積規則(product relu),以下使用更為一般的符號系統。

假定有兩個隨機變量X、Y;其中X的可能取值為{xi∣i=1,2,...,M}\{x_i|i=1,2,...,M\}{xi?i=1,2,...,M};Y的可能取值為{x=yj∣j=1,2,...,L}\{x=y_j|j=1,2,...,L\}{x=yj?j=1,2,...,L}。從X與Y的集合中隨機的選取一個取值構成一次隨機實驗,重復N次隨機實驗。將X=xiandY=yjX=x_i\ and\ Y=y_jX=xi??and?Y=yj?出現的次數記為ni,jn_{i,j}ni,j?;將X=xiX=x_iX=xi?出現的次數記為cic_ici?;將Y=yjY=y_jY=yj?出現的次數記為rjr_jrj?。(依據概率論基礎, 不嚴謹敘述,概率頻率,不難得出)

聯合概率(joint probability - - X=xiandY=yjX=x_i\ and\ Y=y_jX=xi??and?Y=yj?兩者同時出現的概率(joint probability)p(X=xi,Y=yj)p(X=x_i,Y=y_j)p(X=xi?,Y=yj?)為:
p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}p(X=xi?,Y=yj?)=Nnij??(1.5)

加和規則,得到各個隨機變量的邊緣概率(marginal probability):
p(X=xi)=ciN=∑j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^Lp(X=x_i,Y=y_j)\tag{1.7}p(X=xi?)=Nci??=j=1L?p(X=xi?,Y=yj?)(1.7)

條件概率 - - 給定X=xiX=x_iX=xi?條件下,Y=yjY=y_jY=yj?的概率:
p(Y=yi∣X=xi)=nijci(1.8)p(Y=y_i|X=x_i)=\frac{n_{ij}}{c_i}\tag{1.8}p(Y=yi?X=xi?)=ci?nij??(1.8)

乘積規則:由邊緣概率 和 條件概率 得到聯合概率:
p(X=xi,Y=yj)=p(Y=yi∣X=xi)p(X=xj)p(X=x_i,Y=y_j) = p(Y=y_i|X=x_i)p(X=x_j)p(X=xi?,Y=yj?)=p(Y=yi?X=xi?)p(X=xj?)

符號規定:p(B)p(B)p(B)表示隨機變量B的分布,p(r)p(r)p(r)隨機變量B取特定的值rrr時的估計。重寫 加和規則和乘積規則(PRML一書所有概率推導的基礎):
p(X)=∑Yp(X,Y)(1.10)p(X)=\sum_Yp(X,Y)\tag{1.10}p(X)=Y?p(X,Y)(1.10)

p(X,Y)=p(Y∣X)p(X)(1.11)p(X,Y)=p(Y|X)p(X)\tag{1.11}p(X,Y)=p(YX)p(X)(1.11)

貝葉斯定理(Bayes’ theorem)–在模式識別 和 機器學習中扮演著中心角色(實現條件轉換
p(Y∣X)=p(X∣Y)p(Y)p(X)(1.12)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}p(YX)=p(X)p(XY)p(Y)?(1.12)

分母可以寫為加和規則的展開,那么就完全轉換為條件Y了。

先驗概率:在沒有觀測到取出的水果是啥時,紅盒子和藍盒子被選中的先驗概率(prior probability)分別是(410,610)(\frac{4}{10},\frac{6}{10})(104?,106?)
后驗概率:假定已經觀察到了取出的水果是橘子,那么紅盒子和藍盒子被選中的后驗概率(posterior probability)分別是(23,13)(\frac{2}{3},\frac{1}{3})(32?,31?)

兩個隨機變量相互獨立:聯合分布可以分解成邊緣分布的乘積,只能定性的理解一個變量對另一個變量的取值并沒有影響(沒有關系隨機變量的分布就不能畫在同一個直角坐標系下,但是聯合概率密度是可以畫在X和Y為軸的坐標系中)。
p(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y)

1.2.2 連續型隨機變量

概率密度(probability density): 如果一維實值隨機變量x在區間(x,x+δx)(x, x+\delta x)(x,x+δx)的概率用p(x)δxp(x)\delta xp(x)δx表示,那么p(x)p(x)p(x)就叫做x的概率密度。

x在區間(a, b)上的概率:
p(x∈(a,b))=∫abp(x)dx(1.24)p(x\in(a,b))=\int_a^bp(x)dx\tag{1.24}p(x(a,b))=ab?p(x)dx(1.24)

概率密度的兩大性質:
p(x)>0(1.25)p(x)>0\tag{1.25}p(x)>0(1.25)

∫?∞∞p(x)dx=1(1.26)\int_{-\infty}^{\infty}p(x)dx=1\tag{1.26}??p(x)dx=1(1.26)

隨機變量函數變換(與通常的表示習慣相反):x=g(y)x=g(y)x=g(y),如果有函數f(x),那么f^(y)=f(g(y))\hat{f}(y)=f(g(y))f^?(y)=f(g(y))。 如果x 的概率密度用pxxp_x{x}px?x表示,那么y的概率密度py(y)p_y(y)py?(y)可以表示為:[存在一個同倫關系px(x)δx?py(y)δyp_x(x)\delta x\simeq p_y(y)\delta ypx?(x)δx?py?(y)δy,式子的左邊可以連續變換到右邊]
py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣p_y(y)=p_x(x)|\frac{dx}{dy}|=p_x(g(y))|g'(y)|py?(y)=px?(x)dydx?=px?(g(y))g(y)

累計分布函數(cumulative distribution function)–又叫概率分布函數[有點像變上限積分函數]。
P(z)=∫?∞zp(x)dx(1.28)P(z)=\int_{-\infty}^zp(x)dx \tag{1.28}P(z)=?z?p(x)dx(1.28)

累計分布函數的導數就是概率密度:P′(x)=p(x)P'(x)=p(x)P(x)=p(x)

向量x=[x1,x2,...,xD]\bm{x}=[x_1,x_2,...,x_D]x=[x1?,x2?,...,xD?]的規律類比于一維度p(x)=p(x1,x2,...,xD)p(\bm{x})=p(x_1,x_2,...,x_D)p(x)=p(x1?,x2?,...,xD?)

概率質量函數(probability mass function):離散隨機變量的p(x),可以看作集中在合法的x值處的“概率質量”的集合。

連續型隨機變量的概率加和規則和乘積規則:
p(x)=∫p(x,y)dy(1.31)p(x)=\int p(x,y)dy \tag{1.31}p(x)=p(x,y)dy(1.31)

p(x,y)=p(y∣x)p(x)(1.32)p(x,y)=p(y|x)p(x) \tag{1.32}p(x,y)=p(yx)p(x)(1.32)

1.2.3 期望和方差

期望(expectation) : 函數f(x)f(x)f(x)對于隨機變量x的均值。離散型隨機變量和連續型隨機變量的期望分別定義為:
E[f]=∑xp(x)f(x)(1.33)\mathbb{E}[f]=\sum_{x}p(x)f(x)\tag{1.33}E[f]=x?p(x)f(x)(1.33)

E[f]=∫p(x)f(x)dx(1.34)\mathbb{E}[f] = \int p(x)f(x)dx\tag{1.34}E[f]=p(x)f(x)dx(1.34)

在實際應用中,用樣本均值來近似樣本的期望:
E[f]≈1N∑n=1Nf(xn)(1.35)\mathbb{E}[f]\approx \frac{1}{N}\sum_{n=1}^Nf(x_n)\tag{1.35}E[f]N1?n=1N?f(xn?)(1.35)

方差(variance):隨機變量在均值附近的離散程度,定義為:
var[f]=E[(f(x)?E[f(x)])2]var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]var[f]=E[(f(x)?E[f(x)])2]

將中間的平方項展開可以轉化為:
var[f]=E[f(x)2]?E[f(x)]2(1.39)var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2\tag{1.39}var[f]=E[f(x)2]?E[f(x)]2(1.39)

協方差(covariance):描述兩個隨機變量x,y之間有多大程度會共同變化,定義為:
KaTeX parse error: Expected 'EOF', got '}' at position 124: …E}[y]\tag{1.42}}?

1.2.4 貝葉斯概率

頻率學家:利于用隨機重復事件發生的頻率來考察概率,數據集合可重復,參數是確定的。常用最大似然來計算w。
貝葉斯觀點: 定量描述不確定性,依據少量新的證據修正不確定性,數據集合只有一個,參數具有不確定性

回顧水果盒子:利用貝葉斯定理,通過觀察到的水果類型,將選擇盒子的先驗概率轉化為后驗概率。

在對模型參數w進行推斷時,在觀測到數據之前,我們有關于w的一些假設,以先驗概率p(w)p(w)p(w)的形式給出。觀測數據集D={t1,t2,...,tN}\mathcal{D}=\{t_1, t_2,...,t_N\}D={t1?,t2?,...,tN?}的效果可以通過條件概率p(D∣w)p(\mathcal{D}|w)p(Dw)表示,此時觀測數據集合利用貝葉斯定理修正模型參數:
p(w∣D)=P(D∣w)?p(w)p(D)(1.43)p(w|\mathcal{D})=\frac{P(\mathcal{D}|w)*p(w)}{p(\mathcal{D})}\tag{1.43}p(wD)=p(D)P(Dw)?p(w)?(1.43)

其中p(D∣w)p(\mathcal{D|w})p(Dw)www已知的情況下依據具體觀測數據集計算,被稱作似然函數。表示在不同www條件下,觀測數據出現的可能性。移項,兩端對w積分可以得到p(D)p(\mathcal{D})p(D)

貝葉斯定理的自然語言描述方式:
posterior∝likelihood×priorposterior \propto likelihood \times prior posteriorlikelihood×prior

扔硬幣3次朝上的例子:
概率學家:未來所有的投擲都會是正面朝上–極端結論
貝葉斯觀點:依據新的觀察來糾正現有的結論–嚴重依賴先驗假設。

貝葉斯框架源于18世紀,但是近來才被重視。主要困難:執行完整的貝葉斯步驟,需要在整個參數空間求和或者求期望。

1.2.5 單高斯分布參數的最大似然估計

高斯分布/正態分布:一元實值隨機變量x服從高斯分布,其概率密度可以寫為:
N(x∣μ,σ2)=1(2πσ2)12exp?{?12σ2(x?μ)2}\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}N(xμ,σ2)=(2πσ2)21?1?exp{?2σ21?(x?μ)2}

隨機變量x的N次獨立觀測構成數據集合(x1,x2,...,xN)(x_1,x_2,...,x_N)(x1?,x2?,...,xN?)。各個數據獨立同分布,相互獨立的兩個事件的聯合概率可以由邊緣概率的乘積得到,那么抽取到該數據集的概率為(似然函數):
p(x1,x2,...,xN∣μ,σ)=∏n=1NN(xn∣μ,σ2)p(x_1,x_2,...,x_N|\mu,\sigma)=\prod_{n=1}^N\mathcal{N}(x_n|\mu,\sigma^2)p(x1?,x2?,...,xN?μ,σ)=n=1N?N(xn?μ,σ2)

有兩種說法

  1. 給定數據集下最大化概率的參數–(最大化參數才不自然吧)
  2. 給定參數的情況下,最大化數據集出現的概率–(最大化概率才自然吧)

最大化對數似然函數(對應參數求導,令其等于零)來求解μ,σ\mu,\sigmaμ,σ–對數似然可以簡化計算和避免小概率乘積下溢。

均值與方差的最大似然解為:
μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_nμML?=N1?n=1N?xn?

σML=1N∑n=1N(xn?μML)2\sigma_{ML}=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2σML?=N1?n=1N?(xn??μML?)2

對以上最大似然解求期望,可得到μML\mu_{ML}μML?為無偏估計,σML2\sigma^2_{ML}σML2?為有偏差估計。修正σML2\sigma^2_{ML}σML2?為無偏估計量,有:
σ^2=1N?1∑n=1N(xn?μML)2\hat{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu _{ML})^2σ^2=N?11?n=1N?(xn??μML?)2

最大似然估計的問題:低估分布的方差,這實質是過擬合問題的核心。

1.2.6 重新考慮曲線擬合問題–MLE,MAP

回顧曲線擬合問題:已知數據集x\bm{x}xt\bm{t}t,目標是預測給定新測試點x對應點目標值t.

可以使用概率分布來表達關于目標變量值的不確定性:假定對應的t值服從均值為y(x,w)y(x,\bm{w})y(x,w)的高斯分布。
p(t∣x,w,β)=N(t∣y(x,w),β?1)p(t|x,\bm{w},\beta)=\mathcal{N}(t|y(x,\bm{w}),\beta^{-1})p(tx,w,β)=N(ty(x,w),β?1)

通過最大似然函數求解模型參數w\bm{w}w:可以得到最大似然函數 等價于 最小化平方誤差函數。

引入w\bm{w}w先驗假設–假定也服從高斯分布:
p(w∣a)=N(w∣0,α?1I)p(\bm{w}|a)=\mathcal{N}(\bm{w}|0,\alpha^{-1}\bm{I})p(wa)=N(w0,α?1I)

計算參數的后驗概率:
p(w∣x,t,α,β)∝p(t∣x,w,β)?p(w∣a)p(\bm{w}|\bm{x},\bm{t},\alpha,\beta)\propto p( \bm{t}|\bm{x},\bm{w},\beta)*p(\bm{w}|a)p(wx,t,α,β)p(tx,w,β)?p(wa)

通過最大后驗求解模型參數w\bm{w}w:可以得到最大后驗 等價于 最小化帶正則項的平方誤差函數。
(最大后驗可以減少過你和問題)

1.2.7 貝葉斯曲線擬合

貝葉斯的觀點,預測分布可以寫為如下積分形式:
p(w∣x,t,x)=∫p(t∣w,x)?p(w∣x,t)dw(1.68)p(\bm{w}|\bm{x},\bm{t},x)=\int p(t|\bm{w},x)*p(\bm{w}|\bm{x},\bm{t})d\bm{w}\tag{1.68}p(wx,t,x)=p(tw,x)?p(wx,t)dw(1.68)

p(t∣w,x)p(t|\bm{w},x)p(tw,x)–式子1.60的形式(實際值不知道,雞生蛋蛋生雞)
p(w∣x,t)p(\bm{w}|\bm{x},\bm{t})p(wx,t)–參數的后驗概率、

具體怎么求會在3.3節中詳細講解,求出來p(w∣x,t,x)p(\bm{w}|\bm{x},\bm{t},x)p(wx,t,x)也是個高斯分布。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/444779.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/444779.shtml
英文地址,請注明出處:http://en.pswp.cn/news/444779.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大數加減乘

如標題&#xff0c;不解釋。 加 #include<stdio.h> #include<string.h> int main() {char a[1000],b[1000];int i,s[1000],len1,len2,len,j;while(scanf("%s%s",a,b)!EOF) //用字符數組來儲存數{for(i0;i<1000;i)s[i]0;len1strlen(a);len2strlen(b…

在GCC和Visual Studio中使用hash_map

熟悉STL或熟悉ACM/ICPC的話&#xff0c;其中的set, map, multiset, multimap一定用過無數次了&#xff0c;它們都是用平衡二叉樹&#xff08;紅黑樹&#xff09;實現的&#xff0c;復雜度為O(lgn)。我們也知道set, map可以通過哈希來實現&#xff0c;復雜度只有O(1)&#xff0c…

C++(21)--Astah uml 畫C++類圖

Astah uml 畫C類圖1.安裝2.使用《老九學堂C課程》《老九學堂C課程》詳情請到B站搜索《老九零基礎學編程C入門》-------------簡單的事情重復做&#xff0c;重復的事情用心做&#xff0c;用心的事情堅持做(老九君)--------------- ASTAH&#xff1a;類圖工具&#xff0c;用于理…

redis3.0.0 集群安裝詳細步驟

Redis集群部署文檔(centos6系統) &#xff08;要讓集群正常工作至少需要3個主節點&#xff0c;在這里我們要創建6個redis節點&#xff0c;其中三個為主節點&#xff0c;三個為從節點&#xff0c;對應的redis節點的ip和端口對應關系如下&#xff09; 127.0.0.1:7000 127.0.0.1:7…

Redis集群添加節點

Redis集群添加節點 1&#xff1a;首先把需要添加的節點啟動 cd /usr/local/cluster/ mkdir 7006 cp /usr/local/cluster/redis.conf /usr/local/cluster/7006/ cd /usr/local/cluster/7006/ vi redis.conf ##修改redis.conf中的port參數的值為7006 redis-server redis.c…

PRML(2)--緒論(下)模型選擇、緯度災難、決策論、信息論

PRML緒論1.3 模型選擇1.4 緯度災難1.5 決策論1.5.1最小錯誤分率1.5.2最小化期望損失1.5.3拒絕選項1.5.4推斷和決策1.5.5 回歸問題的損失函數1.6 信息論1.3 模型選擇 模型過復雜會造成過擬合問題&#xff0c;需要通過一些技術來降低模型的復雜度。 就最大似然而言&#xff0c;可…

leetcode112 路徑總和

給定一個二叉樹和一個目標和&#xff0c;判斷該樹中是否存在根節點到葉子節點的路徑&#xff0c;這條路徑上所有節點值相加等于目標和。 說明: 葉子節點是指沒有子節點的節點。 示例: 給定如下二叉樹&#xff0c;以及目標和 sum 22&#xff0c; 5 / \ …

關于游戲架構設計的一些整理吧

一個大型的網落游戲服務器應該包含幾個模塊:網絡通訊,業務邏輯,數據存儲,守護監控(不是必須),其中業務邏輯可能根據具體需要,又劃分為好幾個子模塊。 這里說的模塊可以指一個進程,或者一個線程方式存在,本質上就是一些類的封裝。

linux時間輪 Timing-Wheel的實現

過一段時間上傳更新自己的心得&#xff0c;以及linux的時間輪實現 現在git上傳自己的C代碼 gitgithub.com:pbymw8iwm/Timing-Wheel.git

leetcode128 最長連續序列

給定一個未排序的整數數組&#xff0c;找出最長連續序列的長度。 要求算法的時間復雜度為 O(n)。 示例: 輸入: [100, 4, 200, 1, 3, 2] 輸出: 4 解釋: 最長連續序列是 [1, 2, 3, 4]。它的長度為4 思路&#xff1a;map記錄某個連續序列端點的最大長度。 對于數字i&#xff…

C++(22)--繼承和派生

繼承和派生1.基本概念2.實現公有繼承3.私有繼承的例子4. 繼承和組合《老九學堂C課程》《C primer》學習筆記。《老九學堂C課程》詳情請到B站搜索《老九零基礎學編程C入門》-------------簡單的事情重復做&#xff0c;重復的事情用心做&#xff0c;用心的事情堅持做(老九君)----…

Python- 解決PIP下載安裝速度慢

對于Python開發用戶來講&#xff0c;PIP安裝軟件包是家常便飯。但國外的源下載速度實在太慢&#xff0c;浪費時間。而且經常出現下載后安裝出錯問題。所以把PIP安裝源替換成國內鏡像&#xff0c;可以大幅提升下載速度&#xff0c;還可以提高安裝成功率。 國內源&#xff1a; …

leetcode102 二叉樹的層次遍歷

給定一個二叉樹&#xff0c;返回其按層次遍歷的節點值。 &#xff08;即逐層地&#xff0c;從左到右訪問所有節點&#xff09;。 例如: 給定二叉樹: [3,9,20,null,null,15,7], 3 / \ 9 20 / \ 15 7 返回其層次遍歷結果&#xff1a; [ [3], [9,20], [15…

Windows Git客戶端搭建

最近開始做Windows 開發&#xff0c;所以找了一些windows下安裝git的教程 本文環境&#xff1a; 操作系統&#xff1a;Windows XP SP3 Git客戶端&#xff1a;TortoiseGit-1.8.16.0-32bit 一、安裝Git客戶端 全部安裝均采用默認&#xff01; 1. 安裝支撐軟件 msysgit: http://ms…

C++(23)--多態性與虛函數

多態性與虛函數1.靜態多態-重載2.動態多態-重寫2.1 向上轉換/向下轉換3.虛函數的工作原理4.純虛函數和抽象類5.補充項目(都市浮生記)-卒《老九學堂C課程》學習筆記。《老九學堂C課程》詳情請到B站搜索《老九零基礎學編程C入門》-------------簡單的事情重復做&#xff0c;重復的…

如何在Appscale下發布自己的應用(一)

本篇文章主要講如何在本地搭建appscale環境。由于國內的信息資源有限&#xff0c;很多重要的論壇被墻了&#xff0c;所以遇到不少麻煩&#xff0c;由于最近一段時間vpn也被封掉了&#xff0c;我只能通過特殊渠道方法來翻墻查閱資料&#xff0c;走了不少彎路。 1.先說系統和環境…

總結了線程安全性的二十四個精華問題

1、對象的狀態&#xff1a;對象的狀態是指存儲在狀態變量中的數據&#xff0c;對象的狀態可能包括其他依賴對象的域。在對象的狀態中包含了任何可能影響其外部可見行為的數據。 2、一個對象是否是線程安全的&#xff0c;取決于它是否被多個線程訪問。這指的是在程序中訪問對象的…

如何在Appscale下發布自己的應用(二)

本文開始講如何發布自己的app應用到appscle上 建好appscle網站后&#xff0c;可以在命令行通過 appscle deploy apppathname 來發布自己應用。 除了用命令行提交應用之外&#xff0c;還可以通過appscale的網站直接提交&#xff0c;選擇 upload application->選擇上傳文件-&g…

Python模塊(7)-SciPy 簡易使用教程

SciPy 簡易使用教程1. 符號計算2. 函數向量化3. 波形處理scipy.signal3.1 濾波器3.2 波峰定位基于numpy的一個高級模塊&#xff0c;為數學&#xff0c;物理&#xff0c;工程等方面的科學計算提供無可替代的支持。 做重要的思想是&#xff1a;符號計算和函數向量化 1. 符號計算…

Xcode的Architectures和Valid Architectures的區別

目錄[-] Xcode的Architectures和Valid Architectures的區別 Architectures Valid Architectures 原因解釋如下&#xff1a; 參考1&#xff1a; 所有IOS設備詳情列表 List of iOS devices - Wikipedia, the free encyclopedia 參考2&#xff1a; iOS 7: 如何為iPhone 5S編譯64位…