參考:
http://blog.csdn.net/pipisorry/article/details/52108040
附帶? 損失函數;經驗風險;正則化;結構風險
? 損失函數(loss function)是用來估量你模型的預測值f(x)與真實值Y的不一致程度,它是一個非負實值函數,通常使用L(Y, f(x))來表示,損失函數越小,模型的魯棒性就越好。
損失函數是經驗風險函數的核心部分,也是結構風險函數重要組成部分。
模型的結構風險函數包括了經驗風險項和正則項,通常可以表示成如下式子(一般來說,監督學習可以看做最小化下面的目標函數):
式子左邊表示經驗風險函數,損失函數是其核心部分;式子右邊是正則項。式子整體是結構風險函數,其由經驗風險函數和正則項組成。
其中,第一項L(yi,f(xi;w)) 衡量我們的模型(分類或者回歸)對第i個樣本的預測值f(xi;w)和真實的標簽yi之前的誤差。因為我們的模型是要擬合我們的訓練樣本的,所以我們要求這一項最小。即前面的均值函數表示的是經驗風險函數,L代表的是損失函數;
但正如上面說言,我們不僅要保證訓練誤差最小,我們更希望我們的模型測試誤差小,所以我們需要加上第二項,也就是對參數w的規則化函數Ω(w)去約束我們的模型盡量的簡單。即后面的Φ是正則化項(regularizer)或者叫懲罰項(penalty term),它可以是L1,也可以是L2,或者其他的正則函數。
整個式子表示的意思是找到使目標函數最小時的θ值。機器學習的大部分帶參模型都和這個不但形似,而且神似,其實大部分無非就是變換這兩項而已。