- 目錄
- 1、了解線性回歸
- 2、了解似然函數
- 3、了解交叉驗證的原理
- 4、梯度下降算法
- 4.1、批量梯度下降算法(Batch Gradient Descent,簡稱BGD):
- 4.2、隨機梯度下降算法(SGD):
- 4.3、折中:
- 5、了解一些參數指標
- 6、了解Logistic回歸
- 7、了解最小二乘法
- 8、了解AUC指標
目錄
1、了解線性回歸
當只有一個變量的時候,可以表示為下面的式子。
當為多個特征時,線性回歸可以表示為下面的式子,掌握下面這個式子:
假定樣本是獨立則能得到對應的下式;這里X0是1,則能得到H(x)(可以看成是矩陣的形式)
上面的H(x)再加上一個誤差就能得到符合實際的表達式即下圖中的y。
了解這個y的表達式(線性回歸在實際條件下的表達式)
正態分布:正常狀態分布(可以這樣理解)
注意后面有一個誤差;誤差滿足獨立同分布的條件;且假定誤差的均值是0,方差為σ2(服從正態分布嘛)。
2、了解似然函數
統計學中,似然函數是一種關于統計模型參數的函數。給定輸出x時,關于參數θ的似然函數L(θ|x)(在數值上)等于給定參數θ后變量X的概率:L(θ|x)=P(X=x|θ)。所以對應的也就是求似然函數的最大值。
知道求似然函數的最大值的過程:
求對數函數的最大值轉變為求J函數的最小值(Hθ函數是線性回歸的表達式)
再轉化為求駐點:似然函數最大值的求解過程->求J函數的駐點時利用梯度來逼近的(其間將關系表達式轉化為矩陣表達式)。
注意目標函數:數學含義就是求各個點到面的距離的最小累加值。
最終轉化為求參數的解析式,而初始的意愿就是要求θ的值(θ就是多特征情況下對應的特征方程的參數,知道這個參數后就能得到對應的x和y的映射關系!θ就如y=ax+b中的a和b一樣)。
對應的θ并不是一下子就算出來的,而是通過梯度下降算法,不斷的迭代得到的。
增加λ的意義是為了防止過擬合(相當于噪音)
知道這個懲罰因子以及它的原理
L1稱為Lasso:即懲罰因子項為|θ|。L1正則可以產生稀疏模型進而用于特征選擇。
L2稱為Ridge(嶺回歸 ):即懲罰因子為θ2。L2不具有稀疏性。
懲罰因子即代表目標函數的第二項,這里當θ比較大的時候,就造成整個J函數的值比較大(我們求的是J函數的最小值),所以這里就可以認為當θ比較大的時候,直接被抑制住(即懲罰,理解為θ是有范圍即下圖所示的圓形和正方形)。
3、了解交叉驗證的原理
k-折交叉驗證(k-fold crossValidation):
在機器學習中,將數據集A分為訓練集(training set)B和測試集(test set)C,在樣本量不充足的情況下,為了充分利用數據集對算法效果進行測試,將數據集A隨機分為k個包,每次將其中一個包作為測試集,剩下k-1個包作為訓練集進行訓練。(五折就相當于將數據分成5份,隨機選1份用于測試其他4份用于訓練生成一個分類率,循環進行5次得到5個分類率,求其平均值即可)
步驟:
- 將全部訓練集 S分成 k個不相交的子集,假設 S中的訓練樣例個數為 m,那么每一個子 集有 m/k 個訓練樣例,,相應的子集稱作{s1,s2,…,sk}。
- 每次從分好的子集中里面,拿出一個作為測試集,其它k-1個作為訓練集
- 根據訓練訓練出模型或者假設函數。
- 把這個模型放到測試集上,得到分類率。
- 計算k次求得的分類率的平均值,作為該模型或者假設函數的真實分類率。
這個方法充分利用了所有樣本。但計算比較繁瑣,需要訓練k次,測試k次。
五折、十折代表的是將數據分成五份、十份,其中多少份用于訓練數據1份用于驗證數據。
4、梯度下降算法
掌握梯度下降算法,還要知道梯度下降求得是局部最優解。
目標函數求導
上式少一個α值。
梯度下降的三種算法:
對于線性回歸這個模型來說采用梯度下降算法得到的局部最優解一定是全局最優解。
4.1、批量梯度下降算法(Batch Gradient Descent,簡稱BGD):
在更新每一參數時都使用所有的樣本來進行更新,也就是方程(1)中的m表示樣本的所有個數,之后通過初始的θ(需要給定的值)和學習率來不斷的迭代得到最終的θ值。
優點:全局最優解;易于并行實現;
缺點:當樣本數目很多時,訓練過程會很慢。
4.2、隨機梯度下降算法(SGD):
拿到一個數據就執行梯度下降(拿到一個數據就相當于得到一個關于θ的J函數,進而就能求對應的導數得到對應的θ值),這樣造成的結果是可以躲避局部極值,如下圖所示(跳出局部最優的原因是因為噪音影響PS:所以可以說噪音也未必是壞事)。
優點:訓練速度快;
缺點:準確度下降,并不是全局最優;不易于并行實現。
4.3、折中:
它的具體思路是在更新每一參數時都使用一部分樣本來進行更新,也就是方程中的m的值大于1小于所有樣本的數量,然后再執行梯度下降算法。
5、了解一些參數指標
了解下面的TSS、RSS(SSE)、R平方、ESS(SSR)的概念。
6、了解Logistic回歸
分類問題的首選算法
二分類:Logistic回歸
多分類:Softmax回歸
Softmax回歸知道即可,在Sklearn庫中,當分類數大于2時,默認的也就是Softmax回歸,所以沒必要再造一個函數。
對于簡單的線性方程,我們可以得到最終的解析式來求的答案,但是對于復雜的線性方程,我們沒有辦法獲得解析式,只能采用梯度下降的方法來不斷的逼近結果如下圖所示。
7、了解最小二乘法
最小二乘法:它的主要思想就是選擇未知參數,使得理論值與觀測值之差的平方和達到最小。
假設一對關系是某線性關系,且實際測量數據與該理想關系的偏差是高斯分布。
那么一個n個測量值的集合,取n-1個擬合成線性關系,用該關系預測另一個,最小二乘法可以保證:預測值和真實值的差的絕對值的期望最小。
最小二乘法與最大似然估計的解釋:
最小二乘法的核心就是權衡,因為你要在很多條的直線中間選擇,找出距離所有點的距離的平方和最小的那條直線。
極大似然估計核心就是自戀:對應似然函數理解就是給定參數θ我能得到對應的x發生的概率。就是去倒推這個過程(參考下圖中例子理解)。
最大似然估計,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值(似然函數的前半句內容:給定輸出X計算關于θ的似然函數值)。(1即似然函數的含義:給定輸出X計算關于θ的似然函數值就等于給定θ值在X事件發生的概率)
8、了解AUC指標
了解AUC(Area Under Curve)的含義,并且知道ROC(Receiver Operating Characterstic):受試者工作特征曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。得此名的原因在于曲線上各點反映著相同的感受性,它們都是對同一信號刺激的反應,只不過是在兩種不同的判定標準下所得的結果而已。
使用AUC(即曲線下方的面積)來度量分類器的好壞,給定的閾值不同,造成TP\FP的值的不同,也就造成TPR/FPR值的不同,最終造成AUC的值的不同,分類器的效果也就不同,往往將equal error rate點作為閾值的劃分依據。