1. 集合
集合分為有限集和無限集;
對于有限集,兩集合元素數相等即為等勢;
對于無限集,兩集合元素存在一一映射關系即為等勢;
無限集根據是否與正整數集等勢分為可數集和不可數集。
2. sigmoid函數(也叫logistic函數)
公式:
含義:將實數集R映射到區間(0,1),兩個區間是等勢的,公式就是雙射函數(一對一映射函數)。
3. 支持向量機
支持向量機的目標是尋找一個最優超平面,能夠最大化分類間隔。
超平面形式:
?
數據到超平面的距離如下:
我們希望SVM在邊界點數據(支持向量)的輸出是
考慮上非邊界點,輸出是
我們最大化這個兩個邊界的距離的一半(支持向量到超平面的距離):
在這兩個的約束下,即可求解最優w和b。
4. 決策樹
1)信息論概念
信息量是事后的判斷:指的是一個隨機變量某個可能性(具體事件)發生所帶來的信息,滿足概率越低信息量越大、不相關事件信息量相加對應概率相乘,因此公式為:
𝐡(𝐱) = ?𝒍𝒐𝒈𝟐𝒑(𝒙)
信息熵是事前的預估:指的是一個隨機變量所有可能性的信息量的期望,公式為:
𝐇(𝐱) = ?𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))
2)決策樹理解
決策樹是要找到一棵樹,按照這棵樹的節點進行遞歸判斷就可以得到判斷結果,例如一個瓜是不是好瓜,需要判斷一系列特征然后得到結論。
決策樹算法則是為了找到這樣一顆樹,需要確定節點順序。顯然應該優先判斷重要特征,即那些對確定性增益最大的,或者說熵減最多的。
3)決策樹實現
基于信息論的決策樹算法有ID3
?、C4.5
和?CART
等算法,其中C4.5
和CART
兩種算法從ID3
算法中衍生而來。
ID3
算法使用?信息增益
?作為分裂的規則,信息增益越大,則選取該分裂規則。具體來說,首先計算好瓜壞瓜這個隨機變量的信息熵,然后計算特征A各個可能性下的好瓜壞瓜的信息熵的期望,相減得到信息增益,計算所有特征的信息增益,選取信息增益最大的作為節點。下一個節點則是在該特征的各個可能下繼續上述操作來確定。
4)優缺點
優點 | 缺點 |
---|---|
易于理解和解釋 | 容易過擬合 |
能夠處理多種數據類型 | 對數據分布敏感 |
對缺失值不敏感 | 傾向于選擇具有更多取值的特征 |
不需要特征縮放 | 難以處理高維稀疏數據 |
能夠捕捉非線性關系 | 不穩定性 |
計算效率較高 | 對類別不平衡數據敏感 |
支持分類和回歸任務 | 難以表達復雜關系 |
5)改進方法
為了克服決策樹的缺點,可以采用以下方法:
剪枝:通過預剪枝或后剪枝減少過擬合。
集成學習:使用隨機森林(Random Forest)或梯度提升樹(Gradient Boosting Trees)來提高模型的穩定性和泛化能力。
類別平衡處理:通過過采樣、欠采樣或調整類別權重來處理類別不平衡問題。
特征工程:對高維稀疏數據進行降維或特征選擇。
6)剪枝處理
如果按照我們之前的方法形成決策樹后,會存在一定的問題。決策樹會無休止的生長,直到訓練樣本中所有樣本都被劃分到正確的分類。實際上訓練樣本中含有異常點,當決策樹節點樣本越少的時候,異常點就可能使得該結點劃分錯誤。另外,我們的樣本屬性并不一定能完全代表分類的標準,可能有漏掉的特征,也可能有不準確的特征。這樣就會導致決策樹在訓練集上準確率超高,但是在測試集上效果不好,模型過擬合,泛化能力弱。因此我們需要適當控制決策樹的生長。
5. 樸素貝葉斯
1)貝葉斯公式
先驗概率:通過經驗來判斷事情發生的概率
后驗概率:事情發生后推測原因的概率
條件概率:一個事件在另一個事件發生條件下的概率,即P(B|A),若兩者獨立,則等于P(B)
全概率公式:P(Y) =?P(Y,X1) + ... +?P(Y,Xn)?=?P(X1)P(Y|X1) + ... + P(Xn)P(Y|Xn)
貝葉斯公式:
2)樸素貝葉斯(貝葉斯分類器)
樸素貝葉斯,假設每個輸入變量之間獨立。即全概率中各個X是獨立的。
貝葉斯分類器就是在這種假設下的分類器,只需要求出在輸入變量(特征)X1...Xn的條件下,各個可能類別的條件概率,找到最大的即為要分的類
貝葉斯分類器的參數(先驗概率 P(c) 和條件概率 P(xi?∣c))通常是通過一次訓練過程計算得到的,不需要多輪訓練。這是因為貝葉斯分類器的訓練過程主要是基于訓練數據來估計這些參數,而這些參數的估計通常是直接的統計計算,不需要像一些復雜的神經網絡模型那樣通過迭代優化來調整參數。
參考:【機器學習算法筆記系列】決策樹(Decision Tree)算法詳解和實戰_decisiontreeclassifier是什么算法-CSDN博客
決策樹原理詳解(無基礎的同樣可以看懂)-CSDN博客