一、分類的定義
已知:一組數據(訓練集) (X, Y)
例如:
x:數據特征/屬性(如收入)
y:類別標記(是否有借款)
任務:
學習一個模型,利用每一條記錄的特征x去預測它對應的類別y
即:輸入未標記的數據(含特征x),預測數據的類別y每一條記錄表示為 (x, y)
如何建立分類與預測模型?
一般流程:有監督學習
通常包括兩個階段:模型訓練、模型預測
分類預測的準確性
二、規則方法
例如:
(胎生= 否) ? (飛行動物= 是) → 鳥類
(胎生= 是) ? (體溫= 恒溫) → 哺乳類
三、決策樹
對數據進行處理,利用歸納算法生成可讀的規則
模型以樹狀形式呈現出來
非葉節點:一個屬性上的測試,每個分枝代表該測試的輸出
葉節點:存放一個類標記
規則:從根節點到葉節點的一條屬性取值路徑
基本的決策樹學習過程,可以歸納為以下三個步驟:
- 特征選擇:選取對于訓練數據有著較強區分能力的特征
- 生成決策樹:基于選定的特征,逐步生成完整的決策樹
- 決策樹剪枝:簡化部分枝干,避免過擬合因素影響
特征選擇
常用特征選擇準則
????????信息增益(熵)
????????信息增益率
????????基尼指數
信息熵:計算數據的不確定性
此時:表示某個節點t (即某個特征)的信息不確定性
例子:
?信息增益: 按某個特征劃分之后,數據不確定性降低的程度
?信息增益率(Gain ratio): 綜合考慮劃分結果信息增益和劃分數量的信息
選擇最大的信息增益率對應的特征m
信息增益率有矯枉過正的危險
采用信息增益率的情況下,往往傾向于選擇取值較少的特征
當特征的取值較少時,IV較小,因此懲罰項相對較小
基尼指數
目的在于表示樣本集合中一個隨機樣本被分錯的概率
基尼指數越低,表明被分錯的概率越低,相應的信息純度也就越高
計算特征節點t的基尼指數 :
例子:
當一個特征節點p 分裂成 k 個子節點(如兩個子節點)
選擇準則:選擇最大的GINI 對應的特征m
分類錯誤
計算單個節點錯誤
決策樹——剪枝
當利用訓練集生成決策樹之后,樹的很多分枝屬于噪音或者會對分類準確率造成負面影響,因此需要對決策樹進行剪枝來提高決策樹的分類能力。
先剪枝
????????通過提前停止生成分枝對決策樹進行剪枝,可以利用信息增益等測度來對分枝生成情況(優劣)進行評估
后剪枝
????????首先完全地構建一個決策樹,然后刪除不必要的結點和對應的分枝
四、K近鄰算法
對數據空間內的樣本,可提出相似樣本假設表征上相近的樣本應該屬于同一個類別
K近鄰思想:用K個最相似樣本的類別來預測未知樣本的類別(投票方法)
核心問題:距離度量、K的取值
距離度量:
基本方法:歐式距離
離散0/1向量,則可使用漢明距離(Hamming)代替
除此之外,對于文本而言(如采用TF-IDF),可使用余弦相似度
K的取值:
K近鄰分類的效果同樣嚴重依賴于 K 的取值(即鄰居的數量)
K太小,容易受噪聲干擾;
K太大,可能導致錯誤涵蓋其他類別樣本
五、支持向量機(SVM)
內容有限,具體內容可以去西瓜書了解,帶大家過一下