本文包含什么?
- 項目運行的方式
- 項目代碼,自己實現KNN算法以及樸素貝葉斯算法.
- 代碼介紹
- 運行有問題? csdn上后臺隨時售后.
項目說明
本文主要是自己從0實現KNN算法以及樸素貝葉斯算法.然后使用英文垃圾郵件數據集進行垃圾郵件分類.常見的代碼均調用sklearn庫來實現,本文自行實現.
首先看模型指標對比:
算法 | 準確率 |
---|---|
KNN | 98.33% |
貝葉斯 | 98.00% |
算法介紹
KNN
原理很簡單:選擇樣本數據集中前k個最相似的數據,這就是k-近鄰算法中k的出處,通常k是不大于20的整數。最后,選擇k個最相似數據中出現次數最多的分類,作為新數據的分類。
對應的核心算法:
def classifyKNN(inX, dataSet, lab