機器學習(一）KNN，K近鄰算法（K-Nearest Neighbors）

💡 建議初學者掌握KNN作為理解其他復雜算法（如SVM、決策樹、神經網絡）的基石。

K近鄰算法（K-Nearest Neighbors, KNN）詳解：原理、實踐與優化

K近鄰算法（K-Nearest NeighboKrs，簡稱KNN）是一種經典、直觀且易于實現的監督學習方法，既可用于分類，也可用于回歸。它“懶惰”地存儲所有訓練樣本，直到有新樣本需要預測時才臨時計算，因此也被稱為“懶惰學習算法”。
本文將系統介紹KNN的核心思想、算法流程、距離度量、超參數、優缺點、使用方法與完整Python實戰案例，幫助讀者從理論到實踐全面掌握這一算法。

一、核心思想 🧠

KNN 基于以下假設：

“近朱者赤，近墨者黑”：一個樣本的標簽很可能與其最近鄰的樣本標簽一致。

具體流程：

對新樣本，計算它與訓練集中所有樣本的距離；
選出距離最小的 K 個鄰居；
分類：根據鄰居類別投票（通常為多數投票，但可加權）；
回歸：返回鄰居標簽的平均值或加權平均值。

其中，三個核心超參數影響性能：

K 值
距離度量方式
投票或加權策略

二、算法流程（以分類為例）

準備訓練集與測試集
對測試集中每個新樣本，計算其與所有訓練樣本的距離
對距離排序，選取最近的 K 個鄰居
投票或加權，輸出預測類別
返回所有樣本的預測值（分類／回歸結果）

三、常見距離度量方法

不同的任務場景和數據類型，可能需要不同的距離度量方式：

距離類型	定義	適用場景
歐氏距離（L?）	∑(xi?yi)2\sqrt{\sum (x_i - y_i)^2}	連續特征，標準的距離度量
曼哈頓距離（L?）	(\sum	x_i - y_i
閔可夫斯基距離（L?）	(\left(\sum	x_i - y_i
余弦相似度	x?y∥x∥∥y∥\dfrac{x \cdot y}{\\|x\\|\\|y\\|}	文本或向量空間數據的方向相似度
漢明距離	不同位數數目	分類特征、二進制特征或字符串比較

?? 注意：使用KNN前通常需要對數據做標準化（如Z-score或Min-Max），防止量綱不同導致距離計算失真。

四、KNN的關鍵超參數

1. K值選擇

K太小 → 模型復雜，容易過擬合，對噪聲敏感；
K太大 → 模型過于平滑，可能欠擬合。

通常使用**交叉驗證（GridSearchCV）**選擇合適的K值。

2. 距離度量方式

根據特征類型和數據分布選擇距離函數（見上表）。

3. 權重策略

uniform：每個鄰居權重相同；
distance：距離越近的鄰居權重越大。

4. 最近鄰搜索算法

brute：暴力搜索，適合小規模數據；
kd_tree / ball_tree：適合中等維度（<30）的數據；
高維/大規模數據推薦使用近似搜索庫：如 Faiss、Annoy、ScaNN。

五、KNN的優缺點

? 優點

簡單直觀，易于實現；
無需訓練，可直接使用訓練數據；
天然支持多分類與回歸；
非線性決策邊界處理能力強。

? 缺點

預測時計算量大，難以實時響應；
內存消耗高，需保存全部訓練樣本；
高維數據效果差（維度災難）；
對異常值、數據不平衡敏感。

六、KNN使用方法

發揮knn作用的代碼：

# 創建一個 KNN 分類器對象，設置鄰居數量 k=3
knn = KNeighborsClassifier(n_neighbors=3)# 在訓練集上訓練模型
knn.fit(X_train, y_train)# 在測試集上進行預測
y_pred = knn.predict(X_test)# 評估預測結果的準確率
accuracy = accuracy_score(y_test, y_pred)

核心參數：

n_neighbors
- 類型：整數，默認值為 5。
- 作用：指定用于分類的近鄰數量（即 K 值）。
- 示例：n_neighbors=3表示選擇最近的 3 個樣本進行投票。
weights
- 類型：字符串或可調用函數，默認值為'uniform'。
- 作用：確定近鄰的權重計算方式。
  - 'uniform'：所有近鄰權重相等。
  - 'distance'：權重與距離成反比（距離越近，權重越大）。
  - 自定義函數：需接受距離數組并返回權重數組。
algorithm
- 類型：字符串，可選值為'auto'、'ball_tree'、'kd_tree'、'brute'，默認'auto'。
- 作用：選擇用于計算最近鄰的算法。
  - 'auto'：自動選擇最合適的算法。
  - 'brute'：暴力搜索（適用于小規模數據）。
  - 'kd_tree'：KD 樹（適用于低維數據）。
  - 'ball_tree'：球樹（適用于高維數據）。
leaf_size
- 類型：整數，默認值為 30。
- 作用：控制ball_tree或kd_tree的葉節點大小。
- 影響：較小的值會增加樹的構建時間，但可能提高查詢效率。
p
- 類型：整數，默認值為 2。
- 作用：明可夫斯基距離（Minkowski distance）的參數。
  - p=1：曼哈頓距離（L1 范數）。
  - p=2：歐氏距離（L2 范數）。
  - 其他值：推廣的 Minkowski 距離。

使用案例：

以鳶尾花數據為例（可直接導入數據）完整代碼：

# 導入所需的庫
from sklearn.datasets import load_iris                      # 用于加載鳶尾花數據集
from sklearn.model_selection import train_test_split        # 用于劃分訓練集和測試集
from sklearn.neighbors import KNeighborsClassifier          # K近鄰分類器
from sklearn.metrics import accuracy_score                  # 用于評估模型準確率# 1. 加載鳶尾花數據集（Iris 數據集是一個經典的機器學習分類數據集）
iris = load_iris()          # 加載數據集
X = iris.data               # 特征數據：4個特征（花萼長度、花萼寬度、花瓣長度、花瓣寬度）
y = iris.target             # 標簽數據：3個類別（0=setosa，1=versicolor，2=virginica）# 2. 將數據集劃分為訓練集和測試集
# test_size=0.2 表示20%作為測試集，80%作為訓練集
# random_state=42 保證每次運行劃分方式一致（可復現）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 3. 創建一個 KNN 分類器對象，設置鄰居數量 k=3
knn = KNeighborsClassifier(n_neighbors=3)# 4. 在訓練集上訓練模型
knn.fit(X_train, y_train)# 5. 在測試集上進行預測
y_pred = knn.predict(X_test)# 6. 評估預測結果的準確率
accuracy = accuracy_score(y_test, y_pred)
print("模型在測試集上的準確率：", accuracy)

七、實踐建議與優化技巧

問題類型	優化建議
高維數據（維度災難）	使用 PCA、t?SNE、UMAP 等進行降維處理
類別不平衡	使用加權投票（distance）或 SMOTE 等過采樣方法
大規模訓練樣本	使用 Faiss、Annoy 等近似鄰居搜索庫
實時響應需求	構建索引結構（KD?Tree、Ball?Tree）或 LSH 近似搜索
噪音點/異常值	結合局部加權（如 LOF）、數據清洗與異常檢測
特征不同類型混合	對類別型特征采用合適距離度量（如漢明距離 + 歐氏距離組合）

八、應用場景與適用領域

KNN 雖然簡單，但在以下領域仍有廣泛應用：

推薦系統（基于用戶/物品最近鄰推薦）
圖像檢索（基于特征向量的最近鄰搜索）
異常檢測（判斷樣本是否偏離常見鄰居）
文本分類（TF?IDF 向量 + 余弦相似度）

九、總結與拓展

優點：無訓練過程、易于理解、適用性廣；
挑戰：對計算資源依賴高、受高維影響嚴重；
優化路徑：標準化、降維、加速鄰居搜索、參數調優、類別平衡處理。

KNN憑借其“無需訓練，拿來即用”的特點，是機器學習中最容易理解和實現的算法之一。雖然它在高維、高頻場景中存在計算瓶頸，但通過特征工程、參數調優和搜索優化，KNN依然能夠在推薦系統、圖像檢索、異常檢測、文本分類等任務中大放異彩。

💡 建議初學者掌握KNN作為理解其他復雜算法（如SVM、決策樹、神經網絡）的基石。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/90888.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/90888.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/90888.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！