機器學習概述與 KNN 算法詳解

引言

在當今數字化時代，機器學習作為人工智能的核心技術，正深刻改變著我們的生活與工作方式。從日常的智能推薦到復雜的醫療診斷，機器學習技術的應用無處不在。本文將從機器學習的基本概念出發，闡述其核心目標，進而聚焦經典算法 ——KNN 算法，深入解析其原理及常用的距離計算方法。

一、機器學習是什么

機器學習是一門讓計算機能夠從數據中自動學習規律，并利用這些規律對未知數據進行預測或決策的學科。它不同于傳統的編程方式（通過人工編寫固定規則完成任務），而是通過算法從大量數據中 “自主學習”，不斷優化模型，提升處理任務的能力。

例如，在垃圾郵件識別中，機器學習模型會分析大量已標記的郵件數據（包含垃圾郵件和正常郵件），學習垃圾郵件的特征（如特定關鍵詞、發送頻率等），之后便能自動判斷新郵件是否為垃圾郵件。(利用數學中的公式，總結出數據中的規律)

二、機器學習要干什么

機器學習的核心目標是通過對數據的分析與學習，構建能夠解決實際問題的模型，主要實現以下幾類任務：

預測任務：基于歷史數據預測未來趨勢，如股票價格預測、天氣預報等。
分類任務：將數據劃分到已知的類別中，如疾病診斷（判斷患者是否患病）、圖像識別（識別圖片中的物體類別）。
聚類任務：將未知類別的數據按相似度分組，如用戶分群（找出具有相似消費習慣的用戶群體）。
關聯分析：發現數據中隱藏的關聯關系，如 “購買面包的用戶通常會購買牛奶” 這類購物籃分析。（收集數據——建立數學模型訓練——預測）

三、機器學習算法簡介

機器學習算法是實現上述目標的工具，根據學習方式的不同，可大致分為以下幾類：

監督學習：利用帶有標簽的訓練數據（即已知輸入和對應輸出）進行學習，如分類、回歸問題。
無監督學習：處理無標簽數據，通過挖掘數據本身的結構或規律完成任務，如聚類、降維。
半監督學習：結合少量標簽數據和大量無標簽數據進行學習，適用于標簽獲取成本較高的場景。
強化學習：通過與環境的交互，基于 “獎勵” 或 “懲罰” 信號不斷調整行為策略，以實現長期收益最大化，如游戲 AI、機器人控制。

四、KNN 算法詳解

4.1 KNN 算法是什么

KNN（K-Nearest Neighbors，K 近鄰算法）是一種簡單直觀的監督學習算法，其核心思想是 “近朱者赤，近墨者黑”—— 對于一個未知類別的新樣本，通過計算它與訓練集中所有樣本的距離，找出距離最近的 K 個樣本（即 “K 個近鄰”），然后根據這 K 個近鄰的類別，通過多數投票法（分類任務）或平均值法（回歸任務）確定新樣本的類別或數值。

KNN 算法的關鍵要素：

K 值的選擇：K 值過小，模型易受噪聲影響，泛化能力差；K 值過大，計算成本增加，可能忽略局部特征。
距離度量：不同的距離計算方式會影響 “近鄰” 的判斷，需根據數據特點選擇。

KNN 算法的優缺點：

優點：原理簡單，易于實現，對異常值不敏感（當 K 較大時）。
缺點：計算復雜度高（需與所有樣本計算距離），對高維數據不友好（“維度災難”）。

KNN

研究方向——1.回歸 2.分類

示意圖：假設有兩類數據（紅色三角形、藍色圓形），對于新樣本（綠色正方形），當 K=3 時，最近的 3 個樣本中有 2 個藍色圓形，因此新樣本被判定為藍色圓形類別。

五、兩點之間的 9 種距離計算方法

設兩個 n 維樣本點分別為\(A(x_1,x_2,...,x_n)\)和\(B(y_1,y_2,...,y_n)\)，以下為 9 種常用距離的計算方式：

距離名稱	定義	計算公式	適用場景
1. 歐氏距離（Euclidean Distance）	最常用的距離度量，衡量兩點在 n 維空間中的直線距離	\(d(A,B)=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}\)	適用于連續型數據，且各維度單位一致的場景（如身高、體重等）
2. 曼哈頓距離（Manhattan Distance）	衡量兩點在坐標軸上的絕對距離之和，類似城市中沿街道行走的距離	\(d(A,B)=\sum_{i=1}^{n}\|x_i-y_i\|\)	適用于高維數據或關注坐標軸方向差異的場景（如路徑規劃）
3. 切比雪夫距離（Chebyshev Distance）	衡量兩點在各維度上坐標差值的最大值	\(d(A,B)=\max(\|x_i-y_i\|)\)	適用于需關注最大差異維度的場景（如棋盤上的步數計算）
4. 閔可夫斯基距離（Minkowski Distance）	歐氏距離和曼哈頓距離的推廣，通過參數 p 控制距離形式	\(d(A,B)=(\sum_{i=1}^{n}\|x_i-y_i\|^p)^{\frac{1}{p}}\)	當 p=1 時為曼哈頓距離，p=2 時為歐氏距離，靈活性高
5. 標準化歐氏距離（Standardized Euclidean Distance）	對數據標準化后計算的歐氏距離，消除維度單位差異影響	\(d(A,B)=\sqrt{\sum_{i=1}^{n}(\frac{x_i-y_i}{s_i})^2}\)，其中\(s_i\)為第 i 維數據的標準差	適用于各維度單位不同或方差差異大的數據（如身高 cm 與體重 kg）
6. 馬氏距離（Mahalanobis Distance）	考慮數據分布的距離，消除維度相關性和單位影響	\(d(A,B)=\sqrt{(A-B)^T\Sigma^{-1}(A-B)}\)，其中\(\Sigma\)為樣本協方差矩陣	適用于存在多重共線性的數據（如不同特征間有相關性的場景）
7. 余弦距離（Cosine Distance）	衡量兩向量的夾角余弦值，側重方向而非長度	\(d(A,B)=1-\frac{\sum_{i=1}^{n}x_iy_i}{\sqrt{\sum_{i=1}^{n}x_i^2}\sqrt{\sum_{i=1}^{n}y_i^2}}\)	適用于文本分類、圖像檢索等關注特征方向的高維數據
8. 漢明距離（Hamming Distance）	衡量兩個等長字符串中對應位置字符不同的數量（離散特征）	若為二進制數據，\(d(A,B)=\sum_{i=1}^{n}\|x_i-y_i\|\)（\(x_i,y_i\)為 0 或 1）	適用于字符串匹配、二進制數據分類（如 DNA 序列比對）
9. 杰卡德距離（Jaccard Distance）	基于杰卡德相似系數的距離，衡量兩個集合的差異程度	\(d(A,B)=1-\frac{\|A\cap B\|}{\|A\cup B\|}\)，其中\(\|A\cap B\|\)為交集元素數，\(\|A\cup B\|\)為并集元素數	適用于集合型數據（如用戶興趣標簽、物品特征集合）

總結

機器學習通過數據驅動的方式實現了計算機的 “自主學習”，而 KNN 算法作為經典的機器學習算法，憑借其簡單直觀的原理在分類、回歸任務中得到廣泛應用。理解 KNN 算法的核心 —— 距離度量，對于正確應用該算法至關重要。在實際場景中，需根據數據特點選擇合適的距離計算方法，以提升模型性能。隨著技術的發展，機器學習算法將持續優化，為更多領域提供智能化解決方案。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/91011.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/91011.shtml
英文地址，請注明出處：http://en.pswp.cn/web/91011.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！