【機器學習基礎】機器學習入門核心:Jaccard相似度 (Jaccard Index) 和 Pearson相似度 (Pearson Correlation)

在這里插入圖片描述

機器學習入門核心:Jaccard相似度 (Jaccard Index) 和 Pearson相似度 (Pearson Correlation)

      • 一、算法邏輯
        • Jaccard相似度 (Jaccard Index)
        • **Pearson相似度 (Pearson Correlation)**
      • 二、算法原理與數學推導
        • 1. Jaccard相似度公式
        • 2. Pearson相似度公式
      • 三、模型評估中的角色
        • 相似度度量的評估重點
        • 在推薦系統中的評估
      • 四、應用案例
        • Jaccard相似度案例
        • Pearson相似度案例
      • 五、面試題及答案
        • 常見問題:
      • 六、相關論文
      • 七、優缺點對比
      • 總結

一、算法邏輯

Jaccard相似度 (Jaccard Index)
  • 核心思想
    衡量兩個集合的相似性,定義為 交集大小與并集大小的比值。關注樣本間的 共有特征是否存在,忽略具體數值大小。
  • 適用場景
    文本相似度(詞集模型)、推薦系統(用戶行為二值化)、生物信息學(基因序列匹配)。
Pearson相似度 (Pearson Correlation)
  • 核心思想
    衡量兩個變量間的 線性相關程度,通過協方差與標準差的比值計算。關注數值變化的 方向和幅度一致性
  • 適用場景
    推薦系統(用戶評分預測)、金融(資產價格相關性)、生物統計(基因表達量相關性)。

二、算法原理與數學推導

1. Jaccard相似度公式

設集合 A A A B B B,其相似度為:
J ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ J(A, B) = \frac{|A \cap B|}{|A \cup B|} J(A,B)=ABAB?

  • 分子 ∣ A ∩ B ∣ |A \cap B| AB 為共同元素個數
  • 分母 ∣ A ∪ B ∣ = ∣ A ∣ + ∣ B ∣ ? ∣ A ∩ B ∣ |A \cup B| = |A| + |B| - |A \cap B| AB=A+B?AB
  • 值域 [ 0 , 1 ] [0, 1] [0,1],0 表示無交集,1 表示完全相同

擴展形式(加權Jaccard)
J w ( A , B ) = ∑ i min ? ( w A , i , w B , i ) ∑ i max ? ( w A , i , w B , i ) J_w(A, B) = \frac{\sum_i \min(w_{A,i}, w_{B,i})}{\sum_i \max(w_{A,i}, w_{B,i})} Jw?(A,B)=i?max(wA,i?,wB,i?)i?min(wA,i?,wB,i?)?
適用于帶權重的特征(如TF-IDF)。

2. Pearson相似度公式

設變量 X X X Y Y Y 的觀測值分別為 { x 1 , x 2 , . . . , x n } \{x_1, x_2, ..., x_n\} {x1?,x2?,...,xn?} { y 1 , y 2 , . . . , y n } \{y_1, y_2, ..., y_n\} {y1?,y2?,...,yn?},其相關系數為:
ρ X , Y = cov ( X , Y ) σ X σ Y = ∑ i = 1 n ( x i ? x ˉ ) ( y i ? y ˉ ) ∑ i = 1 n ( x i ? x ˉ ) 2 ∑ i = 1 n ( y i ? y ˉ ) 2 \rho_{X,Y} = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} ρX,Y?=σX?σY?cov(X,Y)?=i=1n?(xi??xˉ)2 ?i=1n?(yi??yˉ?)2 ?i=1n?(xi??xˉ)(yi??yˉ?)?

  • x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ?:樣本均值
  • cov ( X , Y ) \text{cov}(X,Y) cov(X,Y):協方差
  • σ X , σ Y \sigma_X, \sigma_Y σX?,σY?:標準差
  • 值域 [ ? 1 , 1 ] [-1, 1] [?1,1]
    • 1 1 1:完全正相關
    • ? 1 -1 ?1:完全負相關
    • 0 0 0:無線性相關

簡化計算形式
ρ X , Y = n ∑ x i y i ? ∑ x i ∑ y i n ∑ x i 2 ? ( ∑ x i ) 2 n ∑ y i 2 ? ( ∑ y i ) 2 \rho_{X,Y} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{\sqrt{n \sum x_i^2 - (\sum x_i)^2} \sqrt{n \sum y_i^2 - (\sum y_i)^2}} ρX,Y?=nxi2??(xi?)2 ?nyi2??(yi?)2 ?nxi?yi??xi?yi??


三、模型評估中的角色

相似度度量的評估重點
  1. 魯棒性

    • Jaccard 對二元噪聲魯棒(如文本拼寫錯誤)
    • Pearson 對數值異常值敏感(需數據標準化)
  2. 可解釋性

    • Jaccard:直觀的集合重疊比例
    • Pearson:明確的方向性(正/負相關)
  3. 計算效率

    • Jaccard: O ( n ) O(n) O(n),僅需統計元素存在性
    • Pearson: O ( n ) O(n) O(n),但需計算均值/協方差
在推薦系統中的評估
相似度適用反饋類型典型指標
Jaccard隱式反饋(點擊/購買)Precision@K, Recall@K
Pearson顯式反饋(評分)RMSE, MAE

四、應用案例

Jaccard相似度案例
  1. 文檔去重

    • 步驟:將文檔轉為詞集 → 計算Jaccard相似度 → 若 J > 0.9 J > 0.9 J>0.9 判定為重復
    • 工具:MinHash 加速大規模文檔比較(如搜索引擎爬蟲去重)
  2. 推薦系統

    • 場景:用戶A購買商品集 { A , B , D } \{A,B,D\} {A,B,D},用戶B購買 { A , C , D } \{A,C,D\} {A,C,D}
    • 計算: J = ∣ { A , D } ∣ ∣ { A , B , C , D } ∣ = 0.5 J = \frac{|\{A,D\}|}{|\{A,B,C,D\}|} = 0.5 J={A,B,C,D}{A,D}?=0.5
Pearson相似度案例
  1. 電影推薦(Netflix)

    • 場景:用戶對電影的評分數據
      用戶電影X電影Y電影Z
      Alice534
      Bob42?
    • 計算Alice與Bob的Pearson相似度:
      ρ = ( 5 ? 4 ) ( 4 ? 3 ) + ( 3 ? 4 ) ( 2 ? 3 ) ( 5 ? 4 ) 2 + ( 3 ? 4 ) 2 ( 4 ? 3 ) 2 + ( 2 ? 3 ) 2 = 1 + 1 2 2 = 1 \rho = \frac{(5-4)(4-3) + (3-4)(2-3)}{\sqrt{(5-4)^2 + (3-4)^2} \sqrt{(4-3)^2 + (2-3)^2}} = \frac{1+1}{\sqrt{2}\sqrt{2}} = 1 ρ=(5?4)2+(3?4)2 ?(4?3)2+(2?3)2 ?(5?4)(4?3)+(3?4)(2?3)?=2 ?2 ?1+1?=1
    • 預測:Bob對Z的評分可能接近Alice的評分4
  2. 金融相關性分析

    • 計算兩只股票收益率的Pearson相關系數
    • ρ > 0.8 \rho > 0.8 ρ>0.8 表示強正相關(同漲同跌)

五、面試題及答案

常見問題:
  1. Q: Jaccard和Pearson的本質區別是什么?
    A: Jaccard衡量 集合重疊度(存在性),Pearson衡量 數值變化趨勢(線性相關性)。

  2. Q: 何時選用Jaccard而非Pearson?
    A: 當數據為二元特征(如是否購買)或需要忽略數值大小時(如文本關鍵詞匹配)。

  3. Q: Pearson相關系數為0是否意味著變量獨立?
    A: 否!只能說明無線性關系,但可能存在非線性關系(如二次函數)。

  4. Q: 如何處理Pearson對異常值的敏感性問題?
    A

    • 數據標準化(如Z-score)
    • 改用Spearman秩相關(基于排名而非原始值)
    • 移除離群點

六、相關論文

  1. Jaccard相似度

    • 原始論文:Jaccard, P. (1901). “étude comparative de la distribution florale dans une portion des Alpes et des Jura”
    • 優化擴展:Broder, A. Z. (1997). “On the Resemblance and Containment of Documents”(MinHash算法)
  2. Pearson相似度

    • 原始論文:Pearson, K. (1895). “Notes on Regression and Inheritance in the Case of Two Parents”
    • 推薦系統應用:Sarwar, B. et al. (2001). “Item-based Collaborative Filtering Recommendation Algorithms”

七、優缺點對比

相似度優點缺點
Jaccard1. 計算簡單高效;
2. 對二元數據直觀;
3. 不受特征值大小影響
1. 忽略特征權重;
2. 對稀疏數據敏感(分母小)
Pearson1. 捕捉線性關系方向;
2. 可解釋性強;
3. 標準化消除量綱影響
1. 對異常值敏感;
2. 要求數據近似正態分布;
3. 僅反映線性關系

總結

  • Jaccard相似度
    處理 二元特征集合關系 的金標準,適用于文本、圖結構數據。
  • Pearson相似度
    分析 連續變量線性相關性 的核心工具,適用于評分預測、金融分析。
    關鍵選擇依據:數據特征(二元/連續)、分析目標(存在性/趨勢性)、計算效率需求。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907763.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907763.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907763.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Unity3D仿星露谷物語開發57之保存庫存信息到文件

1、目標 保存下面庫存欄中信息到文件中。 2、修改SceneSave.cs腳本 添加2行代碼: 3、修改InventoryManager對象 添加Generate GUID組件。 4、修改InventoryManager.cs腳本 添加繼承自ISaveable 添加屬性信息: private string _iSaveableUniqueID;pub…

測量3D翼片的距離與角度

1,目的。 測量3D翼片的距離與角度。說明: 標注A 紅色框選的區域即為翼片,本示例的3D 對象共有3個翼片待測。L1與L2的距離、L1與L2的角度即為所求的翼片距離與角度。 2,原理。 使用線結構光模型(標定模式&#xff0…

深入理解 SQL 的 JOIN 查詢:從基礎到高級的第一步

在處理數據庫時,我們常常需要從多個表中提取數據。比如想知道一個城市的天氣情況,同時又想知道這個城市的具體位置。這就需要將 weather 表和 cities 表結合起來查詢。這種操作在 SQL 中被稱為 JOIN 查詢。 現在看下兩種表的情況 1.weather 表&#xff…

上傳頭像upload的簡易方法,轉base64調接口的

1.首頁使用el-image顯示數據&#xff0c;用的是轉base64后端返給的 <el-table-column prop"avatar" align"center" label"頭像"><template #default"scope"><el-image style"height: 40px;width: 40px;" :sr…

[AD] CrownJewel-1 Logon 4799+vss-ShadowCopy+NTDS.dit/SYSTEM+$MFT

QA QA攻擊者可以濫用 vssadmin 實用程式來建立卷影快照&#xff0c;然後提取 NTDS.dit 等敏感檔案來繞過安全機制。確定卷影複製服務進入運作狀態的時間。2024-05-14 03:42:16建立卷影快照時&#xff0c;磁碟區複製服務會使用機器帳戶驗證權限並列舉使用者群組。找到卷影複製過…

rtpmixsound:實現音頻混音攻擊!全參數詳細教程!Kali Linux教程!

簡介 一種將預先錄制的音頻與指定目標音頻流中的音頻&#xff08;即 RTP&#xff09;實時混合的工具。 一款用于將預先錄制的音頻與指定目標音頻流中的音頻&#xff08;即 RTP&#xff09;實時混合的工具。該工具創建于 2006 年 8 月至 9 月之間。該工具名為 rtpmixsound。它…

GitHub 趨勢日報 (2025年05月28日)

&#x1f4ca; 由 TrendForge 系統生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日報中的項目描述已自動翻譯為中文 &#x1f4c8; 今日獲星趨勢圖 今日獲星趨勢圖 2379 agenticSeek 1521 computer-science 841 n8n 577 langflow 351 qlib 282 skt…

threejsPBR材質與紋理貼圖

1. PBR材質簡介 本節課沒有具體的代碼&#xff0c;就是給大家科普一下PBR材質&#xff0c;所謂PBR就是&#xff0c;基于物理的渲染(physically-based rendering)。 Three.js提供了兩個PBR材質相關的APIMeshStandardMaterial和MeshPhysicalMaterial,MeshPhysicalMaterial是Mes…

Android 12系統源碼_多屏幕(四)自由窗口模式

一、小窗模式 1.1 小窗功能的開啟方式 開發者模式下開啟小窗功能 adb 手動開啟 adb shell settings put global enable_freeform_support 1 adb shell settings put global force_resizable_activities 11.2 源碼配置 copy file # add for freedom PRODUCT_COPY_FILES …

C# 將HTML文檔、HTML字符串轉換為圖片

在.NET開發中&#xff0c;將HTML內容轉換為圖片的需求廣泛存在于報告生成、郵件內容存檔、網頁快照等場景。Free Spire.Doc for .NET作為一款免費的專業文檔處理庫&#xff0c;無需Microsoft Word依賴&#xff0c;即可輕松實現這一功能。本文將深入解析HTML文檔和字符串轉圖片兩…

【HTML-15.2】HTML表單按鈕全面指南:從基礎到高級實踐

表單按鈕是網頁交互的核心元素&#xff0c;作為用戶提交數據、觸發操作的主要途徑&#xff0c;其重要性不言而喻。本文將系統性地介紹HTML表單按鈕的各種類型、使用場景、最佳實踐以及高級技巧&#xff0c;幫助開發者構建更高效、更易用的表單交互體驗。 1. 基礎按鈕類型 1.1…

吳恩達MCP課程(4):connect_server_mcp_chatbot

目錄 完整代碼代碼解釋1. 導入和初始化2. 類型定義3. MCP_ChatBot 類初始化4. 查詢處理 (process_query)5. 服務器連接管理6. 核心特性總結 示例 完整代碼 原課程代碼是用Anthropic寫的&#xff0c;下面代碼是用OpenAI改寫的&#xff0c;模型則用阿里巴巴的模型做測試 .env 文…

C++內存學習

引入 在實例化對象時&#xff0c;不管是編譯器還是我們自己&#xff0c;會使用構造函數給成員變量一個合適的初始值。 但是經過構造函數之后&#xff0c;我們還不能將其稱為成員變量的初始化&#xff1a; 構造函數中的語句只能稱為賦初值&#xff0c;而不能稱作初始化 因為初…

MySQL 大戰 PostgreSQL

一、底層架構對比 ??維度????MySQL????PostgreSQL????存儲引擎??多引擎支持&#xff08;InnoDB、MyISAM等&#xff09;單一存儲引擎&#xff08;支持擴展如Zheap、Zedstore&#xff09;??事務實現??基于UNDO日志的MVCC基于堆表(Heap)的MVCC??鎖機制??…

基于FPGA的二叉決策樹cart算法verilog實現,訓練環節采用MATLAB仿真

目錄 1.算法運行效果圖預覽 2.算法運行軟件版本 3.部分核心程序 4.算法理論概述 5.算法完整程序工程 1.算法運行效果圖預覽 (完整程序運行后無水印) MATLAB訓練結果 上述決策樹判決條件&#xff1a; 分類的決策樹1 if x21<17191.5 then node 2 elseif x21>17191…

【RAG】RAG綜述|一文了解RAG|從零開始(下)

文章目錄 5. RAG的架構5.1 Naive RAG5.2 Advanced RAG5.2.1 檢索前處理和數據索引技術5.2.2 知識分片技術5.2.3 分層索引5.2.4 檢索技術5.2.4.1 優化用戶查詢5.2.4.2 通過假想文檔嵌入修復查詢和文檔不對稱5.2.4.3 Routing5.2.4.5 自查詢檢索5.2.4.6 混合搜索5.2.4.7 圖檢索5.2…

山東大學軟件學院項目實訓-基于大模型的模擬面試系統-面試官和面試記錄的分享功能(2)

本文記錄在發布文章時&#xff0c;可以添加自己創建的面試官和面試記錄到文章中這一功能的實現。 前端 首先是在原本的界面的底部添加了兩個多選框&#xff08;后期需要美化調整&#xff09; 實現的代碼&#xff1a; <el-col style"margin-top: 1rem;"><e…

FPGA純verilog實現MIPI-DSI視頻編碼輸出,提供工程源碼和技術支持

目錄 1、前言工程概述免責聲明 2、相關方案推薦我已有的所有工程源碼總目錄----方便你快速找到自己喜歡的項目我這里已有的 MIPI 編解碼方案 3、設計思路框架工程設計原理框圖FPGA內部彩條RGB數據位寬轉換RGB數據緩存MIPI-DSI協議層編碼MIPI-DPHY物理層串化MIPI-LVDS顯示屏工程…

LXQt修改開始菜單高亮

開始菜單紅色高亮很難看 mkdir -p ~/.local/share/lxqt/palettes/ mkdir -p ~/.local/share/lxqt/themes/ cp /usr/share/lxqt/palettes/Dark ~/.local/share/lxqt/palettes/Darker cp -p /usr/share/lxqt/themes/dark ~/.local/share/lxqt/themes/darker lxqt-panel.qss L…

DeepSeek-R1-0528-Qwen3-8B 本地ollama離線運行使用和llamafactory lora微調

參考: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 量化版本: https://huggingface.co/unsloth/DeepSeek-R1-0528-Qwen3-8B-GGUF https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally 1、ollama運行 升級ollama版本到0.9.0 支持直接…