什么是Jaccard 相似度(Jaccard Similarity)

文章目錄

      • ? 定義:
      • 📌 取值范圍:
      • 🔍 舉例說明:
      • 🧠 應用場景:
      • ?? 局限性:
      • 💡 擴展概念:

Jaccard 相似度(Jaccard Similarity) 是一種用于衡量兩個集合之間相似程度的指標,廣泛應用于信息檢索、文本挖掘、推薦系統和自然語言處理等領域。


? 定義:

給定兩個集合 AAABBBJaccard 相似度定義為它們的交集大小與并集大小的比值:

Jaccard?Similarity(A,B)=∣A∩B∣∣A∪B∣\text{Jaccard Similarity}(A, B) = \frac{|A \cap B|}{|A \cup B|} Jaccard?Similarity(A,B)=ABAB?

  • ∣A∩B∣|A \cap B|AB:集合 AAABBB共同元素的數量
  • ∣A∪B∣|A \cup B|AB:集合 AAABBB所有不同元素的總數

📌 取值范圍:

  • Jaccard 相似度的取值范圍在 0 到 1 之間:
    • 0:表示兩個集合沒有交集,完全不相似;
    • 1:表示兩個集合完全相同,完全相似。

🔍 舉例說明:

假設:

  • A={apple,banana,orange}A = \{\text{apple}, \text{banana}, \text{orange}\}A={apple,banana,orange}
  • B={banana,grape,orange,pear}B = \{\text{banana}, \text{grape}, \text{orange}, \text{pear}\}B={banana,grape,orange,pear}

那么:

  • A∩B={banana,orange}A \cap B = \{\text{banana}, \text{orange}\}AB={banana,orange} → 大小為 2
  • A∪B={apple,banana,orange,grape,pear}A \cup B = \{\text{apple}, \text{banana}, \text{orange}, \text{grape}, \text{pear}\}AB={apple,banana,orange,grape,pear} → 大小為 5

計算:

Jaccard?Similarity(A,B)=25=0.4\text{Jaccard Similarity}(A, B) = \frac{2}{5} = 0.4 Jaccard?Similarity(A,B)=52?=0.4


🧠 應用場景:

  1. 文本相似度比較:將兩段文本視為詞集合,計算它們的 Jaccard 相似度,判斷內容是否相似。
  2. 關鍵詞匹配:比較兩個文檔或查詢的關鍵詞集合之間的重合度。
  3. 推薦系統:評估用戶興趣集合之間的相似性。
  4. 模型輸出分析:如你之前提到的內容中,用來比較 LLM 不同層前后映射出的 top-k token 的變化情況。
  5. 數據去重/聚類:識別重復或高度相似的數據項。

?? 局限性:

  • 不考慮頻率:Jaccard 只關心元素是否存在,不考慮出現次數(即它是基于集合而不是多重集合或多袋模型 bag-of-words)。
  • 對大規模集合計算效率低:當集合很大時,計算交集和并集可能較慢。

💡 擴展概念:

  • Jaccard 距離:用來衡量兩個集合的不相似程度,公式為:
    Jaccard?Distance=1?Jaccard?Similarity\text{Jaccard Distance} = 1 - \text{Jaccard Similarity} Jaccard?Distance=1?Jaccard?Similarity

  • Tanimoto 系數:有時也被稱作 Jaccard 相似度,但通常用于向量空間中的一種擴展形式。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88707.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88707.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88707.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ragflow_多模態文檔解析與正文提取策略

多模態文檔解析與正文提取策略 RAGflow的文檔解析系統位于deepdoc/parser/目錄下,實現了對多種文檔格式的統一解析處理。該系統采用模塊化設計,針對不同文檔格式提供專門的解析器,并通過視覺識別技術增強解析能力。本文將深入探討RAGflow的文檔解析系統的設計原理、實現細節…

數據結構棧的實現(C語言)

棧的基本概念棧是一種特殊的線性存儲結構,是一種操作受到限制的線性表,特殊體現在兩個地方:1、元素進棧出棧的操作只能從同一端完成,另一端是封閉的,通常將數據進棧叫做入棧,壓棧等,出棧叫做彈棧…

【springboot】IDEA手動創建SpringBoot簡單工程(無插件)

大致步驟 創建Maven工程 引入依賴 提供啟動類 詳細教程 創建Maven工程 修改pom.xml文件 添加父節點 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.5.3</…

獨立開發第二周:構建、執行、規劃

一 第二周的獨立開發旅程落下帷幕。相較于第一周的適應&#xff0c;本周的核心詞是“聚焦”與“執行”。 目標非常明確&#xff1a;在產品開發上取得進展&#xff1b;在個人工作節奏上&#xff0c;將上周初步形成的框架進行實踐與固化。 同時&#xff0c;為至關重要的自媒體運營…

在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模塊的技術報告

在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模塊的技術報告 1. 引言 1.1 項目背景 目標檢測是計算機視覺領域的核心任務之一,而YOLO(You Only Look Once)系列算法因其出色的速度和精度平衡而廣受歡迎。YOLO-World是YOLO系列的最新發展,專注于開放詞匯目標…

從UI設計到數字孿生實戰應用:構建智慧金融的風險評估與預警平臺

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩!一、引言&#xff1a;傳統金融風控的 “滯后困境” 與數字孿生的破局之道金融風險的隱蔽性、突…

【Linux】權限相關指令

前言&#xff1a; 上兩篇文章我們講到了&#xff0c;關于Linux中的基礎指令。 【Linux】初見&#xff0c;基礎指令-CSDN博客【Linux】初見&#xff0c;基礎指令&#xff08;續&#xff09;-CSDN博客 本文我們來講Linux中關于權限中的一些指令 shell命令 Linux嚴格來說是一個操…

前端學習3--position定位(relative+absolute+sticky)

繼上一篇&#xff0c;做下拉菜單的時候&#xff0c;涉及到了position&#xff0c;這篇就來學習下~先看下position在下拉菜單中的應用&#xff1a;一、關鍵代碼回顧&#xff1a;/* 下拉菜單容器 */ .dropdown {position: relative; /* ? 關鍵父級 */ }/* 下拉內容&#xff08;默…

APP Inventor使用指南

APP Inventor使用指南一、組件介紹二、邏輯設計設計方法&#xff1a;設計實例&#xff08;參考嘉立創教程&#xff09;點擊跳轉 &#xff1a; app inventor&#xff08;點不開的話需要&#x1fa84;&#x1fa84;&#x1fa84;&#x1fa84;&#x1fa84;&#xff09; 一、組…

SpringAI實現保存聊天記錄到redis中

redis相關準備添加依賴我利用redission來實現<dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.37.0</version> </dependency>添加配置文件spring:redis:database: 5host: 127.0.0.1…

Unity中使用EzySlice實現模型切割與UV控制完全指南

引言 在Unity中實現3D模型的動態切割是一個常見的需求&#xff0c;無論是用于游戲特效、建筑可視化還是醫療模擬。本文將全面介紹如何使用EzySlice插件實現高效的模型切割&#xff0c;并深入探討如何通過Shader Graph精確控制切割面的UV映射。 第一部分&#xff1a;EzySlice基…

【c++學習記錄】狀態模式,實現一個登陸功能

狀態模式建議為對象的所有可能狀態新建一個類&#xff0c; 然后將所有狀態的對應行為抽取到這些類中。 原始對象被稱為上下文 &#xff08;context&#xff09;&#xff0c; 它并不會自行實現所有行為&#xff0c; 而是會保存一個指向表示當前狀態的狀態對象的引用&#xff0c;…

Docker 搭建 Harbor 私有倉庫

1 部署 Harbor 注意&#xff1a;docker、docker-compose、Harbor的版本是否適配&#xff0c;這里使用的版本如下表&#xff1a; Docker版本Docker Compose版本Harbor版本v19.09.8v1.29.2v2.8.2 1.1 安裝 docker-compose # 下載 docker-compose 1.29.2 版本 curl -L "h…

C++類模板繼承部分知識及測試代碼

目錄 0.前言 1.類模板基本使用 2.類模板繼承 2.1類模板繼承過程中的模板參數 情況1&#xff1a;父類非模板&#xff0c;子類為模板 情況2&#xff1a;父類模板&#xff0c;子類為非模板 情況3&#xff1a;父類模板&#xff0c;子類為模板 3.STL中的模板類分析 3.1STL中…

Laravel + Python 圖片水印系統:實現與調試指南

前言 本系統通過 Laravel 作為前端框架接收用戶上傳的圖片&#xff0c;調用 Python 腳本處理水印添加&#xff0c;最終返回處理后的圖片。這種架構充分利用了 Laravel 的便捷性和 Python 圖像處理庫的強大功能。 一、Python 水印處理腳本 from PIL import Image, ImageEnhance …

【速通RAG實戰:企業應用】25、從數智化場景看RAG:是臨時方案,還是終局架構?

引言&#xff1a;RAG為何成為數智化場景的"必爭之地"&#xff1f; 當ChatGPT在2023年掀起生成式AI浪潮時&#xff0c;一個矛盾逐漸凸顯&#xff1a;大語言模型&#xff08;LLM&#xff09;能生成流暢文本&#xff0c;卻常陷入"幻覺"&#xff08;虛構事實&a…

[Python] -實用技巧篇1-用一行Python代碼搞定日常任務

在日常開發或數據處理過程中,我們常常為了一些簡單的小任務寫出數行代碼。但實際上,Python 提供了大量強大且簡潔的語法糖和標準庫工具,讓你用“一行代碼”輕松搞定復雜操作。 本文將通過多個典型場景展示如何用“一行 Python 代碼”高效完成常見任務。 一、文件操作:快速…

單細胞入門(1)——介紹

一、單細胞轉錄組測序流程介紹 單細胞測序能夠探索復雜組織中單個細胞的不同生物學特性&#xff0c;幫助我們認識細胞與細胞之間的差異。這些檢測方法有助于研究細胞譜系、細胞功能、細胞分化、細胞增殖和細胞應答&#xff0c;提升我們對復雜生物系統的理解&#xff0c;包括腫…

數據結構與算法之美:跳表

Hello大家好&#xff01;很高興我們又見面啦&#xff01;給生活添點passion&#xff0c;開始今天的編程之路&#xff01; 我的博客&#xff1a;<但凡. 我的專欄&#xff1a;《編程之路》、《數據結構與算法之美》、《題海拾貝》、《C修煉之路》 歡迎點贊&#xff0c;關注&am…

從0設計一個短鏈接服務:如何實現盡可能短、可變長的短網址系統?

從 0 設計一個短鏈接服務&#xff1a;如何實現盡可能短、可變長的短網址系統&#xff1f; 在日常生活中&#xff0c;我們經常在短信、微博、廣告營銷中看到“短鏈接”&#xff0c;如&#xff1a; https://t.cn/EXaQ4xY https://bit.ly/3Yp9zJk相比冗長復雜的原始 URL&#xff0…