十二、聚類算法——相似度測量

兩套學習資料都類似,可參考聚類算法實戰

一、聚類

聚類:物以類聚,人以群分,是無監督學習中的一種。
沒有y,只有x,把不同的x根據相似度自動的聚成好多堆兒
本質上,N個樣本,映射到K個簇中,每個簇中至少含有一個樣本,一個樣本只屬于一個簇
最基本:先給定一個初始劃分,迭代改變樣本和簇的隸屬關系,每次都比前一次好

二、相似度用于場景

Ⅰ,系統推薦

兩點在二維空間距離公式:在這里插入圖片描述
兩點在三維空間距離公式:在這里插入圖片描述
閔可夫斯基距離公式:在這里插入圖片描述
當p=2時,即為歐氏距離;當p=1時,即為曼哈頓距離(Block Distance);當p趨近于∞,即為切比雪夫距離。

Jaccard similarity coefficient,用于比較有限樣本集之間的相似性與差異性
Jaccard系數值越大,樣本相似度越高
在這里插入圖片描述
例如:狗蛋兒喜歡1,2,3,4,5
系統給狗蛋兒推薦方案①[1,2,3,6,7,8],方案②[1,2,3]
這兩個方案按個推薦的效果好?此時就可以通過Jaccard相似系數來進行比較
方案①:3/8、方案②:3/5
故方案②效果更佳

在這里插入圖片描述

集合A和集合B相交越多,它的相似性越強,當然要考慮它們并在一起的大小,因為集合越大越可能相交的越多,這就有了Jaccard相似系數
可以度量集合,考慮熱門商品
空間嵌入點的問題,有時會用歐式距離,有時會用余弦距離,度量文檔相似性

Ⅱ,網頁去重、防考試作弊、論文抄襲檢查等

在這里插入圖片描述

Ⅲ,余弦相似度

余弦距離,余弦相似度
在這里插入圖片描述
在這里插入圖片描述
余弦值的范圍在[-1,1]之間,值越趨近于1,代表兩個向量的方向越接近;越趨近于-1,他們的方向越相反;越趨近于0,這兩個向量幾乎正交
最常見的應用是計算文本相似度,將兩個文本根據他們的詞,來建立兩個向量,計算這兩個向量的余弦值,就可以知道這兩個文本在統計學方法中他們的相似度情況
文檔相似度測量考慮推薦SimHash
余弦其實就是Jaccard的分母,看重的是相同的部分,如果是歐氏距離,看重的是差異

Ⅳ,Person相關系數(只能測量線性相關性,1為最相似)和相對熵

①Person相關系數

在這里插入圖片描述
在這里插入圖片描述
當該公式中的X^和Y ^為零時,就變成了余弦相似度

兩個變量之間的皮爾遜相關系數定義為:兩個變量之間的協方差(分子)和標準差(分母)的商

②相對熵

P和Q相同,相對熵為0
在這里插入圖片描述
相對熵為交集∩,交叉熵為并集∪

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/377749.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/377749.shtml
英文地址,請注明出處:http://en.pswp.cn/news/377749.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

操作系統磁盤調度_磁盤調度| 操作系統

操作系統磁盤調度磁盤調度 (Disk Scheduling) One of the major duties of the operating is that, to use the hardware orderly and accurately. For disk drives, it has a duty of having a fast access time and disk bandwidth. Generally, bandwidth is the total numbe…

leetcode 344. 反轉字符串 541. 反轉字符串 II 雙指針解

目錄leetcode 344.反轉字符串1、題目2、思考leetcode 541. 反轉字符串 II1、題目2、思考leetcode 344.反轉字符串 1、題目 2、思考 典型的雙指針解法: 一個從前往后,一個從后往前,指針對應的交換即可。 class Solution { public:void reve…

關于銀聯在線支付和短彩信接口的開發——總結

9月份開始做用二維碼做閉環的一個在線訂購景區門票的項目,其中這樣做是很好的,用二維碼連接了線上與線下的交易和兌券。銀聯在線支付接口(asp.net cs)做的很好,方便調用開發。就是處理回值的時候得找個更好的方法才能顯…

十三、聚類算法

六、聚類算法實戰 一、聚類 聚類是一種無監督的機器學習任務,可以自動將數據劃分為類cluster,因此聚類分組不需要提前被告知所劃分的組應該是什么樣子的。因為我們甚至可能都不知道我們在尋找什么,所以聚類是用于知識發現而不是預測。 聚類…

pl/sql中的賦值運算符_如何在SQL中使用AND / OR運算符?

pl/sql中的賦值運算符Basically, AND / OR operator is used to retrieving the record from the database. If we give more than one conditions by using AND Operator, then it retrieves the data from the database when both the conditions are true. And if we use OR…

【C++grammar】名字隱藏與重定義

目錄1、繼承中的名字隱藏1.基類同名函數被隱藏的現象描述2.問題理解3.避免現象2、重定義1.現象描述2.重定義與重載的區別3.能否使用 using 將基類成員引入到派生類定義中1、繼承中的名字隱藏 1.基類同名函數被隱藏的現象描述 在學習變量作用域的時候知道,全局變量…

javascript 核心概念(1)-數據類型

語法 (1)到現在為止,大多數瀏覽器也還是支持到ECMAScript 第三版的標準。 核心概念就是一個語言的基本工作原理,涉及語法,操作符,數據類型。 (2)javascript的一切--變量,…

注解的力量 -----Spring 2.5 JPA hibernate 使用方法的點滴整理(五):使用@Component 來簡化bean的配置...

雖然我們可以通過 Autowired 在 Bean 類中使用自動注入功能&#xff0c;但是 Bean 還是在 applicatonContext.xml 文件中通過 <bean> 進行定義 —— 在前面的例子中&#xff0c;我們還是在配置文件中定義 Bean&#xff0c;通過 Autowired為 Bean 的成員變量、方法形參或構…

c語言條件語句示例_PHP中的條件語句和示例

c語言條件語句示例PHP條件語句 (PHP Conditional Statements) While coding, you may get to a point where your results can only be gotten when a condition is valid. We make use of conditional statements. Conditional statements are statements that can only be ex…

十四、聚類實戰——圖片壓縮

對同一像素點值的像素點歸為一類&#xff0c;通過平均值進行取代&#xff0c;從而將圖像進行壓縮并且保證圖像盡可能不失真&#xff0c;關鍵信息仍保留。 from PIL import Image import numpy as np from sklearn.cluster import KMeans import matplotlib import matplotlib.…

步驟菜單使用css3實現

代碼庫&#xff1a;http://thecodeplayer.com/walkthrough/css3-breadcrumb-navigation 有興趣的可以看一下&#xff0c;看完絕對讓你大飽眼福。首先截圖&#xff0c;看效果看著很酷吧&#xff0c;其實實現起來也不是很難&#xff0c;里邊需要用的技術有:box-shadow,計數器&…

【嵌入式系統】STM32串口通信的四種方法(基于RTOS)

目錄1、串行通信的基本參數2、輪詢方式代碼效果3、中斷方式代碼效果4、中斷加上時間戳方式代碼及效果5、DMA空閑中斷方式接收數據1、串行通信的基本參數 串行端口的通信方式是將字節拆分成一個接一個的位再傳輸出去&#xff0c;接收方再將此一個一個的位組合成原來的字符&…

大數據 java 代碼示例_Java變量類型與示例

大數據 java 代碼示例Java變量 (Java variables) Variables are the user-defined names of the memory blocks, and their values can be changed at any time during program execution. They play an important role in a class/program as they help in to store, retrieve…

畢業設計

位置跟蹤系統工作原理&#xff08;博聞網&#xff09; http://science.bowenwang.com.cn/location-tracking.htm Azuma是這樣定義增強現實的 :虛實結合 ,實時交互 ,三維注冊 環境搭建&#xff1a; http://cvchina.net/thread-173-1-1.html http://blog.csdn.net/jdh99/article/…

十五、聚類的評估

一、Given Label 均一性homogeneity&#xff1a;一個簇中只包含一個類別樣本&#xff0c;Precision 完整性completeness&#xff1a;同類別樣本被歸到同一個簇中&#xff0c;Recall 將均一性h和完整性c進行結合(二者加權平均)得到V-Measure&#xff0c;&#xff0c;β為權重 …

SQL SERVER作業的Schedules淺析

SQL SERVER作業的計劃&#xff08;Schedules&#xff09;&#xff0c;如果你沒仔細研究過或沒有應用一些復雜的計劃&#xff08;Schedules&#xff09;&#xff0c;那么你覺得SQL SERVER作業的計劃(Schedules)非常好用&#xff0c;也沒啥問題&#xff0c;但是我要告訴你一個“殘…

leetcode 51. N 皇后 思考分析

目錄題目思考AC代碼題目 n 皇后問題研究的是如何將 n 個皇后放置在 nn 的棋盤上&#xff0c;并且使皇后彼此之間不能相互攻擊。 思考 首先以N4為例&#xff0c;畫出解空間樹的一部分&#xff1a; 根據模板&#xff1a; void backtracking(參數) {if(終止條件){存放結果…

Django實戰(18):提交訂單

前面的內容已經基本上涵蓋了Django開發的主要方面&#xff0c;我們從需求和界面設計出發&#xff0c;創建模型和修改模型&#xff0c;并通過scaffold作為開發的起點&#xff1b;在scaffold的基礎上重新定制模板&#xff0c;并且通過Model類和Form類對用戶輸入的數據進行校驗。我…

No module named ‘tensorflow.examples‘解決方案

想從tensorflow中導入mnist手寫數字數據集&#xff0c;結果報錯 from tensorflow.examples.tutorials.mnist import input_data import tensorflow.compat.v1 as tf tf.disable_v2_behavior()my_mnist input_data.read_data_sets("MNIST_data_bak/", one_hotTrue)&…

julia example_使用Julia中的Example的sign()函數

julia exampleJulia| sign()函數 (Julia | sign() function) sign() function is a library function in Julia programming language, it returns the sign of the given value in the form of -1/1. sign()函數是Julia編程語言中的庫函數&#xff0c;它以-1 / 1的形式返回給…