機器學習之聚類算法的原理推導及相關知識總結

文章目錄

  • 1、知道幾個關于"差"的概念
  • 2、理解相似度度量的各種方法和相互關系
    • 2.1、歐氏距離
    • 2.2、jaccard相似系數
    • 2.3、余弦相似度
    • 2.4、Pearson相似系數
    • 2.5、相對熵
  • 3、掌握掌握K-Means算法
    • 3.1、知道聚類的思想
    • 3.2、K-Means算法原理
    • 3.3、知道K-Mediods聚類
    • 3.4、如何選取K-means的初始值
    • 3.5、K-means的目標函數
  • 4、知道聚類的衡量效果的指標
  • 5、了解層次聚類的思路和方法
  • 6、理解密度聚類
  • 7、掌握譜聚類的算法
    • 7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)
    • 7.2、幾個概念
    • di代表行列式的第i行的累加值。 鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0 ![這里寫圖片描述](https://img-blog.csdn.net/20180915165407777?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzE2NjMzNDA1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) 7.2、了解譜分析的整體的過程
    • 7.3、其他譜聚類算法
  • 8、知道拉布拉斯矩陣
  • 9、知道標簽傳遞算法

1、知道幾個關于"差"的概念

均值、方差、標準差、協方差:
這里寫圖片描述
協方差就是這樣一種用來度量兩個隨機變量關系的統計量,我們可以仿照方差的定義:
這里寫圖片描述

2、理解相似度度量的各種方法和相互關系

這里寫圖片描述

2.1、歐氏距離

歐氏距離:p=2(又稱為第二范式)。曼哈頓距離:p=1(又稱為第一范式,p為多少也就為第幾范式)。

2.2、jaccard相似系數

用于比較有限樣本集之間的相似性與差異性。Jaccard系數值越大,樣本相似度越高。

2.3、余弦相似度

這里寫圖片描述

2.4、Pearson相似系數

兩個變量之間的協方差和標準差的商。
這里寫圖片描述

  • 當兩個變量的線性關系增強時,相關系數趨于1或-1;
  • 當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;
  • 如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;
  • 如果相關系數等于0,表明它們之間不存在線性相關關系。

2.5、相對熵

又稱為KL散度(Kullback–Leibler divergence,簡稱KLD)[1],信息散度(information divergence),信息增益(information gain)

余弦相似度與Pearson相似系數之間的關系
這里寫圖片描述

3、掌握掌握K-Means算法

3.1、知道聚類的思想

先做一個初始的劃分之后通過迭代來改變樣本和簇之間的隸屬關系。
這里寫圖片描述

3.2、K-Means算法原理

1、選取初始的K個類別中心數據(可以自定義也可以隨機選取K個樣本)
2、對于每個樣本將其標記為距離類別中心最近的類別(對樣本進行聚類處理)。
3、將每個類別中心更新為隸屬于該類別的所有樣本的均值。
4、重復2、3直到類別中心的變化小于某閾值(迭代次數/簇中心變化率/最小平方誤差MSE)
這里寫圖片描述

3.3、知道K-Mediods聚類

類別中心的更新依據從數據的均值改為中位數。
這里寫圖片描述

3.4、如何選取K-means的初始值

首先,知道K-means是初值敏感的(K的輸入很關鍵),也就是每個類別中初始值的選擇是很關鍵的。那么如何有效的選取K-Means的初始值?
得到第一個初始值后求其他點到該初始值的距離時將距離初始值較遠的點作為簇點的概率大些,這樣就可以得到較好的初始簇點。
這里寫圖片描述

3.5、K-means的目標函數

目標函數:求每個簇的樣本點到每個簇中心的距離的加和;求導后就相當于將周圍點的平均值付給μ作為新的簇中心。
這里寫圖片描述

4、知道聚類的衡量效果的指標

均一性和完整性就類似于之前半監督中的準確率和召回率
V-measure:均一性和完整性的加權平均
這里寫圖片描述
了解這個輪廓系數(衡量分類好壞的指標):
先了解上面的簇內不相似系數ai(越小越好):簇內的樣本點i到簇內其他樣本點平均距離。
這里寫圖片描述
簇間不相似系數bi(越大越好):樣本i到某簇的所有樣本的平均距離。
輪廓系數含義見下圖
這里寫圖片描述

5、了解層次聚類的思路和方法

知道這兩個算法AGNES和DIANA
這里寫圖片描述
這里寫圖片描述
這里寫圖片描述

6、理解密度聚類

這里寫圖片描述
了解DBSCAN算法:
算法原理:
1、如果點p的鄰域包含多于m個對象,則創建一個p作為核心對象的新簇。
2、尋找并合并核心對象周圍直接密度可達的對象
3、沒有新點可以更新簇時,算法結束。
這里寫圖片描述

7、掌握譜聚類的算法

7.1、了解譜(方陣的全體特征值稱為方陣的譜)以及譜半徑(最大的特征值稱為譜半徑)

這里寫圖片描述

7.2、幾個概念

di代表行列式的第i行的累加值。
鄰接矩陣W(又稱為相似矩陣)又為對稱矩陣(Wij與Wji的值相等即i、j的距離相等),主對角線的值取0
這里寫圖片描述
7.2、了解譜分析的整體的過程

任意兩個點之間的相似度可以用徑向量機函數來求(也就是兩點之間的距離)
這里寫圖片描述
過程:
1、由度矩陣D和鄰接矩陣W得到對應的L(拉普拉斯矩陣)的特征值行列式。
2、特征值值行列式中的每個λ代表的一個列向量
3、分成K個類別也就是取前K個特征值,如下圖所示。
4、特征值行列式的行向量的第i行也就代表第i個樣本的特征表示
5、有了m個樣本的特征表示就可以利用K-Means來進行聚類處理。

7.3、其他譜聚類算法

不同的譜聚類算法只是對應的拉普拉斯矩陣改變了,其他的步驟都沒變。
這里寫圖片描述

8、知道拉布拉斯矩陣

這里寫圖片描述
這里寫圖片描述

9、知道標簽傳遞算法

這里寫圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456453.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456453.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456453.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Flex 布局教程:語法

Java數組聲明的三種方式 第一種(聲明并初始化): 數據類型[] 數組名{值,值,...}; 例:int[] a {1,2,3,4,5,6,7,8}; 第二種(聲明后賦值): 數據類型[] 數組名 new 數據類型[數組長度]; 數組名[下標1]值…

注意:匿名函數調用直接加載函數名setInterval(move,30)

setInterval要求第一個參數必須是含Javascript命令的字符串或函數對象,所以 setInterval("move()",300) 以及 setInterval(move,300) 這兩個都是正確的。 而 setInterval(move(),300) 當Javascript運行到這個語句時,會立即執行move這個函數&am…

vue import組件的使用

vue import組件的使用 1新建/src/component/firstcomponent.vue <template><div id"firstcomponent"><h1>I am a title.</h1></div> </template>2在app.vue引入組件 并且注冊 <script> import firstcomponent from ./comp…

牽絲戲

余少能視鬼&#xff0c;嘗于雪夜野寺逢一提傀儡翁&#xff0c;鶴發襤褸&#xff0c;唯持一木偶制作極精&#xff0c;宛如嬌女&#xff0c;繪珠淚盈睫&#xff0c;惹人見憐。 時云彤雪狂&#xff0c;二人比肩向火&#xff0c;翁自述曰&#xff1a;少時好觀牽絲戲&#xff0c;耽…

機器學習之EM算法的原理推導及相關知識總結

文章目錄1、知道先驗概率和后驗概率2、了解高斯混合模型GMM3、通過最大似然估計推導EM算法的過程的實例4、EM算法5、知道pLSA模型1、知道先驗概率和后驗概率 先驗概率&#xff08;prior probability&#xff09;是指根據以往經驗和分析得到的概率&#xff08;理解為自定義概率…

jQuery中的on 和事件委派

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>事件</title><style>p{width:100px;height:100px;border: 1px solid gray;}</style><script src"https://code.jquery.com/…

python pip處理

查看pip 版本號 pip --version 升級方法 on linux or os X: pip install -U pip on windows: python -m pip install -U pip 轉載于:https://www.cnblogs.com/yangwithtao/p/6397114.html

js中innerHTML和innerText jQuery中html()和text()的區別

js中innerHTML和innerText的區別innerHTML innerHTML 會將標簽和標簽中的內容否獲取回來 innerHTML .innerHTML ‘<p></p>’; 只會將文本內容解析出來&#xff0c;不會顯示標簽innerText innerText 只會將標簽中的內容獲取回來&#xff0c;不會獲取標簽 innerT…

ECMAScript 6 -- let和const命令

ES6新增了let命令&#xff0c;用來聲明變量。它的用法類似于var&#xff0c;但是所聲明的變量&#xff0c;只在let命令所在的代碼塊內有效。 for (let i 0; i < 10; i) {console.log(i);} 可以執行 for (let i 0; i < 10; i) {}console.log(i); 就會報錯 ncaught Refer…

機器學習之樸素貝葉斯算法的推理及相關知識總結

文章目錄1、樸素貝葉斯公式1.1、貝葉斯公式的應用2、了解貝葉斯網絡2.1、知道什么是貝葉斯網絡2.2、貝葉斯網絡的兩種表示形式2.3、掌握全連接的貝葉斯網絡的公式2.3、知道條件概率表參數個數分析的方法2.4、掌握變量聯合分布概率的公式及含義2.5、知道馬爾科夫模型3、了解D-se…

mysql之外鍵

外鍵的作用,主要有兩個: 一個是讓數據庫自己通過外鍵來保證數據的完整性和一致性 一個就是能夠增加ER圖的可讀性 有些人認為外鍵的建立會給開發時操作數據庫帶來很大的麻煩.因為數據庫有時候會由于沒有通過外鍵的檢測而使得開發人員刪除,插入操作失敗.他們覺得這樣很麻煩 …

Android onLoadFinished與onLoaderReset

onLoadFinished 這個方法是在前面已創建的加載器已經完成其加載過程后被調用&#xff0c;這個方法保證會在應用到加載器上的數據被釋放之前被調用。在此方法中&#xff0c;你必須刪除所有對舊數據的使用(因為它將很快會被刪除)&#xff0c;但是不要自己去釋放它們&#xff0c;因…

HA機制的大數據集群的搭建過程

文章目錄集群規劃1、 準備Linux環境1.1、修改Linux主機名1.3、修改主機名和IP的映射關系1.4、關閉防火墻1.5、ssh免登陸&#xff08;主節點和從節點之間&#xff09;2、 安裝JDK2.1、上傳2.2、解壓jdk2.3、將java添加到環境變量中2.4、刷新配置2.5、驗證3、安裝zookeeper3.1、解…

Linux系統7個運行級別圖文詳解

Linux系統7個運行級別圖文詳解 當安裝linux操作系統時將選擇下列那一個操作 ______ A&#xff0e;選擇 "圖形登錄方式" 設定系統開始運行級為4 B&#xff0e;選擇 "文本登錄方式" 設定系統開始運行級為3 C&#xff0e;選擇 "文本登錄方式" 設定系…

CRISPR基因編輯

2007年&#xff0c;一家酸奶公司發現一種細菌擁有抵御病毒的特殊防御機制。2012年&#xff0c;細菌的這種機制就被科學家闡述清楚&#xff0c;2013年這一領域快速增長。它被視為分子生物學的一個奇跡&#xff0c;事實上&#xff0c;它并非僅對生物學家產生革命的影響&#xff0…

酒店之王

酒店之王 題目描述 XX酒店的老板想成為酒店之王&#xff0c;本著這種希望&#xff0c;第一步要將酒店變得人性化。由于很多來住店的旅客有自己喜好的房間色調、陽光等&#xff0c;也有自己所愛的菜&#xff0c;但是該酒店只有p間房間&#xff0c;一天只有固定的q道不同的菜。 有…

使用IntelliJ IDEA碰到的問題總結

文章目錄問題一&#xff1a;無法創建Java Class文件問題一&#xff1a;無法創建Java Class文件 今天打開項目時&#xff0c;發現右擊新建不了java.class文件&#xff0c;于是嘗試了以下方法&#xff1a; &#xff08;1&#xff09;選擇 File——>Project Structure——>…

為什么shell腳本第一行要#!/bin/sh

告訴操作系統, 此腳本的解釋器為 /bin/sh 這個可執行文件 類似地, 如果你的腳本用 bash, ksh, 解釋, 第一行就應該是#!/bin/bash #!/bin/ksh 之類的 或者, 你自己定義一種腳本語言, 再自己寫個解釋器去執行它, 比如說叫 xshell, 放在 /usr/local/bin 下, 你的腳本第一行就應該是…

linux文本處理常用指令總結

引子 作為一個偏愛windows的程序員&#xff0c;以前做文本處理的時候總是喜歡在windows下用notepad等圖形化工具處理&#xff0c;比如有時需要把linux服務器上一個文件進行一次全局字符串替換這樣簡單的操作&#xff0c;還得把文件down到本地編輯好再傳回去。這兩天買了本《鳥哥…

CSS——基礎選擇器

CSS的基礎選擇器1 CSS指的是層疊樣式表2 CSS規則由兩個主要的部分構成選擇器&#xff0c;以及一條或多條聲明3 選擇器通常是你需要改變樣式的 HTML 元素如h14 每條聲明由一個屬性和一個值組成&#xff0c;每個屬性有一個值&#xff0c;屬性和值被冒號分開5 屬性大于 …