聚類距離度量(保姆級講解,包學會~)

????????在機器學習的聚類中,我們通常需要使用距離來進行類的劃分,或者比較不同類之間的各種距離,這里我們介紹西瓜書上所提出的一些距離計算方式。

? ? ? ? 首先介紹一下距離的一些性質:

西瓜書上給出了四條性質,第一個是非負性,這個好理解,一般來說,距離不會產生負值。下面三條我們結合著例子解釋,如下圖:

????????我們看圖,這里我們就采用大家都熟悉的歐式距離來說明,第二條距離為零,那肯定就是一個點的距離,比如圖中的A到A的距離;第三條的意思就是A到B的距離等于B到A的距離;第四條就是三角形的兩邊之和大于第三邊,反應到圖上就是B到C的距離小于B到A距離加A到C的距離。

????????接下來介紹距離公式,如圖所示:

第一個公式其實是一個總結的公式,我們令p為2就得到大家熟悉的歐式距離了,至于p為1時的曼哈頓距離,我們看下圖:

????????圖中的綠色線就是歐式距離,藍線、紅線、黃線都是曼哈頓距離,并且它們的距離都相等,這是為什么呢?其實,曼哈頓距離就是兩點的橫坐標和縱坐標之差再相加,在現實情況中,曼哈頓距離可能會更常用,因為一般情況下兩點之間總會有遮擋物,需要避開。

????????上述說的都是可以直接對“數”進行計算的,那有些不是數值型變量的,我們又該如何進行計算的呢?比如下圖中的變量:

比如圖中這種變量的,我們又該如何計算距離?西瓜書中給出了一種方案:

書中的公式看著好復雜呀,那我們先不看公式,我們先看一個例子:

????????我們看圖中,假設說在顏色這個屬性上,有紅色和藍色這兩個值,一共有三個分類,我們看,第一個分類里面有七個紅色,10個藍色,紅色總數有11個,藍色總數有17,那在第一個類里面的距離計算就是紅色的個數除以紅色總數,藍色的個數除以藍色總數,就算出來了,以此類推,其他類也是這樣,再把所有值相加就得出VDM了。

????????現在再回頭看上述的公式,是不是就很簡單啦?

最后我們再介紹兩種變形的公式:

第一個公式就是對于那種既有數值變量也有列名變量混合的計算公式,就是兩種公式混合起來。

第二個公式加了一個權重,可能會有某些樣本值得重要程度不同,所以加了權重,其實和前面距離計算公式差不多。

ok,這篇就到這里啦,歡迎小伙伴們批評指正~(圖片來源于西瓜書和網絡)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/35568.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/35568.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/35568.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用命令行創建uniapp+TS項目,使用vscode編輯器

一:如果沒有pnpm,先安裝pnpm 二:使用npx工具和degit工具從 GitHub 上的 dcloudio/uni-preset-vue 倉庫克隆一個名為 vite-ts 的分支,到項目中. 執行完上面命令后,去manifest.json添加appid(自己微信小程序的Id),也可不執行直接下一步,執行pnpm install ,再執行pnpm:dev:mp-weix…

Mysql索引的實現原理,B+Tree,WAL

InnoDB 引擎,每一個數據表有兩個文件 .frm和.ibd,分別為表結構,數據和索引,數據掛在主索引的葉子節點上,此主索引稱為聚簇索引。 MyISAM 引擎,每一個數據表有三個文件.frm和.MYI和.MYD,分別為表…

戀愛腦?No,愛情保鏢還得靠AI!

本文由 ChatMoney團隊出品 你是否曾經想過,為什么我們會在戀愛中變得如此“上頭”,仿佛整個世界都圍繞著那個TA旋轉? 戀愛腦,通常是指一個人在戀愛中過度投入、過度依賴對方,甚至無法自拔的心理狀態。 你會發現自己時時刻刻都在…

TemporalAccessorUtil

通常與Java中的日期和時間處理有關,特別是與java.time包的TemporalAccessor接口相關,TemporalAccessor是與Java 8引入的日期時間API的一部分,用于表示一個不可變的日期時間對象,例如LocalDate,LocalTime,LocalDateTime等; TemporalAccessorUtil可能是一個自定義的工具類&#…

Linux網絡-網絡層IP協議、數據鏈路層以太網協議、ARP協議、ICMP協議和NAT技術

文章目錄 前言一、IP協議IP報頭解析4位版本4位首部長度16位總長度8位生存時間8位協議16位首部校驗和32位源IP地址和32位目標IP地址 網段劃分子網-局域網子網掩碼特殊的IP地址 公網IP地址與私網IP地址運營商路由路由表 數據鏈路層MAC幀格式局域網通信原理局域網數據碰撞 MTU分片…

Docker-compose 實現Prometheus+Grafana監控MySQL及Linux主機

. ├── Grafana │ ├── data │ └── docker-compose.yaml ├── Mysql │ ├── conf │ ├── data │ ├── docker-compose.yaml │ └── logs ├── Mysqld_exporter │ ├── conf │ └── docker-compose.yaml ├── node-exporter │…

HarmonyOS應用開發學習經驗

一、HarmonyOS學習官網 開發者能力認證 HarmonyOS應用開發者基礎認證6月之前的學習資源官網已經關閉過期,大家不要慌,官方更新了最新資源,但是,對于之前沒有學習完的學員不友好,存在知識斷片的現象,建議官…

如何理解:業務架構、應用架構、數據架構、技術架構與系統和復雜度

關于系統的理解 1.1 系統的概述 隨著人類社會的發展,人們面對越來越多的規模巨大、關系復雜、參數眾多地復雜問題,這些問題的復雜度已經遠遠超出人類的理解能力,系統論就是為了分析和解決這些問題而生。我們平時接觸的計算機系統包括軟件系統…

ChatGPT的Mac客戶端正式發布了!Mac用戶有福了

ChatGPT的Mac客戶端正式發布了!Mac用戶有福了 🎉 大家好,我是貓頭虎,科技自媒體博主。今天我帶來了一個超級重磅的消息 📢,就是 ChatGPT 的客戶端終于來了!這對我們所有 Mac 用戶,尤…

2024全國大學生信息安全競賽(ciscn)半決賽(華中賽區)Pwn題解

簡介 前段時間賽前準備把ciscn東北賽區、華南賽區、西南賽區半決賽的題都復現完了。 可惜遇到了華東北賽區的離譜平臺和離譜pwn出題人: 假的awdp(直接傳🐎到靶機,然后連上去cat /flag.txt即可)題型分布不合理&#…

當前的網安行業絕對不是高薪行業

昨天,面試了一個剛畢業兩年的同學小A。第一學歷為某大專,第二學歷為某省地區的本科院校。面試過程表現一般偏下,但動不動就要薪資15K 這個人,我當場就PASS了。主要原因是,并非是否定小A同學的能力,而是他…

VSCode運行前端項目-頁面404

背景: 通過VSCode運行前端本地項目,運行成功后打開本地鏈接:http://1x.xxx.x.xxx:9803/ ,發現打開的頁面重定向到404:http//1xx.xxx.x.xxx:9803/404; 并且控制臺出現:Failed to load resource: …

詳解 ClickHouse 的監控及備份

一、ClickHouse 監控概述 ClickHouse 運行時會將一些個自身的運行狀態記錄到眾多系統表中(system.*)。所以對于 ClickHouse 自身的一些運行指標的監控數據,也主要來自這些系統表。直接查詢這些系統表進行監控會有一些不足之處: 這…

win10修改遠程桌面端口,Windows 10下修改遠程桌面端口及服務器關閉445端口的操作指南

Windows 10下修改遠程桌面端口及服務器關閉445端口的操作指南 一、修改Windows 10遠程桌面端口 在Windows 10系統中,遠程桌面連接默認使用3389端口。為了安全起見,建議修改此端口以減少潛在的安全風險。以下是修改遠程桌面端口的步驟: 1. 打…

IMX6ULL SD卡啟動uboot+kernel+rootfs

目錄 1. 背景說明 2.SD卡啟動 2.1準備條件 2.2 對SD卡分區格式化 2.3 制作sd卡鏡像 3.效果測試 1. 背景說明 網絡上絕大數教程,教大家把uboot燒錄到SD卡,然后uboot啟動后,通過TFTP下載kernel和設備樹,然后通過nfs掛載文件系…

油猴腳本入門

如何支持jquery 首先要在頭部引入外部資源 require https://cdn.bootcss.com/jquery/2.2.1/jquery.js編輯開始前添加一個注釋 /* globals $ */完整代碼 // UserScript // name study_jquery // namespace http://tampermonkey.net/ // version 1.0 // …

ultralytics官方更新 | 添加YOLOv10到ultralytics

💡💡💡本專欄所有程序均經過測試,可成功執行💡💡💡 專欄目錄:《YOLOv8改進有效漲點》專欄介紹 & 專欄目錄 | 目前已有40篇內容,內含各種Head檢測頭、損失函數Loss、…

【C++】類和對象(六)

文章目錄 二、static成員概念面試題一個題目 三、友元友元函數說明 友元類 四、內部類(了解)概念:注意:特性: 五、匿名對象 書接上回: 【C】類和對象(五)隱式類型轉換 二、static成員 01_31 03 12 01 概…

Xcode 手動添加模擬器

在Xcode中下載iOS模擬器很慢,且經常出現下載失敗,需重新從頭開始下載的問題。現了解Xcode 15 和運行環境是分離的,故闡述一下手動添加模擬器的步驟: 官網下載所需模擬器:https://developer.apple.com/download/all/?…

idea項目推送gitee/github

選擇需要的項目創建本地Git倉庫 添加到暫存區 第一次提交 或者點擊這里 寫備注并commit 推送遠程倉庫 填寫地址 解決上圖警告 右鍵打開項目,輸入 git pull origin master –allow-unrelated-historiesgit push -u origin master -f推送成功 idea項目推送github及克…