機器學習-- 聚類

什么是聚類? Clustering

可以簡單地說,對有標注的數據分類,就是邏輯回歸(屬于有監督分類),對無標注的數據分類,就是聚類(屬于無監督分類)

聚類是一種無監督學習技術,其目標是根據樣本之間的相似性將未標記的數據分組。

比如,在一個假設的患者研究中,研究人員正在評估一項新的治療方案。在試驗期間,患者每周會報告自身癥狀的頻率以及嚴重程度。研究人員可以使用聚類分析將對治療反應相似的患者歸為同一類。圖1展示了一個將模擬數據分成三個簇(cluster)的可能結果。

圖1左側為癥狀嚴重程度與出現頻率的散點圖,從中可以看出似乎存在三個明顯的聚集區域;右側是同一圖,但每個聚類已用不同顏色區分。
圖1:將未標記樣本劃分為三個聚類(模擬數據)

從圖1左側的原始數據來看,即使沒有明確定義數據點之間的“相似性”,我們也大致能猜出存在三個簇。在真實世界的應用中,我們則必須顯式定義相似性度量——即比較樣本時所使用的距離或相似標準,通常依賴于數據集中的特征。當樣本只包含一兩個特征時,這種相似性較容易可視化和理解。但隨著特征維度增加,特征的組合與比較將變得不直觀,處理復雜度也隨之增加。不同的相似性度量可能適用于不同的聚類場景,本課程稍后將專門介紹如何選擇合適的度量方法,包括手動設定相似性度量與基于嵌入表示的度量方法。

在聚類完成后,每個組會被賦予一個獨立的標簽,稱為聚類ID(cluster ID)。聚類的強大之處在于,它能將一個包含大量復雜特征的大型數據集,簡化為一個聚類ID的形式,便于后續分析與處理。

聚類的進階用途

  1. 數據插補(Imputation)
    當某些樣本缺失部分特征時,可以利用與之同簇中其他樣本的數據進行填補。舉例來說,冷門視頻可以與熱門視頻聚在同一簇,通過熱門視頻的特征信息改善冷門視頻的推薦效果。

  2. 數據壓縮
    正如前述,聚類ID可以替代同一簇內樣本的多維特征,從而降低存儲、計算與模型訓練所需的資源消耗。在處理超大規模數據集時,這種方式可大大提升效率。

以一個 YouTube 視頻為例,其特征數據可能包括:

觀看者的位置、時間與人口統計信息

評論的時間戳、內容與用戶ID

視頻標簽等

將這些視頻聚類后,用一個聚類ID替代原始特征集,就實現了數據壓縮。

  1. 隱私保護
    聚類還可一定程度上用于保護隱私。假設你要基于 YouTube 用戶的觀看記錄訓練模型,你可以用聚類ID代替用戶ID,這樣就不會將具體的觀看記錄直接關聯到某位用戶身上。不過,為確保隱私保護有效,單個聚類中需包含足夠多的用戶。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86650.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86650.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86650.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Yonghong 企業日常問題08 】永洪BI的Apache Tomcat版本升級指南

文章目錄 前言操作步驟登錄驗證 前言 某公司業務永洪BI系統使用tomcat 9.0.97版本,接到總公司漏洞掃描整改要求需要將tomcat版本升級到9.0.97以上。 目標:tomcat 9.0.97》 9.0.98 1、下載tomcat所需要的版本 地址:https://tomcat.apache.org/download-…

BigFoot RaidSlackCheck11.109.zip lua

BigFoot RaidSlackCheck11.109.zip lua 合劑buff檢查插件 把lua腳本拷貝到游戲插件目錄下: D:\Battle.net\World of Warcraft\_classic_\Interface\AddOns 命令 /rsc 下載地址: https://download.csdn.net/download/spencer_tseng/91181827

深入解析前端 Meta 標簽:HTML 的隱形守護者與功能大師

在構建現代網頁時&#xff0c;我們常常關注炫目的視覺效果、復雜的交互邏輯或強大的框架&#xff0c;卻容易忽略那些深藏于 <head> 之中、看似不起眼的 <meta> 標簽。這些標簽如同網頁的隱形守護者&#xff0c;無聲地承擔著定義文檔元數據、指導瀏覽器行為、優化搜…

青少年編程與數學 01-012 通用應用軟件簡介 11 應用商店

青少年編程與數學 01-012 通用應用軟件簡介 11 應用商店 一、什么是應用商店&#xff08;一&#xff09;應用商店的基本定義&#xff08;二&#xff09;應用商店的工作原理&#xff08;三&#xff09;應用商店的類型 二、應用商店的重要意義&#xff08;一&#xff09;為用戶提…

《紅黑樹實現》

引言&#xff1a; 上次我們學習了比二叉搜索樹更高效的平衡二叉搜索樹&#xff08;AVL樹&#xff09;&#xff0c;這次我們要學習的是另外一種對二叉搜索樹的優化后的紅黑樹。 一&#xff1a;紅黑樹概念&#xff1a; 紅黑樹是一棵二叉搜索樹&#xff0c;他的每個結點增加一個…

領域驅動設計(DDD)【23】之泛化:從概念到實踐

文章目錄 一 泛化基礎&#xff1a;理解DDD中的核心抽象機制1.1 什么是泛化&#xff1f;1.2 為什么泛化在DDD中重要&#xff1f;1.3 泛化與特化的雙向關系 二 DDD中泛化的實現形式2.0 實現形式概覽2.1 類繼承&#xff1a;最直接的泛化實現2.2 接口實現&#xff1a;更靈活的泛化方…

機箱流動空氣熱學仿真方案

機箱流動空氣熱學仿真方案(二維平面與三維) 一、物理模型與數學模型 1. 控制方程 流動與傳熱基本方程: 連續性方程:?(ρu) = 0動量方程(Navier-Stokes):ρ(u?)u = -?p + μ?u + F能量方程:ρc?(u?)T = k?T + Φ邊界條件: 入口:速度入口(u=u?, T=T?)出口:壓…

electron 如何配置 打開控制臺

在 Electron 應用中&#xff0c;打開開發者工具&#xff08;即控制臺&#xff09;通常有兩種方式&#xff1a; 程序運行時手動打開 在 Electron 應用中&#xff0c;你可以通過編程方式打開開發者工具。這通常在你需要調試時非常有用。你可以在你的主進程&#xff08;通常是 ma…

MR7350用TTL刷機救磚過程

很久之前就買了一臺Linksys的MR7350路由器&#xff0c;準備有OpenWRT的官方固件之后再拿它當輕NAS用&#xff0c;最近看到出了Snapshot版&#xff0c;于是就拿來刷機試試。經過我堅持不懈的折騰&#xff0c;終于把我的MR7350路由器刷成了磚&#xff0c;即便是通過開機過程中斷電…

在NPU單算子(torch_npu )執行時如何進行性能優化?以MinerU為例

1 MinerU介紹 在AI技術快速發展的今天&#xff0c;大量非結構化數據的處理成為亟待解決的問題。尤其是PDF文檔&#xff0c;作為最常見的文件格式之一&#xff0c;如何高效準確地提取其中的信息&#xff0c;成為了許多企業和研究機構的痛點。上海人工智能實驗室&#xff08;上海…

鴻蒙OS開發IoT控制應用:從入門到實踐

引言&#xff1a;萬物互聯時代的應用開發新范式 在物聯網(IoT)技術迅猛發展的今天&#xff0c;智能設備數量呈指數級增長。據IDC預測&#xff0c;到2025年全球IoT連接設備數將達到416億臺。面對碎片化的IoT設備和多樣化的控制需求&#xff0c;華為鴻蒙OS(HarmonyOS)應運而生&a…

五層網絡模型:網絡通信的核心框架

在網絡通信的世界里&#xff0c;五層網絡模型是一個基礎而關鍵的概念。它幫助我們理解數據是如何在網絡上從一個設備傳輸到另一個設備的。本文將詳細介紹五層網絡模型的每一層&#xff0c;以及它們在數據傳輸過程中的作用。 一、五層網絡模型概述 五層網絡模型是一種分層的網…

常見的強化學習算法分類及其特點

強化學習&#xff08;Reinforcement Learning, RL&#xff09;是一種機器學習方法&#xff0c;通過智能體&#xff08;Agent&#xff09;與環境&#xff08;Environment&#xff09;的交互來學習如何采取行動以最大化累積獎勵。以下是一些常見的強化學習算法分類及其特點&#…

【LeetCode 熱題 100】438. 找到字符串中所有字母異位詞——(解法三)不定長滑動窗口+數組

Problem: 438. 找到字符串中所有字母異位詞 題目&#xff1a;給定兩個字符串 s 和 p&#xff0c;找到 s 中所有 p 的 異位詞 的子串&#xff0c;返回這些子串的起始索引。不考慮答案輸出的順序。 【LeetCode 熱題 100】438. 找到字符串中所有字母異位詞——&#xff08;解法一&…

求區間最大值

題目描述 給定一個長度為 N 的數列&#xff0c;和 M 次詢問&#xff0c;求出每一次詢問的區間內數字的最大值。 輸入描述 第一行包含兩個整數 N,M&#xff0c;分別表示數列的長度和詢問的個數。 第二行包含 N 個整數&#xff08;記為&#x1d44e;&#x1d456;&#xff09;&am…

調試HDMI音頻能8通道播放聲音

一、使用場景 我們是通過rk主控的hdmi接口播放音視頻給到ite68051芯片解析出8聲道數據,分別通過4路i2s的數據腳給給到fpga去解析 調試步驟: 1.根據相關手冊配置hdmi輸出,hdmi聲卡注冊,如下: hdmi0_sound: hdmi0-sound {status = "disabled";compatible = &qu…

PowerBI 柱狀圖顯示MoM銷量環比示例,以及解決相同列值時設置柱子顏色的問題

先看效果: 假設有Sales表: 1. 我們先給它新增一個計算列&#xff0c;顯示銷售日期的年月 銷售日期YYYYMM YEAR(Sales[銷售日期])*100 MONTH(Sales[銷售日期]) 2. 然后新增一個計算表&#xff0c;用于保存當前最大的銷售日期&#xff0c;和上一個月的日期 DateComparisonT…

【docker】構建時使用宿主機的代理

docker構建過程中報錯: pip 下載失敗 解決辦法:傳遞宿主機的代理 把宿主機的 HTTP_PROXY/HTTPS_PROXY 傳進去,導致容器內的 pip 依然連不上代理,下載 build-dependencies(比如 setuptools)就會失敗。 下面兩步即可解決: Docker 構建階段,127.0.0.1:7890 指向的是 容…

[Java 基礎]算法

什么是算法 程序 數據結構 算法 算法&#xff08;Algorithm&#xff09;就是解決問題的步驟&#xff0c;就像做菜的食譜一樣&#xff0c;告訴計算機一步一步如何完成任務。 例如&#xff1a; 排序算法&#xff1a;把一堆數字從小到大排列搜索算法&#xff1a;在一堆數據里…

C++理解for循環 計算題三

計算a的值 #include <iostream> using namespace std; int main() { int a0;for(int i0;i<3;i){for(int j0;j<3;j){aij;}}cout<<"a的值是 "<<a<<endl; return 0; } 計算a的值 #include <iostream> using namespace std; int …