數據處理: 均值漂移聚類(Mean Shift)

一、 基本原理

Mean Shift是一種基于密度的非參數聚類算法,不需要預先指定簇的數量,而是通過尋找數據空間中密度最大的區域來自動確定聚類中心, 適合圖像分割和目標跟蹤等。

算法步驟

  1. 初始化:對每個數據點作為起點。

  2. 迭代:計算當前點的鄰域內所有點的加權均值,將當前點移動到該均值位置。

  3. 終止:當移動距離小于閾值或達到最大迭代次數時停止。

  4. 聚類:合并收斂到同一位置的點為一個簇。

數學描述

核函數:通常使用高斯核,衡量數據點之間的權重:

其中?? 是帶寬(bandwidth

均值漂移向量:點?x的漂移方向為:

其中?N(x)?是?x?的鄰域(由帶寬決定)


二、特點

優點

  • 無需指定簇數:自動發現數據中的聚類結構。

  • 適應任意形狀:可以識別非球形分布的簇。

  • 魯棒性:對噪聲和異常值不敏感。

缺點

  • 計算復雜度高:每輪迭代需要計算所有點的鄰域關系,時間復雜度O(n2)。

  • 帶寬選擇敏感bandwidth對結果影響大,需謹慎選擇。

  • 不適合高維數據:維度災難可能導致效果下降。


三、Python 實現

from sklearn.cluster import MeanShift
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 生成數據
X, _ = make_blobs(n_samples=500, centers=3, cluster_std=0.8, random_state=42)# Mean Shift 聚類
ms = MeanShift(bandwidth=1.5)  # bandwidth是關鍵參數
ms.fit(X)
labels = ms.labels_
cluster_centers = ms.cluster_centers_# 可視化
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', alpha=0.5)
plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], c='red', marker='x', s=100)
plt.title("Mean Shift Clustering")
plt.show()

參數說明

  • bandwidth:決定鄰域大小的關鍵參數,使用estimate_bandwidth()輔助確定。若值太小,會導致過多小簇;若太大,會合并所有數據為單一簇。可通過以下方法估計:

    from sklearn.cluster import estimate_bandwidth
    bandwidth = estimate_bandwidth(X, quantile=0.2)  # quantile影響鄰域范圍
  • bin_seeding:對大規模數據,先采樣再聚類,bin_seeding設置True,僅用離散化的種子點加速計算

應用實例:圖像分割

from skimage import io, color
from sklearn.cluster import MeanShift# 加載圖片
image = io.imread("example.jpg")
image_rgb = color.rgba2rgb(image)  # 轉換為RGB
h, w, _ = image_rgb.shape
X = image_rgb.reshape(-1, 3)  # 將像素轉換為特征向量# Mean Shift聚類
ms = MeanShift(bandwidth=0.1, bin_seeding=True)
ms.fit(X)
segmented = ms.labels_.reshape(h, w)  # 還原為圖像尺寸# 顯示分割結果
plt.imshow(segmented, cmap='tab20')
plt.axis('off')
plt.show()

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76660.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76660.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76660.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

辛格迪客戶案例 | 蘇州富士萊醫藥GMP培訓管理(TMS)項目

一、案例概述 富士萊醫藥股份有限公司位于美麗的江南水鄉常熟,前身為常熟富士萊醫藥化工有限公司,從建廠初期面積僅有10余畝,逐步擴展到100余畝。近年來公司飛速發展,以黑馬姿態發展成為中國專業生產硫辛酸系列產品、肌肽系列產品…

SQL注入相關知識

一、布爾盲注 1、布爾盲簡介 布爾盲注是一種SQL注入攻擊技術,用于在無法直接獲取數據庫查詢結果的情況下,通過頁面的響應來判斷注入語句的真假,從而獲取數據庫中的敏感信息 2、布爾盲注工作原理 布爾盲注的核心在于利用SQL語句的布爾邏輯…

Linux基礎學習--linux的文件權限與目錄配置

linux的文件權限與目錄配置 1.用戶與用戶組 在Linux中,每個文件都有相當多的屬性和權限,其中最重要的概念就是文件的擁有者。 1.1 文件擁有者 Linux是一個多人多任務的系統,常常有多人共用一臺主機的情況出現,因此在系統中可以…

【數據可視化-19】智能手機用戶行為可視化分析

?? 博主簡介:曾任某智慧城市類企業算法總監,目前在美國市場的物流公司從事高級算法工程師一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN人工智能領域的優質創作者,提供AI相關的技術咨詢、項目開發和個…

vue項目通過GetCapabilities獲取wmts服務元數據信息并在openlayers進行疊加顯示

vue項目通過openlayers加載wmts服務示例&#xff1a; <template><div id"map" ref"mapContainer"></div> </template><script> import ol/ol.css; import Map from ol/Map; import View from ol/View; import TileLayer fr…

JavaWeb學習打卡-Day1-分層解耦、Spring IOC、DI

三層架構 Controller&#xff08;控制層&#xff09;&#xff1a;接收前端發送的請求&#xff0c;對請求進行處理&#xff0c;并響應數據。Service&#xff08;業務邏輯層&#xff09;&#xff1a;處理具體的業務邏輯。DAO&#xff08;數據訪問層/持久層&#xff09;&#xff…

【含文檔+PPT+源碼】基于Python爬蟲二手房價格預測與可視化系統的設計與實現

項目介紹 本課程演示的是一款基于Python爬蟲二手房價格預測與可視化系統&#xff0c;主要針對計算機相關專業的正在做畢設的學生與需要項目實戰練習的 Java 學習者。 包含&#xff1a;項目源碼、項目文檔、數據庫腳本、軟件工具等所有資料 帶你從零開始部署運行本套系統 該項…

游戲引擎學習第229天

倉庫:https://gitee.com/mrxiao_com/2d_game_5 回顧上次內容并介紹今天的主題 上次留下的是一個非常簡單的任務&#xff0c;至少第一步是非常簡單的。我們需要在渲染器中加入排序功能&#xff0c;這樣我們的精靈&#xff08;sprites&#xff09;才能以正確的順序顯示。為此我…

【“星瑞” O6 評測】—NPU 部署 face parser 模型

前言 瑞莎星睿 O6 (Radxa Orion O6) 擁有高達 28.8TOPs NPU (Neural Processing Unit) 算力&#xff0c;支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 類型的加速。這里通過通過官方的工具鏈進行FaceParsingBiSeNet的部署 1. FaceParsingBiSeNet onnx 推理 首先從百度網盤…

單例模式的使用場景 以及 餓漢式寫法(智能指針)

單例模式的使用場景 以及 餓漢式寫法&#xff08;智能指針&#xff09; 餓漢式&#xff1a;創建類時就已經創建好了類的實例&#xff08;用智能指針實現&#xff09;什么時候用單例模式&#xff1a;1. 全局配置管理2. 日志系統3. 資源管理器4. 硬件設備訪問總結 餓漢式&#xf…

微信小程序的全局變量(quanjubianliang)

在微信小程序開發中&#xff0c;管理和使用全局變量是一種常見的需求。例如&#xff0c;可以通過小程序的App實例和globalData對象來實現全局變量的存儲和共享。以下是詳細說明&#xff1a; 1. 全局變量的定義 微信小程序提供了 App() 函數&#xff0c;其中可以定義一個 global…

Latex科研入門教程

Introduction 這篇文章適合有markdown基礎的人看,不會的人可以先去學一下markdown. 僅適用于科研入門. 本文使用的latex環境為overleaf Latex概況 文件格式 以.tex為結尾的文件可能有多個.tex文件最終只編譯一個文件,相當于一個文件控制其他子文件. Latex 代碼分為三種&…

FastGPT Docker Compose本地部署與硅基流動免費AI接口集成指南

本文參考&#xff1a;https://doc.tryfastgpt.ai/docs/development/ 一、背景與技術優勢 FastGPT是基于LLM的知識庫問答系統&#xff0c;支持自定義數據訓練與多模型接入。硅基流動&#xff08;SiliconFlow&#xff09;作為AI基礎設施平臺&#xff0c;提供高性能大模型推理引…

19_大模型微調和訓練之-基于LLamaFactory+LoRA微調LLama3

基于LLamaFactory微調_LLama3的LoRA微調 1. 基本概念1.1. LoRA微調的基本原理1.2. LoRA與QLoRA1.3. 什么是 GGUF 2.LLaMA-Factory介紹3. 實操3.1 實驗環境3.2 基座模型3.3 安裝 LLaMA-Factory 框架3.3.1 前置條件 3.4 數據準備3.5 微調和訓練模型torch.cuda.OutOfMemoryError: …

Linux Wlan-四次握手(eapol)框架流程

協議基礎 基于 IEEE 802.1X 標準實現的協議 抓包基礎 使用上一章文章的TPLINK wn722n v1網卡在2.4G 頻段抓包&#xff08;v2、v3是不支持混雜模式的&#xff09; eapol的四個交互流程 根據不同的認證模式不同&#xff0c;兩者的Auth流程有所不同&#xff0c;但是握手流程基…

基于亞馬遜云科技 Amazon Bedrock Tool Use 實現 Generative UI

背景 在當前 AI 應用開發浪潮中&#xff0c;越來越多的開發者專注于構建基于大語言模型&#xff08;LLM&#xff09;的 chatbot 和 AI Agent。然而&#xff0c;傳統的純文本對話形式存在局限性&#xff0c;無法為用戶提供足夠直觀和豐富的交互體驗。為了增強用戶體驗&#xff…

第 2 篇:初探時間序列 - 可視化與基本概念

第 2 篇&#xff1a;初探時間序列 - 可視化與基本概念 (圖片來源: Luke Chesser on Unsplash) 在上一篇《你好&#xff0c;時間序列&#xff01;》中&#xff0c;我們了解了什么是時間序列數據以及學習它的重要性。現在&#xff0c;是時候卷起袖子&#xff0c;真正開始接觸和探…

Linux服務器配置Anaconda環境、Pytorch庫(圖文并茂的教程)

引言&#xff1a;為了方便后續新進組的 師弟/師妹 使用課題組的服務器&#xff0c;特此編文&#xff08;ps&#xff1a;我導從教至今四年&#xff0c;還未招師妹&#xff09; ? NLP 研 2 選手的學習筆記 筆者簡介&#xff1a;Wang Linyong&#xff0c;NPU&#xff0c;2023級&a…

Spring-AOP分析

Spring分析-AOP 1.案例引入 在上一篇文章中&#xff0c;【Spring–IOC】【https://www.cnblogs.com/jackjavacpp/p/18829545】&#xff0c;我們了解到了IOC容器的創建過程&#xff0c;在文末也提到了AOP相關&#xff0c;但是沒有作細致分析&#xff0c;這篇文章就結合示例&am…

【Python網絡爬蟲開發】從基礎到實戰的完整指南

目錄 前言&#xff1a;技術背景與價值當前技術痛點解決方案概述目標讀者說明 一、技術原理剖析核心概念圖解核心作用講解關鍵技術模塊技術選型對比 二、實戰演示環境配置要求核心代碼實現&#xff08;10個案例&#xff09;案例1&#xff1a;基礎靜態頁面抓取案例2&#xff1a;動…