機器學習/sklearn筆記:MeanShift

1 算法介紹

  • 一種基于質心的算法
  • 通過更新候選質心使其成為給定區域內點的均值
  • 候選質心的位置是通過一種稱為“爬山”技術迭代調整的,該技術找到估計的概率密度的局部最大值

1.1 基本形式

  • 給定d維空間的n個數據點集X,那么對于空間中的任意點x的均值漂移向量基本形式可以表示為:
    • M_h=\frac{1}{K} \sum_{x \in S_k} (x_i-x)
    • 其中Sk表示數據集的點到x的距離小于球半徑h的數據點
  • 漂移過程就類似于”梯度下降“
    • 通過計算漂移向量,然后把球圓心x的位置更新一下
    • x=x+M_h
    • 求解一個向量,使得圓心一直往數據集密度最大的方向移動(每次迭代找到圓里面的平均位置作為新的圓心位置)

1.2 加入核函數的漂移向量

  • 引入核函數可以知道數據集的密度,梯度是函數增加最快的方向
  • 這里的核函數為
  • 對每個點的核函數求微分,有:
    • g(x)=-k'(x)
    • 第二個中括號前面的是實數值
    • 第二項的向量方向與梯度方向一致
  • 所以令加入核函數后的偏移向量為:
    • 繼續x=x+M_h

1.3 聚類流程

假設在一個多維空間中有很多數據點需要進行聚類,Mean?Shift的過程如下:

  1. 在未被標記的數據點中隨機選擇一個點作為中心center;
  2. 找出離center距離在bandwidth之內的所有點,記做集合M,認為這些點屬于簇c
    1. 同時,把這些求內點屬于這個類的頻率加1,這個參數將用于最后步驟的分類
  3. 以center為中心點,計算從center開始到集合M中每個元素的向量,將這些向量相加,得到向量shift 【如果是帶核函數的均值漂移,那么m(x)有額外的計算方式】
  4. center?=?center+shift。即center沿著shift的方向移動,移動距離是||shift||
  5. 重復步驟2、3、4,直到shift的大小很小(就是迭代到收斂),記住此時的center
    1. 這個迭代過程中遇到的點都應該歸類到簇c
    2. 如果收斂時當前簇c的center與其它已經存在的簇c2中心的距離小于閾值,那么把c2和c合并。否則,把c作為新的聚類,增加1類
  6. 重復1、2、3、4、5直到所有的點都被標記訪問。
  7. 分類:根據每個類,對每個點的訪問頻率,取訪問頻率最大的那個類,作為當前點集的所屬類。

對新樣本進行標記是通過找到給定樣本的最近質心來執行的。

2 sklearn 實現

2.1 基本使用方法

class sklearn.cluster.MeanShift(*, bandwidth=None, seeds=None, bin_seeding=False, min_bin_freq=1, cluster_all=True, n_jobs=None, max_iter=300)

2.2 主要參數

bandwidth搜尋圓的大小
seeds用于初始化核的種子
cluster_all

如果為true,則所有點都被聚類,即使是那些不在任何核內的孤兒點也一樣。孤兒被分配到最近的核。

如果為false,則孤兒的聚類標簽為-1

2.3 舉例

from sklearn.cluster import MeanShift
import numpy as npX = np.array([[1, 2], [1, 4], [1, 0],[10, 2], [10, 4], [10, 0]])ms=MeanShift(bandwidth=1).fit(X)ms.cluster_centers_
'''
array([[10.,  4.],[10.,  2.],[10.,  0.],[ 1.,  4.],[ 1.,  2.],[ 1.,  0.]])
'''ms.labels_
#array([4, 3, 5, 1, 0, 2], dtype=int64)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/167680.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/167680.shtml
英文地址,請注明出處:http://en.pswp.cn/news/167680.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C#,《小白學程序》第一課:初識程序,變量,數據與顯示

曰:掃地僧練就絕世武功的目的是為了掃地更干凈。 1 引言 編程只是一項技術,如包包子,不是什么高深的科學。 學習程序最不好的方法是先學習枯燥的語法。 學習程序主要是用代碼解決問題。因此,我們拋開所有的語法與諸多廢物&…

React項目中發生空白但不報錯的原因分析和解決?

文章目錄 前言組件渲染問題狀態管理問題異步操作問題代碼錯誤但未拋出異常如果我們使用的是chorme瀏覽器的話,可以下載一個開發者工具,例如下圖:代碼審查使用調試工具日志和輸出檢查外部依賴異步操作終極大法,不到萬不得已不可以使…

python+gurobi求解線性規劃、整數規劃、0-1規劃

文章目錄 簡單回顧線性規劃LP整數規劃IP0-1規劃 簡單回顧 線性規劃是數學規劃中的一類最簡單規劃問題,常見的線性規劃是一個有約束的,變量范圍為有理數的線性規劃。如: 使用matlab的linprog函數即可求解簡單的線性規劃問題,可以參…

【Python 訓練營】N_6 求素數

題目 判斷101-200之間有多少個素數,并輸出所有素數。 分析 判斷素數的方法:用一個數分別去除2到sqrt(這個數),如果能被整除,則表明此數不是素數,反之是素數。 答案 h 0 leap 1 from math import sqrt from sys …

2023亞太地區數學建模C題思路模型代碼論文

C題的參考思路: 1,問題1的思路: 確定研究問題的主要指標體系(新能源電車的售出數量、安全性指標、充電樁數目、電池續 航里程等),收集指標的對應數據,檢驗數據是否服從正態性: 若服從正態分布: 0,可考慮優先采用“多元方差分析”模…

Python推導式

python推導式是一種獨特的數據處理方式,可以從一個數據序列構建到另一個新的數據序列的結構體。 Python支持各種數據結構的推導式: 1. 列表(list)推導式 [表達式 for 變量 in 列表] [out_exp_res for out_exp in input_list] or …

【?用運算放大器設計恒流電流源電壓4V-74V適應范圍 ?】2021-11-29

緣由用運算放大器設計恒流電流源-編程語言-CSDN問答直流恒流源設計,要求用到運算放大器-硬件開發-CSDN問答求助恒流驅動電路,運放端口電壓的問題? - 電路設計論壇 - 電子技術論壇 - 廣受歡迎的專業電子論壇!(不能實現恒流壞的電路設計反面例子…

OpenCV快速入門:特征點檢測與匹配

文章目錄 前言一、角點檢測1.1 角點特征1.1.1 角點特征概念1.1.2 角點的特點1.1.3 關鍵點繪制代碼實現1.1.4 函數解析 1.2 Harris角點檢測1.2.1 Harris角點檢測原理1.2.2 Harris角點檢測公式1.2.3 代碼實現1.2.4 函數解析 1.3 Shi-Tomasi角點檢測1.3.1 Shi-Tomasi角點檢測原理1…

GIT,解決遠程分支沖突

背景:當遠程分支A 與maste 有沖突如何解決–此時無法在這兩個版本之間merge 1、切換到master分支: git checkout master 2、更新master分支代碼: git pull 3、再次切換到自己新建的分支: git checkout add_login_check_func 4、將…

SuperMap iDesktopX如何獲取簡單線的起終端點及坐標

作者:超圖研究院技術支持中心-于丁 SuperMap iDesktopX如何獲取簡單線的起終端點及坐標 在GIS行業應用中,線數據的端點坐標有非常多的用處。 定位和可視化:線數據端點坐標可以用于定位和可視化線要素在空間中的位置。這對于地圖制作、規劃和…

初識Linux(1),看了這篇文章,媽媽再也不用擔心我Linux找不到門了。

文章目錄 前言1. ls 指令例如:只顯示文件名屬性ls顯示文件詳細屬性 ls - l 該操作可以簡寫成ll查看隱藏文件ls -l -a 2.pwd例如:顯示當前目錄所處的路徑類似于windows如下操作: 3.cd 指令例如:改變工作目錄相當于windows如下操作 4.whoami 指…

html幸運大轉盤抽獎(附源碼)

文章目錄 1.設計來源1.1 幸運大轉盤 風格11.2 幸運大轉盤 風格21.3 幸運大轉盤 風格31.4 幸運大轉盤 獎品效果1.5 幸運大轉盤 活動未開始1.6 幸運大轉盤 活動已結束1.7 幸運大轉盤 圖片源素材 2.效果和源碼2.1 動態效果2.2 源代碼 源碼下載 作者:xcLeigh 文章地址&a…

Windows power shell for循環

有時候需要重復執行某個shell命令 for($i1;$i -lt 10;$i$i1){echo $i}如果是cmd for /l %i in (1,1,5) do echo %i

vue 使用vuex中的data數據引用問題

先上代碼: this.userRoleInfo2 this.$store.state.userInfo this.userRoleInfo2.name 111 this.userRoleInfo2.orgName 222 this.userRoleInfo2.orgId 4444問題描述: 博主,定義了一個變量userRoleInfo2來接收了 從vuex中獲取了userInfo…

卷積神經網絡(Inception V3)識別手語

文章目錄 一、前言二、前期工作1. 設置GPU(如果使用的是CPU可以忽略這步)2. 導入數據3. 查看數據 二、數據預處理1. 加載數據2. 可視化數據3. 再次檢查數據4. 配置數據集 三、構建Inception V3網絡模型1.自己搭建2.官方模型 五、編譯六、訓練模型七、模型…

再生式收音機踩坑記

下載《A Simple Regen Radio for Beginners》這篇文章也有好幾年了,一直沒有動手,上周末抽空做了一個,結果相當令人沮喪,一個臺也收不到,用示波器測量三極管振蕩波形,只有在調節再生電位器R2過程中&#xf…

什么是合封芯片工藝,合封芯片工藝工作原理、應用場景、技術要點

芯片封裝技術不斷進步,其中合封芯片工藝作為一種先進的芯片封裝技術,“超”廣泛應用于各類電子設備中。 本文將從合封芯片工藝的工作原理、應用場景、技術要點等方面進行深入解讀。 一、合封芯片工藝 合封芯片工藝是一種將多個芯片或不同的功能的電子模…

構造命題公式的真值表

構造命題公式的真值表 1:實驗類型:驗證性2:實驗目的:3:邏輯聯結詞的定義方法4:命題公式的表示方法5:【實驗內容】 1:實驗類型:驗證性 2:實驗目的&#xff1a…

數據黑洞,正在悄悄吞噬你的門店業績

互聯網興起以來,線下門店的數字化程度始終落后于線上。一個重要的原因是:線下信息不像線上那樣簡單、集中、易于統計。很多重要數據隱藏于「黑洞」之中,收集和分析成本極為高昂。這極大束縛了門店業績的提升。 而反過來看,線下場景…

C++(20):通過source_location實現日志函數

C++20中引入了std::source_location,用來描述函數調用的上下文信息。 其主要的成員函數如下: line():獲取行號。column():獲取列號。file_name():獲取文件名。function_name():獲取函數域名。#include <iostream> #include <string_view> #include <sour…