聚類分析在用戶行為中的實例_聚類分析案例之市場細分

聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。

從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。

從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

聚類分析的核心思想就是物以類聚,人以群分。在市場細分領域,消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩余,這就是客戶細分的主要目的。在銷售片區劃分中,只有合理地將企業所擁有的子市場歸成幾個大的片區,才能有效地制定符合片區特點的市場營銷戰略和策略。金融領域,對基金或者股票進行分類,以選擇分類投資風險。

下面以一個汽車銷售的案例來介紹聚類分析在市場細分中的應用。

聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。

從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。

從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

聚類分析的核心思想就是物以類聚,人以群分。在市場細分領域,消費同一種類的商品或服務時,不同的客戶有不同的消費特點,通過研究這些特點,企業可以制定出不同的營銷組合,從而獲取最大的消費者剩余,這就是客戶細分的主要目的。在銷售片區劃分中,只有合理地將企業所擁有的子市場歸成幾個大的片區,才能有效地制定符合片區特點的市場營銷戰略和策略。金融領域,對基金或者股票進行分類,以選擇分類投資風險。

下面以一個汽車銷售的案例來介紹聚類分析在市場細分中的應用。

商業目標

業務理解:數據名稱《汽車銷售.csv》。該案例所用的數據是一份關于汽車的數據,該數據文件包含銷售值、訂價以及各種品牌和型號的車輛的物理規格。訂價和物理規格可以從 edmunds.com 和制造商處獲得。定價為美國本土售價。如下:

表1:數據視圖

業務目標:對市場進行準確定位,為汽車的設計和市場份額預測提供參考。

數據挖掘目標:通過聚類的方式對現有的車型進行分類。

數據準備

通過數據探索對數據的質量和字段的分布進行了解,并排除有問題的行或者列優化數據質量。

第一步,我們使用統計節點審核數據的質量,從審核結果中我們發現存在缺失的數據,如下圖所示:

第二步,對缺失的數據進行處理,我們選擇使用缺失填充節點刪除這些記錄。配置如下:

建模

我們選擇層次聚類進行分析,嘗試根據各種汽車的銷售量、價格、引擎、馬力、軸距、車寬、車長、制動、排量、油耗等指標對其分類。

因為層次聚類不能自動確定分類數量,因此需要我們以自定義的方式規定最后聚類的類別數。層次聚類節點配置如下(默認配置):

可以使用交互表或者右擊層次聚類節點查看聚類的結果,如下圖所示:

再使用餅圖查看每個類的大小,結果如下:

從圖中可見,分成的三個類樣本數差異太大,cluster_0和cluster_1包含的樣本數都只有1,這樣的分類是沒有意義的,因此需要重新分類。我們嘗試在層次聚類節點的配置中指定新的聚類方法:完全。新的聚類樣本數分布如下:

cluster_0、 cluster_1、cluster_2的樣本數分別為:50、9、93。

執行后輸出樹狀/冰柱圖,可以從上往下看,一開始是一大類,往下走就分成了兩類,越往下分的類越多,最后細分到每一個記錄是一類,如下所示:

我們可以再使用條形圖查看每類的銷售量、平均價格,如下圖所示:

每類總銷量分布圖

每類平均銷量分布圖

每類平均價格分布圖

我們再看一下每類的銷售額分布情況。首先,我們需要使用Java代碼段節點或者派生節點生成銷售額字段,配置如下:

再使用餅圖查看銷售額分布情況,cluster_0、 cluster_1、cluster_2的市場份額分別為:32.39%、0.53%和67.08%,如下圖所示:

案例小結

通過這個案例,大家可以發現聚類分析確實很簡單。進行聚類計算后,主要通過圖形化探索的方式評估聚類合理性,以及在確定聚類后,分析每類的特征。

本文轉自數據科學研習社 作者陳丹奕

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/538249.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/538249.shtml
英文地址,請注明出處:http://en.pswp.cn/news/538249.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux 編譯system.img,android生成sysytem.img的命令過程

Fromhttp://xianghuaclm.blog.163.com/blog/static/6668783201110221486240/使用#file system.img輸出:system.img: Linux rev 0.0 ext2 filesystem data,UUID4eb0489c-647d-49d8-9111-94657b5fd342, volume name"system"。然而本人使用命令#mkyaffs2imag…

Hive的hiveserver2后臺開啟和關閉

前提:hive/bin配置了環境變量。如果沒有配置,cd到 hive目錄下的bin里,再執行。 開啟命令: nohup hive --service hiveserver2 & 產生的日志: 默認在: 用戶文件夾里 [rootmaster ~]# ll total 80 …

記一次,jvm 內存溢出

1、什么是內存泄漏內存泄漏是指,有未被釋放的java對象,一直停留在內存中。GCRoot 無法追蹤到此對象,導致此對象無法被回收。 2、什么是內存溢出內存溢出是指,java程序創建對象需要內存,但是卻沒有內存可用了&#xff0…

ebnf范式_使用Scala基于詞法單元的解析器定制EBNF范式文法解析

前言近期在做Oracle遷移到Spark平臺的項目上遇到了一些平臺公式翻譯為SparkSQL(on Hive)的需求,而Spark采用親媽語言Scala進行開發。下面是個意外,被論文查重了,移步至我的Leanote博客查看點我,先亂碼一段時間[分后,擬使中的EB式&…

鉆石指標和完美的計算

鉆石的高度計算公式為:鉆石的高度直徑的三次方(單位毫米)0.00366(允許有0.03克拉的誤差)例如,0.5克拉的鉆石直徑是5.01毫米,則它的高為:5.01*5.01*5.01*0.003660.46說明0.5克拉的鉆石直徑只有0.46克拉鉆石的…

linux開機自動ZFS,linux – 為什么重新啟動導致我的ZFS鏡像的一面成為UNAVAIL?

我最近剛剛將批量數據存儲池(ZFS OnLinux 0.6.2,Debian Wheezy)從單設備vdev配置遷移到雙向鏡像vdev配置.之前的池配置是:NAME STATE READ WRITE CKSUMakita ONLINE 0 0 0ST4000NM0033-Z1Z1A0LQ ONLINE 0 0 0在重新啟動完成后一切都很好(我在重新啟動完成后啟動了一…

華為交換機默認vlan都是通的嗎_【思唯網絡學院】華為交換機常用的三種vlan劃分方法...

端口類型在學習劃分vlan前,必須要了解華為交換機的端口類型,以及他們的使用方法,因為端口的類型在實際配置中是必須會用到的,因為下面的vlan劃分會用到。1、Access類型端口執行命令port default vlan vlan-id,將端口加…

Spark應用日志級別設置

Spark-core包設置默認的日志級別為info,所以我們才看到一大堆日志信息。 開發的時候,把print的日志掩蓋了。 方法一: 代碼中設置日志級別 JavaSparkContext contextnew JavaSparkContext(conf); context.setLogLevel("warn"); 方…

linux 恢復操作系統,如何恢復Linux操作系統的GRUB引導程?

先使用一張修復盤進入grub,或者利用其他linux恢復盤等等進入linux系統,然后進入grub控制臺。總之就是想盡辦法進入一個控制臺就是了。然后準備引導進入硬盤上的Linux系統。如下:  grub> root (hd0,10)  grub> kernel /boot/vmlinuz…

Centos 7初始化腳本

今天跟大家分享一個我自己寫的Linux初始化腳本,自認為寫的不是很好。希望看到這篇文章的你,能暫時停留下你的腳步,給些修改意見,或者有什么需要補充的地方都可以提出來,大家共同進步,謝謝!此腳本…

Hive-sql與SQL的區別

總體一致: Hive-sql與SQL基本上一樣,因為當初的設計目的,就是讓會SQL不會編程MapReduce的也能使用Hadoop進行處理數據。 因此,大膽使用SQL的,如果遇到不對的,再查。 區別: Hive沒有delete和u…

python閏年多一天_記一個 python datetime 閏年問題

python中datetime是比較常用的,平時用起來也沒什么問題,但是今天2020年2月29日服務器卻開始報錯了,這里有個平時難以注意的坑服務器上跑的是新浪網的爬蟲,抓取的頁面信息中帶有日期 XX月XX日,需要strfptime轉化一下&am…

linux find 按類型查找,Linux find查找find命令詳解

玩蛇網推薦圖文教程:python 列表Linux命令有很多,今天要介紹的是常用的基礎命令中的find命令。find是Linux系統管理員所喜愛用的必備工具命令之一,它的作用是可以很輕松地找到你想要的文件,一個命令就可以在眾多文件中找到你的目標…

window安裝gcc編譯器

在使用 GraphLab Create 時,導入包失敗,提示libs沒有的導入,而這些libs的編譯是需要gcc。 1、訪問:http://www.mingw.org/ 下載。 2、雙擊安裝 3、安裝好后會彈出下面的組件安裝界面 3、找到mingw32-gcc-g(注意cl…

視頻AI,助力體育賽事轉播走進智能時代

摘要:2018俄羅斯世界杯經過近20天的激戰,已經進入到最關鍵的階段。本次賽事除了精彩紛呈的比賽之外,還加入很多高科技的元素,例如門線、VAR技術等等。讓本屆世界杯成為科技含量最高的一屆世界杯。2018俄羅斯世界杯經過近20天的激戰…

python求同構數_用c語言求1到1000的同構數_后端開發

python與平臺有關嗎_后端開發Python與平臺無關,因為Python是跨平臺的語言,Python作為腳本語言,是解釋執行的,所以能跨平臺,前提是必須要有一個對應的解釋器。具體請看實例:python中count函數的用法詳解_后端…

element表格實現樹形全選_很實用!word中全選的快捷鍵介紹及使用方法

全選快捷鍵可以提高我們在操作word時工作效率,在操作Word2003中怎么對文檔中的文字進行全選呢?下面為大家提供幾種全選的方法,絕對好用。Word怎樣全選?方法一、使用Word全選快捷鍵“CtrlA”進行全選(也適用于電子表格);方法二、展開菜單欄中的“編輯”…

am3352 linux 內核 編譯,am335x uboot, kernel 編譯

一、設置環境變量// 寫在家目錄下面的 .bashrc 里面export KERNEL_PATH~/aplex/kernel3.2.0 // kernel 路徑export UBOOT_PATH~/aplex/uboot2011.09 // u-boot 路勁export ROOTFS_PATH~/aplex/filesystemexport TOOLFS_PATH~/aplex/toolsexport ARCHarm // 設置平臺類型export …

Docker的應用場景

原文鏈接:http://blog.csdn.net/dev_csdn/article/details/78424803 ------------------------------------------------------------------- Docker是開發人員和系統管理員構建,發布和運行分布式應用程序的開放平臺,可以在筆記本電腦、數據…

cad多段線畫圓弧方向_【學員分享】CAD多段線用法

原標題:【學員分享】CAD多段線用法1、執行方法:(1)菜單欄:繪圖→多段線(2)繪圖功能區:繪圖→多段線按鈕(3)快捷鍵:PL2、使用方法(1)多段線與直線的區別:直線每一段都是分開的,圖畫完后不是一個整…