Python用K-Means均值聚類、LRFMC模型對航空公司客戶數據價值可視化分析指標應用|數據分享...

全文鏈接:https://tecdat.cn/?p=38708

分析師:Yuling Fang

信息時代的來臨使得企業營銷焦點從產品中心轉向客戶中心,客戶關系管理成為企業的核心問題點擊文末“閱讀原文”獲取完整代碼數據)。

客戶關系管理的關鍵是客戶分群,通過客戶分群,區分無價值客戶和高價值客戶,同時更好的了解客戶的特征,使企業能夠針對不同價值客戶指定優化的個性化服務方案,實現精細化運營。客戶分群是關鍵節點。

任務/目標

根據航空公司觀測窗口內的客戶社會信息、乘機信息和積分信息查看文末了解數據免費獲取方式對客群進行價值分類,為業務提供運營策劃參考。

58221a98ae26a978f317d3294ae81718.png

數據源準備

選取寬度為兩年的分析觀測窗口,抽取觀測窗口內有乘機記錄的所有客戶的詳細數據,共62988行。對原始數據進行探索和數據清洗。

缺失值處理。通過數據探索分析,發現gender、age、sum分別有3、420、689個缺失值,由于變更比總記錄數較少,故直接刪除處理。

異常值處理。通過對數據觀察,發現原始數據中存在平均折扣率不為0、總飛行公里數大于0、票價卻為0的數據,屬于有異常情況,需要剔除。

特征轉換

把不能處理的特征做一些轉換,處理成算法容易處理的干凈特征:

時間信息。會員入會時間距離觀測窗口結束的時間,需要通過入會時間和觀測窗口的結束時間相減得到。

省份信息。work_province列存在省份書寫格式不統一、部分出現錯別字的問題,使用jieba將work_province列拆分字符分類統一格式。

數據變換

構建包含L、R、F、M、C五項指標的新數據表,并對應屬性定義表,得到LRFMC模型中五項指標的計算公式:

3815074e93489b3ee977449e9b54b2ee.png

采用標準差標準化的方法數據進行標準化計算,每項數據減去每項指標數據的平均值,得到的差除于每項指標數據的標準差值。

4ba82d5030cb3157fbbdf1519f7eac63.png

聚類個數

通過K_means聚類方法進行機器學習,繪圖觀察誤差平方和SSE與中心點個數k的關系,比較每個k值的SSE,使用肘部法尋找誤差平方和SSE突然變小時對應的k值,得到k=5,將客戶群體聚類劃分為5個客群。

建模

LRFMC模型是根據實際場景基于RFM模型優化調整后得到的,是衡量客戶價值和客戶創造利益能力的重要工具和手段。

聚類結果

將客群按照客戶價值聚類劃分為五類貼上群體標簽,記為1、2、3、4、5五類,對聚類結果進行特征分析,其可視化圖形如下:

415fa7e5c38458c306b09099ad781794.png

d18b91f6816215b3756b049f11d234f6.png

cd1d33a36df6b2a31a6309a48a0038f5.png


點擊標題查閱往期內容

3bef5eeac477d26f1996544db62c56b1.png

PYTHON用戶流失數據挖掘:建立邏輯回歸、XGBOOST、隨機森林、決策樹、支持向量機、樸素貝葉斯和KMEANS聚類用戶畫像

outside_default.png

左右滑動查看更多

outside_default.png

01

22a99a03214491397a0ba1878b19b96b.png

02

127d3e3b39569cc34086b87ad5af79c2.png

03

acebab804fd192b270e6c6d7dacf48f5.png

04

9646a2a888d930c0776ca9e370d4b7d0.png

根據雷達圖分布,對客群的類別、指標情況、重要特征、運營建議進行歸納總結,分別如下:

de755bf95afc952bf22eb5a412bbe222.png

基于航空公司數據的客戶價值分析|附數據代碼

在當今競爭激烈的航空市場中,深入了解客戶價值對于航空公司制定精準營銷策略、優化資源配置以及提升客戶滿意度等方面都有著至關重要的意義。本文旨在通過對航空公司客戶相關數據的分析,運用聚類等數據分析方法,挖掘不同客戶群體的特征,進而對客戶價值進行評估與分析。

數據準備與預處理

首先,我們需要導入一系列常用的數據處理和可視化相關的庫,代碼如下:

同時,為了確保在圖形繪制中能夠正確顯示中文字體等相關設置,我們會進行如下配置:

mpl.rcParams\['font.sans-serif'\]?=?\['SimHei'\]
mpl.rcParams\['axes.unicode_minus'\]?=?False

接著,從指定路徑讀取航空公司的客戶數據文件,并查看前10行數據,了解數據的大致樣貌,代碼如下:

data?=?pd.read_csv(r'/Us.csv',encoding='utf-8')
data.head(10)

這一步能讓我們直觀看到諸如會員卡號、入會時間、性別、年齡等眾多字段以及對應的數據內容。然后,我們可以通過data.info()查看數據的詳細信息,包括每列的數據類型、非空值數量等情況,以此來掌握數據的整體結構。還可以使用data.describe().T對數據進行描述性統計分析,像各列數據的均值、標準差、最小值、最大值等統計指標,有助于我們初步了解各特征的分布情況。
此外,分析數據中的缺失值情況也很關鍵,通過data.isnull().sum().sort_values(ascending=False)可以統計出每列的缺失值數量,并按照從多到少進行排序。針對存在缺失值的情況,我們做了相應的數據清洗操作,例如篩選出特定列非空的數據等,代碼如下:

data=data\[data\['SUM\_YR\_1'\].notnull()?&?data\['SUM\_YR\_2'\].notnull()\]
t1?=?data\['SUM\_YR\_1'\]!=0
t2?=?data\['SUM\_YR\_2'\]!=0

經過上述一系列的數據預處理操作,我們為后續的客戶價值分析打下了良好的數據基礎。

LRFMC模型客戶價值指標構建

在進行客戶價值分析時,我們選取了幾個關鍵的指標來綜合衡量客戶價值。其中,R代表最近消費時間間隔,具體是用最后一次乘機時間至觀察窗口末端時長來衡量;F表示消費頻率,也就是觀測窗口內的飛行次數;M體現消費金額,由于航空票價受到距離和艙位等級等多種因素影響,這里的艙位因素考慮艙位所對應的折扣系數平均值,距離因素則是一定時間內累積的飛行里程;另外,考慮到航空公司的會員系統中,用戶入會時間長短對客戶價值有一定影響,所以增加了指標入會時間長度,即客戶關系長度,通過觀測窗口的結束時間減去入會時間(單位為月)來計算,也就是LOAD_TIME - FFP_DATE
綜合起來,我們構建了LRFMC這5個指標,具體如下:

  • L:LOAD_TIME - FFP_DATE(會員入會時間距觀測窗口結束的月數)

  • R:LAST_TO_END(客戶最近一次乘坐公司距觀測窗口結束的月數)

  • F:FLIGHT_COUNT(觀測窗口內的飛行次數)

  • M:SEG_KM_SUM(觀測窗口的總飛行里程)

  • C:AVG_DISCOUNT(平均折扣率)
    通過以下代碼提取相關列數據并查看前幾行:

df=data\[\["FFP\_DATE","LOAD\_TIME","LAST\_TO\_END","FLIGHT\_COUNT","SEG\_KM\_SUM","avg\_discount"\]\]
df.head()

然后,定義函數LRFMC來進一步處理數據,構建包含LRFMC指標的數據結構。

為了消除數據不同特征之間量綱的影響,我們還定義了函數zscore_data對數據進行標準化處理,代碼如下:

def?zscore_data(data):data2=(data-data.mean(axis=0))/data.std(axis=0)data2.columns=\['Z'+i?for?i?in?data.columns\]return?data2
df4=zscore_data(df3)
df4.head()

客戶K-Means聚類分析

接下來,運用K-Means聚類算法對處理好的數據進行聚類分析,以此來劃分不同的客戶群體。首先,我們設置聚類類別數目等參數,調用K-Means算法進行模型訓練,代碼如下:

k=5
#?調用k-means算法
#?輸入聚類類別數目,n_jobs為并行數
#n_clusters就是K值,也是聚類值
#init初始化方法,可以是kmeans++,隨機,或者自定義的ndarray
model.fit(df4)?#?訓練

通過model.labels_可以獲取每個樣本所屬的類別標簽,進而統計各個類別的數目以及找出聚類中心等:

r1?=?pd.Series(model.labels_).value_counts()?#?統計各個類別的數目
r2?=?pd.DataFrame(model.cluster\_centers\_)?#?找出聚類中心

將相關結果進行整合,并輸出到Excel文件中方便查看和后續分析。

同時,還可以將每個樣本對應的類別信息整合到數據中,并輸出到Excel文件,代碼如下:

r3?=?pd.concat(\[df4,?pd.Series(model.labels_,?index=df4.index)\],?axis=1)?#?詳細輸出每個樣本對應的類別
r3.columns?=?list(df4.columns)?+?\['聚類類別'\]?#?重命名表頭

為了確定合適的聚類數目,我們通過循環計算不同聚類數目下的簇內誤方差(SSE),并繪制折線圖進行可視化展示,代碼如下:

#n_clusters就是K值,也是聚類值#init初始化方法,可以是kmeans++,隨機,或者自定義的ndarrayplt.xlabel("簇數量")
plt.ylabel("簇內誤方差(SSE)")

對應的可視化圖像如下:
6ee2ef9a645cc9de1bbbe2e6f5a5570b.png
其能夠幫助我們直觀判斷選擇多少個聚類類別比較合適。

客戶群體特征分析與價值評估

基于聚類結果,我們繪制雷達圖來對不同客戶群體的特征進行可視化分析:

對應的雷達圖如下:
423fe465ce6a338d6f75b93186a6d9f3.png
從“客戶群特征分析圖”中,結合業務情況,我們對不同客戶群體進行特征分析與價值評估:

  • 客戶群1:在平均折扣率(C屬性)上表現最為突出,這類客戶可以定義為重要挽留客戶,航空公司需要格外關注他們的動態,以防其流失。

  • 客戶群2:其在最近消費時間間隔(R屬性)方面數值最大,而在消費頻率(F屬性)、總消費金額(M屬性)方面是最小的,屬于低價值客戶群體,對航空公司的貢獻相對較低。

  • 客戶群3:在消費頻率(F屬性)、總消費金額(M屬性)上數值最大,在最近消費時間間隔(R屬性)上最小,這類客戶是航空公司的重要保持客戶,航空公司應重點投入資源,進行差異化管理,提升他們的忠誠度和滿意度,進一步鞏固他們的價值。

  • 客戶群4:在客戶關系長度(L屬性)、平均折扣率(C屬性)上最小,可將其歸類為一般客戶,對航空公司來說其價值處于中等偏下水平。

  • 客戶群5:在客戶關系長度(L屬性)上最大,可定義為重要發展客戶,雖然他們當前價值可能不是很高,但有著較大的發展潛力,航空公司可以采取相應措施促使他們增加消費。
    綜上所述,通過對航空公司客戶數據的深入分析和聚類處理,我們清晰地劃分出了不同價值的客戶群體,航空公司可以依據這些分析結果,制定精準的營銷策略,合理分配資源,實現更好的運營和發展。

關于分析師

8aff12b26d1c3c22e54aefb8812aef58.png?

在此對 Yuling Fang 對本文所作的貢獻表示誠摯感謝,她完成智能醫學工程專業學位,專注數據相關領域。擅長 Python、SQL、Tableau、Excel,在數據采集、數據統計、數據分析方面有著專業能力。

數據獲取

在公眾號后臺回復“航空客戶”,可免費獲取完整數據。

31b0b93d53732ec2d679ad3dd2a6d80e.jpeg

本文中分析的數據、代碼分享到會員群,掃描下面二維碼即可加群!?

8565617e8eb0b1947d6843e3270c6c01.png


資料獲取

在公眾號后臺回復“領資料”,可免費獲取數據分析、機器學習、深度學習等學習資料。

336c716e9847b9bb24fdc618eb4fa64b.jpeg

點擊文末“閱讀原文”

獲取全文完整代碼數據資料。

本文選自《Python用K-Means均值聚類、LRFMC模型對航空公司客戶數據價值可視化分析指標應用|數據分享》。

點擊標題查閱往期內容

Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析

PYTHON集成機器學習:用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網格搜索超參數優化

R語言集成模型:提升樹boosting、隨機森林、約束最小二乘法加權平均模型融合分析時間序列數據

Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析

R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數據并高維可視化

R語言基于樹的方法:決策樹,隨機森林,Bagging,增強樹

R語言用邏輯回歸、決策樹和隨機森林對信貸數據集進行分類預測

spss modeler用決策樹神經網絡預測ST的股票

R語言中使用線性模型、回歸決策樹自動組合特征因子水平

R語言中自編基尼系數的CART回歸決策樹的實現

R語言用rle,svm和rpart決策樹進行時間序列預測

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

python中使用scikit-learn和pandas決策樹進行iris鳶尾花數據分類建模和交叉驗證

R語言里的非線性模型:多項式回歸、局部樣條、平滑樣條、 廣義相加模型GAM分析

R語言用標準最小二乘OLS,廣義相加模型GAM?,樣條函數進行邏輯回歸LOGISTIC分類

R語言ISLR工資數據進行多項式回歸和樣條回歸分析

R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型

R語言用泊松Poisson回歸、GAM樣條曲線模型預測騎自行車者的數量

R語言分位數回歸、GAM樣條曲線、指數平滑和SARIMA對電力負荷時間序列預測

R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化

如何用R語言在機器學習中建立集成模型?

R語言ARMA-EGARCH模型、集成預測算法對SPX實際波動率進行預測

在python 深度學習Keras中計算神經網絡集成模型

R語言ARIMA集成模型預測時間序列分析

R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者

R語言基于樹的方法:決策樹,隨機森林,Bagging,增強樹

R語言基于Bootstrap的線性回歸預測置信區間估計方法

R語言使用bootstrap和增量法計算廣義線性模型(GLM)預測置信區間

R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態可視化

Python對商店數據進行lstm和xgboost銷售量時間序列建模預測分析

R語言隨機森林RandomForest、邏輯回歸Logisitc預測心臟病數據和可視化分析

R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數據并高維可視化

Matlab建立SVM,KNN和樸素貝葉斯模型分類繪制ROC曲線

matlab使用分位數隨機森林(QRF)回歸樹檢測異常值

8c3c522e6fafdb1f5669ef6023656df8.jpeg

e1640075b2d7ea755ca10f350cfcfad4.png

d4d1115c16427f9f7b273ed96b94510f.png

a8f6e9ba831595a5c2b3867adb29f056.jpeg

dc2ed065a85b6fd33e8f9414f41572c7.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64985.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64985.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64985.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【前端系列】優化axios響應攔截器

文章目錄 一、前言🚀🚀🚀二、axios響應攔截器:??????2.1 為什么前端需要響應攔截器element ui的消息組件 一、前言🚀🚀🚀 ?? 回報不在行動之后,回報在行動之中。 這個系列可…

【 IEEE 獨立出版 · EI核心、Scopus穩定檢索 】第二屆算法、軟件工程與網絡安全國際學術會議(ASENS 2025)

ASENS 2025 第二屆算法、軟件工程與網絡安全國際學術會議 2025 2nd International Conference on Algorithms, Software Engineering and Network Security 中國 廣州 2025年3月21-23日 會議官網:www.ic-asens.org IEEE 獨立出版 EI核心、Scopus快速…

/ete/security/limits.conf參數詳解

/ete/security/limits.conf配置文件 內容如下: * soft nofile 65535 * hard nofile 65535參數詳解 *: 表示對所有用戶生效soft: 表示軟限制,即用戶可以通過ulimit命令自行調整該值hard: 表示硬限制,即用戶無法通過ulimit命令將該值調整超過…

#Vue3篇: 無感刷新token的原理JSESSIONID無感刷新和JWT接口刷新

基于這個后端是怎么更新token的 為了理解后端是如何更新 Token 的,我們需要考慮一個典型的基于 Token 的身份驗證流程,特別是涉及 JSESSIONID 和自定義 Token(如 JWT, JSON Web Token)的情況。 下面我將介紹兩種常見的更新 Token …

模塊化通訊管理機在物聯網系統中的應用

安科瑞劉鴻鵬 摘要 隨著能源結構轉型和智能化電網的推進,電力物聯網逐漸成為智能電網的重要組成部分。本文以安科瑞ANet系列智能通信管理機為例,探討其在電力物聯網中的應用,包括數據采集、規約轉換、邊緣計算、遠程控制等技術實踐&#…

Python基于Gradio可視化部署機器學習應用

Gradio 是一個用于快速創建機器學習模型和用戶界面之間交互的 Python 庫。它允許你無需編寫大量前端代碼,就能將機器學習模型部署為可交互的網頁應用。以下是一個基于 Gradio 可視化部署機器學習應用的基本步驟: 安裝 Gradio: 首先&#xff0…

Springboot使用RabbitMQ實現關閉超時訂單的一個簡單示例

1.maven中引入rabbitmq的依賴&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifactId></dependency> 2.application.yml中進行rabbitmq相關配置&#xff1a; # rabbit…

AE Pinnacle 10x6 kW DeviceNet MDXL User r Manual

AE Pinnacle 10x6 kW DeviceNet MDXL User r Manual

vscode中調用deepseek實現AI輔助編程

來自 Python大數據分析 費弗里 1 簡介 大家好我是費老師&#xff0c;最近國產大模型Deepseek v3新版本憑借其優秀的模型推理能力&#xff0c;討論度非常之高&#x1f525;&#xff0c;且其官網提供的相關大模型API接口服務價格一直走的“價格屠夫”路線&#xff0c;性價比很高…

慧集通iPaaS集成平臺低代碼培訓-基礎篇

訓練使用素材&#xff1a; 1.數據源&#xff1a; 單號業務日期工廠倉庫物料單位數量批次0100012022-5-1210031001030001kg500202304150100012022-5-1210031001030001kg122202304150100012022-5-1210031001030001kg1250202304150100012022-5-1210031001030002kg130202304110100…

在Linux下安裝部署Tomcat教程

摘要 Tomcat是由Apache開發的要給Servlet容器,實現了對Servlet 和JSP的支持,并提供了作為Web服務器的一些特有功能,如Tomcat管理和控制平臺,安全管理和Tomcat閥等。簡單來說,Tomcat是一個由WEB應用程序的托管平臺,可以讓用戶編寫的WEB應用程序,別Tomcat所托管,并提供網…

《探秘開源大模型:AI 世界的“超級引擎”》

《探秘開源大模型:AI 世界的“超級引擎”》 一、開源大模型崛起之路二、開源大模型發展歷程回顧(一)早期奠基:理論突破與初步實踐(二)快速發展:百花齊放的模型格局(三)當下態勢:走向成熟與多元融合三、開源大模型核心技術剖析(一)Transformer 架構:基石之穩(二)…

Leetcode打卡:我的日程安排表II

執行結果&#xff1a;通過 題目 731 我的日程安排表II 實現一個程序來存放你的日程安排。如果要添加的時間內不會導致三重預訂時&#xff0c;則可以存儲這個新的日程安排。 當三個日程安排有一些時間上的交叉時&#xff08;例如三個日程安排都在同一時間內&#xff09;&#…

實現一個通用的樹形結構構建工具

文章目錄 1. 前言2. 樹結構3. 具體實現邏輯3.1 TreeNode3.2 TreeUtils3.3 例子 4. 小結 1. 前言 樹結構的生成在項目中應該都比較常見&#xff0c;比如部門結構樹的生成&#xff0c;目錄結構樹的生成&#xff0c;但是大家有沒有想過&#xff0c;如果在一個項目中有多個樹結構&…

day30-awk進階

awk模式種類 awk的模式分為這幾種 正則表達式 基本正則擴展正則比較表達式范圍表達式特殊模式 BEGINEND awk比較運算符&#xff08;語法&#xff09; 關系運算符解釋示例<小于x<y<小于等于x<y等于xy!不等于x!y>大于等于x>y>大于x>y~匹配正則x~/正則…

大語言模型(LLM)一般訓練過程

大語言模型(LLM)一般訓練過程 數據收集與預處理 收集:從多種來源收集海量文本數據,如互聯網的新聞文章、博客、論壇,以及書籍、學術論文、社交媒體等,以涵蓋豐富的語言表達和知識領域。例如,訓練一個通用型的LLM時,可能會收集數十億甚至上百億字的文本數據.清洗:去除…

數據庫新建用戶后(Host:%),報錯:localhost無法連接

存在問題 在給數據庫&#xff08;MySQL、MariaDB等&#xff09;創建了新的用戶名&#xff08;eg&#xff1a;maxscale&#xff09;后&#xff0c;無法使用新用戶名登錄&#xff0c;并報如下錯誤&#xff1a;ERROR 1045 (28000): Access denied for user maxscalelocalhost (us…

2024年大型語言模型(LLMs)的發展回顧

2024年對大型語言模型&#xff08;LLMs&#xff09;來說是充滿變革的一年。以下是對過去一年中LLMs領域的關鍵進展和主題的總結。 GPT-4的壁壘被打破 去年&#xff0c;我們還在討論如何構建超越GPT-4的模型。如今&#xff0c;已有18個組織擁有在Chatbot Arena排行榜上超越原…

數據挖掘——支持向量機分類器

數據挖掘——支持向量機分類器 支持向量機最小間隔面推導基于軟間隔的C-SVM非線性SVM與核變換常用核函數 支持向量機 根據統計學習理論&#xff0c;學習機器的實際風險由經驗風險值和置信范圍值兩部分組成。而基于經驗風險最小化準則的學習方法只強調了訓練樣本的經驗風險最小…

檢索增強生成

概述 檢索增強生成&#xff08;Retrieval-Augmented Generation&#xff0c;RAG&#xff09;是一種將信息檢索與語言模型相結合的技術。由Facebook AI Research于2020年提出&#xff0c;它把數據庫的優勢與語言模型的優勢相結合。它能讓模型從外部知識庫中檢索信息&#xff0c…