python打卡DAY22

##注入所需庫

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

import random

import numpy as np

import time

import shap

# from sklearn.svm import SVC #支持向量機分類器

# # from sklearn.neighbors import KNeighborsClassifier #K近鄰分類器

# # from sklearn.linear_model import LogisticRegression #邏輯回歸分類器

# import xgboost as xgb #XGBoost分類器

# import lightgbm as lgb #LightGBM分類器

from sklearn.ensemble import RandomForestClassifier #隨機森林分類器

# # from catboost import CatBoostClassifier #CatBoost分類器

# # from sklearn.tree import DecisionTreeClassifier #決策樹分類器

# # from sklearn.naive_bayes import GaussianNB #高斯樸素貝葉斯分類器

# from skopt import BayesSearchCV

# from skopt.space import Integer

# from deap import base, creator, tools, algorithms

# from sklearn.model_selection import StratifiedKFold, cross_validate # 引入分層 K 折和交叉驗證工具

# from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于評估分類器性能的指標

from sklearn.metrics import classification_report, confusion_matrix #用于生成分類報告和混淆矩陣

from sklearn.metrics import make_scorer#定義函數

# import warnings #用于忽略警告信息

# warnings.filterwarnings("ignore") # 忽略所有警告信息

#聚類

from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering

from sklearn.preprocessing import StandardScaler

from sklearn.decomposition import PCA

from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score

#3D可視化

from mpl_toolkits.mplot3d import Axes3D

#設置中文字體&負號正確顯示

plt.rcParams['font.sans-serif']=['STHeiti']

plt.rcParams['axes.unicode_minus']=True

plt.rcParams['figure.dpi']=100

#讀取數據

data=pd.read_csv(r'data.csv')

#數據填補

for i in data.columns:

if data[i].dtype!='object':

if data[i].isnull().sum()>0:

data[i].fillna(data[i].mean(),inplace=True)

else:

if data[i].isnull().sum()>0:

data[i].fillna(data[i].mode()[0],inplace=True)

mapping={'10+ years':0,

'9 years':1,

'8 years':2,

'7 years':3,

'6 years':4,

'5 years':5,

'4 years':6,

'3 years':7,

'2 years':8,

'1 year':9,

'< 1 year':10}

data['Years in current job']=data['Years in current job'].map(mapping)

dummies_list=[]

data2=pd.read_csv(r'data.csv')

data=pd.get_dummies(data=data,drop_first=True)

for i in data.columns:

if i not in data2.columns:

dummies_list.append(i)

for i in dummies_list:

data[i]=data[i].astype(int)

print(f'{data.info()}')

#劃分數據集

from sklearn.model_selection import train_test_split

x=data.drop(columns=['Credit Default','Id'],axis=1)

y=data['Credit Default']

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=42)

#smote

from imblearn.over_sampling import SMOTE

smote=SMOTE(random_state=42)

x_train_smote,y_train_smote=smote.fit_resample(x_train,y_train)

#標準化數據，將自變量標準化，聚類就是從自變量中聚合新的自變量，與因變量無關

scaler=StandardScaler()

x_scaled=scaler.fit_transform(x)

# #KMeans++

# k_range=range(2,5)

# inertia_value=[]

# silhouette_scores=[]

# ch_scores=[]

# db_scores=[]

# start_time=time.time()

# for k in k_range:

# kmeans=KMeans(n_clusters=k,random_state=42)

# kmeans_label=kmeans.fit_predict(x_scaled)#提供了每個數據點所屬的簇的信息，用于區分不同簇的數據點

# inertia_value.append(kmeans.inertia_)

# silhouette=silhouette_score(x_scaled,kmeans_label)

# silhouette_scores.append(silhouette)

# ch=calinski_harabasz_score(x_scaled,kmeans_label)

# ch_scores.append(ch)

# db=davies_bouldin_score(x_scaled,kmeans_label)

# db_scores.append(db)

# # print(f'k={k}\n 慣性:{kmeans.inertia_:.2f}\n輪廓系數:{silhouette:.3f}\n CH系數:{ch:.2f}\n DB{db:.3f}')

# end_time=time.time()

# print(f'聚類分析耗時：{end_time-start_time:.4f}')

# #繪制評估指標圖

# plt.figure(figsize=(12,6))

# #肘部法則圖

# plt.subplot(2,2,1)

# plt.plot(k_range,inertia_value,marker='o')

# plt.title('肘部法則確定最優聚類數 k(慣性，越小越好)')

# plt.xlabel('聚類數 (k)')

# plt.ylabel('慣性')

# plt.grid(True)

# #輪廓系數圖

# plt.subplot(2,2,2)

# plt.plot(k_range,silhouette_scores,marker='o',color='orange')

# plt.title('輪廓系數確定最優聚類數 k(越大越好)')

# plt.xlabel('聚類數 (k)')

# plt.ylabel('輪廓系數')

# plt.grid(True)

# #CH指數圖

# plt.subplot(2,2,3)

# plt.plot(k_range,ch_scores,marker='o',color='red')

# plt.title('Calinski-Harabasz 指數確定最優聚類數 k(越大越好)')

# plt.xlabel('聚類數 (k)')

# plt.ylabel('CH 指數')

# plt.grid(True)

# #DB指數圖

# plt.subplot(2,2,4)

# plt.plot(k_range,db_scores,marker='o',color='yellow')

# plt.xlabel('聚類數 (k)')

# plt.ylabel('DB 指數')

# plt.grid(True)

# plt.tight_layout()

# plt.show()

#選擇K值進行聚類

selected_k=3

kmeans=KMeans(n_clusters=selected_k,random_state=42)

kmeans_label=kmeans.fit_predict(x_scaled)

x['KMeans_Cluster']=kmeans_label

##PCA降維

pca=PCA(n_components=3)

x_pca=pca.fit_transform(x_scaled)

# # ##聚類可視化

# # plt.figure(figsize=(6,5))

# # sns.scatterplot(

# # x=x_pca[:,0],

# # y=x_pca[:,1],

# # hue=kmeans_label,

# # palette='viridis'

# # )

# # plt.title(f'KMean Clustering with k={selected_k} (PCA Visualization)')

# # plt.xlabel('PCA Component 1')

# # plt.ylabel('PCA Component 2')

# # plt.show()

# # #3D可視化

# pca=PCA(n_components=3)

# import plotly.express as px

# import plotly.graph_objects as go

# # 準備數據

# df_pca = pd.DataFrame(x_pca, columns=['PC1', 'PC2', 'PC3'])

# df_pca['Cluster'] = kmeans_label

# # 創建3D散點圖

# fig = px.scatter_3d(df_pca, x='PC1', y='PC2', z='PC3', color='Cluster',

# color_continuous_scale=px.colors.sequential.Viridis,

# title=f'KMeans Clustering with k={selected_k} (PCA 3D Visualization)')

# # 調整圖形

# fig.update_layout(scene=dict(xaxis_title='PCA Component 1',

# yaxis_title='PCA Component 2',

# zaxis_title='PCA Component 3'),

# width=1200, height=1000)

# # 顯示圖形

# fig.show()

# ##打印KMeans聚類前幾行

# print(f'KMeans Cluster labels(k={selected_k}added to x):')

# print(x[['KMeans_Cluster']].value_counts())

start_time=time.time()

x1=x.drop('KMeans_Cluster',axis=1)

y1=x['KMeans_Cluster']

rf1_model=RandomForestClassifier(random_state=42,class_weight='balanced')

rf1_model.fit(x1,y1)

explainer=shap.TreeExplainer(rf1_model)

shap_values=explainer.shap_values(x1)

print(shap_values.shape)

end_time=time.time()

print(f'SHAP分析耗時:{end_time-start_time:.4f}')

# # --- 1. SHAP 特征重要性條形圖 (Summary Plot - Bar) ---

# print("--- 1. SHAP 特征重要性條形圖 ---")

# shap.summary_plot(shap_values[:,:,0],x1,plot_type='bar',show=False)

# plt.title('shap feature importance (bar plot)')

# plt.tight_layout()

# plt.show()

selected_features=['Purpose_debt consolidation','Home Ownership_Home Mortgage','Purpose_home improvements','Purpose_other']

# for feature in selected_features:

# unique_count=x[feature].nunique()

# print(f'{feature}的唯一值數量:{unique_count}')

# if unique_count<10:

# print(f'{feature}可能是離散型變量')

# else:

# print(f'{feature}可能是連續性變量')

# fig,axes=plt.subplots(2,2,figsize=(10,8))

# axes=axes.flatten()

# for i,feature in enumerate(selected_features):

# axes[i].hist(x[feature],bins=10)

# axes[i].set_title(f'histogram of {feature}')

# axes[i].set_xlabel(feature)

# axes[i].set_ylabel('frequency')

# plt.tight_layout()

# plt.show()

print(x[['KMeans_Cluster']].value_counts())

x_cluster0=x[x['KMeans_Cluster']==0]

x_cluster1=x[x['KMeans_Cluster']==1]

x_cluster2=x[x['KMeans_Cluster']==2]

x_cluster3=x[x['KMeans_Cluster']==3]

# #簇0

# fig,axes=plt.subplots(2,2,figsize=(6,4))

# axes=axes.flatten()

# for i,feature in enumerate(selected_features):

# sns.countplot(x=x_cluster0[feature],ax=axes[i])

# axes[i].set_title(f'countplot of {feature}')

# axes[i].set_xlabel(feature)

# axes[i].set_ylabel('count')

# plt.tight_layout()

# plt.show()

# #簇1

# fig,axes=plt.subplots(2,2,figsize=(6,4))

# axes=axes.flatten()

# for i,feature in enumerate(selected_features):

# sns.countplot(x=x_cluster1[feature],ax=axes[i])

# axes[i].set_title(f'countplot of {feature}')

# axes[i].set_xlabel(feature)

# axes[i].set_ylabel('count')

# plt.tight_layout()

# plt.show()

# #簇2

# fig,axes=plt.subplots(2,2,figsize=(6,4))

# axes=axes.flatten()

# for i,feature in enumerate(selected_features):

# sns.countplot(x=x_cluster2[feature],ax=axes[i])

# axes[i].set_title(f'countplot of {feature}')

# axes[i].set_xlabel(feature)

# axes[i].set_ylabel('count')

# plt.tight_layout()

# plt.show()

print("--- 遞歸特征消除 (RFE) ---")

from sklearn.feature_selection import RFE

base_model=RandomForestClassifier(random_state=42,class_weight='balanced')

rfe=RFE(base_model,n_features_to_select=3)

rfe.fit(x_train_smote,y_train_smote)

x_train_rfe=rfe.transform(x_train_smote)

x_test_rfe=rfe.transform(x_test)

selected_features_rfe=x_train.columns[rfe.support_]

print(f"RFE篩選后保留的特征數量: {len(selected_features_rfe)}")

print(f"保留的特征: {selected_features_rfe}")

# #3D可視化

import plotly.express as px

import plotly.graph_objects as go

x_selected=x[selected_features_rfe]

df_viz=pd.DataFrame(x_selected)

df_viz['cluster']=x['KMeans_Cluster']

fig=px.scatter_3d(

df_viz,

x=selected_features_rfe[0],

y=selected_features_rfe[1],

z=selected_features_rfe[2],

color='cluster',

color_continuous_scale=px.colors.sequential.Viridis,

title='RFE特征選擇的3D可視化'

)

fig.update_layout(

scene=dict(

xaxis_title=selected_features_rfe[0],

yaxis_title=selected_features_rfe[1],

zaxis_title=selected_features_rfe[2]

width=1200,

height=1000

)

fig.show()

#訓練隨機森林模型

rf_model_rfe=RandomForestClassifier(random_state=42,class_weight='balanced')

rf_model_rfe.fit(x_train_rfe,y_train)

rf_pred_rfe=rf_model_rfe.predict(x_test_rfe)

print("\nRFE篩選后隨機森林在測試集上的分類報告:")

print(classification_report(y_test, rf_pred_rfe))

print("RFE篩選后隨機森林在測試集上的混淆矩陣:")

print(confusion_matrix(y_test, rf_pred_rfe))

python打卡DAY22

相關文章

CodeBuddy 開發 JSON 可視化工具實錄：JsonVision 的誕生之旅

Redis學習專題（一）配置和持久化

[ctfshow web入門] web77

每日算法刷題Day8 5.16:leetcode定長滑動窗口4道題，用時1h

很啰嗦，再次總結 DOM

ES6 (ECMAScript 2015) 詳解

LeetCode 746 使用最小花費爬樓梯

6.1.1圖的基本概念

WeakAuras Lua Script [TOC BOSS 5 - Anub‘arak ]

【C/C++】深度探索c++對象模型_筆記

湖北理元理律師事務所：債務優化中的雙維支持實踐解析

Python uv包管理器使用指南：從入門到精通

Windows系統安全加固

小蝸牛撥號助手用戶使用手冊

c/c++消息隊列庫RabbitMQ的使用

線程(二)OpenJDK 17 中線程啟動的完整流程用C++ 源碼詳解之主-子線程通信機制

多線程爬蟲語言選擇與實現

AMD Vivado? 設計套件生成加密比特流和加密密鑰

Unity3D仿星露谷物語開發44之收集農作物

list重點接口及模擬實現