醫療數據挖掘Python機器學習案例

1. 醫療數據挖掘概述

醫療數據挖掘是從大量的醫療數據中提取有價值信息和知識的過程，旨在輔助醫療決策、疾病預測、治療方案優化等。隨著醫療信息化的發展，電子病歷、醫療影像、基因數據等多源異構數據不斷積累，為醫療數據挖掘提供了豐富的素材。Python作為一種強大的編程語言，憑借其豐富的庫和簡潔的語法，在醫療數據挖掘領域得到了廣泛應用。

1.1 醫療數據的特點

醫療數據具有以下特點：

多樣性：包括結構化數據（如電子病歷中的年齡、性別、診斷結果）、半結構化數據（如醫生的文本筆記）和非結構化數據（如醫療影像、病理報告）。
高維度：基因數據、醫療影像等數據通常具有高維度特征。
時效性：某些醫療數據（如生命體征監測數據）具有時間序列特性，需要實時或近實時處理。
隱私性：醫療數據涉及患者隱私，處理時需要嚴格遵守相關法律法規。

1.2 醫療數據挖掘的應用場景

疾病預測：通過分析患者的歷史數據，預測未來可能患某種疾病的風險。
個性化治療：根據患者的基因、生活習慣等數據，制定個性化的治療方案。
醫療資源優化：分析醫院資源使用情況，優化床位分配、手術安排等。
藥物研發：通過挖掘藥物與疾病之間的關系，加速新藥研發過程。

2. 數據預處理

在進行醫療數據挖掘之前，數據預處理是必不可少的一步。預處理的目的是提高數據質量，消除噪聲，使數據更適合后續的分析模型。

2.1 數據清洗

數據清洗包括處理缺失值、異常值和重復數據。

import pandas as pd
import numpy as np# 讀取數據
data = pd.read_csv('medical_data.csv')# 處理缺失值
data.fillna(method='ffill', inplace=True)  # 前向填充# 處理異常值（假設年齡列）
mean_age = data['age'].mean()
std_age = data['age'].std()
data = data[(data['age'] > mean_age - 3 * std_age) & (data['age'] < mean_age + 3 * std_age)]# 去除重復行
data.drop_duplicates(inplace=True)

2.2 數據轉換

將非結構化數據轉換為結構化數據，例如將文本數據轉換為數值特征。

from sklearn.feature_extraction.text import CountVectorizer# 假設有癥狀描述列
vectorizer = CountVectorizer()
symptom_matrix = vectorizer.fit_transform(data['symptoms'])# 將癥狀矩陣轉換為DataFrame并拼接到原數據
symptom_df = pd.DataFrame(symptom_matrix.toarray(), columns=vectorizer.get_feature_names_out())
data = pd.concat([data, symptom_df], axis=1)

2.3 特征選擇

選擇與目標變量最相關的特征，以降低維度并提高模型性能。

from sklearn.feature_selection import SelectKBest, chi2# 假設目標變量是'disease'
X = data.drop('disease', axis=1)
y = data['disease']# 選擇前10個最佳特征
selector = SelectKBest(chi2, k=10)
X_new = selector.fit_transform(X, y)# 獲取選中的特征名稱
selected_features = X.columns[selector.get_support()]
print("Selected features:", selected_features)

3. 模型構建與評估

選擇合適的機器學習模型，并進行訓練和評估。

3.1 數據集劃分

將數據集劃分為訓練集和測試集。

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

3.2 模型選擇與訓練

以邏輯回歸為例，進行二分類任務（如預測是否患有某種疾病）。

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report# 初始化模型
model = LogisticRegression()# 訓練模型
model.fit(X_train, y_train)# 預測
y_pred = model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)print(f"Accuracy: {accuracy}")
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(class_report)

3.3 交叉驗證

使用交叉驗證來評估模型的穩定性和泛化能力。

from sklearn.model_selection import cross_val_score# 5折交叉驗證
cv_scores = cross_val_score(model, X_new, y, cv=5)
print(f"Cross-validation scores: {cv_scores}")
print(f"Mean CV score: {cv_scores.mean()}")

4. 高級特征工程

為了進一步提升模型性能，可以進行高級特征工程，如特征交互、多項式特征等。

4.1 特征交互

創建特征之間的交互項，以捕捉非線性關系。

from sklearn.preprocessing import PolynomialFeatures# 初始化多項式特征生成器
poly = PolynomialFeatures(degree=2, include_bias=False)# 生成多項式特征
X_poly = poly.fit_transform(X_new)# 更新訓練集和測試集
X_train_poly, X_test_poly, y_train, y_test = train_test_split(X_poly, y, test_size=0.2, random_state=42)

4.2 模型重新訓練與評估

# 初始化新模型
model = LogisticRegression()# 訓練模型
model.fit(X_train_poly, y_train)# 預測
y_pred = model.predict(X_test_poly)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy with polynomial features: {accuracy}")

5. 集成學習與模型融合

集成學習方法通過結合多個模型的預測結果，提高整體性能和穩定性。常見的集成方法包括隨機森林、梯度提升機等。

5.1 隨機森林

隨機森林是一種基于決策樹的集成方法，通過構建多個決策樹并進行投票來做出預測。

from sklearn.ensemble import RandomForestClassifier# 初始化隨機森林模型
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)# 訓練模型
rf_model.fit(X_train, y_train)# 預測
y_pred_rf = rf_model.predict(X_test)# 評估
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Random Forest Accuracy: {accuracy_rf}")

5.2 梯度提升機

梯度提升機通過逐步添加弱學習器，并優化損失函數來提高模型性能。

from sklearn.ensemble import GradientBoostingClassifier# 初始化梯度提升機模型
gb_model = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)# 訓練模型
gb_model.fit(X_train, y_train)# 預測
y_pred_gb = gb_model.predict(X_test)# 評估
accuracy_gb = accuracy_score(y_test, y_pred_gb)
print(f"Gradient Boosting Accuracy: {accuracy_gb}")

5.3 模型融合

通過結合多個模型的預測結果，進一步提高性能。這里采用簡單的投票法。

from sklearn.ensemble import VotingClassifier# 定義個體模型
models = [('logistic', model), ('rf', rf_model), ('gb', gb_model)]# 初始化投票分類器
voting_clf = VotingClassifier(estimators=models, voting='hard')# 訓練模型
voting_clf.fit(X_train, y_train)# 預測
y_pred_voting = voting_clf.predict(X_test)# 評估
accuracy_voting = accuracy_score(y_test, y_pred_voting)
print(f"Voting Classifier Accuracy: {accuracy_voting}")

6. 處理不平衡數據

在醫療數據中，某些疾病的樣本可能較少，導致數據不平衡。處理不平衡數據的方法包括過采樣、欠采樣和使用專門的不平衡學習算法。

6.1 過采樣

使用SMOTE（Synthetic Minority Over-sampling Technique）進行過采樣。

from imblearn.over_sampling import SMOTE# 初始化SMOTE
smote = SMOTE(random_state=42)# 進行過采樣
X_resampled, y_resampled = smote.fit_resample(X_new, y)# 劃分訓練集和測試集
X_train_res, X_test_res, y_train_res, y_test_res = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

6.2 模型訓練與評估

# 初始化模型
model = LogisticRegression()# 訓練模型
model.fit(X_train_res, y_train_res)# 預測
y_pred_res = model.predict(X_test_res)# 評估
accuracy_res = accuracy_score(y_test_res, y_pred_res)
print(f"Accuracy after SMOTE: {accuracy_res}")

7. 特征重要性分析

了解哪些特征對模型預測最重要，有助于解釋模型結果和指導醫療實踐。

7.1 邏輯回歸的特征系數

# 獲取特征系數
coefficients = model.coef_[0]
feature_importance = pd.Series(coefficients, index=selected_features).sort_values(ascending=False)
print("Feature importance (Logistic Regression):")
print(feature_importance)

7.2 隨機森林的特征重要性

# 獲取特征重要性
importances_rf = rf_model.feature_importances_
feature_importance_rf = pd.Series(importances_rf, index=selected_features).sort_values(ascending=False)
print("Feature importance (Random Forest):")
print(feature_importance_rf)

7.3 可視化特征重要性

import matplotlib.pyplot as plt
import seaborn as sns# 設置繪圖風格
sns.set(style="whitegrid")# 繪制特征重要性圖（隨機森林）
plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importance_rf, y=feature_importance_rf.index)
plt.title("Feature Importance (Random Forest)")
plt.xlabel("Importance Score")
plt.ylabel("Feature")
plt.show()

8. 模型解釋與可解釋性

在醫療領域，模型的可解釋性至關重要，因為醫生需要理解模型的決策依據。常用的可解釋性方法包括SHAP值和LIME。

8.1 SHAP值

SHAP（SHapley Additive exPlanations）值可以解釋每個特征對預測結果的貢獻。

import shap# 初始化SHAP解釋器
explainer = shap.Explainer(rf_model, X_train)
shap_values = explainer(X_test)# 可視化SHAP值
shap.summary_plot(shap_values, X_test, plot_type="bar")

8.2 LIME解釋

LIME（Local Interpretable Model-agnostic Explanations）通過局部擬合可解釋模型來解釋單個預測。

from lime.lime_tabular import LimeTabularExplainer
from lime import lime_tabular# 初始化LIME解釋器
explainer = LimeTabularExplainer(X_train, feature_names=selected_features, class_names=['No Disease', 'Disease'], discretize_continuous=True)# 解釋單個預測
i = 0  # 選擇第一個樣本進行解釋
exp = explainer.explain_instance(X_test.iloc[i], model.predict, num_features=10)
exp.show_in_notebook(show_all=False)