Scikit-learn高級教程：深入理解機器學習算法

引言
Scikit-learn概述
- 什么是Scikit-learn
- Scikit-learn的主要功能
- 安裝和導入
數據預處理
- 數據加載
- 數據清洗
- 特征工程
- 數據歸一化與標準化
監督學習算法
- 線性回歸
- 邏輯回歸
- 支持向量機
- 決策樹與隨機森林
- k-近鄰算法
- 樸素貝葉斯
無監督學習算法
- K-means聚類
- 層次聚類
- 主成分分析（PCA）
模型評估與選擇
- 交叉驗證
- 網格搜索
- 模型評估指標
高級主題
- 集成方法
- 自定義轉換器和管道
- 特征選擇
- 模型部署
總結與建議
附錄
- 參考書籍與資源
- 常見問題與解決方案

1. 引言

機器學習是一種通過數據自動學習規律和做出預測的技術。Scikit-learn是一個強大的Python庫，提供了豐富的機器學習算法和工具。本教程將深入介紹Scikit-learn的高級功能和使用方法，幫助你理解和應用各種機器學習算法。

2. Scikit-learn概述

什么是Scikit-learn

Scikit-learn是一個開源的機器學習庫，基于NumPy、SciPy和Matplotlib構建，提供了簡單高效的數據挖掘和數據分析工具。

Scikit-learn的主要功能

預處理工具
分類、回歸和聚類算法
模型選擇與評估
特征工程

安裝和導入

你可以使用pip安裝Scikit-learn：

pip install scikit-learn

導入Scikit-learn：

import sklearn

3. 數據預處理

數據加載

Scikit-learn提供了一些內置數據集，可以方便地加載和使用。

from sklearn.datasets import load_irisdata = load_iris()
X, y = data.data, data.target

數據清洗

數據清洗包括處理缺失值、去除重復值等。

import pandas as pd
import numpy as np# 創建一個DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4],'B': [5, np.nan, np.nan, 8],'C': [9, 10, 11, 12]
})# 填充缺失值
df.fillna(df.mean(), inplace=True)

特征工程

特征工程包括特征提取、特征選擇等。

from sklearn.preprocessing import PolynomialFeatures# 生成多項式特征
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

數據歸一化與標準化

數據歸一化和標準化是數據預處理的重要步驟。

from sklearn.preprocessing import StandardScaler, MinMaxScaler# 標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 歸一化
minmax_scaler = MinMaxScaler()
X_normalized = minmax_scaler.fit_transform(X)

4. 監督學習算法

線性回歸

線性回歸是一種基本的回歸方法，用于預測連續變量。

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 加載數據
X, y = load_boston(return_X_y=True)# 拆分數據集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 訓練模型
model = LinearRegression()
model.fit(X_train, y_train)# 預測
y_pred = model.predict(X_test)# 評估
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

邏輯回歸

邏輯回歸用于分類任務，尤其是二分類問題。

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 加載數據
X, y = load_iris(return_X_y=True)# 拆分數據集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 訓練模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)# 預測
y_pred = model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

支持向量機

支持向量機（SVM）是一種強大的分類和回歸算法。

from sklearn.svm import SVC# 訓練SVM模型
model = SVC(kernel='linear')
model.fit(X_train, y_train)# 預測
y_pred = model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

決策樹與隨機森林

決策樹是一種簡單的分類和回歸模型，隨機森林是基于決策樹的集成模型。

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier# 訓練決策樹模型
dt_model = DecisionTreeClassifier()
dt_model.fit(X_train, y_train)# 訓練隨機森林模型
rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train, y_train)# 預測
dt_pred = dt_model.predict(X_test)
rf_pred = rf_model.predict(X_test)# 評估
dt_accuracy = accuracy_score(y_test, dt_pred)
rf_accuracy = accuracy_score(y_test, rf_pred)
print(f'Decision Tree Accuracy: {dt_accuracy}')
print(f'Random Forest Accuracy: {rf_accuracy}')

k-近鄰算法

k-近鄰算法（KNN）是一種簡單的分類和回歸算法。

from sklearn.neighbors import KNeighborsClassifier# 訓練KNN模型
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)# 預測
y_pred = knn_model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

樸素貝葉斯

樸素貝葉斯是一種基于貝葉斯定理的簡單而強大的分類算法。

from sklearn.naive_bayes import GaussianNB# 訓練樸素貝葉斯模型
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)# 預測
y_pred = nb_model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

5. 無監督學習算法

K-means聚類

K-means是一種常見的聚類算法，用于將數據集劃分為K個簇。

from sklearn.cluster import KMeans# 訓練K-means模型
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)# 獲取聚類結果
clusters = kmeans.labels_
print(clusters)

層次聚類

層次聚類是一種將數據進行層次化聚類的方法。

from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt# 層次聚類
linked = linkage(X, 'single')# 繪制樹狀圖
plt.figure(figsize=(10, 7))
dendrogram(linked, labels=y)
plt.show()

主成分分析（PCA）

PCA是一種降維技術，用于將高維數據映射到低維空間。

from sklearn.decomposition import PCA# 訓練PCA模型
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)# 繪制PCA結果
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y)
plt.xlabel('PCA1')
plt.ylabel('PCA2')
plt.show()

6. 模型評估與選擇

交叉驗證

交叉驗證是一種評估模型性能的方法，通過將數據集劃分為多個子集進行訓練和測試。

from sklearn.model_selection import cross_val_score# 交叉驗證
scores = cross_val_score(model, X, y, cv=5)
print(f'Cross-validation scores: {scores}')
print(f'Mean score: {scores.mean()}')

網格搜索

網格搜索是一種超參數調優方法，通過窮舉搜索找到最佳參數組合。

from sklearn.model_selection import GridSearchCV# 定義參數網格
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}# 網格搜索
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)# 獲取最佳參數
print(f'Best parameters: {grid_search.best_params_}')

模型評估指標

常見的模型評估指標包括準確率、精確率、召回率、F1分數等。

from sklearn.metrics import classification_report, confusion_matrix# 獲取分類報告
print(classification_report(y_test, y_pred))# 獲取混淆矩陣
print(confusion_matrix(y_test, y_pred))

7. 高級主題

集成方法

集成方法通過組合多個模型的預測結果來提高模型性能。

from sklearn.ensemble import GradientBoostingClassifier# 訓練梯度提升模型
gb_model = GradientBoostingClassifier(n_estimators=100)
gb_model.fit(X_train, y_train)# 預測
y_pred = gb_model.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

自定義轉換器和管道

管道用于簡化機器學習工作流，自定義轉換器用于實現自定義的數據預處理邏輯。

from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixinclass CustomTransformer(BaseEstimator, TransformerMixin):def fit(self, X, y=None):return selfdef transform(self, X):return X + 1  # 自定義轉換邏輯# 創建管道
pipeline = Pipeline([('custom_transform', CustomTransformer()),('scaler', StandardScaler()),('classifier', SVC())
])# 訓練管道
pipeline.fit(X_train, y_train)# 預測
y_pred = pipeline.predict(X_test)# 評估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

特征選擇

特征選擇用于選擇對模型最有用的特征，減少特征數量，提高模型性能。

from sklearn.feature_selection import SelectKBest, f_classif# 特征選擇
selector = SelectKBest(f_classif, k=2)
X_new = selector.fit_transform(X, y)# 查看選擇的特征
print(X_new.shape)

模型部署

模型部署將訓練好的模型部署到生產環境，進行實時預測。

import joblib# 保存模型
joblib.dump(model, 'model.joblib')# 加載模型
loaded_model = joblib.load('model.joblib')# 預測
y_pred = loaded_model.predict(X_test)
print(y_pred)