26.Scikit-learn實戰：機器學習的工具箱

Scikit-learn實戰：機器學習的工具箱

🎯 前言：機器學習界的"宜家家具"

還記得第一次逛宜家的感受嗎？琳瑯滿目的家具，每一件都有詳細的說明書，組裝簡單，樣式統一，關鍵是——便宜好用！Scikit-learn就是機器學習界的"宜家家具"，它提供了機器學習所需的幾乎所有"家具"：分類器、回歸器、聚類器、降維器…而且每個都有統一的API接口，就像宜家的螺絲都是通用的一樣。

想象一下，如果沒有Scikit-learn，我們要做機器學習就像要自己砍樹做家具一樣——累死人不償命！但有了sklearn，我們只需要按照說明書（文檔）組裝一下就行了。今天我們就來逛一逛這個"機器學習宜家"，看看都有什么好貨！

📚 目錄

什么是Scikit-learn？
安裝與環境配置
Scikit-learn的核心概念
分類算法實戰
回歸算法實戰
聚類算法實戰
數據預處理工具箱
模型評估與選擇
pipeline：流水線作業
實戰項目：房價預測
進階技巧
常見問題與解決方案

🧠 什么是Scikit-learn？

Scikit-learn（簡稱sklearn）是Python生態系統中最流行的機器學習庫，就像是一個裝滿了各種機器學習算法的工具箱。如果說NumPy是數值計算的基礎，Pandas是數據處理的利器，那么Scikit-learn就是機器學習的瑞士軍刀。

為什么選擇Scikit-learn？

API統一：所有算法都遵循相同的接口規范，學會一個就會所有
文檔完善：每個算法都有詳細的文檔和示例
性能優秀：底層用C和Cython實現，速度飛快
社區活躍：遇到問題很容易找到解決方案
開源免費：完全開源，商業使用無限制

可以說，Scikit-learn是機器學習入門的最佳選擇，沒有之一！

🔧 安裝與環境配置

安裝Scikit-learn就像點外賣一樣簡單：

# 使用pip安裝
pip install scikit-learn# 或者使用conda（推薦）
conda install scikit-learn# 同時安裝其他常用數據科學庫
pip install numpy pandas matplotlib seaborn jupyter

驗證安裝是否成功：

import sklearn
print(f"Scikit-learn版本: {sklearn.__version__}")# 輸出: Scikit-learn版本: 1.3.0

🎨 Scikit-learn的核心概念

1. 估計器（Estimator）

在Scikit-learn中，所有機器學習算法都被稱為"估計器"。這就像是說所有的宜家家具都叫"儲物解決方案"一樣——聽起來很高大上，其實就是個統一的叫法。

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans# 這些都是估計器
lr = LinearRegression()
rf = RandomForestClassifier()
kmeans = KMeans()

2. 三大核心方法

每個估計器都有三個核心方法，就像每個宜家家具都有"組裝、使用、維護"三個步驟：

fit()：訓練模型（組裝家具）
predict()：預測結果（使用家具）
score()：評估性能（檢查家具質量）

# 通用的機器學習流程
model = SomeAlgorithm()  # 選擇算法
model.fit(X_train, y_train)  # 訓練模型
predictions = model.predict(X_test)  # 進行預測
score = model.score(X_test, y_test)  # 評估性能

3. 轉換器（Transformer）

轉換器是用來處理數據的，就像宜家的各種收納盒，把亂七八糟的東西整理得井井有條：

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # 標準化數據

🎯 分類算法實戰

場景：垃圾郵件識別

讓我們用一個實際例子來演示分類算法。假設我們要識別垃圾郵件（雖然現在誰還用郵件…）：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns# 模擬一些郵件數據
emails = ["恭喜您中獎了！立即點擊領取大獎！","明天的會議改到下午3點","免費領取iPhone，機會難得！","項目報告已經完成，請查收","限時優惠，買一送一！","周末聚餐，你來嗎？","點擊這里，賺錢機會不容錯過！","會議紀要已發送到您的郵箱","緊急！您的賬戶存在風險！","生日快樂！祝你天天開心！"
]# 標簽：0=正常郵件，1=垃圾郵件
labels = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]# 創建數據集
df = pd.DataFrame({'email': emails,'is_spam': labels
})print("數據集預覽：")
print(df.head())

文本特征提取

# 將文本轉換為數值特征
vectorizer = TfidfVectorizer(max_features=100)
X = vectorizer.fit_transform(df['email'])
y = df['is_spam']# 查看特征名
print("特征詞匯（前10個）：")
print(vectorizer.get_feature_names_out()[:10])

模型訓練與比較

# 分割數據（這里數據太少，實際項目中要更多數據）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42
)# 嘗試不同的分類算法
models = {'樸素貝葉斯': MultinomialNB(),'支持向量機': SVC(kernel='linear'),'隨機森林': RandomForestClassifier(n_estimators=100)
}results = {}for name, model in models.items():# 訓練模型model.fit(X_train, y_train)# 預測predictions = model.predict(X_test)# 計算準確率accuracy = model.score(X_test, y_test)results[name] = accuracyprint(f"{name} 準確率: {accuracy:.3f}")# 可視化結果
plt.figure(figsize=(10, 6))
plt.bar(results.keys(), results.values())
plt.title('不同分類算法性能比較')
plt.ylabel('準確率')
plt.ylim(0, 1)
for i, (name, acc) in enumerate(results.items()):plt.text(i, acc + 0.01, f'{acc:.3f}', ha='center')
plt.show()

📈 回歸算法實戰

場景：房價預測

回歸就像是估價師，給出一個連續的數值。讓我們預測一下房價：

from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler# 生成模擬房價數據
X, y = make_regression(n_samples=1000,n_features=5,noise=0.1,random_state=42
)# 特征名稱
feature_names = ['面積', '房間數', '樓層', '建造年份', '距離市中心']# 創建DataFrame
df = pd.DataFrame(X, columns=feature_names)
df['房價'] = yprint("房價數據預覽：")
print(df.head())

數據標準化

# 標準化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 分割數據
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42
)

模型訓練與比較

# 嘗試不同的回歸算法
regressors = {'線性回歸': LinearRegression(),'嶺回歸': Ridge(alpha=1.0),'Lasso回歸': Lasso(alpha=1.0),'隨機森林': RandomForestRegressor(n_estimators=100)
}regression_results = {}for name, regressor in regressors.items():# 訓練模型regressor.fit(X_train, y_train)# 預測predictions = regressor.predict(X_test)# 計算評估指標mse = mean_squared_error(y_test, predictions)r2 = r2_score(y_test, predictions)regression_results[name] = {'MSE': mse, 'R2': r2}print(f"{name}:")print(f"  均方誤差: {mse:.3f}")print(f"  R2得分: {r2:.3f}")print()# 可視化預測效果
plt.figure(figsize=(15, 10))for i, (name, regressor) in enumerate(regressors.items()):plt.subplot(2, 2, i+1)predictions = regressor.predict(X_test)plt.scatter(y_test, predictions, alpha=0.6)plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)plt.xlabel('真實值')plt.ylabel('預測值')plt.title(f'{name} 預測效果')# 添加R2分數r2 = r2_score(y_test, predictions)plt.text(0.05, 0.95, f'R2 = {r2:.3f}', transform=plt.gca().transAxes, bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))plt.tight_layout()
plt.show()

🎭 聚類算法實戰

場景：客戶分群

聚類就像是給客戶貼標簽，把相似的客戶歸為一類：

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt# 生成模擬客戶數據
X, _ = make_blobs(n_samples=300, centers=4, n_features=2, random_state=42, cluster_std=0.8)# 特征名稱
feature_names = ['消費金額', '購買頻率']# 創建DataFrame
df = pd.DataFrame(X, columns=feature_names)print("客戶數據預覽：")
print(df.head())# 數據標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

聚類算法比較

# 嘗試不同的聚類算法
clusterers = {'K-Means': KMeans(n_clusters=4, random_state=42),'DBSCAN': DBSCAN(eps=0.3, min_samples=5),'層次聚類': AgglomerativeClustering(n_clusters=4)
}plt.figure(figsize=(15, 5))for i, (name, clusterer) in enumerate(clusterers.items()):plt.subplot(1, 3, i+1)# 進行聚類cluster_labels = clusterer.fit_predict(X_scaled)# 繪制聚類結果plt.scatter(X[:, 0], X[:, 1], c=cluster_labels, cmap='viridis', alpha=0.6)plt.title(f'{name} 聚類結果')plt.xlabel('消費金額')plt.ylabel('購買頻率')# 顯示聚類中心（僅K-Means）if hasattr(clusterer, 'cluster_centers_'):centers = scaler.inverse_transform(clusterer.cluster_centers_)plt.scatter(centers[:, 0], centers[:, 1], c='red', marker='x', s=200, linewidths=3, label='聚類中心')plt.legend()plt.tight_layout()
plt.show()

🔧 數據預處理工具箱

Scikit-learn提供了豐富的數據預處理工具，就像是數據的"美容院"：

from sklearn.preprocessing import (StandardScaler, MinMaxScaler, RobustScaler,LabelEncoder, OneHotEncoder, PolynomialFeatures
)
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import SelectKBest, f_classif# 創建一些示例數據
data = {'年齡': [25, 30, np.nan, 35, 40],'收入': [30000, 50000, 60000, 80000, 100000],'城市': ['北京', '上海', '廣州', '深圳', '北京'],'是否購買': [0, 1, 1, 1, 0]
}df = pd.DataFrame(data)
print("原始數據：")
print(df)

缺失值處理

# 處理缺失值
imputer = SimpleImputer(strategy='mean')
df['年齡'] = imputer.fit_transform(df[['年齡']])print("\n處理缺失值后：")
print(df)

特征編碼

# 標簽編碼
label_encoder = LabelEncoder()
df['城市_編碼'] = label_encoder.fit_transform(df['城市'])# 獨熱編碼
encoder = OneHotEncoder(sparse=False)
city_encoded = encoder.fit_transform(df[['城市']])
city_feature_names = encoder.get_feature_names_out(['城市'])print("\n城市編碼結果：")
print(pd.DataFrame(city_encoded, columns=city_feature_names))

特征縮放

# 不同的縮放方法
scalers = {'標準化': StandardScaler(),'最小-最大縮放': MinMaxScaler(),'魯棒縮放': RobustScaler()
}numeric_features = ['年齡', '收入']
X_numeric = df[numeric_features]plt.figure(figsize=(15, 5))for i, (name, scaler) in enumerate(scalers.items()):plt.subplot(1, 3, i+1)X_scaled = scaler.fit_transform(X_numeric)plt.scatter(X_scaled[:, 0], X_scaled[:, 1])plt.title(f'{name}')plt.xlabel('年齡（縮放后）')plt.ylabel('收入（縮放后）')# 顯示縮放范圍plt.xlim(-3, 3)plt.ylim(-3, 3)plt.tight_layout()
plt.show()

📊 模型評估與選擇

交叉驗證

交叉驗證就像是多次考試取平均分，比一次考試更可靠：

from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.datasets import make_classification# 生成分類數據
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)# 創建模型
model = RandomForestClassifier(n_estimators=100, random_state=42)# 5折交叉驗證
cv_scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')print(f"交叉驗證分數: {cv_scores}")
print(f"平均分數: {cv_scores.mean():.3f} (+/- {cv_scores.std() * 2:.3f})")

學習曲線

from sklearn.model_selection import learning_curve# 繪制學習曲線
train_sizes, train_scores, val_scores = learning_curve(model, X, y, cv=5, n_jobs=-1, train_sizes=np.linspace(0.1, 1.0, 10)
)plt.figure(figsize=(10, 6))
plt.plot(train_sizes, np.mean(train_scores, axis=1), 'o-', label='訓練分數')
plt.plot(train_sizes, np.mean(val_scores, axis=1), 'o-', label='驗證分數')
plt.xlabel('訓練樣本數')
plt.ylabel('準確率')
plt.title('學習曲線')
plt.legend()
plt.grid(True)
plt.show()

🏭 Pipeline：流水線作業

Pipeline就像是工廠的流水線，把所有處理步驟串聯起來：

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer# 創建混合數據
data = {'年齡': [25, 30, 35, 40, 45],'收入': [30000, 50000, 60000, 80000, 100000],'城市': ['北京', '上海', '廣州', '深圳', '北京'],'教育程度': ['本科', '研究生', '本科', '博士', '高中'],'是否購買': [0, 1, 1, 1, 0]
}df = pd.DataFrame(data)# 定義數值特征和分類特征
numeric_features = ['年齡', '收入']
categorical_features = ['城市', '教育程度']# 創建預處理管道
numeric_pipeline = Pipeline([('scaler', StandardScaler())
])categorical_pipeline = Pipeline([('encoder', OneHotEncoder(drop='first'))
])# 組合預處理器
preprocessor = ColumnTransformer([('num', numeric_pipeline, numeric_features),('cat', categorical_pipeline, categorical_features)
])# 創建完整的機器學習管道
ml_pipeline = Pipeline([('preprocessor', preprocessor),('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])# 使用管道
X = df[numeric_features + categorical_features]
y = df['是否購買']# 訓練
ml_pipeline.fit(X, y)# 預測
predictions = ml_pipeline.predict(X)
print(f"預測結果: {predictions}")# 查看特征重要性
feature_names = (numeric_features + list(ml_pipeline.named_steps['preprocessor'].named_transformers_['cat'].named_steps['encoder'].get_feature_names_out(categorical_features)))importance = ml_pipeline.named_steps['classifier'].feature_importances_plt.figure(figsize=(10, 6))
plt.barh(range(len(feature_names)), importance)
plt.yticks(range(len(feature_names)), feature_names)
plt.xlabel('特征重要性')
plt.title('特征重要性排名')
plt.tight_layout()
plt.show()

🏡 實戰項目：房價預測完整版

讓我們來做一個完整的項目，從數據加載到模型部署：

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib# 加載加州房價數據
housing = fetch_california_housing()
X, y = housing.data, housing.target# 創建DataFrame
df = pd.DataFrame(X, columns=housing.feature_names)
df['target'] = yprint("數據集信息：")
print(df.info())
print("\n前5行數據：")
print(df.head())

數據探索

# 數據可視化
plt.figure(figsize=(15, 10))# 目標變量分布
plt.subplot(2, 3, 1)
plt.hist(y, bins=50, alpha=0.7)
plt.title('房價分布')
plt.xlabel('房價')
plt.ylabel('頻數')# 特征相關性
plt.subplot(2, 3, 2)
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('特征相關性矩陣')# 重要特征散點圖
important_features = ['MedInc', 'HouseAge', 'AveRooms']
for i, feature in enumerate(important_features):plt.subplot(2, 3, i+3)plt.scatter(df[feature], y, alpha=0.3)plt.xlabel(feature)plt.ylabel('房價')plt.title(f'{feature} vs 房價')plt.tight_layout()
plt.show()

模型訓練與調優

# 分割數據
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42
)# 定義模型和參數網格
models = {'LinearRegression': {'model': LinearRegression(),'params': {}},'RandomForest': {'model': RandomForestRegressor(random_state=42),'params': {'n_estimators': [100, 200],'max_depth': [10, 20, None],'min_samples_split': [2, 5]}},'GradientBoosting': {'model': GradientBoostingRegressor(random_state=42),'params': {'n_estimators': [100, 200],'learning_rate': [0.05, 0.1, 0.2],'max_depth': [3, 5, 7]}}
}# 訓練和評估模型
best_models = {}
results = {}for name, config in models.items():print(f"\n訓練 {name}...")if config['params']:# 網格搜索grid_search = GridSearchCV(config['model'], config['params'], cv=5, scoring='neg_mean_squared_error', n_jobs=-1)grid_search.fit(X_train, y_train)best_model = grid_search.best_estimator_print(f"最佳參數: {grid_search.best_params_}")else:# 直接訓練best_model = config['model']best_model.fit(X_train, y_train)# 預測y_pred = best_model.predict(X_test)# 評估mse = mean_squared_error(y_test, y_pred)r2 = r2_score(y_test, y_pred)best_models[name] = best_modelresults[name] = {'MSE': mse, 'R2': r2}print(f"MSE: {mse:.4f}")print(f"R2: {r2:.4f}")# 選擇最佳模型
best_model_name = max(results, key=lambda x: results[x]['R2'])
best_model = best_models[best_model_name]print(f"\n最佳模型: {best_model_name}")
print(f"R2得分: {results[best_model_name]['R2']:.4f}")

模型解釋

# 特征重要性分析
if hasattr(best_model, 'feature_importances_'):feature_importance = pd.DataFrame({'feature': housing.feature_names,'importance': best_model.feature_importances_}).sort_values('importance', ascending=False)plt.figure(figsize=(10, 6))sns.barplot(data=feature_importance, x='importance', y='feature')plt.title(f'{best_model_name} 特征重要性')plt.xlabel('重要性')plt.tight_layout()plt.show()# 預測 vs 實際值
y_pred = best_model.predict(X_test)plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('實際房價')
plt.ylabel('預測房價')
plt.title(f'{best_model_name} 預測效果')
plt.tight_layout()
plt.show()

模型保存與加載

# 保存模型
joblib.dump(best_model, 'best_housing_model.pkl')# 創建預測函數
def predict_house_price(features):"""預測房價features: 包含8個特征的列表或數組"""# 加載模型model = joblib.load('best_housing_model.pkl')# 預測prediction = model.predict([features])return prediction[0]# 測試預測函數
sample_features = X_test[0]  # 取第一個測試樣本
predicted_price = predict_house_price(sample_features)
actual_price = y_test[0]print(f"樣本特征: {sample_features}")
print(f"預測房價: {predicted_price:.2f}")
print(f"實際房價: {actual_price:.2f}")
print(f"誤差: {abs(predicted_price - actual_price):.2f}")

🚀 進階技巧

1. 自定義評分函數

from sklearn.metrics import make_scorerdef custom_score(y_true, y_pred):"""自定義評分函數：懲罰高估"""error = y_pred - y_true# 高估的懲罰更大penalty = np.where(error > 0, error**2 * 2, error**2)return -np.mean(penalty)# 使用自定義評分
custom_scorer = make_scorer(custom_score, greater_is_better=True)

2. 特征工程自動化

from sklearn.preprocessing import PolynomialFeatures# 多項式特征
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X[:, :2])  # 只取前兩個特征print(f"原始特征數: {X.shape[1]}")
print(f"多項式特征數: {X_poly.shape[1]}")

3. 模型集成

from sklearn.ensemble import VotingRegressor# 創建投票回歸器
voting_regressor = VotingRegressor([('rf', RandomForestRegressor(n_estimators=100, random_state=42)),('gb', GradientBoostingRegressor(n_estimators=100, random_state=42)),('lr', LinearRegression())
])# 訓練集成模型
voting_regressor.fit(X_train, y_train)
ensemble_pred = voting_regressor.predict(X_test)
ensemble_r2 = r2_score(y_test, ensemble_pred)print(f"集成模型R2得分: {ensemble_r2:.4f}")

🔧 常見問題與解決方案

問題1：數據泄露

# ? 錯誤做法：在分割數據前進行標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2)# ? 正確做法：在訓練集上訓練scaler，然后應用到測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)  # 注意這里用transform，不是fit_transform

問題2：內存不足

# 對于大數據集，使用增量學習
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler# 創建增量學習模型
sgd = SGDRegressor()
scaler = StandardScaler()# 分批處理數據
batch_size = 1000
for i in range(0, len(X_train), batch_size):batch_X = X_train[i:i+batch_size]batch_y = y_train[i:i+batch_size]# 標準化if i == 0:batch_X_scaled = scaler.fit_transform(batch_X)else:batch_X_scaled = scaler.transform(batch_X)# 增量學習sgd.partial_fit(batch_X_scaled, batch_y)

問題3：類別不平衡

from sklearn.utils import class_weight
from sklearn.ensemble import RandomForestClassifier# 計算類別權重
class_weights = class_weight.compute_class_weight('balanced', classes=np.unique(y), y=y
)# 使用平衡權重
rf_balanced = RandomForestClassifier(class_weight='balanced', random_state=42
)

📖 擴展閱讀

進階學習方向

深度學習: TensorFlow、PyTorch
大規模機器學習: Dask、Ray
AutoML: Auto-sklearn、TPOT
模型解釋: SHAP、LIME

🎬 下集預告

下一篇我們將深入探討"線性回歸：預測數字的入門神器"。我們會從最簡單的一元線性回歸開始，逐步學習多元線性回歸、正則化技術，并通過實際案例來理解回歸分析的精髓。

想象一下，如果你能預測股票價格、房價走勢，或者公司銷售額，這該有多酷！雖然現實沒那么簡單，但線性回歸確實是預測數字的第一步，也是最重要的一步。

📝 總結與思考題

本文要點回顧

Scikit-learn是什么：機器學習的瑞士軍刀，API統一，文檔完善
核心概念：估計器、fit/predict/score三大方法
算法應用：分類、回歸、聚類的實戰案例
數據預處理：缺失值處理、特征編碼、數據縮放
模型評估：交叉驗證、學習曲線、性能指標
Pipeline：構建完整的機器學習工作流
最佳實踐：避免數據泄露、處理大數據、類別不平衡

思考題

概念理解：
- 為什么說Scikit-learn的API設計很優秀？
- 什么情況下需要使用Pipeline？
- 如何選擇合適的評估指標？
實踐應用：
- 實現一個完整的分類項目，包括數據預處理、模型訓練、評估和保存
- 比較不同算法在同一數據集上的表現
- 嘗試使用GridSearchCV優化模型參數
拓展思考：
- 如何處理高維數據？
- 什么時候需要使用集成學習？
- 如何在生產環境中部署Scikit-learn模型？