遙感機器學習入門實戰教程｜Sklearn案例⑤：集成學習方法全覽

在機器學習的實際應用中，單一分類器往往存在局限：比如決策樹容易過擬合，kNN 對噪聲敏感，邏輯回歸在高維數據下收斂慢。為了提升整體效果，我們通常會采用 集成學習（Ensemble Learning）。

這篇文章將基于 sklearn 框架，系統演示 Bagging、Boosting、Voting、Stacking 四類常見的集成學習方法，并在經典的 KSC 高光譜數據集 上做實驗對比。

🧩 1. 實驗思路

數據集：KSC 高光譜影像及其地物標注
預處理：標準化 + PCA 降維（僅作為特征壓縮，取 30 維）
分類器：隨機森林（RF）、AdaBoost、GBDT、Bagging(kNN)、Voting、Stacking
評價指標：Overall Accuracy (OA) 與 Kappa 系數

?? 2. 完整代碼

下面給出本次實驗的完整代碼，可以直接運行。請注意修改 DATA_DIR 為你存放數據的路徑。

# -*- coding: utf-8 -*-
"""
Sklearn案例⑤：集成學習方法全覽
- 演示 Bagging / Boosting / Voting / Stacking
"""
import os, numpy as np, scipy.io as sio, matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import (RandomForestClassifier, AdaBoostClassifier,GradientBoostingClassifier, BaggingClassifier,VotingClassifier, StackingClassifier)
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, cohen_kappa_score
import matplotlib
matplotlib.rcParams['font.family'] = 'SimHei'
matplotlib.rcParams['axes.unicode_minus'] = False# ===== 參數設置 =====
DATA_DIR = "你的數據路徑"   # 修改為存放 KSC.mat 和 KSC_gt.mat 的文件夾
PCA_DIM, TRAIN_RATIO, SEED = 30, 0.3, 42# ===== 1. 加載數據 =====
X = sio.loadmat(os.path.join(DATA_DIR, "KSC.mat"))["KSC"].astype(np.float32)
Y = sio.loadmat(os.path.join(DATA_DIR, "KSC_gt.mat"))["KSC_gt"].astype(int)
h, w, b = X.shape
coords = np.argwhere(Y != 0)
labels = Y[coords[:,0], coords[:,1]] - 1
num_classes = labels.max() + 1# ===== 2. 劃分訓練/測試 =====
train_ids, test_ids = train_test_split(np.arange(len(coords)), train_size=TRAIN_RATIO,stratify=labels, random_state=SEED
)
train_pixels = X[coords[train_ids,0], coords[train_ids,1]]
test_pixels  = X[coords[test_ids,0], coords[test_ids,1]]# ===== 3. 標準化 + PCA（僅預處理） =====
scaler = StandardScaler().fit(train_pixels)
pca = PCA(n_components=PCA_DIM, random_state=SEED).fit(scaler.transform(train_pixels))
X_train = pca.transform(scaler.transform(train_pixels))
X_test  = pca.transform(scaler.transform(test_pixels))
y_train, y_test = labels[train_ids], labels[test_ids]# ===== 4. 定義多個集成學習模型 =====
models = {"RF": RandomForestClassifier(n_estimators=20, random_state=SEED, n_jobs=-1),"AdaBoost": AdaBoostClassifier(n_estimators=20, random_state=SEED),"GBDT": GradientBoostingClassifier(n_estimators=20, random_state=SEED),"Bagging(kNN)": BaggingClassifier(KNeighborsClassifier(5), n_estimators=30, random_state=SEED),"Voting(SVM+kNN+LR)": VotingClassifier(estimators=[("svm", SVC(probability=True)), ("knn", KNeighborsClassifier(5)),("lr", LogisticRegression(max_iter=1000))],voting="soft"),"Stacking(SVM+kNN->LR)": StackingClassifier(estimators=[("svm", SVC(probability=True)), ("knn", KNeighborsClassifier(5))],final_estimator=LogisticRegression(max_iter=200))
}# ===== 5. 訓練與評估 =====
results = {}
for name, clf in models.items():clf.fit(X_train, y_train)y_pred = clf.predict(X_test)oa = accuracy_score(y_test, y_pred)kappa = cohen_kappa_score(y_test, y_pred)results[name] = (oa, kappa)print(f"{name:20s} OA={oa*100:.2f}%  Kappa={kappa:.4f}")# ===== 6. 可視化比較 =====
plt.figure(figsize=(8, 5), dpi=110)
names      = list(results.keys())
oa_vals    = [results[k][0] * 100 for k in names]
kappa_vals = [results[k][1] * 100 for k in names]
x = np.arange(len(names))
plt.plot(x, oa_vals, marker='o', linewidth=2.2, label='OA (%)')
plt.plot(x, kappa_vals, marker='s', linewidth=2.2, linestyle='--', label='Kappa × 100')
plt.xticks(x, names, rotation=20, ha='right')
plt.ylabel("Accuracy / Score (%)")
plt.title("Sklearn 集成學習方法對比")
plt.grid(alpha=0.25, linestyle='--')
for xi, yi in zip(x, oa_vals):plt.text(xi, yi + 0.6, f"{yi:.1f}", ha='center', fontsize=9)
for xi, yi in zip(x, kappa_vals):plt.text(xi, yi + 0.6, f"{yi:.1f}", ha='center', fontsize=9)
plt.legend(frameon=False, ncol=2, loc='upper left')
plt.tight_layout()
plt.show()

📊 3. 實驗結果與分析

運行后會輸出每個模型的分類精度（OA）和 Kappa 系數，并繪制對比折線圖。實驗表明：

RF、Bagging：能有效減少過擬合，結果比較穩健；
AdaBoost、GBDT：對復雜邊界表現較好，整體精度有提升；
Voting：結合了 SVM、kNN、邏輯回歸的優勢，適合多類別任務；
Stacking：通過“元學習器”進一步優化，往往能獲得更平衡的結果。

在這里插入圖片描述

💡 4. 總結

通過本實驗我們可以看到：

sklearn 提供了 完整的集成學習工具箱，不同方法調用方式統一，便于快速切換和比較。
集成學習能夠顯著提升模型的魯棒性，尤其適合高維、類別不平衡的數據集。
Voting 和 Stacking 等方法，能夠發揮多模型的互補性，往往比單一模型更可靠。

未來，我們還可以在此基礎上：

嘗試更多基學習器（如深度學習特征）
結合網格搜索進行超參數優化
將集成學習與遷移學習結合，應用到更大規模的遙感分類任務

歡迎大家關注下方我的公眾獲取更多內容！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/920017.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/920017.shtml
英文地址，請注明出處：http://en.pswp.cn/news/920017.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！