礦物分類系統開發筆記（二）：模型訓練[刪除空缺行]

一、階段銜接與開發目標

二、數據準備

三、模型選擇與訓練

1. 邏輯回歸（LR）

2. 隨機森林（RF）

3. 高斯樸素貝葉斯（GNB）

4. 支持向量機（SVM）

5. AdaBoost

6. XGBoost

四、模型評估與結果分析

評估指標

評估結果

結果分析

五、開發總結

六、后續計劃

一、階段銜接與開發目標

在《礦物分類系統開發筆記（一）》中，我們完成了礦物數據集的收集、清洗與預處理工作，重點對數據中的空缺值進行了分析，并采用 “刪除空缺行” 的方式生成了可供模型訓練的標準化數據集。本階段作為開發流程的延續，主要基于預處理后的數據完成以下目標：

選取 6 種經典機器學習算法進行礦物分類模型訓練
通過網格搜索優化模型參數，提升分類性能
構建統一的評估體系，對比各模型在測試集上的表現
記錄并分析實驗結果，為后續系統選型提供依據

二、數據準備

數據來源：使用預處理階段生成的訓練集（訓練數據集 [刪除空缺行].xlsx）和測試集（測試數據集 [刪除空缺行].xlsx）

數據劃分：

特征集（X）：所有樣本的屬性數據（除最后一列標簽外的所有列）
標簽集（y）：
- 訓練集標簽：包含 0、1、3 三類（訓練集中標簽為 2 的樣本均存在數據空缺，已在預處理階段隨空缺行一同刪除）
- 測試集標簽：包含 0、1、2、3 四類（保留了數據完整的標簽 2 樣本，用于驗證模型對未見過類別的泛化能力）

特殊處理：
針對 XGBoost 模型特性，構建標簽映射關系：{0:0, 1:1, 3:2}，將原始標簽轉換為連續整數編碼；預測后通過反向映射{0:0, 1:1, 2:3}還原原始標簽，對測試集特有的標簽 2 單獨處理（預測結果中若出現未映射編碼則判定為 2）

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
import json# 數據讀取
train_data = pd.read_excel('..//temp_data//訓練數據集[刪除空缺行].xlsx')
test_data = pd.read_excel('..//temp_data//測試數據集[刪除空缺行].xlsx')# 特征與標簽分割
train_X = train_data.iloc[:, :-1]
train_y = train_data.iloc[:, -1]  # 訓練標簽：0、1、3
test_X = test_data.iloc[:, :-1]
test_y = test_data.iloc[:, -1]    # 測試標簽：0、1、2、3# XGBoost標簽映射處理
label_mapping = {0: 0, 1: 1, 3: 2}
reverse_mapping = {v: k for k, v in label_mapping.items()}
train_y_xgb = train_y.map(label_mapping)  # 轉換為連續編碼
test_y_xgb = test_y.map(label_mapping)# 結果存儲容器
result_data = {}

三、模型選擇與訓練

選取 6 種經典分類算法進行對比實驗，均采用網格搜索（GridSearchCV）進行參數優化，5 折交叉驗證確定最佳參數：

1. 邏輯回歸（LR）

核心參數：C=0.001, max_iter=100, multi_class='ovr', penalty='l1', solver='liblinear'
特點：采用 L1 正則化（Lasso），適合高維數據特征選擇，使用 ovr 策略處理多分類

# 網格搜索優化（實際運行時啟用）
# logreg = LogisticRegression()
# param_grid = [
#     {'penalty': ['l1'], 'solver': ['liblinear'], 'C': [0.001, 0.01, 0.1], 'multi_class': ['ovr']},
#     {'penalty': ['l2'], 'solver': ['lbfgs'], 'C': [0.001, 0.01, 0.1], 'multi_class': ['multinomial']}
# ]
# grid_search = GridSearchCV(logreg, param_grid, cv=5)
# grid_search.fit(train_X, train_y)
# print("LR最佳參數:", grid_search.best_params_)# 最佳模型訓練
LR_result = {}
lr = LogisticRegression(C=0.001, max_iter=100, multi_class='ovr', penalty='l1', solver='liblinear')
lr.fit(train_X, train_y)# 評估
train_pred = lr.predict(train_X)
test_pred = lr.predict(test_X)
print("LR訓練集評估:\n", metrics.classification_report(train_y, train_pred))
print("LR測試集評估:\n", metrics.classification_report(test_y, test_pred))# 結果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
LR_result['recall_0'] = float(report[6])
LR_result['recall_1'] = float(report[11])
LR_result['recall_2'] = float(report[16])
LR_result['recall_3'] = float(report[21])
LR_result['acc'] = float(report[25])
result_data['LR'] = LR_result

2. 隨機森林（RF）

核心參數：bootstrap=True, criterion='gini', max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=200
特點：集成多棵決策樹降低過擬合風險，Gini 系數作為不純度度量，保留完整決策樹深度

# 網格搜索優化（實際運行時啟用）
# rf = RandomForestClassifier(random_state=42)
# param_grid = {
#     'n_estimators': [100, 200],
#     'max_depth': [None, 20],
#     'min_samples_split': [2, 5],
#     'bootstrap': [True]
# }
# grid_search = GridSearchCV(rf, param_grid, cv=5, n_jobs=-1)
# grid_search.fit(train_X, train_y)
# print("RF最佳參數:", grid_search.best_params_)# 最佳模型訓練
RF_result = {}
rf = RandomForestClassifier(bootstrap=True, criterion='gini', max_depth=None,min_samples_leaf=1, min_samples_split=2, n_estimators=200,random_state=42
)
rf.fit(train_X, train_y)# 評估
train_pred = rf.predict(train_X)
test_pred = rf.predict(test_X)
print("RF訓練集評估:\n", metrics.classification_report(train_y, train_pred))
print("RF測試集評估:\n", metrics.classification_report(test_y, test_pred))# 結果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
RF_result['recall_0'] = float(report[6])
RF_result['recall_1'] = float(report[11])
RF_result['recall_2'] = float(report[16])
RF_result['recall_3'] = float(report[21])
RF_result['acc'] = float(report[25])
result_data['RF'] = RF_result

3. 高斯樸素貝葉斯（GNB）

核心參數：var_smoothing=1e-06
特點：基于貝葉斯定理的概率模型，通過 var_smoothing 參數提高數值穩定性

# 網格搜索優化（實際運行時啟用）
# gnb = GaussianNB()
# param_grid = {'var_smoothing': [1e-9, 1e-6, 1e-3]}
# grid_search = GridSearchCV(gnb, param_grid, cv=5)
# grid_search.fit(train_X, train_y)
# print("GNB最佳參數:", grid_search.best_params_)# 最佳模型訓練
GNB_result = {}
gnb = GaussianNB(var_smoothing=1e-06)
gnb.fit(train_X, train_y)# 評估
train_pred = gnb.predict(train_X)
test_pred = gnb.predict(test_X)
print("GNB訓練集評估:\n", metrics.classification_report(train_y, train_pred))
print("GNB測試集評估:\n", metrics.classification_report(test_y, test_pred))# 結果提取
report = metrics.classification_report(test_y, test_pred, digits=6).split()
GNB_result['recall_0'] = float(report[6])
GNB_result['recall_1'] = float(report[11])
GNB_result['recall_2'] = float(report[16])
GNB_result['recall_3'] = float(report[21])
GNB_result['acc'] = float(report[25])
result_data['GNB'] = GNB_result