礦物分類案列（一）六種方法對數據的填充

礦物數據項目介紹：

數據問題與處理方案：

數據填充策略討論：

模型選擇與任務類型：

模型訓練計劃：

一.數據集填充

1.讀取數據

2.把標簽轉化為數值

3.把異常數據轉化為nan

4.數據Z標準化

5.劃分訓練集測試集

6.創建一個新的fill_data.py文件，用來存放填充訓練數據和填充測試數據的方法

方法①：刪除有缺失值的行

方法②：平均值填充處理（測試集用訓練集對應的平均值來填充）

方法③：中位數填充處理（測試集用訓練集對應的中位數來填充）

方法④：眾數填充處理（測試集用訓練集對應的眾數來填充）

7.調用填充方法，生成各自方法填充后的數據，并保存到各自的excel文件中

礦物數據項目介紹：

數據類型：每行記錄礦物微量元素（氯、鈉、鎂等）及類別（A/B/C/D/E）（注意:發現類別 E 僅有一條數據，無法用于模型訓練，所以我們應該刪除該數據）

任務目標：構建分類模型，通過微量元素自動識別礦物類型（A/B/C/D）

數據問題與處理方案：

異常值：如“7.97”（應為7.97）、“41.12”（應為41.12）等輸入錯誤，需手動修正。
缺失值填充：
方法A：按類別分組填充（如A類用A類均值/眾數/中位數）。
方法B：智能填充（如邏輯回歸、隨機森林等算法預測缺失值）。
特征工程：特征數量較少（約10個），無需降維。

發現數據中存在隱藏空格（如“思”列），導致NaN檢測失敗，需手動清理空格干擾。
其他問題：斜杠（如PH值列）、單一類別數據列（如“異”列）需刪除或特殊處理。

數據填充策略討論：

優先填充缺失值最少的列（如F列僅缺3個值），以增加完整數據量，便于后續預測其他列（如K列）。
填充順序：從缺失少的列到缺失多的列，以提高填充準確性。
強調利用已有數據（包括部分缺失的數據）進行訓練，而非僅依賴完全完整的數據。

模型選擇與任務類型：

確定當前任務為回歸問題（因預測目標Y為連續型數據）。
可用回歸模型包括：SVR（SVM變體）、KNN、隨機森林、線性回歸等。

模型訓練計劃：

多模型對比：嘗試邏輯回歸、隨機森林、支持向量機、XGBoost等，調參后評估效果（準確率、召回率等）。
步驟：
數據預處理（清洗、填充缺失值）。
分模型訓練與調參（交叉驗證）。
生成對比表格，選擇最優模型。

=========================================================================

下面我們先用四種方法來填充數據分別是刪除空白數據行處理，平均值填充處理，中位數填充處理，眾數填充處理

一.數據集填充

部分數據如下

1.讀取數據

刪除僅有一行數據的‘E’類數據，并刪除無關列‘序號’

import pandas as pd
data=pd.read_excel('礦物數據.xlsx')
data=data[data['礦物類型']!='E']
data=data.drop('序號',axis=1)
x_whole=data.iloc[:,:-1]
y_whole=data.iloc[:,-1]