數據挖掘實訓：天氣數據分析與機器學習模型構建

隨著氣候變化對各行各業的影響日益加劇，精準的天氣預測已經變得尤為重要。降雨預測在日常生活中尤其關鍵，例如農業、交通和災害預警等領域。本文將通過機器學習方法，利用歷史天氣數據預測明天是否會下雨，具體內容包括數據預處理、模型訓練、調參、評估與優化等多個環節。

1. 項目背景與目標

本項目的核心任務是通過分析天氣數據來預測明天是否降雨。數據集包含了多個天氣特征（如溫度、濕度、風速、氣壓等），我們使用這些特征作為輸入，構建機器學習模型預測目標變量（是否下雨）。具體目標如下：

使用歷史天氣數據來預測明天是否降雨。
使用多種機器學習算法進行模型訓練和評估。
處理數據中的缺失值、類別不平衡等問題，提高模型的預測準確性。

2. 數據集介紹

我們使用一個典型的天氣數據集，它包含了如下幾個主要特征：

Location：表示獲取該信息的氣象站的名稱。
MinTemp：以攝氏度為單位的最低溫度。
MaxTemp：以攝氏度為單位的最高溫度。
Rainfall：當天記錄的降雨量，單位為毫米（mm）。
Evaporation：到早上9點之前的24小時內的A級蒸發量，單位為毫米（mm）。
Sunshine：白天日照的完整小時數，表示當天白晝時段陽光的強度。
WindGustDir：表示在午夜12點前24小時內，最強風的風向。
WindGustSpeed：表示在午夜12點前24小時內，最強風的風速，單位為千米每小時（km/h）。
WindDir9am：上午9點時的風向。
WindDir3pm：下午3點時的風向。
WindSpeed9am：上午9點之前每個十分鐘的風速平均值，單位為千米每小時（km/h）。
WindSpeed3pm：下午3點之前每個十分鐘的風速平均值，單位為千米每小時（km/h）。
Humidity9am：上午9點的濕度，單位為百分比。
Humidity3pm：下午3點的濕度，單位為百分比。
Pressure9am：上午9點的平均海平面氣壓，單位為百帕（hpa）。
Pressure3pm：下午3點的平均海平面氣壓，單位為百帕（hpa）。
Cloud9am：上午9點時的天空云層遮蔽程度，以“oktas”單位衡量。0表示完全晴朗，8表示完全陰天。
Cloud3pm：下午3點時的天空云層遮蔽程度，單位同上午9點。
Temp9am：上午9點的溫度，單位為攝氏度。
Temp3pm：下午3點的溫度，單位為攝氏度。
RainTomorrow：目標變量，表示明天是否會下雨。1表示下雨，0表示不下雨。

目標是基于這些特征來預測RainTomorrow，即明天是否會下雨。

3. 數據預處理

機器學習模型的效果很大程度上取決于數據的質量，因此數據預處理是一個至關重要的步驟。

3.1 讀取數據

我們從CSV文件中加載數據并進行抽樣：

import pandas as pd# 讀取數據
data = pd.read_csv("weather.csv", encoding='gbk', index_col=0)
weather = data.sample(n=5000, random_state=0)
weather.index = range(weather.shape[0])

3.2 特征與目標變量分離

我們將數據集分為特征（X）和目標變量（Y）：

X = weather.iloc[:, :-1]  # 所有列，除了最后一列
Y = weather.iloc[:, -1]   # 目標變量，即是否下雨

3.3 處理缺失值

數據中可能存在缺失值，特別是對于天氣數據，缺失值可能較為常見。我們可以使用適當的策略填充這些缺失值。對于分類特征，我們使用眾數（最頻繁的值）填充；對于數值型特征，我們使用均值填充：

from sklearn.impute import SimpleImputer# 對分類變量使用眾數填充
categorical_columns = X.select_dtypes(include=['object']).columns
si = SimpleImputer(strategy="most_frequent")
X[categorical_columns] = si.fit_transform(X[categorical_columns])# 對連續變量使用均值填充
continuous_columns = X.select_dtypes(include=['float64', 'int64']).columns
impmean = SimpleImputer(strategy="mean")
X[continuous_columns] = impmean.fit_transform(X[continuous_columns])

3.4 特征工程

特征工程旨在通過從現有數據中提取更有用的特征來提升模型性能。例如，我們可以通過分析降水量來生成一個新特征，表示當天是否有降水：

X['RainToday'] = X['Rainfall'].apply(lambda x: "Yes" if x >= 1 else "No")

此外，我們還可以從日期中提取月份信息，因為不同季節的天氣差異較大：

X['Month'] = pd.to_datetime(X['Date']).dt.month

3.5 類別特征編碼

機器學習模型通常無法直接處理非數值型數據，因此我們需要對類別特征進行編碼。我們可以使用OrdinalEncoder將類別變量轉換為數字值：

from sklearn.preprocessing import OrdinalEncoderencoder = OrdinalEncoder()
categorical_columns = ['Location', 'WindGustDir']  
X[categorical_columns] = encoder.fit_transform(X[categorical_columns])

3.6 特征標準化

標準化步驟有助于加速梯度下降優化算法的收斂，并提高模型性能。我們可以使用StandardScaler對數值特征進行標準化，使得數據具有零均值和單位方差：

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X[continuous_columns] = scaler.fit_transform(X[continuous_columns])

3.7 處理類別不平衡

由于“下雨”的頻率較低，目標變量RainTomorrow的類別可能不平衡。我們使用SMOTE（合成少數類過采樣技術）來生成新的少數類樣本，以平衡數據集：

from imblearn.over_sampling import SMOTEsmote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, Y)

4. 模型訓練與評估

在數據預處理完成后，我們開始使用不同的分類模型進行訓練，并評估它們的表現。常見的分類模型包括：

邏輯回歸（Logistic Regression）
支持向量機（SVM）
隨機森林（Random Forest）
XGBoost（XGBoost）
AdaBoost（AdaBoost）
Gradient Boosting（Gradient Boosting）

4.1 數據集劃分

首先，我們將數據劃分為訓練集和驗證集。一般來說，80%的數據用于訓練，20%的數據用于驗證：

from sklearn.model_selection import train_test_splitX_train, X_val, y_train, y_val = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

4.2 訓練模型

接下來，我們訓練多種分類模型，并評估它們的性能：

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
import xgboost as xgb
from sklearn.metrics import classification_report# 定義模型
models = {"Logistic Regression": LogisticRegression(),"Random Forest": RandomForestClassifier(),"SVM": SVC(),"XGBoost": xgb.XGBClassifier(),"AdaBoost": AdaBoostClassifier(),"Gradient Boosting": GradientBoostingClassifier()
}# 訓練并評估每個模型
for name, model in models.items():model.fit(X_train, y_train)y_pred = model.predict(X_val)print(f"{name} Performance:")print(classification_report(y_val, y_pred))

4.3 投票分類器（集成方法）

為了提升預測效果，我們使用投票分類器（Voting Classifier）。投票分類器通過結合多個分類器的預測結果，達到提升預測準確率的效果。我們選擇幾個表現較好的分類器進行組合：

from sklearn.ensemble import VotingClassifiervoting_classifier = VotingClassifier(estimators=[('rf', RandomForestClassifier()),('ada', AdaBoostClassifier()),('gb', GradientBoostingClassifier()),('xgb', xgb.XGBClassifier())],voting='hard'
)voting_classifier.fit(X_train, y_train)
y_pred = voting_classifier.predict(X_val)
print("Voting Classifier Performance:")
print(classification_report(y_val, y_pred))