用天氣預測理解分類算法-從出門看天氣到邏輯回歸

一、生活中的決策難題：周末郊游的「天氣判斷」

周末計劃郊游時，你是不是總會打開天氣預報反復確認？看到 "25℃、微風、無雨" 就興奮收拾行李，看到 "35℃、暴雨" 就果斷取消計劃。這個判斷過程，其實就是一個典型的二分類問題：

if 溫度20-28℃ + 無降雨 + 風力<3級 → 適合郊游（y=1）

else → 不適合郊游（y=0）

這種根據多個天氣因素做 "是 / 否" 判斷的場景，正是邏輯回歸的典型應用。今天我們就用 "是否適合郊游" 的天氣預測為例，一步步揭開邏輯回歸的神秘面紗。

二、從生活經驗到數學模型：邏輯回歸的核心邏輯

1. 特征收集：給天氣「記賬」

假設我們記錄了 100 個周末的天氣數據，每次記錄四個關鍵特征：

\(x_1\)：氣溫（℃）

\(x_2\)：濕度（%）

\(x_3\)：降雨量（mm）

\(x_4\)：風力（級）

以及一個結果：當天是否適合郊游（\(y=1\)表示適合，\(y=0\)表示不適合）

我們的目標是找到一個公式，輸入這四個天氣特征就能預測是否適合郊游。

2. 線性組合：給天氣因素「打分」

判斷是否適合郊游時，不同天氣因素的重要性不同。比如降雨量的影響通常比濕度大，我們可以用線性組合表示這種權重分配：

\(z = \theta_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_3 + \theta_4x_4\)

\(\theta_0\)是基礎分（即使所有特征一般也有基礎概率）

\(\theta_1\)是氣溫權重（正值，舒適溫度加分）

\(\theta_2\)是濕度權重（負值，濕度過高減分）

\(\theta_3\)是降雨量權重（負值，下雨嚴重減分）

\(\theta_4\)是風力權重（負值，風太大減分）

舉個例子：如果\(\theta_0=-10\)，\(\theta_1=0.5\)，\(\theta_2=-0.2\)，\(\theta_3=-3\)，\(\theta_4=-1\)

當氣溫 25℃，濕度 60%，降雨量 0mm，風力 2 級時：

\(z = -10 + 0.5×25 + (-0.2)×60 + (-3)×0 + (-1)×2\)

\(= -10 + 12.5 - 12 + 0 - 2 = -11.5\)？不對，這顯然有問題！

哦，這里發現錯誤：舒適氣溫應該是中間值最好，太低或太高都不好。所以實際應用中特征可能需要轉換（比如用氣溫與 25℃的差值），這里簡化為：

修正后計算：\(z = -5 + 0.3×25 + (-0.1)×60 + (-2)×0 + (-0.5)×2 = -5 + 7.5 - 6 + 0 -1 = -4.5\)？還是不對，說明權重需要合理設置。

正確示例：當\(\theta_0=-20\)，\(\theta_1=1.2\)（氣溫 20-28℃為正值），\(\theta_2=-0.1\)，\(\theta_3=-5\)，\(\theta_4=-1.5\)

\(z = -20 + 1.2×25 + (-0.1)×60 + (-5)×0 + (-1.5)×2\)

\(= -20 + 30 - 6 + 0 - 3 = 1\)（正值，適合郊游）

3. Sigmoid 函數：概率「轉換器」

線性組合的結果\(z\)可正可負，我們需要把它轉換成 0-1 之間的概率。Sigmoid 函數就像一個 "概率轉換器"：

\(\hat{y} = \frac{1}{1 + e^{-z}}\)

它的神奇特性：

當\(z=0\)時，\(\hat{y}=0.5\)（一半概率適合郊游）

當\(z=3\)時，\(\hat{y}≈0.95\)（很可能適合）

當\(z=-3\)時，\(\hat{y}≈0.05\)（很可能不適合）

用剛才的正確示例，\(z=1\)時：

\(\hat{y} = 1/(1+e^{-1}) ≈ 0.73\)（73% 概率適合郊游）

三、模型學習：讓電腦學會看天氣

1. 損失函數：給預測「打分」

如果模型預測某天氣 73% 適合郊游（\(\hat{y}=0.73\)），但實際當天大雨取消了（\(y=0\)），這就是預測錯誤。損失函數用來衡量錯誤程度：

\(\text{Loss} = -y \log(\hat{y}) - (1-y) \log(1-\hat{y})\)

通俗解釋：

實際適合郊游（\(y=1\)）卻預測概率低，損失大

實際不適合（\(y=0\)）卻預測概率高，損失大

2. 梯度下降：優化預測模型

我們需要找到最優的\(\theta\)值讓損失最小，梯度下降就像 "盲人找最低點"：

先隨便猜一組參數（比如全為 0）

計算當前 "坡度"（梯度）

沿著坡度向下走一小步（更新參數）

重復直到走到 "谷底"（損失最小）

更新公式：\(\theta_j = \theta_j - \alpha × 梯度\)，\(\alpha\)是步長（學習率）

四、代碼實戰：手把手實現「郊游天氣預測器」

# 1. 導入工具包

import numpy as np

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

# 2. 生成模擬天氣數據（100個周末）

np.random.seed(42) # 固定隨機種子，結果可重復

n_samples = 100

# 特征1：氣溫（15-35℃）

temperature = np.random.uniform(15, 35, n_samples)

# 特征2：濕度（30%-90%）

humidity = np.random.uniform(30, 90, n_samples)

# 特征3：降雨量（0-50mm）

rainfall = np.random.uniform(0, 50, n_samples)

# 特征4：風力（1-8級）

wind = np.random.uniform(1, 8, n_samples)

# 組合特征

X = np.column_stack((temperature, humidity, rainfall, wind))

# 生成標簽（是否適合郊游）

# 簡單規則：氣溫適宜（20-28℃）+ 少雨 + 風力小更適合

y = (

(temperature > 20) & (temperature < 28) & # 氣溫適宜

(rainfall < 5) & # 少雨

(wind < 3) & # 風力小

(humidity < 70) # 濕度適中

).astype(int)

# 3. 劃分訓練集和測試集（80%訓練，20%測試）

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=42

)

# 4. 創建并訓練模型

model = LogisticRegression() # 初始化模型

model.fit(X_train, y_train) # 用訓練數據學習參數

# 5. 測試模型效果

y_pred = model.predict(X_test) # 預測測試集

accuracy = accuracy_score(y_test, y_pred) # 計算準確率

print(f"模型準確率：{accuracy:.2f}（越高越好）") # 通常能達到0.8以上

# 6. 查看模型學到的參數（特征重要性）

print("\n模型學到的權重：")

print(f"基礎分（θ?）：{model.intercept_[0]:.2f}")

print(f"氣溫權重（θ?）：{model.coef_[0][0]:.2f}")

print(f"濕度權重（θ?）：{model.coef_[0][1]:.2f}")

print(f"降雨量權重（θ?）：{model.coef_[0][2]:.2f}")

print(f"風力權重（θ?）：{model.coef_[0][3]:.2f}")

# 7. 預測新的天氣情況

# 比如：25℃，60%濕度，0mm降雨，2級風

new_weather = np.array([[25, 60, 0, 2]])

pred_prob = model.predict_proba(new_weather)[0][1] # 適合郊游的概率

print(f"\n該天氣適合郊游的概率：{pred_prob:.2f}")

print("預測結果：", "適合郊游" if pred_prob > 0.5 else "不適合郊游")

# 8. 可視化決策邊界（取氣溫和降雨量兩個特征）

plt.figure(figsize=(10, 6))

# 繪制訓練數據點

plt.scatter(

X_train[:, 0], X_train[:, 2], # 氣溫和降雨量

c=y_train,

cmap='bwr', # 紅色適合，藍色不適合

alpha=0.6,

label='訓練數據'

)

# 繪制測試數據點（X標記）

plt.scatter(

X_test[:, 0], X_test[:, 2],

c=y_test,

cmap='bwr',

marker='x',

s=100,

label='測試數據'

)

plt.xlabel('氣溫（℃）')

plt.ylabel('降雨量（mm）')

plt.title('郊游天氣預測：是否適合郊游')

plt.legend()

plt.grid(alpha=0.3)

plt.show()

五、關鍵概念通俗解釋

術語	通俗解釋	天氣類比
特征	影響結果的因素	氣溫、降雨量等天氣因素
權重	特征的重要程度	降雨量比濕度影響更大
Sigmoid 函數	分數轉概率的工具	60 分以上算及格的評分標準
損失函數	衡量預測錯誤的程度	預報晴天卻下雨的錯誤程度
梯度下降	優化參數的方法	根據錯誤調整判斷標準
準確率	預測正確的比例	10 次預報對了 8 次 → 80% 準確率

六、邏輯回歸的天氣預測能力分析

優點：

解釋性強：能清晰看到 "降雨量權重最高"，符合生活常識

速度快：手機 APP 能實時運行，快速給出預測結果

概率輸出：不只是說 "適合郊游"，還能告訴你 "85% 概率適合"

缺點：

線性限制：無法捕捉非線性關系（比如極端高溫和極端低溫都不適合）

特征依賴：需要人工選擇有價值的特征（比如忘記考慮紫外線強度）

七、提升預測準確性的技巧

特征工程：對氣溫做分段處理（比如設置舒適區間得分）

# 氣溫舒適度特征：20-28℃得1分，否則得0分

temp_comfort = ((X[:,0] > 20) & (X[:,0] < 28)).astype(int)

X = np.column_stack((X, temp_comfort)) # 添加新特征

特征標準化：消除單位差異影響

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X) # 標準化所有特征

正則化調參：防止過度擬合個別極端天氣

model = LogisticRegression(C=0.5) # C值越小，正則化越強

八、完整可運行代碼

import numpy as np

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import accuracy_score

from sklearn.preprocessing import StandardScaler

# 生成天氣數據

np.random.seed(42)

n_samples = 100

temperature = np.random.uniform(15, 35, n_samples)

humidity = np.random.uniform(30, 90, n_samples)

rainfall = np.random.uniform(0, 50, n_samples)

wind = np.random.uniform(1, 8, n_samples)

X = np.column_stack((temperature, humidity, rainfall, wind))

# 生成標簽

y = (

(temperature > 20) & (temperature < 28) &

(rainfall < 5) &

(wind < 3) &

(humidity < 70)

).astype(int)

# 數據標準化

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

# 劃分數據集

X_train, X_test, y_train, y_test = train_test_split(

X_scaled, y, test_size=0.2, random_state=42

)

# 訓練模型

model = LogisticRegression()

model.fit(X_train, y_train)

# 評估模型

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)

print(f"模型準確率：{accuracy:.2f}")

# 預測新天氣

new_weather = np.array([[25, 60, 0, 2]]) # 25℃，60%濕度，無雨，2級風

new_weather_scaled = scaler.transform(new_weather)

pred_prob = model.predict_proba(new_weather_scaled)[0][1]

print(f"適合郊游概率：{pred_prob:.2f} → {'適合' if pred_prob>0.5 else '不適合'}")

# 可視化

plt.figure(figsize=(10, 6))

plt.scatter(X_train[:, 0], X_train[:, 2], c=y_train, cmap='bwr', alpha=0.6, label='訓練數據')

plt.scatter(X_test[:, 0], X_test[:, 2], c=y_test, cmap='bwr', marker='x', s=100, label='測試數據')

plt.xlabel('氣溫（標準化后）')

plt.ylabel('降雨量（標準化后）')

plt.title('天氣預測決策圖')

plt.legend()

plt.grid(alpha=0.3)

plt.show()

九、總結

邏輯回歸本質上是把人類的經驗判斷轉化為數學公式的過程：

觀察影響結果的關鍵因素（天氣特征）

給不同因素分配合理的重要性（權重）

通過數據學習找到最優的判斷標準

用這個標準預測未來情況

下次查看天氣預報時，你可以試著用邏輯回歸的思路分析：哪些因素對決策影響最大？它們的 "權重" 應該是多少？通過今天的學習，你不僅掌握了邏輯回歸的核心原理，還能親手實現一個簡單的天氣預測模型。

現在，試著修改代碼中的天氣特征或參數，看看模型預測結果會如何變化吧！ 🌤?

還想看更多，來啦！！！

1，大數據比賽篇全國職業院校技能大賽-大數據比賽心得體會_全國職業職業技能比賽大數據-CSDN博客

2，求職簡歷篇（超實用）大學生簡歷寫作指南：讓你的簡歷脫穎而出-CSDN博客

3，AIGC心得篇aigc時代，普通人需要知道的-CSDN博客

4，數據分析思維篇學習數據分析思維的共鳴-CSDN博客

5，中年危機篇“中年危機”如何轉變為“中年機遇”-CSDN博客

其他需求，看主頁哦！