計算二分類誤差時的常見錯誤及解決方案

在二分類任務中使用 error = sum(y != (y_hat > 0.5)) 計算分類錯誤時，可能遇到以下問題及解決方案：

1. 數據類型不匹配錯誤

問題：真實標簽 y 和預測值 y_hat 的數據類型不一致（如 y 是整數型，y_hat 是浮點型），導致比較操作失敗。

解決方案：統一數據類型：

y = y.astype(int)          # 確保 y 是整數型
y_pred = (y_hat > 0.5).astype(int)  # 將布爾值轉為整數型 (0/1)
error = sum(y != y_pred)

2. 維度不匹配錯誤

問題：y 和 y_hat 的維度不同（如 y 是行向量，y_hat 是列向量），導致無法逐元素比較。

解決方案：檢查并統一形狀：

assert y.shape == y_hat.shape, "維度不匹配"  # 驗證維度
y_pred = (y_hat.reshape(y.shape) > 0.5)  # 重塑形狀
error = np.sum(y != y_pred)  # 使用 NumPy 確保兼容性

3. 閾值選擇不合理

問題：固定閾值 0.5 可能不適用于非平衡數據集（如正負樣本比例 1:9），導致誤差估計偏差。

解決方案：動態調整閾值：

from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y, y_hat)
optimal_threshold = thresholds[np.argmax(tpr - fpr)]  # 最佳閾值
y_pred = (y_hat > optimal_threshold)
error = sum(y != y_pred)

4. 概率值未校準

問題：模型輸出的 y_hat 未經過概率校準（如未使用 Sigmoid 激活函數），導致閾值比較失效。

解決方案：校準概率值：

from sklearn.calibration import CalibratedClassifierCV
calibrated_model = CalibratedClassifierCV(model, cv=5, method='sigmoid')
calibrated_model.fit(X_train, y_train)
y_hat_calibrated = calibrated_model.predict_proba(X_test)[:, 1]  # 校準后的概率

5. 標簽編碼錯誤

問題：真實標簽 y 未采用標準二分類編碼（如使用 -1/1 而非 0/1），導致比較邏輯錯誤。

解決方案：標準化標簽：

y = np.where(y == -1, 0, y)  # 將 -1 轉為 0

推薦替代方案：使用 Scikit-learn 內置函數

from sklearn.metrics import accuracy_score, zero_one_loss# 直接計算錯誤率（避免手動實現）
y_pred = (y_hat > 0.5).astype(int)
error_count = zero_one_loss(y, y_pred, normalize=False)  # 錯誤樣本數
error_rate = 1 - accuracy_score(y, y_pred)  # 錯誤率