5.1 機器學習 - 模型調參

模型調參是提升泛化能力的關鍵步驟，核心分為 “人工調參”（依賴經驗與實驗管理）和 “自動調參”（依賴算法與算力），二者適用場景不同，需結合數據量、算力資源和項目周期選擇。

一、人工調整超參數：經驗驅動，精準可控

人工調參依賴對模型的理解和實驗積累，適合需要 “精準把控超參數影響” 或數據量較小的場景，核心是 “科學實驗 + 記錄復盤”。

1. 核心流程：從 “錨定初始值” 到 “迭代優化”

人工調參不是盲目試錯，需遵循 “先定基準、再單變量迭代、最后積累直覺” 的邏輯，降低試錯成本：

（1）錨定初始值

優先選擇經過驗證的 “高質量參考值”，作為調參起點，減少無效實驗：

工具包默認值：如 Scikit-learn 中隨機森林的 n_estimators=100、邏輯回歸的 C=1.0，是官方經過基礎驗證的安全值；
領域論文 / 官方文檔推薦值：如 XGBoost 官方推薦 learning_rate=0.1、LightGBM 推薦 num_leaves=31，是針對模型特性的優化值；
同類任務經驗值：如圖像分類任務中 CNN 的 batch_size=32/64（適配 GPU 內存）、NLP 任務中 BERT 的 learning_rate=2e-5，是行業通用實踐。

（2）單變量迭代調整

每次僅調整1 個超參數，固定其他參數，觀察其對模型性能（如驗證集準確率、MSE、AUC）的影響，避免多變量交互導致 “無法判斷哪個參數起作用”：

示例：固定隨機森林的 max_depth=5、min_samples_split=2，僅調整 n_estimators（從 50→100→200→500），記錄驗證集準確率變化，判斷 n_estimators 的最優范圍；
關鍵原則：優先調整對性能影響大的核心超參數（如學習率、樹模型深度），再優化次要超參數（如正則化系數、激活函數）。

（3）積累調參直覺：降低后續試錯成本

通過多次實驗，總結超參數的 “作用規律”，形成針對特定模型 / 任務的直覺：

識別關鍵超參數：如深度學習的 learning_rate（直接決定是否收斂）、樹模型的 max_depth（控制過擬合程度）；
明確敏感超參數：如 SVM 的 gamma（微小變化可能導致準確率波動 10%+）、正則化系數 L2（過大導致欠擬合，過小導致過擬合）；
鎖定有效范圍：如學習率通常在 1e-4~1e-1 之間（超出則無法收斂或收斂緩慢）、樹模型 max_depth 在 3~15 之間（超出易過擬合）。

2. 實驗管理與結果可復現

人工調參的最大痛點是 “實驗混亂、結果無法復現”，需通過工具和流程解決：

（1）必記錄的核心信息

每次實驗需完整記錄以下內容，確保后續可追溯、可復現：

記錄類別	具體內容示例
超參數配置	`n_estimators=200, max_depth=8, min_samples_leaf=2`（完整參數列表）
訓練日志	訓練集 / 驗證集損失曲線、每輪準確率變化、訓練時長（如 “epoch 50 驗證準確率 89.2%”）
環境信息	Python=3.9、Scikit-learn=1.2.2、XGBoost=2.0.3、GPU=RTX 3090
隨機種子	`np.random.seed(42)`、`torch.manual_seed(42)`（固定隨機源，確保結果一致）

（2）工具選擇

基礎方案：TXT/Excel 表格（適合 10~20 次小規模實驗，簡單直接，無需額外學習成本）；
進階方案：TensorBoard（可視化損失曲線、超參數對比，適合深度學習任務，可實時監控訓練過程）；
專業方案：Weights & Biases（簡稱 W&B，一站式記錄超參數、日志、結果，支持多人協作和實驗對比，適合團隊項目）。

（3）復現注意事項

固定隨機種子：所有涉及隨機的操作（如數據劃分、模型初始化）需統一種子；
統一環境：避免因 Python 版本、庫版本（如 Scikit-learn 0.24 與 1.2 部分參數邏輯不同）、硬件（CPU/GPU 計算精度差異）導致結果偏差；
保存模型與數據：保存訓練時的數據集劃分（如 train_idx.npy、val_idx.npy）和最終模型權重，方便后續復現驗證。

二、自動調節超參數：算法驅動，效率優先

隨著算力成本下降、模型復雜度提升（如深度學習、多模型集成），自動調參成為 “大數據、復雜任務” 的優選方案。其核心是通過算法替代人工完成 “超參數選擇 → 模型訓練 → 性能評估” 的循環，降低對人工經驗的依賴。

1. 核心定位與適用場景

自動調參并非 “萬能解決方案”，需明確其適用邊界：

（1）核心目標

自動化處理 “超參數數量多、人工試錯成本高” 的場景（如深度學習模型有數十個超參數）；
快速遍歷超參數空間，找到較優組合，為后續人工微調提供基礎；
降低非專業人員的調參門檻（如業務人員無需理解模型細節，即可通過工具獲得可用模型）。

（2）適用場景

復雜模型：如 CNN、Transformer、多模型集成，超參數數量多（學習率、層數、 batch_size、正則化系數等）；
大規模數據：如億級樣本、TB 級特征，單次模型訓練需數小時 / 天，人工試錯成本極高；
標準化任務：如分類、回歸、圖像識別等通用任務，無需定制化超參數邏輯，可復用現有優化算法。

（3）局限性

對 “數據預處理” 的自動化能力弱：如異常值處理、特征工程（如離散變量編碼、特征歸一化）仍需人工設計，AutoML 的核心優勢在 “模型選擇與調參”，而非 “數據清理”；
算力消耗大：部分算法（如網格搜索、NAS）需訓練數百個模型，對 GPU 資源要求高；
缺乏 “可解釋性”：自動搜索出的超參數組合可能性能優秀，但難以解釋 “為何該組合最優”，不適合需要強解釋性的場景（如金融風控）。

2. 兩大核心方向：HPO 與 NAS

自動調參主要分為 “超參數優化（HPO）” 和 “神經網絡架構搜索（NAS）”，分別針對 “超參數調整” 和 “模型結構設計”。

（1）超參數優化（HPO: Hyperparameter Optimization）

通過算法在超參數空間中搜索最優組合，核心是 “高效采樣 + 性能預測”，常見方法對比：

方法	核心邏輯	優點	缺點	適用場景
網格搜索（Grid Search）	遍歷預設的超參數組合（如 `learning_rate=[0.01,0.1], batch_size=[32,64]`）	邏輯簡單，可確保遍歷所有組合	計算量大，超參數數量多時無法使用	超參數少（2~3 個）、范圍小的場景
隨機搜索（Random Search）	在超參數范圍內隨機采樣，無需遍歷所有組合	效率高于網格搜索，易找到較優解	隨機性強，可能錯過最優組合	超參數數量中等（3~5 個）的場景
貝葉斯優化（Bayesian Optimization）	基于歷史實驗結果構建 “性能預測模型”（如高斯過程），指導下一次采樣方向	兼顧效率與精度，樣本利用率高	超參數空間復雜時，預測模型構建成本高	超參數多（5 個以上）、算力有限的場景

（2）神經網絡架構搜索（NAS: Neural Architecture Search）

比 HPO 更進階的自動調參，不僅優化超參數，還自動化設計神經網絡的 “結構”（如層數、卷積核大小、激活函數、層間連接方式），核心針對深度學習模型：

核心邏輯：
1. 定義 “架構搜索空間”：如允許 2~8 層卷積、每層通道數 32~128、激活函數可選 ReLU/LeakyReLU；
2. 選擇 “搜索算法”：如強化學習（用控制器生成架構，以驗證集性能為獎勵）、進化算法（模擬生物進化，通過變異 / 交叉生成新架構）；
3. 性能評估：快速訓練候選架構并評估性能，篩選最優架構。
典型案例：
- Google NASNet：通過強化學習搜索出的 CNN 架構，在 ImageNet 上準確率超越當時人工設計的模型；
- AutoKeras：開源 NAS 工具，支持自動搜索 CNN、RNN、Transformer 架構，無需用戶編寫模型結構代碼，適合非專業用戶。

3. 工具與實踐建議

（1）常用工具推薦

工具類型	工具名稱	核心功能	適用場景
輕量 HPO 工具	Optuna	支持網格搜索、隨機搜索、貝葉斯優化，兼容 Scikit-learn、PyTorch、TensorFlow	靈活適配各類模型，適合個人 / 小規模項目
輕量 HPO 工具	Hyperopt	基于貝葉斯優化，支持 TPE（Tree-structured Parzen Estimator）算法	超參數空間復雜、需高精度搜索的場景
全流程 NAS 工具	AutoKeras	自動化 CNN/RNN/Transformer 架構搜索，支持分類、回歸、圖像分割等任務	非專業用戶、快速獲取可用深度學習模型
企業級 AutoML 工具	Google AutoML Tables	針對表格數據的全流程 AutoML（數據預處理→模型選擇→調參→部署）	企業級表格數據任務（如風控、推薦）

（2）實踐建議：自動 + 人工結合

自動調參并非 “一勞永逸”，建議與人工調參結合，兼顧效率與精度：

自動調參打基礎：用 Optuna/AutoKeras 快速遍歷超參數空間，鎖定 “較優范圍”（如自動調參發現 learning_rate 在 0.05~0.15 有效）；
人工調參精細化：在自動調參確定的范圍內，用單變量迭代法微調關鍵超參數（如在 0.08~0.12 內調整 learning_rate），進一步提升性能；
控制算力成本：自動調參前設置 “最大實驗次數”（如 Optuna 設 n_trials=50）和 “單次訓練最大時長”，避免算力浪費；
優先優化核心指標：自動調參時明確 “核心評估指標”（如驗證集 AUC、MSE），避免因次要指標（如訓練速度）影響優化方向。