參數(Parameters) vs. 超參數(Hyperparameters)
1.1 參數(Parameters)
- 定義:模型中需要學習的變量,例如神經網絡中的權重(Weight)和偏置(Bias)。
- 例子:
- 線性回歸中的?ww?和?bb(y=wx+by=wx+b)。
- BERT中的注意力權重、全連接層的參數。
- 調整者:優化器(Optimizer)?負責調整這些參數,使其在訓練過程中不斷優化。
1.2 超參數(Hyperparameters)
- 定義:由開發者手動設置的參數,控制訓練過程,但不會被優化器直接學習。
- 例子:
- 優化器類型(如Adam、SGD)。
- 學習率(Learning Rate)(如?
lr=2e-5
)。 - 批量大小(Batch Size)(如?
batch_size=32
)。 - 訓練輪次(Epochs)(如?
num_epochs=5
)。
- 調整者:開發者?需要手動調整或通過超參數優化技術(如網格搜索)尋找最佳值。
-
超參數的調整需要人工干預或超參數優化算法,例如:
- 手動調整:嘗試不同的學習率(如?
1e-4
、5e-5
)。 - 超參數優化工具:
- 網格搜索(Grid Search):遍歷超參數組合。
- 貝葉斯優化(Bayesian Optimization):智能搜索最佳超參數。
- 隨機搜索(Random Search):隨機嘗試超參數組合。
2. 優化器的作用
優化器只調整模型參數(Parameters),不調整超參數(Hyperparameters)
- 優化器的核心任務:
根據損失函數的梯度,自動更新模型參數(如權重、偏置),使其在訓練過程中逐步優化。 - 優化器無法調整超參數:
超參數(如學習率、優化器類型)是開發者預先設置的,優化器只能按照這些超參數的規則工作。 -
概念 定義 誰調整它? 例子 參數 模型的可學習變量(權重、偏置) 優化器(自動調整) BERT的注意力權重、線性層的?ww 超參數 開發者設置的訓練控制參數 開發者或超參數工具 學習率、批量大小、優化器類型