BitFit(Bias-term Fine-tuning)是一種參數高效的微調方法,專注于在預訓練模型中僅調整偏置項(bias term),而將其他參數保持不變。這種方法在自然語言處理領域,尤其是在中小規模數據集上,展現出了與全量微調相媲美的性能,同時顯著減少了計算資源的消耗。
什么是 BitFit?
BitFit 的核心思想是:在微調階段,只更新模型中的偏置項(bias term),凍結其余所有參數。偏置項通常占模型總參數量的不到 0.1%,因此這種方法極大地降低了訓練成本和顯存占用。BitFit 最初由 Elad Ben Zaken 等人在 2021 年提出,并在 BERT 等 Transformer 模型上進行了驗證。
BitFit 的優勢
- 極低的參數更新量:只需更新偏置項,通常不到模型總參數的 0.1%。
- 高效的訓練過程:減少了訓練時間和顯存占用,適用于資源受限的環境。
- 良好的泛化能力:在中小規模數據集上,性能與全量微調相當,有時甚至更好。
- 易于實現:只需在訓練時設置