一起學Hugging Face Transformers（13）- 模型微調之自定義訓練循環

文章目錄

前言
一、什么是訓練循環
- 1. 訓練循環的關鍵步驟
- 2. 示例
- 3. 訓練循環的重要性
二、使用 Hugging Face Transformers 庫實現自定義訓練循環
- 1. 前期準備
- - 1）安裝依賴
  - 2）導入必要的庫
- 2. 加載數據和模型
- - 1）加載數據集
  - 2）加載預訓練模型和分詞器
  - 3）預處理數據
  - 4）創建數據加載器
- 3. 自定義訓練循環
- - 1）定義優化器和學習率調度器
  - 2）定義訓練和評估函數
  - 3）運行訓練和評估
總結

前言

Hugging Face Transformers 庫為 NLP 模型的預訓練和微調提供了豐富的工具和簡便的方法。雖然 Trainer API 簡化了許多常見任務，但有時我們需要更多的控制權和靈活性，這時可以實現自定義訓練循環。本文將介紹什么是訓練循環以及如何使用 Hugging Face Transformers 庫實現自定義訓練循環。

一、什么是訓練循環

在模型微調過程中，訓練循環是指模型訓練的核心過程，通過多次迭代數據集來調整模型的參數，使其在特定任務上表現更好。訓練循環包含以下幾個關鍵步驟：

1. 訓練循環的關鍵步驟

1） 前向傳播（Forward Pass）：

模型接收輸入數據并通過網絡進行計算，生成預測輸出。這一步是將輸入數據通過模型的各層逐步傳遞，計算出最終的預測結果。

2） 計算損失（Compute Loss）：

將模型的預測輸出與真實標簽進行比較，計算損失函數的值。損失函數是一個衡量預測結果與真實值之間差距的指標，常用的損失函數有交叉熵損失（用于分類任務）和均方誤差（用于回歸任務）。

3） 反向傳播（Backward Pass）：

根據損失函數的值，計算每個參數對損失的貢獻，得到梯度。反向傳播使用鏈式法則，將損失對每個參數的梯度計算出來。

4） 參數更新（Parameter Update）：

使用優化算法（如梯度下降、Adam 等）根據計算出的梯度調整模型的參數。優化算法會更新每個參數，使損失函數的值逐步減小，模型的預測性能逐步提高。

5） 重復以上步驟：

以上過程在整個數據集上進行多次（多個epoch），每次遍歷數據集被稱為一個epoch。隨著訓練的進行，模型的性能會不斷提升。

2. 示例

假設你在微調一個BERT模型用于情感分析任務，訓練循環的步驟如下：

1） 前向傳播：

輸入一條文本評論，模型通過各層網絡計算，生成預測的情感標簽（如正面或負面）。

2） 計算損失：

將模型的預測標簽與實際標簽進行比較，計算交叉熵損失。

3） 反向傳播：

計算損失對每個模型參數的梯度，確定每個參數需要調整的方向和幅度。

4） 參數更新：

使用Adam優化器，根據計算出的梯度調整模型的參數。

5） 重復以上步驟：

在整個訓練數據集上進行多次迭代，不斷調整參數，使模型的預測精度逐步提高。

3. 訓練循環的重要性

訓練循環是模型微調的核心，通過多次迭代和參數更新，使模型能夠從數據中學習，逐步提高在特定任務上的性能。理解訓練循環的各個步驟和原理，有助于更好地調試和優化模型，獲得更好的結果。

在實際應用中，訓練循環可能會包含一些額外的步驟和技術，例如：

批量訓練（Mini-Batch Training）：將數據集分成小批量，每次訓練一個批量，降低計算資源的需求。
學習率調度（Learning Rate Scheduling）：動態調整學習率，以提高訓練效率和模型性能。
正則化技術（Regularization Techniques）：如Dropout、權重衰減等，防止模型過擬合。

這些技術和方法結合使用，可以進一步提升模型微調的效果和性能。

二、使用 Hugging Face Transformers 庫實現自定義訓練循環

1. 前期準備

1）安裝依賴

首先，確保已經安裝了必要的庫：

pip install transformers datasets torch

2）導入必要的庫

import torch
from torch.utils.data import DataLoader
from transformers import AutoTokenizer, AutoModelForSequenceClassification, get_scheduler
from datasets import load_dataset
from tqdm.auto import tqdm

2. 加載數據和模型

1）加載數據集

這里我們以 IMDb 電影評論數據集為例：

dataset = load_dataset("imdb")

2）加載預訓練模型和分詞器

我們將使用 distilbert-base-uncased 作為基礎模型：

model_name = "distilbert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

3）預處理數據

定義一個預處理函數，并將其應用到數據集：

def preprocess_function(examples):return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)encoded_dataset = dataset.map(preprocess_function, batched=True)
encoded_dataset = encoded_dataset.rename_column("label", "labels")
encoded_dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])

4）創建數據加載器

train_dataloader = DataLoader(encoded_dataset["train"], batch_size=8, shuffle=True)
eval_dataloader = DataLoader(encoded_dataset["test"], batch_size=8)

3. 自定義訓練循環

1）定義優化器和學習率調度器

optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)
num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(name="linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps
)

2）定義訓練和評估函數

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)def train_loop():model.train()for batch in tqdm(train_dataloader):batch = {k: v.to(device) for k, v in batch.items()}outputs = model(**batch)loss = outputs.lossloss.backward()optimizer.step()lr_scheduler.step()optimizer.zero_grad()def eval_loop():model.eval()total_loss = 0correct_predictions = 0with torch.no_grad():for batch in tqdm(eval_dataloader):batch = {k: v.to(device) for k, v in batch.items()}outputs = model(**batch)loss = outputs.losslogits = outputs.logitstotal_loss += loss.item()predictions = torch.argmax(logits, dim=-1)correct_predictions += (predictions == batch["labels"]).sum().item()avg_loss = total_loss / len(eval_dataloader)accuracy = correct_predictions / len(eval_dataloader.dataset)return avg_loss, accuracy

3）運行訓練和評估

for epoch in range(num_epochs):print(f"Epoch {epoch + 1}/{num_epochs}")train_loop()avg_loss, accuracy = eval_loop()print(f"Validation Loss: {avg_loss:.4f}, Accuracy: {accuracy:.4f}")

總結

通過上述步驟，我們實現了使用 Hugging Face Transformers 庫的自定義訓練循環。這種方法提供了更大的靈活性，可以根據具體需求調整訓練過程。無論是優化器、學習率調度器，還是其他訓練策略，都可以根據需要進行定制。希望這篇文章能幫助你更好地理解和實現自定義訓練循環，為你的 NLP 項目提供更強大的支持。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/41666.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/41666.shtml
英文地址，請注明出處：http://en.pswp.cn/web/41666.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！