如何理解和區分訓練集、測試集和驗證集

如何理解和區分訓練集、測試集和驗證集

在這里插入圖片描述

🌈 個人主頁：高斯小哥
🔥 高質量專欄：Matplotlib之旅：零基礎精通數據可視化、Python基礎【高質量合集】
💡 創作高質量博文，分享更多關于深度學習、PyTorch、Python領域的優質內容！（希望得到您的關注~）

🌵文章目錄🌵

一、概念回顧 🧠
二、基于PyTorch劃分訓練集、驗證集、測試集 🔥
三、模型訓練與評估 🔥
四、總結 🎉
五、最后 🤝

??👋大家好，歡迎來到我的博客！在機器學習和深度學習的世界里，數據集被劃分為訓練集、驗證集和測試集是非常重要的。這些集合各自扮演著不同的角色，確保我們的模型能夠準確地學習和泛化。今天，我將通過PyTorch的示例代碼來詳細解釋如何理解和區分這三個集合。

關鍵詞：#機器學習 #深度學習 #訓練集 #驗證集 #測試集 #PyTorch #數據劃分 #模型訓練與評估

一、概念回顧 🧠

訓練集（Training Set）：用于訓練模型的數據集。模型通過學習訓練集中的數據來擬合數據分布并學習規律。
驗證集（Validation Set）：用于驗證模型性能的數據集。在模型訓練過程中，我們使用驗證集來調整模型參數和超參數，以優化模型性能。驗證集幫助我們在調整模型時避免過擬合。
測試集（Test Set）：用于評估模型性能的數據集。在模型訓練完成后，我們使用測試集來評估模型的泛化能力，即模型在未知數據上的表現。測試集應該是完全獨立的，從未參與模型的訓練或驗證。

二、基于PyTorch劃分訓練集、驗證集、測試集 🔥

??在PyTorch中，我們通常使用torch.utils.data.Dataset和torch.utils.data.DataLoader來處理數據集。首先，我們需要創建一個繼承自Dataset的自定義數據集類，然后使用DataLoader來加載數據并提供批量處理、打亂等功能。

??下面是一個簡單的例子，展示了如何創建一個自定義數據集類，并劃分為訓練集、驗證集和測試集。

import torch
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split# 假設我們有一個簡單的數據集，包含特征和標簽
features = torch.randn(1000, 10)  # 1000個樣本，每個樣本10個特征
labels = torch.randint(0, 2, (1000,))  # 1000個樣本的二分類標簽# 劃分數據集為訓練集和臨時集（驗證集+測試集）
X_train, X_temp, y_train, y_temp = train_test_split(features, labels, test_size=0.4, random_state=42)# 進一步劃分臨時集為驗證集和測試集
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)# 自定義數據集類
class MyDataset(Dataset):def __init__(self, features, labels):self.features = featuresself.labels = labelsdef __len__(self):return len(self.labels)def __getitem__(self, idx):return self.features[idx], self.labels[idx]# 創建數據集實例
train_dataset = MyDataset(X_train, y_train)
val_dataset = MyDataset(X_val, y_val)
test_dataset = MyDataset(X_test, y_test)# 創建數據加載器
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

三、模型訓練與評估 🔥

??現在，我們有了訓練集、驗證集和測試集的數據加載器，接下來是訓練模型并使用驗證集進行調整，最后使用測試集評估模型的性能。

import torch.nn as nn
import torch.optim as optim# 定義一個簡單的模型
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.fc = nn.Linear(10, 2)def forward(self, x):return self.fc(x)# 實例化模型、損失函數和優化器
model = SimpleModel()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)# 訓練模型
num_epochs = 10
for epoch in range(num_epochs):model.train()  # 設置模型為訓練模式train_loss = 0.0for inputs, labels in train_loader:optimizer.zero_grad()  # 清空梯度outputs = model(inputs)  # 前向傳播loss = criterion(outputs, labels)  # 計算損失loss.backward()  # 反向傳播optimizer.step()  # 更新參數train_loss += loss.item() * inputs.size(0)  # 累加損失train_loss /= len(train_loader.dataset)  # 計算平均損失print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {train_loss:.4f}")# 使用驗證集評估模型性能model.eval()  # 設置模型為評估模式val_loss = 0.0val_accuracy = 0.0with torch.no_grad():  # 不需要計算梯度for inputs, labels in val_loader:outputs = model(inputs)loss = criterion(outputs, labels)val_loss += loss.item() * inputs.size(0)# 計算準確率_, predicted = torch.max(outputs, 1)correct = (predicted == labels).sum().item()val_accuracy += correct / inputs.size(0)val_loss /= len(val_loader.dataset)val_accuracy /= len(val_loader)print(f"Validation Loss: {val_loss:.4f}, Accuracy: {val_accuracy:.4f}")# 使用測試集評估模型性能
model.eval()  # 保持模型為評估模式
test_loss = 0.0
test_accuracy = 0.0with torch.no_grad():  # 不需要計算梯度for inputs, labels in test_loader:outputs = model(inputs)loss = criterion(outputs, labels)test_loss += loss.item() * inputs.size(0)# 計算準確率_, predicted = torch.max(outputs, 1)correct = (predicted == labels).sum().item()test_accuracy += correct / inputs.size(0)test_loss /= len(test_loader.dataset)
test_accuracy /= len(test_loader)print(f"Test Loss: {test_loss:.4f}, Accuracy: {test_accuracy:.4f}")

四、總結 🎉

??通過上面的代碼和解釋，我們了解了如何在PyTorch中創建數據集、劃分訓練集、驗證集和測試集，并使用這些集合來訓練和評估模型。在實際應用中，通常還需要進行更多的數據預處理步驟，如數據清洗、特征工程等。此外，模型的性能也可以通過其他指標來評估，如精確度、召回率、F1分數等，具體取決于問題的性質和目標。

??希望這篇博客能幫助你更好地理解和區分訓練集、驗證集和測試集，并在實踐中應用它們來構建和評估機器學習模型！🚀

五、最后 🤝

??親愛的讀者，感謝您每一次停留和閱讀，這是對我們最大的支持和鼓勵！🙏在茫茫網海中，您的關注讓我們深感榮幸。您的獨到見解和建議，如明燈照亮我們前行的道路。🌟若在閱讀中有所收獲，一個贊或收藏，對我們意義重大。

??我們承諾，會不斷自我挑戰，為您呈現更精彩的內容。📚有任何疑問或建議，歡迎在評論區暢所欲言，我們時刻傾聽。💬讓我們攜手在知識的海洋中航行，共同成長，共創輝煌！🌱🌳感謝您的厚愛與支持，期待與您共同書寫精彩篇章！

??您的點贊👍、收藏🌟、評論💬和關注💖，是我們前行的最大動力！

??🎉 感謝閱讀，祝你編程愉快！ 🎉

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/697183.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/697183.shtml
英文地址，請注明出處：http://en.pswp.cn/news/697183.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！