Pytorch實現一個簡單的貝葉斯卷積神經網絡模型

貝葉斯深度模型的主要特點和實現說明：

模型結構：
- 結合了常規卷積層（用于特征提取）和貝葉斯線性層（用于分類）
- 貝葉斯層將權重視為隨機變量，而非傳統神經網絡中的確定值
- 使用變分推斷來近似權重的后驗分布
貝葉斯特性：
- 通過重參數化技巧實現隨機變量的采樣，使得模型可訓練
- 損失函數包含兩部分：分類損失（交叉熵）和 KL 散度（衡量近似后驗與先驗的差異）
- 測試時通過多次采樣獲取預測分布，體現模型的不確定性
使用方法：
- 代碼會自動下載 MNIST 數據集并進行預處理
- 支持 GPU 加速（如果可用）
- 訓練完成后會繪制損失和準確率曲線，并保存模型
與傳統神經網絡的區別：
- 貝葉斯模型能夠提供預測的不確定性估計
- 通常具有更好的泛化能力，不易過擬合
- 訓練過程更復雜，計算成本更高

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
import numpy as np
import matplotlib.pyplot as plt# 定義貝葉斯線性層 - 使用變分推斷近似后驗分布
class BayesianLinear(nn.Module):def __init__(self, in_features, out_features):super(BayesianLinear, self).__init__()self.in_features = in_featuresself.out_features = out_features# 先驗分布參數 (高斯分布)self.prior_mu = 0.0self.prior_sigma = 1.0# 變分參數 - 權重的均值和標準差self.mu_weight = nn.Parameter(torch.Tensor(out_features, in_features).normal_(0, 0.1))self.sigma_weight = nn.Parameter(torch.Tensor(out_features, in_features).fill_(0.1))# 變分參數 - 偏置的均值和標準差self.mu_bias = nn.Parameter(torch.Tensor(out_features).normal_(0, 0.1))self.sigma_bias = nn.Parameter(torch.Tensor(out_features).fill_(0.1))# 用于重參數化技巧的噪聲變量self.epsilon_weight = Noneself.epsilon_bias = Nonedef forward(self, x):# 重參數化技巧：將隨機采樣轉換為確定性操作，便于反向傳播if self.training:# 訓練時從近似后驗分布中采樣self.epsilon_weight = torch.normal(torch.zeros_like(self.mu_weight))self.epsilon_bias = torch.normal(torch.zeros_like(self.mu_bias))weight = self.mu_weight + self.sigma_weight * self.epsilon_weightbias = self.mu_bias + self.sigma_bias * self.epsilon_biaselse:# 測試時使用均值（最大后驗估計）weight = self.mu_weightbias = self.mu_bias# 計算KL散度（衡量近似后驗與先驗的差異）kl_loss = self._kl_divergence()return nn.functional.linear(x, weight, bias), kl_lossdef _kl_divergence(self):# 計算KL散度：KL(q(w) || p(w))kl_weight = 0.5 * torch.sum(1 + 2 * torch.log(self.sigma_weight) - torch.square(self.mu_weight) - torch.square(self.sigma_weight)) / (self.prior_sigma ** 2)kl_bias = 0.5 * torch.sum(1 + 2 * torch.log(self.sigma_bias) - torch.square(self.mu_bias) - torch.square(self.sigma_bias)) / (self.prior_sigma ** 2)return kl_weight + kl_bias# 定義貝葉斯卷積神經網絡模型
class BayesianCNN(nn.Module):def __init__(self, num_classes=10):super(BayesianCNN, self).__init__()# 卷積層使用常規卷積（為簡化模型）self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)self.pool = nn.MaxPool2d(kernel_size=2, stride=2)# 全連接層使用貝葉斯層self.fc1 = BayesianLinear(64 * 7 * 7, 128)self.fc2 = BayesianLinear(128, num_classes)self.relu = nn.ReLU()def forward(self, x):# 卷積特征提取部分x = self.pool(self.relu(self.conv1(x)))x = self.pool(self.relu(self.conv2(x)))x = x.view(-1, 64 * 7 * 7)  # 展平特征圖# 貝葉斯全連接部分x, kl1 = self.fc1(x)x = self.relu(x)x, kl2 = self.fc2(x)# 總KL散度total_kl = kl1 + kl2return x, total_kl# 訓練函數
def train(model, train_loader, optimizer, criterion, epoch, device):model.train()train_loss = 0correct = 0total = 0# KL散度的權重（根據數據集大小調整）kl_weight = 1.0 / len(train_loader.dataset)for batch_idx, (data, target) in enumerate(train_loader):data, target = data.to(device), target.to(device)optimizer.zero_grad()# 前向傳播output, kl_loss = model(data)# 總損失 = 分類損失 + KL散度正則化loss = criterion(output, target) + kl_weight * kl_loss# 反向傳播和優化loss.backward()optimizer.step()# 統計train_loss += loss.item()_, predicted = torch.max(output.data, 1)total += target.size(0)correct += (predicted == target).sum().item()# 打印訓練進度if batch_idx % 100 == 0:print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} 'f'({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}')train_loss /= len(train_loader)train_acc = 100. * correct / totalprint(f'Train set: Average loss: {train_loss:.4f}, Accuracy: {correct}/{total} ({train_acc:.2f}%)')return train_loss, train_acc# 測試函數
def test(model, test_loader, criterion, device, num_samples=10):model.eval()test_loss = 0correct = 0total = 0with torch.no_grad():for data, target in test_loader:data, target = data.to(device), target.to(device)# 多次采樣以獲取預測分布（體現貝葉斯模型的不確定性）outputs = []for _ in range(num_samples):output, _ = model(data)outputs.append(output.unsqueeze(0))# 平均多次采樣的結果output = torch.mean(torch.cat(outputs, dim=0), dim=0)test_loss += criterion(output, target).item()# 統計準確率_, predicted = torch.max(output.data, 1)total += target.size(0)correct += (predicted == target).sum().item()test_loss /= len(test_loader)test_acc = 100. * correct / totalprint(f'Test set: Average loss: {test_loss:.4f}, Accuracy: {correct}/{total} ({test_acc:.2f}%)')return test_loss, test_acc# 主函數
def main():# 超參數設置batch_size = 64test_batch_size = 1000epochs = 10lr = 0.001seed = 42num_samples = 10  # 測試時的采樣次數，用于獲取預測分布# 設置設備（GPU或CPU）device = torch.device("cuda" if torch.cuda.is_available() else "cpu")print(f"Using device: {device}")# 設置隨機種子，保證結果可復現torch.manual_seed(seed)# 數據預處理transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))  # MNIST數據集的均值和標準差])# 加載MNIST數據集train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)# 創建數據加載器train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=test_batch_size, shuffle=False)# 初始化模型、損失函數和優化器model = BayesianCNN().to(device)criterion = nn.CrossEntropyLoss()optimizer = optim.Adam(model.parameters(), lr=lr)# 記錄訓練過程中的損失和準確率train_losses = []train_accs = []test_losses = []test_accs = []# 開始訓練和測試for epoch in range(1, epochs + 1):train_loss, train_acc = train(model, train_loader, optimizer, criterion, epoch, device)test_loss, test_acc = test(model, test_loader, criterion, device, num_samples)train_losses.append(train_loss)train_accs.append(train_acc)test_losses.append(test_loss)test_accs.append(test_acc)# 繪制訓練和測試損失曲線plt.figure(figsize=(12, 5))plt.subplot(1, 2, 1)plt.plot(range(1, epochs + 1), train_losses, label='Train Loss')plt.plot(range(1, epochs + 1), test_losses, label='Test Loss')plt.xlabel('Epoch')plt.ylabel('Loss')plt.title('Loss vs Epoch')plt.legend()# 繪制訓練和測試準確率曲線plt.subplot(1, 2, 2)plt.plot(range(1, epochs + 1), train_accs, label='Train Accuracy')plt.plot(range(1, epochs + 1), test_accs, label='Test Accuracy')plt.xlabel('Epoch')plt.ylabel('Accuracy (%)')plt.title('Accuracy vs Epoch')plt.legend()plt.tight_layout()plt.show()# 保存模型torch.save(model.state_dict(), 'bayesian_cnn_mnist.pth')print("Model saved as 'bayesian_cnn_mnist.pth'")if __name__ == '__main__':main()

在模型規模相似（例如參數總量、網絡深度和寬度相近）的情況下，普通卷積神經網絡（CNN）的訓練效率通常更高，訓練速度更快。這主要源于貝葉斯卷積神經網絡（Bayesian CNN）的特殊結構和訓練機制帶來的額外計算開銷，具體原因如下：

1.?參數數量與計算復雜度差異

普通 CNN 中，每個權重是確定值，每個層僅需存儲和優化一組權重參數（例如卷積核權重、偏置）。
而貝葉斯 CNN 中，權重被視為隨機變量（通常假設服從高斯分布），需要用變分推斷近似其 posterior 分布。這意味著每個權重需要學習兩個參數：均值（μ）?和標準差（σ）（或精度），參數數量幾乎是普通 CNN 的 2 倍（對于貝葉斯層而言）。

更多的參數直接導致：