小白的進階之路系列之七----人工智能從初步到精通pytorch自動微分優化以及載入和保存模型

本文將介紹Pytorch的以下內容

自動微分函數

優化

模型保存和載入

好了，我們首先介紹一下關于微分的內容。

在訓練神經網絡時，最常用的算法是反向傳播算法。在該算法中，根據損失函數相對于給定參數的梯度來調整參數（模型權重）。

為了計算這些梯度，PyTorch有一個內置的微分引擎，名為torch.autograd。它支持任何計算圖的梯度自動計算。

考慮最簡單的單層神經網絡，輸入x，參數w和b，以及一些損失函數。它可以在PyTorch中以以下方式定義：

import torchx = torch.ones(5)  # input tensor
y = torch.zeros(3)  # expected output
w = torch.randn(5, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
z = torch.matmul(x, w)+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)

張量、函數與計算圖

這段代碼定義了以下計算圖：

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

在這個網絡中，w和b是我們需要優化的參數。因此，我們需要能夠計算損失函數相對于這些變量的梯度。為了做到這一點，我們設置了這些張量的requires_grad屬性。

我們應用于張量來構造計算圖的函數實際上是函數類的對象。該對象知道如何在正向方向上計算函數，以及如何在反向傳播步驟中計算其導數。對反向傳播函數的引用存儲在張量的grad_fn屬性中。您可以在文檔中找到Function的更多信息。

print(f"Gradient function for z = {z.grad_fn}")
print(f"Gradient function for loss = {loss.grad_fn}")

輸出為：

Gradient function for z = <AddBackward0 object at 0x0000022EDB445C30>
Gradient function for loss = <BinaryCrossEntropyWithLogitsBackward0 object at 0x0000022EDB445D20>

計算梯度

為了優化神經網絡中參數的權重，我們需要計算損失函數對參數的導數，即我們需要?loss/?w和?loss/?B。為了計算這些導數，我們調用loss.backward()，然后從w.g grad和b.g grad中檢索值：

loss.backward()
print(w.grad)
print(b.grad)

輸出為：

tensor([[0.0549, 0.1796, 0.0399],[0.0549, 0.1796, 0.0399],[0.0549, 0.1796, 0.0399],[0.0549, 0.1796, 0.0399],[0.0549, 0.1796, 0.0399]])
tensor([0.0549, 0.1796, 0.0399])

禁用梯度跟蹤

默認情況下，所有requires_grad=True的張量都在跟蹤它們的計算歷史并支持梯度計算。然而，在某些情況下，我們不需要這樣做，例如，當我們訓練了模型，只想將其應用于一些輸入數據時，即我們只想通過網絡進行前向計算。我們可以通過使用torch.no_grad（）塊包圍我們的計算代碼來停止跟蹤計算：

z = torch.matmul(x, w)+b
print(z.requires_grad)with torch.no_grad():z = torch.matmul(x, w)+b
print(z.requires_grad)

輸出為：

True
False

實現相同結果的另一種方法是在張量上使用detach（）方法：

z = torch.matmul(x, w)+b
z_det = z.detach()
print(z_det.requires_grad)

輸出為：

False

你可能想要禁用漸變跟蹤的原因如下：

將神經網絡中的一些參數標記為凍結參數。
當你只做正向傳遞時，為了加快計算速度，因為在不跟蹤梯度的張量上的計算會更有效率。

張量梯度和雅可比積

在很多情況下，我們有一個標量損失函數，我們需要計算關于一些參數的梯度。然而，在某些情況下，輸出函數是一個任意張量。在這種情況下，PyTorch允許你計算所謂的雅可比積，而不是實際的梯度。

inp = torch.eye(4, 5, requires_grad=True)
out = (inp+1).pow(2).t()
out.backward(torch.ones_like(out), retain_graph=True)
print(f"First call\n{inp.grad}")
out.backward(torch.ones_like(out), retain_graph=True)
print(f"\nSecond call\n{inp.grad}")
inp.grad.zero_()
out.backward(torch.ones_like(out), retain_graph=True)
print(f"\nCall after zeroing gradients\n{inp.grad}")

輸出為：

First call
tensor([[4., 2., 2., 2., 2.],[2., 4., 2., 2., 2.],[2., 2., 4., 2., 2.],[2., 2., 2., 4., 2.]])Second call
tensor([[8., 4., 4., 4., 4.],[4., 8., 4., 4., 4.],[4., 4., 8., 4., 4.],[4., 4., 4., 8., 4.]])Call after zeroing gradients
tensor([[4., 2., 2., 2.,

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/81732.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/81732.shtml
英文地址，請注明出處：http://en.pswp.cn/web/81732.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！