pytorch 反向傳播

文章目錄

- 概念
- - 計算圖
  - 自動求導的兩種模式
- 自動求導-代碼
- - 標量的反向傳播
  - 非標量變量的反向傳播
  - 將某些計算移動到計算圖之外

概念

核心：鏈式法則

深度學習框架通過自動計算導數(自動微分)來加快求導。

實踐中，根據涉及號的模型，系統會構建一個計算圖，來跟蹤計算是哪些數據通過哪些操作組合起來產生輸出。

自動微分使系統能夠隨后反向傳播梯度。

反向傳播：跟蹤整個計算圖，填充關于每個參數的偏導數。

計算圖

將代碼分解成操作子，將計算表示成一個無環圖
將計算表示成一個無環圖、

自動求導的兩種模式

反向傳播

構造計算圖
前向：執行圖，存儲中間結果
反向：從相反方向執行圖 - 不需要的枝可以減去，比如正向里的x和y連接的那個枝

自動求導-代碼

標量的反向傳播

案例：假設對函數 $y=2x^Tx$ 關于列向量x求導

1.首先初始化一個向量

x = torch.arange(4.0) # 創建變量x并為其分配初始值
print(x) #tensor([0., 1., 2., 3.])

2.計算y關于x的梯度之前，需要一個地方來存儲梯度。

x.requires_grad_()等價于x=torch.arange(4.0,requires_grad=True)，這樣PyTorch會跟蹤x的梯度,并生成grad屬性，該屬性里記錄梯度。

通常用于表示某個變量或返回值“有意為空”或"暫時沒有值"，已經初始化但是沒有值

x.requires_grad_(True)
print(x.grad)  # 默認值是None,存儲導數。

3.計算y的值，y是一個標量，在python中表示為tensor(28., )，并記錄是通過某種乘法操作生成的。

y = 2 * torch.dot(x, x)
print(y) # tensor(28., grad_fn=<MulBackward0>)

4.調用反向傳播函數來自動計算y關于x每個分量的梯度。

y.backward()
print(x.grad) # tensor([ 0.,  4.,  8., 12.])

我們可以知道根據公式來算， $y=2x^Tx$ 關于列向量x求導的結果是4x，根據打印結果來看結果是正確的。

5.假設此時我們需要繼續計算x所有分量的和，也就是 $y = x . s u m ()$

在默認情況下，PyTorch會累計梯度，我們需要調用grad.zero_清空之前的值。

x.grad.zero_()
y = x.sum() # y = x? + x? + x? + x?
print(y)
y.backward()
print(x.grad) # tensor([1., 1., 1., 1.])

非標量變量的反向傳播

在深度學習中，大部分時候目的是將批次的損失求和之后(標量)再對分量求導。

y.sum()將 y的所有元素相加，得到一個標量 $sum(y)=\sum_{i=1}^n x_i^2$

y.sum().backward()等價于y.backward(torch.ones(len(x))：

x.grad.zero_()
y = x * x  # y是一個矩陣
print(y) # tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)  4*1的矩陣
# 等價于y.backward(torch.ones(len(x)))
y.sum().backward()
print(x.grad)  # [0., 2., 4., 6.]

將某些計算移動到計算圖之外

假設 $y = f (x), z = g (y, x)$ ，我們需要計算 $z$ 關于 $x$ 的梯度，正常反向傳播時，梯度會通過 $y$ 和 $x$ 兩條路徑傳播到 $x$ ： $\frac{\partial z}{\partial x} = \frac{\partial g}{\partial y} \frac{\partial y}{\partial x} +\frac{\partial g}{\partial x}$ 。但由于某種原因，希望將 $y$ 視為一個常數，忽略 $y$ 對 $x$ 的依賴： $\frac{\partial z}{\partial x} |_{y常數} =\frac{\partial g}{\partial x}$ 。

通過 detach() 方法將 $y$ 從計算圖中分離，使其不參與梯度計算。

$\frac{\partial \sum z_i}{\partial x_i} = u_i$

x.grad.zero_()
y = x * x 
print(y) # tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
u = y.detach() # 把y看成一個常數從計算圖中分離，不參與梯度計算，但值還是x*x
print(u) # tensor([0., 1., 4., 9.])
z = u * x # z是一個常數*x
print(z) # tensor([ 0.,  1.,  8., 27.], grad_fn=<MulBackward0>)
z.sum().backward() print(x.grad == u) # tensor([True,True,true,True])

執行y.detach()返回一個計算圖之外，但值同y一樣的tensor，只是將函數z中的y替換成了這個等價變量。

但對于y本身來說還是一個在該計算圖中，就可以在y上調用反向傳播函數，得到 $y = x ? x$ 關于 $x$ 的導數 $2 x$

x.grad.zero_()
y.sum().backward()
print(x.grad == 2 * x) # tensor([True,True,true,True])

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/75722.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/75722.shtml
英文地址，請注明出處：http://en.pswp.cn/web/75722.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！