AI-02a5a5.神經網絡-與學習相關的技巧-權重初始值

權重的初始值

在神經網絡的學習中，權重的初始值特別重要。實際上，設定什么樣的權重初始值，經常關系到神經網絡的學習能否成功。

不要將權重初始值設為 0

權值衰減（weight decay）：抑制過擬合、提高泛化能力的技巧。

如果想減小權重的值，一開始就將初始值設為較小的值才是正途。

將權重初始值設為0的話，將無法正確進行學習。為什么呢？
在誤差反向傳播法中，所有的權重值都會進行相同的更新。比如，在2層神經網絡中，假設第1層和第2層的權重為0。這樣一來，正向傳播時，因為輸入層的權重為0，所以第2層的神經元全部會被傳遞相同的值。第2層的神經元中全部輸入相同的值，這意味著反向傳播時第2層的權重全部都會進行相同的更新。因此，權重被更新為相同的值，并擁有了對稱的值（重復的值）。這使得神經網絡擁有許多不同的權重的意義喪失了。為了防止“權重均一化”（瓦解權重的對稱結構），必須隨機生成初始值。

隱藏層的激活值的分布

向一個5層神經網絡（激活函數使用sigmoid函數）傳入隨機生成的輸入數據，用直方圖繪制各層激活值的數據分布。

# coding: utf-8
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams# 設置中文字體
rcParams['font.sans-serif'] = ['SimHei']  # 使用黑體
rcParams['axes.unicode_minus'] = False  # 解決負號顯示問題def sigmoid(x):return 1 / (1 + np.exp(-x))def ReLU(x):return np.maximum(0, x)def tanh(x):return np.tanh(x)input_data = np.random.randn(1000, 100)  # 1000個數據
node_num = 100  # 各隱藏層節點（神經元）數
hidden_layer_size = 5  # 隱藏的層有5層
activations = {}  # 激活值的結果保存在這里x = input_datafor i in range(hidden_layer_size):if i != 0:x = activations[i-1]# 改變初始值進行實驗！w = np.random.randn(node_num, node_num) * 1# w = np.random.randn(node_num, node_num) * 0.01# w = np.random.randn(node_num, node_num) * np.sqrt(1.0 / node_num) # Xavier初始值，適用 sigmoid、tanh等S型曲線# w = np.random.randn(node_num, node_num) * np.sqrt(2.0 / node_num) # He初始值，適用 ReLUa = np.dot(x, w)# 將激活函數的種類也改變，來進行實驗！z = sigmoid(a)# z = ReLU(a)# z = tanh(a)activations[i] = z# 繪制直方圖
for i, a in activations.items():plt.subplot(1, len(activations), i+1)plt.title(str(i+1) + "-layer")if i != 0: plt.yticks([], [])# plt.xlim(0.1, 1)# plt.ylim(0, 7000)plt.hist(a.flatten(), 30, range=(0,1))# plt.hist(a.flatten(), 30)if i == 0:plt.xlabel("標準差為1的高斯分布作為權重初始值時的sigmoid的各層激活值的分布", loc='left')
plt.show()

在這里插入圖片描述

各層的激活值呈偏向0和1的分布。這里使用的sigmoid函數是S型函數，隨著輸出不斷地靠近0（或者靠近1），它的導數的值逐漸接近0。因此，偏向0和1的數據分布會造成反向傳播中梯度的值不斷變小，最后消失。這個問題稱為梯度消失（gradient vanishing）。層次加深的深度學習中，梯度消失的問題可能會更加嚴重。

在這里插入圖片描述

集中在0.5附近的分布。沒有偏向0和1，所以不會發生梯度消失的問題。但是，激活值的分布有所偏向，不同數量的神經元的輸出幾乎相同，說明在表現力上會有很大問題。因此，激活值在分布上有所偏向會出現“表現力受限”的問題。

各層的激活值的分布都要求有適當的廣度。為什么呢？因為通過在各層間傳遞多樣性的數據，神經網絡可以進行高效的學習。反過來，如果傳遞的是有所偏向的數據，就會出現梯度消失或者“表現力受限”的問題，導致學習可能無法順利進行。

Xavier初始值

Xavier的論文中，為了使各層的激活值呈現出具有相同廣度的分布，推導了合適的權重尺度。推導出的結論是，如果前一層的節點數為 $n$ ，則初始值使用標準差為的分布 $\frac{1}{\sqrt{n}}$

在這里插入圖片描述

越是后面的層，圖像變得越歪斜，但是呈現了比之前更有廣度的分布。因為各層間傳遞的數據有適當的廣度，所以sigmoid函數的表現力不受限制，有望進行高效的學習。

在這里插入圖片描述

使用tanh函數后，會呈漂亮的吊鐘型分布。tanh函數和sigmoid函數同是 S型曲線函數，但tanh函數是關于原點(0, 0)對稱的 S型曲線，而sigmoid函數是關于(x, y)=(0, 0.5)對稱的S型曲線。

用作激活函數的函數最好具有關于原點對稱的性質。

He初始值

Xavier初始值是以激活函數是線性函數為前提而推導出來的。因為sigmoid函數和tanh函數左右對稱，且中央附近可以視作線性函數，所以適合使用Xavier初始值。

但當激活函數使用ReLU時，一般推薦使用ReLU專用的初始值，He初始值。

當前一層的節點數為 $n$ 時，He初始值使用標準差為 $\sqrt{\frac{2}{n}}$ 的高斯分布。當Xavier初始值是 $\sqrt{\frac{1}{n}}$ 時，（直觀上）可以解釋為，因為ReLU的負值區域的值為0，為了使它更有廣度，所以需要2倍的系數。

在這里插入圖片描述

當“std = 0.01”時，各層的激活值非常小。神經網絡上傳遞的是非常小的值，說明逆向傳播時權重的梯度也同樣很小。這是很嚴重的問題，實際上學習基本上沒有進展。

在這里插入圖片描述

隨著層的加深，偏向一點點變大。實際上，層加深后，激活值的偏向變大，學習時會出現梯度消失的問題。

在這里插入圖片描述

各層中分布的廣度相同。由于即便層加深，數據的廣度也能保持不變，因此逆向傳播時，也會傳遞合適的值。

當激活函數使用ReLU時，權重初始值使用He初始值，當激活函數為sigmoid或tanh等S型曲線函數時，初始值使用Xavier初始值。這是目前的最佳實踐。

在這里插入圖片描述

神經網絡有5層，每層有100個神經元，激活函數使用的是ReLU。
從上圖分析可知，std = 0.01時完全無法進行學習。這和剛才觀察到的激活值的分布一樣，是因為正向傳播中傳遞的值很小（集中在0附近的數據）。因此，逆向傳播時求到的梯度也很小，權重幾乎不進行更新。相反，當權重初始值為Xavier初始值和He初始值時，學習進行得很順利。并且，我們發現He初始值時的學習進度更快一些。

# coding: utf-8
import os
import syssys.path.append(os.pardir)  # 為了導入父目錄的文件而進行的設定
import numpy as np
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from common.util import smooth_curve
from common.multi_layer_net import MultiLayerNet
from common.optimizer import SGD
from matplotlib import rcParams# 設置中文字體
rcParams['font.sans-serif'] = ['SimHei']  # 使用黑體
rcParams['axes.unicode_minus'] = False  # 解決負號顯示問題# 0:讀入MNIST數據==========
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)
train_size = x_train.shape[0]
batch_size = 128
max_iterations = 2000# 1:進行實驗的設置==========
weight_init_types = {'std=0.01': 0.01, 'Xavier': 'sigmoid', 'He': 'relu'}
optimizer = SGD(lr=0.01)networks = {}
train_loss = {}
for key, weight_type in weight_init_types.items():networks[key] = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100],output_size=10, weight_init_std=weight_type)train_loss[key] = []# 2:開始訓練==========
for i in range(max_iterations):batch_mask = np.random.choice(train_size, batch_size)x_batch = x_train[batch_mask]t_batch = t_train[batch_mask]for key in weight_init_types.keys():grads = networks[key].gradient(x_batch, t_batch)optimizer.update(networks[key].params, grads)loss = networks[key].loss(x_batch, t_batch)train_loss[key].append(loss)if i % 100 == 0:print("===========" + "iteration:" + str(i) + "===========")for key in weight_init_types.keys():loss = networks[key].loss(x_batch, t_batch)print(key + ":" + str(loss))# 3.繪制圖形==========
markers = {'std=0.01': 'o', 'Xavier': 's', 'He': 'D'}
x = np.arange(max_iterations)
for key in weight_init_types.keys():plt.plot(x, smooth_curve(train_loss[key]), marker=markers[key], markevery=100, label=key)plt.xlabel("學習迭代次數")
plt.ylabel("損失函數值")
plt.title("基于MNIST數據集的權重初始值的比較")
plt.ylim(0, 2.5)
plt.legend()
plt.show()

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/80770.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/80770.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/80770.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！