本文只針對圖進行解釋重要內容 這就是入門所需要掌握的大部分內容
對于不懂的名詞或概念 你可以及時去查
對于層數 標在上面 對于該層的第幾個元素 標在下面? 輸入層算作第0層
對于第一層的w b 參數
維度如下w:4*3? b:4*1
這個叫做神經元 比如對于第一層的神經元
這里說的很清楚了 首先計算z 然后通過激活函數 計算出a
解釋一下?
為什么是四個w 因為第一層對應著四個神經元
比如w1對應第一層a11 w1的維度應該是(1,3)這與第0層的三個輸入相對應 以計算三個輸入對于a11的影響
而這樣的神經元在第一層有四個 所以W的維度是(4*3)
激活函數并不會改變維度
這是對于多樣本的書寫方式
對于多樣本 W是不需要改變的?
W的維度是(4*3) 當我們的X變成多樣本之后維度是(n,m) 這里n是3 依然可以和W維度匹配
這里的物理意義就是 對于第i個樣本 可以通過W去調整你的參數
但你要知道最后的W是該特征m個輸入樣本的平均值決定的
這里確實很難理解 可以參考下圖理解
對于激活函數 不只有relu 和sigmoid 很有很多其他的比如leaky relu tanh
曲線如下
為什么要激活函數 因為需要非線性 對于無限次的線性疊加 還是線性 這是無意義的
這個很好理解
與邏輯回歸類似?
注意的關鍵點是
W參數是M個樣本的平均值 這里也有體現
對b參數是M個樣本的平均值 得到一個常數
對于dz1的求解 把正向傳播的1式代入3式可以看出
隨機初始化
W的初始值不能全是0
這導致了隱藏層對稱 進而隱藏層個數多也沒有意義
訓練多少次兩個神經元都是相同的
所以隨機初始化 一般是高斯分布