MNIST手寫字體識別(算法基礎)

快教程

10分鐘入門神經網絡 PyTorch 手寫數字識別

慢教程

【深度學習Pytorch入門】

簡單回歸問題-1

梯度下降算法

梯度下降算法

$loss = x^2 * sin(x)$

求導得：

$f^`(x)=2xsinx + x^2cosx$

迭代式：
$x^`=x-\delta x$

$\delta x$ 前乘上學習速度 $l r$ , 使得梯度慢慢往下降無限趨近合適解，在最優解附近波動 ,得到一個近似解

求解器

sgd
rmsprop
adam

求解一個簡單的二元一次方程

噪聲

實際數據是含有高斯噪聲的，我們拿來做觀測值，通過觀察數據分布為線型分布時，不斷優化loss，即求loss極小值

$\epsilon$
$\epsilon \backsim N(0.01,1)$

求解loss極小值，求得 $y$ 近似于 $W X + b$ 的取值：
$loss = (WX + b - y)^2$
最后
$\sum_i(w*x_i+b-y_i)^2$
從而
$w^` * x + b^` \rightarrow y^`$

簡單回歸問題-2

凸優化(感興趣可以查閱資料)

linear Regression

取值范圍是連續的

$wx+b\\ w_1+b\\ .......\\ w_n+b$

用以上實際數據(8)預測 $W X + B$

# 梯度下降的應用
def compute_error_for_line_given_points(b,w,points):totalError = 0for i in range(0,len(points)):x = points[i,0]y = points[i,1]#  totalError += (y - (w * x + b ) ) ** 2b_gradient += -(2/N) * (y - ((w_current * x) + b_current))w_gradient += -(2/N) * x * (y - ((w_current * x) + b_current))new_b = b_current - (learningRate * b_gradient)new_w = w_current - (learningRate * w_gradient)return [new_b, new_w]#return totalError / float(len(points))def gradient_descent_runner(points, starting_b , starting_m, learning_rate, num_iterations):b = starting_bm = starting_mfor i in range(num_iterations):b, m = step_gradient(b,m,np.array(points),learning_rate)return [b,m]

Logistic Regression

值域壓縮到 [0-1] 的范圍

Classification

在上一種regression基礎上，每個點的概率加起來為1

簡單回歸實戰案例

import numpy as np# y = wx + b
def compute_error_for_line_given_points(b, w, points):totalError = 0for i in range(0, len(points)):x = points[i, 0]y = points[i, 1]totalError += (y - (w * x + b)) ** 2return totalError / float(len(points))def step_gradient(b_current, w_current, points, learningRate):b_gradient = 0w_gradient = 0N = float(len(points))for i in range(0, len(points)):x = points[i, 0]y = points[i, 1]b_gradient += -(2/N) * (y - ((w_current * x) + b_current))w_gradient += -(2/N) * x * (y - ((w_current * x) + b_current))new_b = b_current - (learningRate * b_gradient)new_m = w_current - (learningRate * w_gradient)return [new_b, new_m]def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):b = starting_bm = starting_mfor i in range(num_iterations):b, m = step_gradient(b, m, np.array(points), learning_rate)return [b, m]def run():points = np.genfromtxt("data.csv", delimiter=",")learning_rate = 0.0001initial_b = 0 # initial y-intercept guessinitial_m = 0 # initial slope guessnum_iterations = 1000print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m,compute_error_for_line_given_points(initial_b, initial_m, points)))print("Running...")[b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m,compute_error_for_line_given_points(b, m, points)))if __name__ == '__main__':run()

# 跑完結果
Starting gradient descent at b = 0, m = 0, error = 5565.107834483211
Running...
After 1000 iterations b = 0.08893651993741346, m = 1.4777440851894448, error = 112.61481011613473

分類問題引入-1

MNIST數據集

每個數字有7000張圖像
訓練數據和測試數據劃分為：60k 和 10k

H3:[1,d3]Y:[0/1/.../9]

(1) Nutshell

在最簡單的二元一次線性方程基礎上進行三次線性模型嵌套，使線性輸出更穩定，每一次嵌套后的結果作為后一個的輸入
$W_3 *\{W_2[W_1X+b_1]+b_2\}+b_3\nonumber$

(2) Non-linear Factor

segmoid
ReLU
- 梯度離散
  
  三層嵌套整流函數
  
  $H 1 = re l u (X W 1 + b 1)$
  
  $H 2 = re l u (H 1 W 2 + b 2)$
  
  $H 3 = re l u (H 2 W 3 + b 3)$
  
  增加了非線性變化的容錯

(3) Gradient Descent

$\sum(red-Y)^2$

$[W 1, W 2, W 3]$
$[b 1, b 2, b 3]$

說人話就是讓模型愈來愈貼近真實的變化（從正常的字體，到傾斜，模糊，筆畫奇特等字體），以便更好的預測

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/37858.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/37858.shtml
英文地址，請注明出處：http://en.pswp.cn/web/37858.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！