1-機器學習的基本概念

一、機器學習的步驟
- Step1 - Function with unknown
- Step2 - Define Loss from Training Data
- Step3 - Optimization
二、機器學習的改進
- Q1 - 線性模型有一些缺點
- Q2 - 重新詮釋機器學習的三步
- Q3 - 機器學習的擴展
- Q4 - 過擬合問題（Overfitting）

一、機器學習的步驟

如圖所示，機器學習分為以下三步：
在這里插入圖片描述
下文按照這個步驟來進行整理

機器學習就是 “自動找到一個非常復雜的函數" ，其輸入是原始的數據（聲音信號、圖片、棋盤狀態等），通過這個函數，得到一個較好的答案（語音對應的文字、圖片展示的對象、棋子下一步走法等），如圖：

為了實現不同的目標，我們可以用機器學習去找不同的函數，這些任務有如下的分類：
(1)Regression：the function output a scalar；找一個數，如預測明天的氣溫、PM2.5濃度；
(2)Classification: Given options(classes)，the function output the correct one；給出一個正確的選項；
(3)Structured Learning：讓機器產生有結構性的信息（文章、圖片等）；
…

x`Model：帶有未知參數的函數，也就是我們機器學習的目標——建立一個model解決問題。在Model中我們有一些概念：
(1)feature：來源于數據，是已知的參數。
(2)weight：與feature相乘，代表feature的重要程度。
(3)bias：預測值和真實值的偏差。

在這里插入圖片描述
我們用以上式子來解釋：將瀏覽信息輸入，預測未來瀏覽量。
其中 y 就是我們預測的瀏覽量， $x_1$ 是我們之前的瀏覽量，w是weight，b是bias。

Loss也是一個函數，其輸入是之前提到的weigth和bias，它的輸出用來衡量這兩個數值設置的好不好。
可以通過比對估測的值和真實的值之間的差距，使用 $\hat{y}|$ （MAE）或 $\hat{y})^2$ （MSE）來衡量，其中真實的值叫做Label。
可以用如下的圖表衡量Loss與bias和weight的關系：

我們在 $w$ 到達滿意的值或者失去耐心(到達設置的移動次數)后，取定最終的值。其中我們發現，如果學習率 $\eta$ 設置的較小，我們可能陷入 Local Minima 中，而找不到最優的 Global Minima。
其實它不是機器學習中的難題，后續繼續進行介紹。

我們可以使用常數 + 多個函數來構建最終的模型：

轉折點越多，需要的藍色function越多。如果有足夠多的function組合在一起，也許我們就能得到足夠好的模擬效果。

在這里插入圖片描述
以上是三個sigmoid函數中的元素，我們還可以用線代知識對式子進行簡化：

我們構建Model的流程就如下圖所示：

function with unknown:
現在我們定義的含有未知數的函數就變成了上圖中的函數： $c^T \sigma(b + Wx)$
其中 $\sigma$ 是激活函數 $s i g m o i d$ ，注意其中的兩個常數 $b$ 是不同的值。
Define Loss from Training Data
Loss的定義沒有不同，依舊是 $\frac{1}{N} \sum{e_n}$ 。
Optimization of New Model
在新模型中，feature包含 $W 、b、 C^T$ 等，我們將其全部放入一個新的矩陣 $\theta$ 中， $\theta = \begin{bmatrix} \theta1 \\ \theta2 \\ \theta3 \\ \end{bmatrix}$
即將feature的元素依次放入 $\theta$ 。
現在我們引入一個新的向量 gradient（梯度）來表示優化效果：
$\begin{bmatrix} \frac{\partial L}{\partial \theta_1} |_{\theta = \theta_0} \\ \\ \frac{\partial L}{\partial \theta_2} |_{\theta = \theta_0} \\ ... \end{bmatrix} \; g = \nabla L(\boldsymbol{\theta}^0)$
逐步更新參數，取得更好的結果 $\theta^* = arg\ min_{}L$ 。

在實際的機器學習中，我們會將完整的數據集分為不同的batch分別進行訓練，每訓練完一個batch，就更新一次模型參數(即進行一次梯度下降)。

優點：
(1) 節省內存：如果你一次用整個數據集訓練（叫做 full-batch），對大數據來說會爆內存。
(2) 更快訓練：batch 可以并行計算，訓練過程更高效。
(3) 提高泛化性：每次用不同的 batch 做梯度估計，有“抖動”，反而能避免陷入局部最優。
在這里插入圖片描述

此外，激活函數還不僅僅局限于sigmoid，還有ReLU：
在這里插入圖片描述
定義：

再訓練資料上模型表現的較好，但是在新資料上表現差的問題，我們稱之為過擬合（Overfitting）
在這里插入圖片描述
我們應該選擇在未訓練數據上表現更好的。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/906114.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/906114.shtml
英文地址，請注明出處：http://en.pswp.cn/news/906114.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！