機器學習知識總結系列- 基本概念(1-0)

文章目錄

  • 目錄
    • 1. 機器學習的定義
    • 2. 機器學習的分類
      • 2.1根據是否在人類監督下進行訓練
        • 監督學習
        • 非監督學習
        • 半監督學習
        • 強化學習
      • 2.2根據是否可以動態漸進的學習
        • 在線學習
        • 批量學習
      • 2.3根據是否在訓練數據過程中進行模式識別
        • 實例學習
        • 基于模型的學習
    • 3. 機器學習中的一些常見名詞
    • 4. 機器學習的挑戰
      • 4.1 訓練的數據量不足
      • 4.2 沒有代表性的數據
      • 4.3 低質量的數據
      • 4.4 不相關的特征
      • 4.5 過擬合和欠擬合
    • 5. 其他
      • 5.1偏差與方差
        • 概念
        • 導致偏差和方差的原因
        • 深度學習中的偏差與方差
        • 偏差與方差的計算公式
        • 偏差與方差的權衡(過擬合與模型復雜度的權衡)
      • 5.2 生成模型與判別模型
        • 概念
        • 優缺點
        • 常見模型
      • 5.3 先驗概率與后驗概率

目錄

1. 機器學習的定義

機器學習是通過編程讓計算機能夠從數據中進行學習的科學(藝術)

經驗E學習一些分類任務T性能測量P,它在任務T中的性能(由P測量)隨著經驗E提升–湯姆.米切爾.1997


2. 機器學習的分類

2.1根據是否在人類監督下進行訓練

監督學習

在監督學習中用于訓練算法的數據中包含了答案,即標簽信息。
監督學習主要包括分類和回歸2個重要的任務。
重要的監督學習算法:

  • KNN
  • 線性回歸
  • 邏輯回歸
  • SVM
  • 決策樹和隨機森林
  • 神經網絡

非監督學習

在非監督學習中用于訓練算法的數據中沒有標簽信息。
非監督學習主要包括:聚類,可視化與降維,關聯性規則分析和異常檢測4個重要的任務

重要的聚類算法:

  • K means
  • 層次聚類
  • 期望最大
    可視化和降維
  • PCA
  • 核主成分分析
  • LLE(局部線性嵌入)
  • t-SNE(t分布領域嵌入算法)

關聯性規則學習

  • Apriori算法
  • Eclat算法

半監督學習

處理部分帶數據標簽的訓練數據,通常是大量數據不帶標簽,然后小部分數據帶標簽。

對數的半監督學習算法是監督學習算法和非監督算法的結合。

深度信念網絡是基于受限玻爾茲曼機的非監督組件。RBM是先用非監督的方法對數據進行訓練,在使用監督的方法歲整個系統進行微調。

強化學習

強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞,強化學習不同于連接主義學習中的監督學習,主要表現在強化信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價(通常為標量信號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由于外部環境提供的信息很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。

2.2根據是否可以動態漸進的學習

在線學習

與批量學習不同,在線學習假設訓練數據持續到來,通常利用一個訓練樣本更新當前的模型,大大降低了學習算法的空間復雜度和時間復雜度,實時性強。在大數據時代,大數據高速增長的特點為機器學習帶來了嚴峻的挑戰,在線學習可以有效地解決該問題,引起了學術界和工業界的廣泛關注。

批量學習

不能進行持續的學習,在線使用和離線學習完全分開,只是使用離線學習到的策略。

2.3根據是否在訓練數據過程中進行模式識別

實例學習

直接從實例當中進行學習,最簡單的方法就是查表,即所謂的記憶學習。其中KNN可以認為是一種基于實例的學習方法。

基于模型的學習

從樣本中進行歸納,然后建立樣本的模型,然后根據模型進行新樣本的預測,則為基于模型的學習。大部分的機器學習模型都是基于模型的學習方法。


3. 機器學習中的一些常見名詞

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述


4. 機器學習的挑戰

4.1 訓練的數據量不足

  • 在機器學習領域,往往是大數據+簡單模型的效果比小量數據+復雜模型的效果好。
  • 對于復雜問題,數據比算法更重要
  • 在實際的問題中,獲取大量的有標簽的數據往往是很困難的,所以優化算法也是比較重要的。

4.2 沒有代表性的數據

  • 機器學習的本質是使用模型通過已有的數據去盡可能的擬合原始數據的分布情況,如果用于擬合的數據無法很好的代表全部數據的分布(即:采樣有偏的情況下),學習到的模型就是不準確的模型。

4.3 低質量的數據

  • 訓練集中含有大量的噪聲,異常點,錯誤都會影響模型的訓練。
  • 花費時間對數據進行清理是很有必要的。

4.4 不相關的特征

  • 特征對于機器學習非常重要,所謂:進去的是垃圾,出來的也是垃圾。
  • 特征工程是機器學習中很重要的一部分工作。

4.5 過擬合和欠擬合


5. 其他

5.1偏差與方差

概念

在這里插入圖片描述

導致偏差和方差的原因

在這里插入圖片描述

深度學習中的偏差與方差

  • 神經網絡的擬合能力非常強,因此它的訓練誤差(偏差)通常較小;
  • 但是過強的擬合能力會導致較大的方差,使模型的測試誤差(泛化誤差)增大;
  • 因此深度學習的核心工作之一就是研究如何降低模型的泛化誤差,這類方法統稱為正則化方法

偏差與方差的計算公式

在這里插入圖片描述

偏差與方差的權衡(過擬合與模型復雜度的權衡)

在這里插入圖片描述

5.2 生成模型與判別模型

概念

在這里插入圖片描述

優缺點

在這里插入圖片描述

常見模型

在這里插入圖片描述

5.3 先驗概率與后驗概率

在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

已將發生的概率就是最大的。

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445408.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445408.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445408.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

劍指offer(刷題21-30)--c++,Python版本

文章目錄目錄第 21題:解題思路:代碼實現:cpython第22 題:解題思路:代碼實現:cpython第23 題:解題思路:代碼實現:cpython第24 題:解題思路:代碼實現…

redis——對象

剛寫了redis主要的數據結構: 動態字符串、雙端鏈表、字典、壓縮列表、整數集合、跳表等 redis肯定不能直接使用這些數據結構來實現數據庫,它用這些數據庫建立了一個對象系統,包含: 字符串對象、列表對象、哈希對象、集合對象、…

劍指offer(刷題31-40)--c++,Python版本

文章目錄目錄第31 題:解題思路:代碼實現:cpython第32題:解題思路:代碼實現:cpython第33題:解題思路:代碼實現:cpython第34題:解題思路:代碼實現&a…

redis——數據庫

redis服務器將所有數據庫都保存在redis/redisServer中,數組db存放所有數據庫,每一項是一個redisdb結構。dbnum代表數據庫數量。 客戶端有一個指針指向當前數據庫,可以切換,也就是移動指針。 鍵空間 現在稍微介紹一下redisdb結構…

劍指offer(刷題41-50)--c++,Python版本

文章目錄目錄第41題:解題思路:代碼實現:cpython第42題:解題思路:代碼實現:cpython第43題:解題思路:代碼實現:cpython第44題:解題思路:代碼實現&am…

redis——持久化

因為redis是內存數據庫,他把數據都存在內存里,所以要想辦法實現持久化功能。 RDB RDB持久化可以手動執行,也可以配置定期執行,可以把某個時間的數據狀態保存到RDB文件中,反之,我們可以用RDB文件還原數據庫…

redis原理總結

數據結構(字典、鏈表、字符串) 數據結構(整數集合,壓縮列表) 數據結構(跳表介紹和手撕) LRU介紹和實現 對象(字符串對象、列表對象、哈希對象、集合對象、有序集合總結&#xff…

劍指offer(刷題51-60)--c++,Python版本

文章目錄目錄第51題:解題思路:代碼實現:cpython第52題:解題思路:代碼實現:cpython第53題:解題思路:代碼實現:cpython第54題:解題思路:代碼實現&am…

2017第一屆河北省大學生程序設計競賽題解

超級密碼 小明今年9歲了,最近迷上了設計密碼!今天,他又設計了一套他認為很復雜的密碼,并且稱之為“超級密碼”. 說實話,這套所謂的“超級密碼”其實并不難:對于一個給定的字符串,你只要提取其中…

劍指offer(刷題61-65)--c++,Python版本

文章目錄目錄第61題:解題思路:代碼實現:cpython第62題:解題思路:代碼實現:cpython第63題:解題思路:代碼實現:cpython第64題:解題思路:代碼實現&am…

2018第二屆河北省大學生程序設計競賽題解

icebound的賬單 題目描述 icebound從小就有記賬的習慣。又到了月末icebound統計資金狀況的時候。icebound每個月除了不停的揮霍以外,有時他會良心發現,勤工儉學,因此會有一些微薄的收入。然而icebound數學不好,需要你來幫助他統計…

大數的四則運算(加法、減法、乘法、除法)

大數的四則運算(加法、減法、乘法、除法) 前言: 在計算機中數字表示的范圍是有限制的,比如我們熟知的 int、float、double 等數據類型所能表示的范圍都是有限的,如果我們要對位數達到幾十位、幾百位、上千位的大整數進…

數組基操三連(1)

題目: 給定一個數組arr,求出需要排序的最短子數組長度 要求: 時間o(n),空間o(1) 思路: 有序的數組中,任意一個數字,一定小于左邊的數大于右邊的數。 我們找到的需要排序的子數組,顯然是比右邊…

IT互聯網公司的筆試的輸入輸出- c++ python

文章目錄目錄c方式1&#xff1a;方式2&#xff1a;Python方式1&#xff1a;方式2&#xff1a;方式3&#xff1a;目錄 c 方式1&#xff1a; 第一種情況&#xff1a;輸入n個數&#xff0c;存放在數組中 #include <iostream> #include <vector> using namespace st…

隨機過程1

隨機過程1概述1.參考書目2.主要內容3.概率論--基本概念回顧3.1對“不確定性”的認識3.2 應對“不確定性”應該怎么做3.3隨機變量&#xff08;Random Variable&#xff09;3.4分布函數&#xff08;Distribution Function&#xff09;3.5概率密度&#xff08;Density&#xff09;…

數組基操三連(4)

題目一 給定一個長度為N的整型數組arr&#xff0c;其中有N個互不相等的自然數1~N 請實現arr的排序 但是不要把下標0~N-1位置上的數值通過直接賦值的方式替換成1~N。 要求&#xff1a;時間復雜度為O(N)&#xff0c;額外空間復雜度為O(1)。 思路&#xff1a;從左向右檢查&…

Linux(1)-touch,mkdir,rm,mv,cp,ls,cd,cat

Linux1-實用終端命令1. touch, mkdir2. rm, mv, cp3. ls(通配符),cd(絕對/相對路徑)4. cat, more/less文件內容瀏覽文件/目錄-增刪查改, 文件內容查看.1. touch, mkdir touch新文件 &#xff1a;在當前文件夾下&#xff0c;創建文件。文件不存在則創建新文件&#xff1b;文件存…