一、三大概念
1.1 人工智能(AI)
- Artificial Intelligence 人工智能
- AI is the field that studies the synthesis and analysis of computational agents that act intelligently
1.2 機器學習(ML)
- Machine Learning 機器學習
- Field of study that gives computers the ability to learn without being explicitly programmed
1.3 深度學習(DL)
- Deep Learning 深度學習
1.4 三者關系
- 機器學習是實現人工智能的一種途徑。
- 深度學習是機器學習的一種方法。
1.5 學習方式
1.5.1 基于規則的學習
- 基于規則的預測
- 圖像與語音識別
- 自然語言處理
1.5.2 基于模型的學習
- 通過編寫機器學習算法,讓機器自己學習從歷史數據中獲得經驗、訓練模型
二、人工智能應用領域和發展史
2.1 應用領域
- 用戶分析:社交網絡、影評、商品評論
- 搜素引擎:網頁、圖片、規頻、新聞、學術、地圖
- 信息推薦:新聞、商品、游戲、書籍
- 圖片識別:人像、用品、勱物、交通工具
- 機器翻譯、摘要生成 … 生物信息學習 … 多模態 AR/VR
2.2 發展歷史
2.3 發展三要素
- CPU:負責調度任務、計算任務等;主要適合I\O密集型的任務。
- GPU:更加適合矩陣運算;主要適合計算密集型任務。
- TPU:Tensor,專門針對神經網絡訓練設計一款處理器。
三、常見術語
- 樣本(sample):一行數據就是一個樣本;多個樣本組成數據集;有時一條樣本被叫成一條記錄。
- 特征(feature):一列數據一個特征,有時也被稱為屬性。
- 標簽/目標(label/target):模型要預測的那一列數據。
- 數據集:
- 訓練集(training set):用來訓練模型(model)的數據集
- 測試集(testing set):用來測試模型的數據集
四、算法分類
4.1 有監督學習
4.1.1 定義
??輸入數據是由輸入特征值和目標值所組成,即輸入的訓練數據有標簽的。
4.1.2 數據集
數據人工標注
4.1.3 分類
目標值(標簽值)不連續
分類種類:二分類和多分類
4.1.4 回歸
目標值(標簽值)連續
4.2 無監督學習
4.2.1 定義
??輸入數據沒有被標記,即樣本數據類別未知,沒有標簽,根據樣本間的相似性,對樣本集聚類,以發現事物內部 結構及相互關系。
4.2.2 數據集
數據無需標注
4.2.3 特點
- 訓練數據無標簽。
- 根據樣本間的相似性對樣本集進行聚類,發現事物內部結構及相互關系。
4.3 半監督學習
4.3.1 工作原理
- 標注少量數據。
- 利用已經標注的少量數據訓練出一個模型。
- 再利用訓練出的模型去套用未標記的數據。
- 對比專家分類結果與模型分類結果,從而對模型做進一步改善和提高。
4.3.2 特點
- 大幅降低標注成本
4.4 強化學習
4.4.1 工作原理
四要素:
- agent
- 環境狀態
- 行動
- 獎勵
4.5 四者對比
Input | output | 目的 | 案例 | |
---|---|---|---|---|
監督學習(supervised learning) | 有標簽 | 有反饋 | 預測結果 | 貓狗分類、房價預測 |
無監督學習(unsupervised learning) | 無標簽 | 無反饋 | 發現潛在結構 | “物以類聚,人以群分” |
半監督學習(Semi-Supervised Learning) | 部分有標簽,部分無標簽 | 有反饋 | 降低數據標記的難度 | |
強化學習(reinforcement learning) | 決策流程及激勵系統 | 一系列行動 | 長期利益最大化 | 學下棋 |
五、建模流程
步驟序號 | 步驟名稱 | 具體內容 |
---|---|---|
1 | 獲取數據 | 獲取經驗數據、圖像數據、文本數據 … |
2 | 數據基本處理 | 數據缺失值處理、異常值處理 … |
3 | 特征工程 | 特征提取、特征預處理、特征降維 … |
4 | 機器學習(模型訓練) | 線性回歸、邏輯回歸、決策樹、GBDT |
5 | 模型評估 | 回歸評測指標、分類評測指標、聚類評測指標 |
六、特征工程
6.1 定義
- 從數據集的角度,指一列一列的數據。
- 從模型訓練的角度,指對預測結果有用的屬性。
??利用專業背景知識和技巧處理數據,讓機器學習算法效果最好。數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
6.2 特征提取
??從原始數據中提取與任務相關的特征,構成特征向量。對于文本、圖片這種非行列形式的數據行列形式轉換,一旦轉換成行列形式一列就是特征。
6.3 特征預處理
??將不同的單位的特征數據轉換成同一個范圍內,使訓練數據中不同特征對模型產生較為一致的影響。
6.4 特征降維
??將原始數據的維度降低,會丟失部分信息,但需要保證數據的主要信息要保留下來。
6.5 特征選擇
??原始數據通常存在豐富多樣的特征,對于給定任務而言,有效特征僅為全體特征構成集合中的一個子集。此時,需從原始特征集合里,甄別并選取對任務具備顯著價值的重要特征或強相關特征,且整個過程不會對原始數據本身的特征表示與分布產生改變。
6.6 特征組合
??通過加法、乘法等方法把多個的特征合并成一個特征。
[A x B]
:將兩個特征的值相乘形成的特征組合[A x B x C x D x E]
:將五個特征的值相乘形成的特征組合[A x A]
:對單個特征的值求平方形成的特征組合
七、模型擬合
- 擬合
- 定義:表示模型對樣本點的擬合情況
- 欠擬合
- 定義:模型在訓練集上表現很差,在測試集表現也很差
- 原因:模型過于簡單
- 過擬合
- 定義:模型在訓練集上表現很好,在測試集表現很差
- 原因:模型過于復雜,數據不純,訓練數據太少
- 泛化
- 定義:模型在新數據集上的表現好壞的能力
- 奧卡姆剃刀原則
- 給定兩個具有相同泛化誤差的模型,較簡單的模型比較復雜的模型更可取
微語錄:在一切破舊褪色中,請你永遠閃爍。