一、機器學習建模流程:
- 獲取數據(搜集與完成機器學習任務相關的數據集)
- 數據基本處理(數據 缺失值處理,異常值處理)
- 特征工程(特征提取、特征預處理 、特征降維、特征選擇 、特征組合)
- 機器學習 (模型訓練)選擇合適的算法對模型進行訓練(有監督學習,無監督學習,半監督學習,強化學習)
- 模型評估(回歸評測指標 、線性評測指標 、聚類評估指標)評估效果好上線服務,評估效果不好則重復上述步驟
二、特征工程
特征:對任務有用的信息
特征工程:利用背景知識和專業技巧處理數據,讓模型效果更好
- 特征提取 —— 專家面向原始數據的提取
- 特征預處理 —— 歸一化和標準化 解決量綱問題
- 特征降維 —— 維度退化:3個特征 變成兩個
- 特征選擇(很少做,不然說明特征提取有問題)—— 從特征提取中選擇出一些重要特征訓練模型
- 特征組合 —— 把多個特征合并組合成一個特征