機器學習基本術語詳解
1. 特征(Feature)
- 定義:數據的屬性或變量,用于描述樣本的某個方面。
- 作用:模型通過學習特征與目標之間的關系進行預測。
- 示例:
- 預測房價時,特征可以是 面積、地段、房齡。
- 圖像識別中,特征可以是 像素值、顏色直方圖。
- 關鍵點:
- 特征工程(Feature Engineering):通過變換、組合特征提升模型性能(如將“年齡”分桶為“青年/中年/老年”)。
- 特征選擇(Feature Selection):剔除無關或冗余特征(如用相關系數篩選)。
2. 樣本(Sample / Instance)
- 定義:數據集中的一條具體數據,由一組特征及其可能的標簽組成。
- 示例:
- 監督學習:一條樣本 = 特征 + 標簽(如
{面積:80㎡, 地段:市中心, 房價:500萬}
)。 - 無監督學習:一條樣本 = 僅特征(如
{用戶A, 點擊次數:5, 停留時長:10分鐘}
)。
- 監督學習:一條樣本 = 特征 + 標簽(如
- 關鍵點:
- 樣本是模型的“學習材料”,數據量越大,模型通常表現越好(但需保證質量)。
3. 訓練集(Training Set)
- 定義:用于訓練模型的數據子集,模型通過擬合這些數據學習規律。
- 占比:通常占全量數據的 70%~80%。
- 關鍵點:
- 過擬合風險:模型在訓練集上表現太好(如背答案),但在新數據上表現差。
- 數據增強(Data Augmentation):通過旋轉圖像、添加噪聲等方式擴充訓練集(常見于深度學習)。
4. 測試集(Test Set)
- 定義:用于評估模型泛化能力的獨立數據子集,模擬真實場景。
- 占比:通常占 20%~30%,且不能參與訓練。
- 關鍵點:
- 測試集是模型的“期末考試”,反映其實際應用效果。
- 數據泄漏(Data Leakage):若測試集信息混入訓練集(如全局歸一化),會導致評估失真。
5. 監督學習(Supervised Learning)
- 定義:數據帶有標簽(Label),模型學習從特征到標簽的映射關系。
- 典型任務:
- 分類(Classification):輸出離散值(如垃圾郵件檢測:0/1)。
- 回歸(Regression):輸出連續值(如房價預測:500.3萬)。
- 示例算法:
- 線性回歸、決策樹、支持向量機(SVM)、神經網絡。
6. 無監督學習(Unsupervised Learning)
- 定義:數據無標簽,模型自行發現數據中的模式或結構。
- 典型任務:
- 聚類(Clustering):將相似樣本分組(如客戶分群)。
- 降維(Dimensionality Reduction):壓縮特征數量(如PCA)。
- 異常檢測(Anomaly Detection):識別離群點(如信用卡欺詐)。
- 示例算法:
- K-Means、DBSCAN、主成分分析(PCA)、自編碼器(Autoencoder)。
術語對比表
術語 | 定義 | 示例 |
---|---|---|
特征 | 數據的屬性 | 房價預測中的“面積” |
樣本 | 一條具體數據 | {面積:80㎡, 房價:500萬} |
訓練集 | 用于訓練模型的數據 | 70%的歷史房價數據 |
測試集 | 用于評估模型的數據 | 30%的保留房價數據 |
監督學習 | 數據帶標簽的學習 | 分類(貓 vs 狗) |
無監督學習 | 數據無標簽的學習 | 聚類(用戶分群) |
常見問題
- 訓練集和測試集為什么要分開?
- 防止模型“作弊”(過擬合),確保評估結果反映真實性能。
- 無監督學習有什么用?
- 探索數據內在結構(如市場細分)、預處理數據(如降維后再分類)。
- 特征越多越好嗎?
- 不是!無關特征會引入噪聲(“維度詛咒”),需通過特征選擇/降維優化。
總結
- 特征是數據的描述屬性,樣本是具體實例。
- 訓練集用于學習,測試集用于驗證。
- 監督學習需要標簽,解決預測問題;無監督學習無標簽,解決模式發現問題。