第3章
機器學習概述
機器學習的概念非常多,從有監督到無監督,從聚類到回歸,從淺層學習到深度學習,從準確率到召回率,它們究竟是什么意思呢?本章將介紹最主要的幾個概念。不少機器學習初學者甚至包括業內老司機,一直被困擾的就是如何找到合適的訓練數據和測試數據,針對數據的處理也花費了大量人力物力,究竟如何把身邊各種形態的實物最終轉換成機器可以理解的數字特征呢?本章將介紹數據集的獲取與特征提取方案。本章介紹的數據集包括KDD 99、SEA、ADFA-LD等共10類,重點介紹如何針對數字型和文本型的數據進行特征提取以及常見的數據讀取方式,最后介紹如何對機器學習的結果進行驗證。