對于由浮點數組成的二維數據,其中每一列是描述數據點的連續特征。
對于很多應用來說,數據的收集方式并不是這樣,一種特別常見的特征類型就是分類特征,也叫離散特征,這種特征通常不是說數值。
分類特征和連續特征之間的區別類似于分類和回歸之間的區別,只是前者是在數據的輸入端而不是輸出端。
連續特征的例子:像素明暗程度、花的尺寸測量。
分類特征的例子:產品的品牌、產品的顏色、員工的部門。這些都是描述一件產品的屬性,但它們不以連續的方式變化。
無論數據包含哪種類型的特征,數據表示方式都會對機器學習模型的性能產生巨大影響。其中,數據縮放非常重要,用額外的特征擴充數據也很有幫助,比如添加特征的交互項或更一般的多項式。
對于某個特定應用來說,如何找到最佳數據表示,這個問題被稱為特征工程,它是數據科學家和機器學習從業者在嘗試解決現實世界問題時的主要任務之一。用正確的方式表示數據,對監督模型性能的影響比選擇的精確參數還要大。