有監督學習(Supervised Learning)
所謂有監督學習,是區別于無監督學習而言的。其過程如下:
給定一系列樣本,樣本是由一系列特征值和輸出值組成。比如,某個地方的商品房,包括房子大小、房間數、距離市中心的距離等等特征值以及房價這個輸出值。根據這些樣本,找出特征值和輸出值之間的規律,從而根據這些規律預測新的樣本。“找規律”就是一個學習或訓練的過程。有監督學習就是在學習的過程中,加入人工的干預;換一種說法,就是在訓練的過程中,告訴機器,對每一個輸入,輸出應該是什么。訓練完成后,我們得到了一種規律。根據這個規律,對于以后新來的樣本,可以通過分析其特征值,預測其輸出值。比如,我們通過訓練或學習,知道了房子大小、房間數、距離市中心的距離等等特征與房價之間的關系,新來一套房子,我們就可以根據新房子的大小、房間數、距離市中心的距離等等特征,預測其價格。
對于有監督學習來說,最核心的思想是怎么找出其中“規律”的過程。
用數學的方法來描述:我們可以將樣本的特征作為輸入,經過其“規律”的變換,得到其輸出。特征空間用X表示,輸出空間用Y表示,而其"規律"則用h來表示,我們可以得到一個映射關系:
? ? ? ? ? ? ?
在此,我們得到了樣本特征與輸出的數學表達式,有監督學習的過程就是確定函數h的過程。至于怎樣確定,在以后的學習中會有許許多多的方法。
然后,還有一些基本概念。用于訓練的樣本,組成的集合,我們稱之為訓練集(training set)。訓練集中樣本的特征組成的空間,我們稱之為特征空間。如上所述的過程,可用下圖一覽概括:
對于上述例子中所述的房價問題,其預測為一系列連續的值,我們稱這樣的問題為回歸問題。而如果輸出只是若干個離散的值,我們就可以稱之為分類問題。比如,某些應用中需要判斷一幅圖像中的人的性別,輸出只有兩個值,“男”或“女”,這就是一個典型的二分類問題。