定義:監督學習指的就是我們給學習算法一個數據集,這個數據集由“正確答案”組成,然后運用學習算法,算出更多的正確答案。術語叫做回歸問題
【監督學習可分為】:回歸問題、分類問題。兩種
例:一個學生從波特蘭俄勒岡州的研究所收集了一些房價的數據。你把這些數據畫出來,看起來是這個樣子:橫軸表示房子的面積,單位是平方英尺,縱軸表示房價,單位是千美元。那基于這組數據,假如你有一個朋友他有一套 750 平方英尺房子,現在他希望把房子賣掉,他想知道這房子能賣多少錢?
解:
我們應用學習算法,可以在這組數據中畫一條直線,或者換句話說,擬合一條直線,根
據這條線我們可以推測出,這套房子可能賣$150,000,當然這不是唯一的算法。可能還有更
好的,比如我們不用直線擬合這些數據,用二次方程去擬合可能效果會更好。根據二次方程
的曲線,我們可以從這個點推測出,這套房子能賣接近$200,000。稍后我們將討論如何選擇
學習算法,如何決定用直線還是二次方程來擬合。兩個方案中有一個能讓你朋友的房子出售
得更合理。這些都是學習算法里面很好的例子。以上就是監督學習的例子。

讓我們來看一組數據:這個數據集中,橫軸表示腫瘤的大小,縱軸上,我標出 1 和 0 表
示是或者不是惡性腫瘤。我們之前見過的腫瘤,如果是惡性則記為 1,不是惡性,或者說良
性記為 0。
我有 5 個良性腫瘤樣本,在 1 的位置有 5 個惡性腫瘤樣本。現在我們有一個朋友很不幸
檢查出乳腺腫瘤。假設說她的腫瘤大概這么大,那么機器學習的問題就在于,你能否估算出
腫瘤是惡性的或是良性的概率。用術語來講,這是一個分類問題。
分類指的是,我們試著推測出離散的輸出值:0 或 1 良性或惡性,而事實上在分類問題
中,輸出可能不止兩個值。比如說可能有三種乳腺癌,所以你希望預測離散輸出 0、1、2、
3。0 代表良性,1 表示第 1 類乳腺癌,2 表示第 2 類癌癥,3 表示第 3 類,但這也是分類問
題。
因為這幾個離散的輸出分別對應良性,第一類第二類或者第三類癌癥,在分類問題中我
們可以用另一種方式繪制這些數據點。
現在我用不同的符號來表示這些數據。既然我們把腫瘤的尺寸看做區分惡性或良性的特
征,那么我可以這么畫,我用不同的符號來表示良性和惡性腫瘤。或者說是負樣本和正樣本
現在我們不全部畫 X,良性的腫瘤改成用 O 表示,惡性的繼續用 X 表示。來預測腫瘤的惡性與否。
在其它一些機器學習問題中,可能會遇到不止一種特征。舉個例子,我們不僅知道腫瘤
的尺寸,還知道對應患者的年齡。在其他機器學習問題中,我們通常有更多的特征,我朋友
研究這個問題時,通常采用這些特征,比如腫塊密度,腫瘤細胞尺寸的一致性和形狀的一致
性等等,還有一些其他的特征。這就是我們即將學到最有趣的學習算法之一。
我們以后會講一個算法,叫【支持向量機】,里面有一個巧妙的數學技巧,能讓計算機處理無限多個特征。
【監督學習基本思想】是,我們數據集中的每個樣本都有相應的“正確答案”。再根據這些樣本作出預測。(就像房子和腫瘤的例子中做的那樣)
【回歸問題】Regression Problem,即通過回歸來推出一個連續的輸出,之后我們介紹了分類問題,其目標是為了推出一組離散的結果
【分類問題】Classification Problem,分類指的是,我們試著推測出離散的輸出值:0 或 1 良性或惡性,而事實上在分類問題中,輸出可能不止兩個值
?