1-3.監督學習（supervised learning）

定義：監督學習指的就是我們給學習算法一個數據集，這個數據集由“正確答案”組成，然后運用學習算法，算出更多的正確答案。術語叫做回歸問題

【監督學習可分為】：回歸問題、分類問題。兩種

例：一個學生從波特蘭俄勒岡州的研究所收集了一些房價的數據。你把這些數據畫出來，看起來是這個樣子：橫軸表示房子的面積，單位是平方英尺，縱軸表示房價，單位是千美元。那基于這組數據，假如你有一個朋友他有一套 750 平方英尺房子，現在他希望把房子賣掉，他想知道這房子能賣多少錢？

解：

我們應用學習算法，可以在這組數據中畫一條直線，或者換句話說，擬合一條直線，根
據這條線我們可以推測出，這套房子可能賣$150,000，當然這不是唯一的算法。可能還有更
好的，比如我們不用直線擬合這些數據，用二次方程去擬合可能效果會更好。根據二次方程
的曲線，我們可以從這個點推測出，這套房子能賣接近$200,000。稍后我們將討論如何選擇
學習算法，如何決定用直線還是二次方程來擬合。兩個方案中有一個能讓你朋友的房子出售
得更合理。這些都是學習算法里面很好的例子。以上就是監督學習的例子。

【離散值】（discrete valued）就是孤立的點集，像區間，它在每一點上都是連續的，而像整數集，它的每一元素之間都有一點的距離。

例：所謂在某一點上連續，就是對于該點，無論給定一個多么小的正數，總能在定義域內找到一點，它的函數值到該點的函數值距離小于給定的數。而離散就是指不連續。

想得到的話，計算機的隨機變量也算是，隨便找幾個人問幾個整數，得到的也是離散值，一個范圍內，人的身高也算

監督學習例2：乳腺癌例

讓我們來看一組數據：這個數據集中，橫軸表示腫瘤的大小，縱軸上，我標出 1 和 0 表
示是或者不是惡性腫瘤。我們之前見過的腫瘤，如果是惡性則記為 1，不是惡性，或者說良
性記為 0。
我有 5 個良性腫瘤樣本，在 1 的位置有 5 個惡性腫瘤樣本。現在我們有一個朋友很不幸
檢查出乳腺腫瘤。假設說她的腫瘤大概這么大，那么機器學習的問題就在于，你能否估算出
腫瘤是惡性的或是良性的概率。用術語來講，這是一個分類問題。
分類指的是，我們試著推測出離散的輸出值：0 或 1 良性或惡性，而事實上在分類問題
中，輸出可能不止兩個值。比如說可能有三種乳腺癌，所以你希望預測離散輸出 0、1、2、
3。0 代表良性，1 表示第 1 類乳腺癌，2 表示第 2 類癌癥，3 表示第 3 類，但這也是分類問
題。
因為這幾個離散的輸出分別對應良性，第一類第二類或者第三類癌癥，在分類問題中我
們可以用另一種方式繪制這些數據點。
現在我用不同的符號來表示這些數據。既然我們把腫瘤的尺寸看做區分惡性或良性的特
征，那么我可以這么畫，我用不同的符號來表示良性和惡性腫瘤。或者說是負樣本和正樣本
現在我們不全部畫 X，良性的腫瘤改成用 O 表示，惡性的繼續用 X 表示。來預測腫瘤的惡性與否。
在其它一些機器學習問題中，可能會遇到不止一種特征。舉個例子，我們不僅知道腫瘤
的尺寸，還知道對應患者的年齡。在其他機器學習問題中，我們通常有更多的特征，我朋友
研究這個問題時，通常采用這些特征，比如腫塊密度，腫瘤細胞尺寸的一致性和形狀的一致
性等等，還有一些其他的特征。這就是我們即將學到最有趣的學習算法之一。

我們以后會講一個算法，叫【支持向量機】，里面有一個巧妙的數學技巧，能讓計算機處理無限多個特征。

【監督學習基本思想】是，我們數據集中的每個樣本都有相應的“正確答案”。再根據這些樣本作出預測。（就像房子和腫瘤的例子中做的那樣）

【回歸問題】Regression Problem，即通過回歸來推出一個連續的輸出，之后我們介紹了分類問題，其目標是為了推出一組離散的結果

【分類問題】Classification Problem，分類指的是，我們試著推測出離散的輸出值：0 或 1 良性或惡性，而事實上在分類問題中，輸出可能不止兩個值

轉載于:https://www.cnblogs.com/chenxi188/p/10869724.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/277725.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/277725.shtml
英文地址，請注明出處：http://en.pswp.cn/news/277725.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！