Coursera機器學習筆記(一) - 監督學習vs無監督學習

轉載?http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes-Week-1-Introduction.html

一. 監督學習

什么是監督學習? 我們來看看維基百科中給出的定義:

監督式學習（英語：Supervised learning），是一個機器學習中的方法，可以由訓練資料中學到或建立一個模式（函數 / learning model），并依此模式推測新的實例。訓練資料是由輸入物件（通常是向量）和預期輸出所組成。函數的輸出可以是一個連續的值（稱為回歸分析），或是預測一個分類標簽（稱作分類）

從數據的角度來講, 監督學習和無監督學習的區別就在于監督學習的數據不僅僅有特征組成, 即每一個數據樣本都包含一個準確的輸出值. 在房價預測的問題中, 數據由特征+房價組成.

1.1 監督學習的分類

在監督學習中, 我們的預測結果可以是連續值, 也可以是離散值. 我們根據這樣的屬性將監督學習氛圍回歸問題和分類問題.

下面我們分別舉一個例子來看看, 學完這兩個例子之后, 我們就會對監督學習, 回歸以及分類有比較清晰地認識了.

1.2 監督學習舉例

1.2.1 回歸問題

我們現在有這么一個問題, 我們想通過給定的一個房子的面積來預測這個房子在市場中的價格. 這里的房子的面積就是特征, 房子的價格就是一個輸出值. 為了解決這個問題, 我們獲取了大量的房地產數據, 每一條數據都包含房子的面積及其對應價格. 第一, 我們的數據不僅包含房屋的面積, 還包含其對應的價格, 而我們的目標就是通過面積預測房價. 所以這應該是一個監督學習; 其次, 我們的輸出數據房價可以看做是連續的值, 所以這個問題是一個回歸問題. 至于如何通過數據得到可以使用的模型, 后面的幾節課我們再做討論.

思考: 如果對于同樣的數據, 但是我們的目標是預測這個房子的房價是大于100w還是小于100w, 那么這個時候是什么哪一類問題?

1.2.2 分類問題

我們再來看一個分類問題, 從名字上來講, 分類問題還是比較好理解的, 我們的目標應該是要對數據進行分類. 現在我們的數據是有關乳腺癌的醫學數據, 它包含了腫瘤的大小以及該腫瘤是良性的還是惡性的. 我們的目標是給定一個腫瘤的大小來預測它是良性還是惡性. 我們可以用0代表良性，1代表惡性. 這就是一個分類問題, 因為我們要預測的是一個離散值. 當然, 在這個例子中, 我們的離散值可以去’良性’或者’惡性’. 在其他分類問題中, 離散值可能會大于兩個.例如在該例子中可以有{0,1,2,3}四種輸出，分別對應{良性, 第一類腫瘤, 第二類腫瘤, 第三類腫瘤}。

在這個例子中特征只有一個即瘤的大小。對于大多數機器學習的問題, 特征往往有多個(上面的房價問題也是, 實際中特征不止是房子的面積). 例如下圖，有“年齡”和“腫瘤大小”兩個特征。(還可以有其他許多特征，如下圖右側所示)

二. 無監督學習

在監督學習中我們也提到了它與無監督學習的區別. 在無監督學習中, 我們的數據并沒有給出特定的標簽, 例如上面例子中的房價或者是良性還是惡性. 我們目標也從預測某個值或者某個分類便成了尋找數據集中特殊的或者對我們來說有價值結構. 如下圖所示, 我們可以直觀的感受到監督學習和無監督學習在數據集上的區別.

我們也可以從圖中看到, 大概可以將數據及分成兩個簇. 將數據集分成不同簇的無監督學習算法也被稱為聚類算法.

2.1 無監督學習舉例

想要了解這些例子更詳細的內容可以看 https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029

2.1.1 新聞分類

第一個例子舉的是Google News的例子。Google News搜集網上的新聞，并且根據新聞的主題將新聞分成許多簇, 然后將在同一個簇的新聞放在一起。如圖中紅圈部分都是關于BP Oil Well各種新聞的鏈接，當打開各個新聞鏈接的時候，展現的都是關于BP Oil Well的新聞。

2.1.2 根據給定基因將人群分類

如圖是DNA數據，對于一組不同的人我們測量他們DNA中對于一個特定基因的表達程度。然后根據測量結果可以用聚類算法將他們分成不同的類型。

2.1.3 雞尾酒派對效應

詳見課程:?https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029

2.1.4 其他

這里又舉了其他幾個例子，有組織計算機集群，社交網絡分析，市場劃分，天文數據分析等。具體可以看一下視頻：https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049049771&courseId=1004570029

轉載于:https://www.cnblogs.com/nangua19/p/10868190.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/448821.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/448821.shtml
英文地址，請注明出處：http://en.pswp.cn/news/448821.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！