【Python機器學習】4.3. 模型優化

喜歡的話別忘了點贊、收藏加關注哦（關注即可查看全文），對接下來的教程有興趣的可以關注專欄。謝謝喵！(=^･ω･=)
請添加圖片描述

4.3.1. 實戰中會遇到的問題

首先看一個例子：

根據任檢測數據 $x_1$ 、 $x_2$ 及其標簽，判斷 $x_1 = 6$ ， $x_2 = 4$ 時所屬的類別。

圖像如下：
請添加圖片描述

我們接下來就需要選擇算法了，可選擇的有：

選擇完算法之后我們還會遇到一個問題：具體算法的核心結構/參數如何選擇？

最后，如果模型表現不佳，具體表現為

這種情況下我該怎么辦呢？

這些情況匯總下來就是一個問題：如何提高模型表現？

數據的質量決定了模型表現的上限。就算你用再強的模型/參數，只要你的數據質量差效果就好不起來。

建議在建模之前先檢查數據的以下方面：

以上文的例子來說，在我們獲得數據之后，我們要考慮以下問題：

對于檢查異常數據這一部分，我們學過異常檢測(詳見 3.3. 異常檢測(Anomaly Detection)理論)，通過概率密度函數來找潛在的數據異常點。

對于數據量級差異的部分，我們要先看數據的分布， $x_1$ 的數據分布在0.77～9.49， $x_2$ 的數據分布在0.69~9.5。這兩個變量的數據分布基本相同，可以不做歸一化處理。

對于確認是否需要降低數據維度的部分，我們需要先對數據進行主成分分析(詳見 3.4. 主成分分析(PCA)理論)。由于例子中的數據只有2個維度，所以就不需要進行主成分分析來降維了，具體的操作見 3.7. 主成分分析(PCA)實戰。

不同的模型通常會有不同的效果，你可以計算準確率并可視化出來，這里的數據使用的是 1.9. 邏輯回歸實戰中的，我把.csv數據文件放在GitCode上了，點擊鏈接即可下載。
請添加圖片描述

你也可以通過混淆矩陣來計算其它參數，根據其他指數來決定要使用哪個模型。衡量指標的選擇取決于應用場景：

垃圾郵件檢測（正樣本為“垃圾郵件“）：希望普通郵件（負樣本）不要被判斷為垃圾郵件（正樣本），即：判斷為垃圾郵件的樣本都是判斷正確的，需要關注精確率；還希望所有的垃圾郵件盡可能被判斷出來，需要關注召回率。
異常交易檢測（正樣本為“異常交易”）：希望判斷為正常的交易（負樣本）中盡可能不存在異常交易，還需要關注特異度。

在確定了該使用什么模型之后，我們還需要對其他方面進行微調：

來看看KNN的n_neighbors值對結果的影響：
請添加圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/90409.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/90409.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/90409.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！