【機器學習】回歸誤差:MSE、RMSE、MAE、R2、Adjusted R2 +方差、協方差、標準差(標準偏差/均方差)、均方誤差、均方根誤差(標準誤差)、均方根解釋

我們通常采用MSE、RMSE、MAE、R2來評價回歸預測算法。

1、均方誤差:MSE(Mean Squared Error)

其中,為測試集上真實值-預測值。

def rms(y_test, y):
return sp.mean((y_test - y) ** 2)

?

2、均方根誤差:RMSE(Root Mean Squard Error)

可以看出,RMSE=sqrt(MSE)。

3、平均絕對誤差:MAE(Mean Absolute Error)

以上各指標,根據不同業務,會有不同的值大小,不具有可讀性,因此還可以使用以下方式進行評測。

4、決定系數:R2(R-Square)

def R2(y_test, y_true):
return 1 - ((y_test - y_true)**2).sum() / ((y_true - y_true.mean())**2).sum()

?

其中,分子部分表示真實值與預測值的平方差之和,類似于均方差 MSE;分母部分表示真實值與均值的平方差之和,類似于方差 Var。

根據?R-Squared 的取值,來判斷模型的好壞,其取值范圍為[0,1]:

如果結果是 0,說明模型擬合效果很差;

如果結果是 1,說明模型無錯誤。

一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,因為,隨著樣本數量的增加,R-Square必然增加,無法真正定量說明準確程度,只能大概定量。

5、校正決定系數(Adjusted R-Square)

其中,n 是樣本數量,p 是特征數量。

Adjusted R-Square?抵消樣本數量對 R-Square的影響,做到了真正的 0~1,越大越好。

python中可以直接調用

from sklearn.metrics import mean_squared_error #均方誤差from sklearn.metrics import mean_absolute_error #平方絕對誤差from sklearn.metrics import r2_score#R square#調用MSE:mean_squared_error(y_test,y_predict)RMSE:np.sqrt(mean_squared_error(y_test,y_predict))MAE:mean_absolute_error(y_test,y_predict)R2:r2_score(y_test,y_predict)Adjusted_R2::1-((1-r2_score(y_test,y_predict))*(n-1))/(n-p-1)

?

?

?

方差、協方差、標準差(標準偏差/均方差)、均方誤差、均方根誤差(標準誤差)、均方根值

本文由博主經過查閱網上資料整理總結后編寫,如存在錯誤或不恰當之處請留言以便更正,內容僅供大家參考學習。


  • 方差(Variance)

? ? ? ?方差用于衡量隨機變量或一組數據的離散程度,方差在在統計描述和概率分布中有不同的定義和計算公式。①概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度;②統計中的方差(樣本方差)是每個樣本值與全體樣本均值之差的平方值的平均數,代表每個變量與總體均值間的離散程度。

概率論中計算公式

離散型隨機變量的數學期望:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ????? ? ? ? ? ? ? ? ? ? ? ? ? ? ?---------求取期望值

連續型隨機變量的數學期望:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ----------求取期望值

其中,pi是變量,xi發生的概率,f(x)是概率密度。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ---------求取方差值

?

統計學中計算公式

?總體方差,也叫做有偏估計,其實就是我們從初高中就學到的那個標準定義的方差:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ?-----------求取總體均值

其中,n表示這組數據個數,x1、x2、x3……xn表示這組數據具體數值。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??------------求取總體方差

其中,\bar{X}為數據的平均數,n為數據的個數,s^{2}為方差。

樣本方差,無偏方差,在實際情況中,總體均值\bar{X}是很難得到的,往往通過抽樣來計算,于是有樣本方差,計算公式如下

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??--------------求取樣本方差? ? ? ? ? ?

此處,為什么要將分母由n變成n-1,主要是為了實現無偏估計減小誤差,請閱讀《為什么樣本方差的分母是 n-1》。? ??

  • 協方差(Covariance)

? ? ??協方差在概率論和統計學中用于衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協方差就是負值。

formula

formula

其中,E[X]與E[Y]分別為兩個實數隨機變量X與Y的數學期望,Cov(X,Y)為X,Y的協方差。

  • ?標準差(Standard Deviation)

? ? ? ?標準差也被稱為標準偏差,在中文環境中又常稱均方差,是數據偏離均值的平方和平均后的方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度,只是由于方差出現了平方項造成量綱的倍數變化,無法直觀反映出偏離程度,于是出現了標準差,標準偏差越小,這些值偏離平均值就越少,反之亦然。

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ------------求取樣本標準差

其中,??代表所采用的樣本X1,X2,...,Xn的均值。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?-------------求取總體標準差

?其中,?代表總體X的均值。

:有一組數字分別是200、50、100、200,求它們的樣本標準偏差。

= (200+50+100+200)/4 = 550/4 = 137.5

= [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1)

樣本標準偏差 S = Sqrt(S^2)=75

  • 均方誤差(mean-square error, MSE

? ? ? ?均方誤差是反映估計量與被估計量之間差異程度的一種度量,換句話說,參數估計值與參數真值之差的平方的期望值。MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度。

  • 均方根誤差(root mean squared error,RMSE

? ? ? 均方根誤差亦稱標準誤差,是均方誤差的算術平方根。換句話說,是觀測值與真值(或模擬值)偏差(而不是觀測值與其平均值之間的偏差)的平方與觀測次數n比值的平方根,在實際測量中,觀測次數n總是有限的,真值只能用最可信賴(最佳)值來代替。標準誤差對一組測量中的特大或特小誤差反映非常敏感,所以,標準誤差能夠很好地反映出測量的精密度。這正是標準誤差在工程測量中廣泛被采用的原因。因此,標準差是用來衡量一組數自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差。

  • 均方根值(root-mean-square,RMES

? ? ? ?均方根值也稱作為方均根值或有效值在數據統計分析中,將所有值平方求和,求其均值,再開平方,就得到均方根值。在物理學中,我們常用均方根值來分析噪聲。

? ? ? ? 比如幅度為100V而占空比為0.5的方波信號,如果按平均值計算,它的電壓只有50V,而按均方根值計算則有70.71V。這是為什么呢?舉一個例子,有一組100伏的電池組,每次供電10分鐘之后停10分鐘,也就是說占空比為一半。如果這組電池帶動的是10Ω電阻,供電的10分鐘產生10A 的電流和1000W的功率,停電時電流和功率為零。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456120.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456120.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456120.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大院大所合作對接會7天倒計時!亮點搶先看

為什么80%的碼農都做不了架構師?>>> 推動產業特色發展,提升企業自主創新能力,加快成果轉化落地,繼江蘇發展大會之后,圍繞“聚力創新”,7月5日-6日,中國江蘇大院大所合作對接會暨第六…

通過取父級for循環的i來理解閉包,iife,匿名函數

在使用for循環的時候,假如需要在循環體中添加一個匿名函數處理其他的事情,那么,在這個匿名函數內,如果需要用到對應的i,因為閉包的緣故,循環體循環結束后才返回i,所以i最終為最后一次的數值。閉…

H.264將普及 視頻編碼講壇之H.264前世今生

隨著HDTV等高清資源的興起,H.264這個規范頻頻出現在我們眼前,HD-DVD和藍光DVD均計劃采用這一標準進行節目制作。而且自2005年下半年以來,無論是NVIDIA還是ATI都把支持H.264硬件解碼加速作為自己最值得夸耀的視頻技術。而數碼播放器領域也吹來…

python命令方式和關鍵字

常用命名方式 不管是文件,變量,函數或類名等等,命名都要遵守一個基本規范,就是,命名要有意義,易讀易懂。因此,兩種主流的命名方式出現了,他們分別是駝峰命名方法 和 使用下劃線分隔…

【機器學習】嶺回歸

import numpy as npimport matplotlib.pyplot as plt %matplotlib inlinefrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error,r2_score from sklearn import datasets# CV crosss validation :交叉驗證 from skl…

P1057 傳球游戲

題目描述 上體育課的時候,小蠻的老師經常帶著同學們一起做游戲。這次,老師帶著同學們一起做傳球游戲。 游戲規則是這樣的:n個同學站成一個圓圈,其中的一個同學手里拿著一個球,當老師吹哨子時開始傳球,每個同…

Keepalived 添加腳本配置監控haproxy方案

作者:風過無痕-唐出處:http://www.cnblogs.com/tangyanbo/ 上一篇文章已經講到了keepalived實現雙機熱備,且遺留了一個問題 master的網絡不通的時候,可以立即切換到slave,但是如果只是master上的應用出現問題的時候&am…

H.264編解碼標準的核心技術(提供相關流程圖)

最近在學習H.264編解碼知識,上網搜了不少資料看,發現大多數中文資料中都缺少相應的圖片,例如編解碼流程圖、編碼模板等,這對加深理解是很有幫助 的。木有辦法,只好回去潛心閱讀《H.264_MPEG-4_Part_10_White_Paper》&a…

【機器學習】總結:線性回歸求解中梯度下降法與最小二乘法的比較

在線性回歸算法求解中,常用的是最小二乘法與梯度下降法,其中梯度下降法是最小二乘法求解方法的優化,但這并不說明梯度下降法好于最小二乘法,實際應用過程中,二者各有特點,需結合實際案例具體分析。 最后有…

struts2學習(3)struts2核心知識II

一、struts.xml配置:                                                   1.分模塊配置方法: 比如某個系統多個模塊,我們把資產管理模塊和車輛管理模塊,分開,在總…

【機器學習】邏輯斯蒂回歸概率計算和手動計算對比

二分類,邏輯斯蒂回歸概率計算 import numpy as np from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_splitX,y datasets.load_iris(True)cond y!2X X[cond] y y[cond]resul…

WPF快速指導2:模板

WPF快速指導2:模板 本文摘要: 1:模板作用; 2:樣式模板; 3:數據模板; 4:如何使用ControlTemplate; 5:如何使用DataTempla…

五個最佳媒體格式轉換器

我們經常會遇到下載的視頻文件格式不對,無法在其他播放設備(如手機、DVD)中使用的問題,現在,我們介紹五個功能強大且易于使用的媒體轉換器,用于轉換不同類型的視頻文件。   Super (Windows) Super是一個免…

【機器學習】六種算法在人臉補全中的應用比較(K緊鄰,線性,決策樹,嶺回歸,套索回歸,ElasticNet)

需求: 根據人的上半邊臉預測下半邊臉,用各種算法取得的結果與原圖比較 思考: 這是一個回歸問題,不是分類問題(人臉數據不固定) 數據集一共包含40個人,每一個人10張照片,分布規律 每…

性能優化之NSDateFormatter

為什么要優化NSDateFormatter?首先,過度的創建NSDateFormatter用于NSDate與NSString之間轉換,會導致App卡頓,打開Profile工具查一下性能,你會發現這種操作占CPU比例是非常高的。據官方說法,創建NSDateForma…

QuickTime文件格式解析

QuickTime文件格式解析Peter Lee 2008-06-14 一、簡介 QuickTime是Apple公司開發的一套完整的多媒體平臺架構,可以用來進行多種媒體的創建,生產,和分發,并為這一過程提供端到端的支持:包括媒體的實時捕捉,…

python的數據類型轉換

數據類型轉換 將數據由當前類型變化為其他類型的操作就是數據類型轉換。數據類型轉換分為兩類,分別是自動數據類型轉換 和 強制數據類型轉換。 自動轉換(隱式轉換) 自動轉換時程序根據運算要求進行的轉換,不許要人工干預。 1.自動類型轉換不需要人工干…

Linux文件屬性及如何修改文件屬性

ls -al:顯示文件的文件名與相關屬性并列出所有文件詳細的權限與屬性 dr-xr-x---. 7 root root 4096 Apr3 12:31 . 權限 連接 所有者 用戶組 文件容量 修改日期 文件名 第一個字符代表這個文件是“目錄,文件&#x…

SyntaxError:identifier starts immediately after numeric literal

1、錯誤描寫敘述2、錯誤原因因為在改動方法傳參的過程,須要傳個id,可是這個id是字符串類型,傳入的是數值型3、解決的方法在傳參時,須要加入“”,變成字符串類型User.modify("id");

python中的運算和運算符

運算和運算符 運算: 由一個以上的值經過變化得到新值得過程,就是運算。 運算符: 用于運算的符號,就是運算符 運算的分類: 1.算數運算 2.比較運算/關系運算 3.賦值運算 4.邏輯運算 5.位運算 6.成員運算 7.身份運算算術…