CS229 1 .線性回歸與特征歸一化(feature scaling)

線性回歸是一種回歸分析技術,回歸分析本質上就是一個函數估計的問題(函數估計包括參數估計和非參數估計),就是找出因變量和自變量之間的因果關系。回歸分析的因變量是應該是連續變量,若因變量為離散變量,則問題轉化為分類問題,回歸分析是一個有監督學習問題。

線性其實就是一系列一次特征的線性組合,在二維空間中是一條直線,在三維空間中是一個平面,然后推廣到n維空間,可以理解維廣義線性吧。

例如對房屋的價格預測,首先提取特征,特征的選取會影響模型的精度,比如房屋的高度與房屋的面積,毫無疑問面積是影響房價的重要因素,二高度基本與房價不相關

下圖中挑選了 面積、我是數量、層數、建成時間四個特征,然后選取了一些train Set{x(i)?, y(i)}。

?有了這些數據之后就是進行訓練,下面附一張有監督學習的示意圖

Train Set 根據 學習算法得到模型h,對New Data x,直接用模型即可得到預測值y,本例中即可得到房屋大小,其實本質上就是根據歷史數據來發現規律,事情總是偏向于向歷史發生過次數多的方向發展。

下面就是計算模型了,才去的措施是經驗風險最小化,即我們訓練模型的宗旨是,模型訓練數據上產生結果,?要與實際的y(i)越接近越好(假定x0?=1),定義損失函數J(θ)如下,即我們需要損失函數越小越好,本方法定義的J(θ)在最優化理論中稱為凸(Convex)函數,即全局只有一個最優解,然后通過梯度下降算法找到最優解即可,梯度下降的形式已經給出。

?

?

梯度下降的具體形式:關于梯度下降的細節,請參閱?梯度下降詳解

局部加權回歸

有時候樣本的波動很明顯,可以采用局部加權回歸,如下圖,紅色的線為局部加權回歸的結果,藍色的線為普通的多項式回歸的結果。藍色的線有一些欠擬合了。

局部加權回歸的方法如下,首先看線性或多項式回歸的損失函數“

很明顯,局部加權回歸在每一次預測新樣本時都會重新確定參數,以達到更好的預測效果。當數據規模比較大的時候計算量很大,學習效率很低。并且局部加權回歸也不是一定就是避免underfitting,因為那些波動的樣本可能是異常值或者數據噪聲。

?

在求解線性回歸的模型時,有兩個需要注意的問題

一就是特征組合問題,比如房子的長和寬作為兩個特征參與模型的構造,不如把其相乘得到面積然后作為一個特征來進行求解,這樣在特征選擇上就做了減少維度的工作。

二就是特征歸一化(Feature Scaling),這也是許多機器學習模型都需要注意的問題。

有些模型在各個維度進行不均勻伸縮后,最優解與原來不等價,例如SVM。對于這樣的模型,除非本來各維數據的分布范圍就比較接近,否則必須進行標準化,以免模型參數被分布范圍較大或較小的數據dominate。

有些模型在各個維度進行不均勻伸縮后,最優解與原來等價,例如logistic regression。對于這樣的模型,是否標準化理論上不會改變最優解。但是,由于實際求解往往使用迭代算法,如果目標函數的形狀太“扁”,迭代算法可能收斂得很慢甚至不收斂。所以對于具有伸縮不變性的模型,最好也進行數據標準化。

歸一化后有兩個好處:

1. 提升模型的收斂速度

如下圖,x1的取值為0-2000,而x2的取值為1-5,假如只有這兩個特征,對其進行優化時,會得到一個窄長的橢圓形,導致在梯度下降時,梯度的方向為垂直等高線的方向而走之字形路線,這樣會使迭代很慢,相比之下,右圖的迭代就會很快

?


2.提升模型的精度

歸一化的另一好處是提高精度,這在涉及到一些距離計算的算法時效果顯著,比如算法要計算歐氏距離,上圖中x2的取值范圍比較小,涉及到距離計算時其對結果的影響遠比x1帶來的小,所以這就會造成精度的損失。所以歸一化很有必要,他可以讓各個特征對結果做出的貢獻相同。

下邊是常用歸一化方法

1). 線性歸一化,線性歸一化會把輸入數據都轉換到[0 1]的范圍,公式如下

該方法實現對原始數據的等比例縮放,其中Xnorm為歸一化后的數據,X為原始數據,Xmax、Xmin分別為原始數據集的最大值和最小值。

2).?0均值標準化,0均值歸一化方法將原始數據集歸一化為均值為0、方差1的數據集,歸一化公式如下:

其中,μ、σ分別為原始數據集的均值和方法。該種歸一化方式要求原始數據的分布可以近似為高斯分布,否則歸一化的效果會變得很糟糕。

關于歸一化方法的選擇

1) 在分類、聚類算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,第二種方法(Z-score standardization)表現更好。


2) 在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。比如圖像處理中,將RGB圖像轉換為灰度圖像后將其值限定在[0 255]的范圍。

選擇方法是參考自http://blog.csdn.net/zbc1090549839/article/details/44103801,至于為什么,我現在也還不清楚

線性回歸,我用java實現的,源碼地址?https://github.com/ooon/toylib

?

參考文獻:

http://www.cnblogs.com/LBSer/p/4440590.html

轉載于:https://www.cnblogs.com/alan-blog-TsingHua/p/10018864.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/278829.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/278829.shtml
英文地址,請注明出處:http://en.pswp.cn/news/278829.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

注冊表被黑客篡改 怎樣修復_使用快速注冊表黑客設置Office 2007配色方案

注冊表被黑客篡改 怎樣修復We’ve written previously about how to set the Office 2007 color scheme away from that awful default blue, but you can also set it with a quick registry hack or even via group policy on your network, so we’ll cover that here. 前面…

共享計算機后無法訪問磁盤,win10電腦共享硬盤無法訪問如何解決

很多用戶為了方便文件的傳輸和訪問,就會在局域網中開啟硬盤共享,正常是可以通過網絡打開訪問該用戶計算機的磁盤從而讀取數據文件,可是有win10系統用戶卻發現共享硬盤無法訪問,武大直接通過網絡打開對方的磁盤,該如何處…

mikadonic-iptables學習筆記

firewall圖像化配置[rootdesktop0 ~]# firewall-config iptabes -Fiptabes -Xiptabes -Z先設置默認規則(最后防線)[rootdesktop0 ~]# iptables -P INPUT DROP&&iptables -P OUTPUT DROP&&iptables -P FORWARD DROP iptables -A&#xf…

如何組合救援磁盤以創建最終Windows修復磁盤

We’ve covered loads of different anti-virus, Linux, and other boot disks that help you repair or recover your system, but why limit yourself to just one? Here’s how to combine your favorite repair disks together to create the ultimate repair toolkit for…

WebService C#開發/調用

簡單描述C#開發WebService操作步驟以及調用方式 WebService開發 第一步:創建Web空項目 第二步:為創建的Web空項目添加Web服務 第三步:實現WebService方法(僅供參考) 運行WebService測試 第一步:運行WebService程序,略 …

南京鐵道學院計算機應用,南京鐵道職業技術學院交通運營管理專業怎么樣

開設課程:大學英語、高等數學、計算機應用、交通運輸學、國際貿易政策與實務、班輪租船業務、運籌學、城市軌道運營管理、交通運輸規劃原理、交通運輸信息技術、運輸市場營銷學、鐵路貨運組織管理、航空運輸業務、集裝箱運輸管理、港航商務管理、交通運輸專業英語、…

C語言第九次博客作業--指針

一、PTA實驗作業 題目1:兩個4位正整數的后兩位互換 1. 本題PTA提交列表 2. 設計思路 定義循環變量i,兩個數組a[4],b[4] for i0 to 3a[i]*p取各個位*p/10 end for i0 to 3b[i]*q取各個位*q/10 end 分別對*p和*q重新賦值 3.代碼截圖 4.本題調試過程碰到問題及PTA提交列…

使用CEOP增強的Internet Explorer 8幫助保護您的孩子

Do you want to make Internet Explorer safer and more helpful for you and family? Then join us as we look at the CEOP (Child Exploitation and Online Protection Centre) enhanced version of Internet Explorer 8. 您想使Internet Explorer對您和家人更安全&#xf…

如何保持進步

文章:今日頭條 CEO 張一鳴:面試了 2000 個年輕人,混得好的都有這 5 種特質轉載于:https://www.cnblogs.com/Tpf386/p/10033670.html

MAC--PPTP教程

第一步點擊DocK-系統設置 第二步點擊網絡,進入網絡設置 第三步點擊號-創建新服務,創建新的網絡連接 第四步接口-選-類型-選-PPTP服務名稱-選-然后點擊-創建 第五步進入設置頁面-服務器地址點擊查看虛擬IP列表賬戶名稱-輸入試用帳號或是你已充值開通的帳號…

2015計算機應用基礎平時作業答案,2015秋《計算機應用基礎》第一次作業

2015秋《計算機應用基礎》第一次作業 一、單項選擇題。本大題共50個小題,每小題 2.0 分,共100.0分。在每小題給出的選項中,只有一項是符合題目要求的。 1. 第一臺電子計算機是1946年在美國研制成功的,該機的英文縮寫名是______。 …

頁面置換算法及例題

一、頁面置換算法 不適當的算法可能會導致進程發生“抖動”:即剛被換出的頁很快又要被訪問,需要將他重新調入,此時又需要再選一頁調出。而此剛被調出的頁面很快又被訪問,又需將它調入,如此頻繁地更換頁面,以…

vista磁盤使用100%_如何在Windows 7或Vista中創建和使用密碼重置磁盤

vista磁盤使用100%Forgetting your password can be an extremely frustrating situation, and we’ve already shared how to reset your password with the Ultimate Boot CD as well as the System Rescue CD, but you can prevent the situation entirely by creating a pa…

Nginx服務狀態的監控

一、安裝Nginx 使用源碼編譯安裝,包括具體的編譯參數信息。 正式開始前,編譯環境gcc g 開發庫之類的需要提前裝好。 安裝make: yum -y install gcc automake autoconf libtool make 安裝g: yum install gcc gcc-c 一般我們都需要先裝pcre, zl…

計算機二級高級應用這么難,計算機二級考試越來越難的實錘!真實數據告訴你到底難在哪里?...

今年3月考試成績暫時未公布(預計在5月中旬發布),通過率暫時無法得知。但是根據考后后臺反饋情況,今年通過率可能再創新低。不管你是不是有感知,計算機二級通過率的確在逐年降低。近3年難度越來越大每次考試結束后后臺評論最多的就是“今年的考…

windows 系統監視器_使用Windows 7中的可靠性監視器對計算機問題進行故障排除

windows 系統監視器Windows Vista introduced us to the Reliability and Performance Monitor utility to help keep track of hardware and software crashes. It’s now a stand alone utility in Windows 7 and we will take a look at how to access and use it. Windows …

4-8 string

1、常用的string模塊 1 import string2 3 # 26個小寫字母4 print(string.ascii_lowercase) 5 # abcdefghijklmnopqrstuvwxyz6 7 # 26個大寫字母8 print(string.ascii_uppercase) 9 # ABCDEFGHIJKLMNOPQRSTUVWXYZ 10 11 # 10個數字 12 print(string.digits) # 0123456789 1…

powerpoint預覽_如何安排PowerPoint幻燈片的時間以進行更有效的演示

powerpoint預覽Delivering a presentation is not just about giving good slides, it is also about making sure that our presentation finishes by the time our audience wants to have their tea break—so practicing how long to speak for each slide is essential fo…

【小程序踩坑系列5】小程序內多重調用原生promise,無返回,無報錯,代碼卡住...

作者: 蔣歡 問題: 在部分IOS機型上,小程序內使用原生promise實現異步,在嵌套四層后,Promise的resolve和reject均無返回。 環境: 用戶機型:iPhone 7 系統版本:IOS 10.3.3 微信版本:6.…

計算機仿真技術的大學,大學計算機仿真技術結課論文

計算機仿真技術是電子與信息專業中重要的專業學科。下面是學習啦小編為大家整理的大學計算機仿真技術結課論文,供大家參考。大學計算機仿真技術結課論文篇一《 復雜系統計算機仿真研究 》現代社會發展中,復雜系統所涉及的領域包括軍事、醫療、政治、工程…