邏輯回歸(Logistic Regression, LR)又稱為邏輯回歸分析,是分類和預測算法中的一種。通過歷史數據的表現對未來結果發生的概率進行預測。例如,我們可以將購買的概率設置為因變量,將用戶的

邏輯回歸(Logistic Regression, LR)又稱為邏輯回歸分析,是分類和預測算法中的一種。通過歷史數據的表現對未來結果發生的概率進行預測。例如,我們可以將購買的概率設置為因變量,將用戶的特征屬性,例如性別,年齡,注冊時間等設置為自變量。根據特征屬性預測購買的概率。邏輯回歸與回歸分析有很多相似之處,在開始介紹邏輯回歸之前我們先來看下回歸分析。

37816_bf4c_17

回歸分析用來描述自變量x和因變量Y之間的關系,或者說自變量X對因變量Y的影響程度,并對因變量Y進行預測。其中因變量是我們希望獲得的結果,自變量是影響結果的潛在因素,自變量可以有一個,也可以有多個。一個自變量的叫做一元回歸分析,超過一個自變量的叫做多元回歸分析。下面是一組廣告費用和曝光次數的數據,費用和曝光次數一一對應。其中曝光次數是我們希望知道的結果,費用是影響曝光次數的因素,我們將費用設置為自變量X,將曝光次數設置為因變量Y,通過一元線性回歸方程和判定系數可以發現費用(X)對曝光次數(Y)的影響。

一元回歸原始數據表

以下為一元回歸線性方式,其中y是因變量,X是自變量,我們只需求出截距b0和斜率b1就可以獲得費用和曝光次數之間的關系,并對曝光次數進行預測。這里我們使用最小二乘法來計算截距b0和斜率b1。最小二乘法通過最小化誤差的平方和尋找數據的最佳函數匹配。

一元回歸

下表中是使用最小二乘法計算回歸方程的一些必要的計算過程。在表中最左側的兩列分別為自變量X和因變量Y,我們首先計算出自變量和因變量的均值,然后計算每一個觀測值與均值的差,以及用于計算回歸方程斜率b1所需的數據。

最小二乘法

根據表中的數據按公式計算出了回歸方程的斜率b1,計算過程如下。斜率表示了自變量和因變量間的關系,斜率為正表示自變量和因變量正相關,斜率為負表示自變量和因變量負相關,斜率為0表示自變量和因變量不相關。

b1公式1

求得斜率b1后,按下面的公式可以求出Y軸的截距b0。

b0公式1

將斜率b1和截距b0代入到回歸方程中,通過這個方程我們可以獲得自變量和因變量的關系,費用每增加1元,曝光次數會增長7437次。以下為回歸方程和圖示。

一元回歸代入

?

費用與曝光次數1

在回歸方程的圖示中,還有一個R平方,這個值叫做判定系數,用來衡量回歸方程是否很好的擬合了樣本的數據。判定系數在0-1之間,值越大說明擬合的越好,換句話說就是自變量對因變量的解釋度越高。判定系數的計算公式為SST=SSR+SSE,其中SST是總平方和,SSR是回歸平方和,SSE是誤差平方和。下表為計算判定系數所需三個指標的一些必要的計算過程。

R平方

根據前面求得的回歸平方和(SSR)和總平方和(SST)求得判定系數為0.94344。

R平方公式1

以上為回歸方程的計算過程,在根據費用預測曝光數量的場景下,我們可以通過回歸方程在已知費用的情況下計算出曝光數量。邏輯回歸與回歸方程相比在線性回歸的基礎上增加了一個邏輯函數。例如通過用戶的屬性和特征來判斷用戶最終是否會進行購買。其中購買的概率是因變量Y,用戶的屬性和特征是自變量X。Y值越大說明用戶購買的概率越大。這里我們使用事件發生的可能性(odds)來表示購買與未購買的比值。

inodds

使用E作為購買事件,P(E)是購買的概率,P(E’)是未購買的概率,Odds(E)是事件E(購買)發生的可能性。

odds

Odds是一個從0到無窮的數字,Odds的值越大,表明事件發生的可能性越大。下面我們要將Odds轉化為0-1之間的概率函數。首先對Odds取自然對數,得到logit方程,logit是一個范圍在負無窮到正無窮的值。

logit1

基于上面的logit方程,獲得以下公式:

logit2

其中使用π替換了公式中的P(E),π=P(E)。根據指數函數和對數規則獲得以下公式:

odds1

并最終獲得邏輯回歸方程:

邏輯回歸公式

下面根據邏輯回歸方程來計算用戶購買的概率,下表是用戶注冊天數和是否購買的數據,其中注冊天數是自變量X,是否購買是自變量Y。我們將購買標記為1,將未購買標記為0。接下來我們將在Excel中通過8個步驟計算出邏輯回歸方程的斜率和截距。并通過方程預測新用戶是否會購買。

一元邏輯回歸數據

  • 第一步,使用Excel的排序功能對原始數據按因變量Y進行排序,將已購買和未購買的數據分開,使得數據特征更加明顯。
  • 第二步,按照Logit方程預設斜率b1和截距b0的值,這里我們將兩個值都預設為0.1。后續再通過Excel求最優解。
  • 第三步,按照logit方程,使用之前預設的斜率和截距值計算出L值。

step1

  • 第四步,將L值取自然對數,
  • 第五步,計算P(X)的值,P(X)為事件發生的可能性(Odds)。具體的計算步驟和過程見下圖。

step2

  • 第六步,計算每個值的對數似然函數估計值(Log-Likelihood)。方法和過程見下圖。
  • 第七步,將對數似然函數值進行匯總。

step3

  • 第八步,使用Excel的規劃求解功能,計算最大對數似然函數值。方法和過程見下圖。設置匯總的對數似然函數值LL為最大化的目標,預設的斜率b1和截距b0是可變單元格,取消”使無約束變量為非負數”的選項。進行求解。

規劃求解

Excel將自動求出邏輯回歸方程中斜率和截距的最優解,結果如下圖所示。

step4

求得邏輯回歸方程的斜率和截距以后,我們可以將值代入方程,獲得一個注冊天數與購買概率的預測模型,通過這個模型我們可以對不同注冊天數(X)用戶的購買概率(Y)進行預測。以下為計算過程。

step5

  • 第一步,輸入自變量注冊天數(X)的值,這里我們輸入50天。
  • 第二步,將輸入的X值,以及斜率和截距套入Logit方程,求出L值。
  • 第三步,對L值取自然對數。
  • 第四步,求時間發生可能性P(X)的概率值。

注冊天數為50天的用戶購買的概率約為17.60%。

我們將所有注冊天數的值代入到購買概率預測模型中,獲得了一條注冊天數對購買概率影響的曲線。從曲線中可以發現,注冊天數在較低和較高天數的用戶購買概率較為平穩。中間天數用戶的購買概率變化較大。

注冊天數對購買概率的影響

我們繼續在上面的計算結果中增加新的自變量“年齡”。以下是原始數據的截圖。現在有年齡和注冊天數兩個自變量和一個因變量。

多元邏輯回歸數據

依照前面的方法計算斜率和截距的最優解,并獲得邏輯回歸方程,將不同的年齡和注冊天數代入到方程中,獲得了用戶年齡和注冊天數對購買的預測模型。我們通過Excel的三維圖表來繪制年齡和注冊天數對購買概率的影響。

年齡和注冊天數對購買概率的影響

從圖中可以看出,購買概率隨著注冊天數的增加而增長,并且在相同的注冊天數下,年齡較小的用戶購買概率相對較高。



Read more:?http://bluewhale.cc/2016-05-18/logistic-regression.html#ixzz56JZumV8v

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/387263.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/387263.shtml
英文地址,請注明出處:http://en.pswp.cn/news/387263.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

解決SecureCRT無法用非root賬號登錄ssh

鏈接失敗,提示這個: --------------------------- SecureCRT --------------------------- 連接到會話 192.168.1.100 失敗 : The server has disconnected with an error. Server message reads: A protocol error occurred. Change of username or se…

機器學習06神經網絡--學習

代價函數 標記方法: 神經網絡的訓練樣本有 m 個 每個包含一組輸入 x 和一組輸出信號 y L 表示神經網絡層數 Sl表示每層的 neuron 個數(SL 表示輸出層神經元個數) 將神經網絡的分類定義為兩種情況: 二類分類:SL1, y0 or 1 表示哪一類&…

Logistic Regression Classifier邏輯回歸

Logistic Regression Classifier邏輯回歸主要思想就是用最大似然概率方法構建出方程,為最大化方程,利用牛頓梯度上升求解方程參數。 優點:計算代價不高,易于理解和實現。缺點:容易欠擬合,分類精度可能不高…

機器學習07應用機器學習的建議

決定下一步做什么(Deciding What to Try Next) 確保在設計機器學習系統時,能夠選擇一條最合適、最正確的道路。 具體來講,將重點關注的問題是:假如你在開發一個機器學習系統,或者想試著改進一個機器學習…

CSS3--5.顏色屬性

HTML5中添加了一些新的顏色的表示方式 1.RGBA:說得簡單一點就是在RGB的基礎上加進了一個通道Alpha。RGBA在RGB的基礎上多了控制alpha透明度的參數。以上R、G、B三個參數,正整數值的取值范圍為:0 - 255。百分數值的取值范圍為:0.0%…

邏輯回歸的通俗解釋 邏輯回歸的定位

1 邏輯回歸的定位 首先,邏輯回歸是一種分類(Classification)算法。比如說: 給定一封郵件,判斷是不是垃圾郵件給出一個交易明細數據,判斷這個交易是否是欺詐交易給出一個腫瘤檢查的結果數據,判斷…

機器學習08機器學習系統設計

首先要做什么 一個垃圾郵件分類器算法為例: 為了解決這樣一個問題,首先要做的決定是如何選擇并表達特征向量 x。 可以選擇一個由 100 個最常出現在垃圾郵件中的詞所構成的列表,根據這些詞是否有在郵件中 出現,來獲得我們的特…

數學筆記1——導數1(導數的基本概念)

什么是導數導數是高數中的重要概念,被應用于多種學科。從物理意義上講,導數就是求解變化率的問題;從幾何意義上講,導數就是求函數在某一點上的切線的斜率。我們熟知的速度公式:v s/t,這求解的是平均速度&a…

python接口自動化(四)--接口測試工具介紹(詳解)

簡介 “工欲善其事必先利其器”,通過前邊幾篇文章的介紹,大家大致對接口有了進一步的認識。那么接下來讓我們看看接口測試的工具有哪些。 目前,市場上有很多支持接口測試的工具。利用工具進行接口測試,能夠提供測試效率。例如&…

機器學習09支持向量機

支持向量機(Support Vector Machines) 在監督學習中,許多學習算法的性能都非常類似,因此,重要的不是你該選擇使用學習算法 A 還是學習算法 B,而更重要的是, 應用這些算法時,所創建的大量數據在應用這些算…

數學筆記2

數學筆記2——導數2(求導法則和高階導數)和、差、積、商求導法則設uu(x),vv(x)都可導,則:(Cu)’ Cu’, C是常數(u v)’ u’ v’(uv)’ u’ v’(u/v)’ (u’v – uv’) / v21、2不解釋,下面給出3、4的推導過程乘法法則的推導過乘法法則…

機器學習10聚類

無監督學習 在非監督學習中,我們需要將一系列無標簽的訓練數據,輸入到一個算法中, 然后讓它找這個數據的內在結構。 我們可能需要某種算法幫助我們尋找一種結構。圖上的數據看起來可以分成兩個分開的點集(稱為簇)&am…

python 的筆記

語言:Python IDE:Python.IDE 需求 做出彩虹效果 顏色空間 RGB模型:光的三原色,共同決定色相 HSB/HSV模型:H色彩,S深淺,B飽和度,H決定色相 需要將HSB模型轉換為RGB模型 代碼示例&am…

關聯分析(Association analysis)

關聯分析(Association analysis) 簡介 大量數據中隱藏的關系可以以‘關聯規則’和‘頻繁項集’的形式表示。rules:{Diapers}–>{Beer}說明兩者之間有很強的關系,購買Diapers的消費者通常會購買Beer。 除…

機器學習11主成分分析

降維(Dimensionality Reduction) : 一、 降維目的: 目的一:數據壓縮(Data Compression) 目的二:數據可視化(Visualization) 二、 主成分分析(PCA) 主成分…

使用Apriori進行關聯分析(一)

使用Apriori進行關聯分析(一)大型超市有海量交易數據,我們可以通過聚類算法尋找購買相似物品的人群,從而為特定人群提供更具個性化的服務。但是對于超市來講,更有價值的是如何找出商品的隱藏關聯,從而打包促…

主成分分析法 (PCA) 用于數據可視化實驗 -- Matlab版

第一步:下載數據集。 https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multiclass.html#pendigits 第二步:改變數據格式。 注:此數據集的各特征值均為像素,即屬于同一量綱,故無需歸一化步驟。 原格式為&a…

后端視角下的前端框架之Vue.js初探

背景 作為常年搞后端的自己來說,除了多年前學習的一點關于HTML的皮毛,對現在的前端技術棧可謂是一竅不通。但是因為最近在做的內部業務全鏈路監控系統,負責前端的同事做到一半去搞別的項目了,為了把項目落地不得不硬著頭皮學一下前…

機器學習12推薦系統

推薦系統(Recommender Systems) 推薦系統根據瀏覽用戶過去買過什么書,或過去評價過什么電影來判斷并推薦新產品給用戶。 這些系統會為像亞馬遜和網飛這樣的公司帶來很大一部分收入。 因此,對推薦系統性能的改善,將對這些企業的有實質性和…

使用Apriori進行關聯分析(二)

使用Apriori進行關聯分析(二)書接上文(使用Apriori進行關聯分析(一)),介紹如何挖掘關聯規則。發現關聯規則我們的目標是通過頻繁項集挖掘到隱藏的關聯規則。所謂關聯規則,指通過某個…