r語言 面板數據回歸_R語言_018回歸

? 回歸分析是統計學的核心。它其實是一個廣義的概念,指那些用一個或多個預測變量來預測響應變量的方法。通常,回歸分析可以用來挑選與響應變量相關的解釋變量,可以描述兩者的關系,也可以生成一個等式,通過解釋變量來預測響應變量。

? 下面介紹如何用R函數擬合OLS回歸模型、評價擬合優度、檢驗假設條件以及選擇模型,為了能夠恰當地解釋OLS模型的系數,數據必須滿足以下統計假設↓

  • 正態性:對于固定的自變量值,因變量值成正態分布。

  • 獨立性:Yi值之間相互獨立。

  • 線性:因變量與自變量之間為線性相關。

  • 同方差性:因變量的方差不隨自變量的水平不同而變化。也可稱作不變方差,但是說同方差性感覺上更犀利。

? 如果違背了以上假設,統計顯著性檢驗結果和所得的置信區間就很可能不精確了。而現在機器學習中的回歸都完全忽略了這一點,它認為現在的數據都是大數據了,其實,很多時候我們得到的不是所謂的大數據。

? 在R中,擬合線性模型最基本的函數就是lm(),格式為:

fit 

? 其中,formula指要擬合的模型形式,data是一個數據框,包含了用于擬合模型的數據。結果對象存儲在一個列表中,包含了所擬合模型的大量信息。

表達式(formula)形式如下↓

Y ~ X1 + X2 + ... + Xk

~ 左邊為響應變量,右邊為各個預測變量,預測變量之間用 + 符號分隔。

? 擬合模型后,將這些函數應用于lm()返回的對象,可以得到更多額外的模型信息。

summary():展示擬合模型的詳細結果coefficients():列出擬合模型的模型參數(截距項和斜率)confint():提供模型參數的置信區間(默認95%)fitted():列出擬合模型的預測值residuals():列出擬合模型的殘差值anova():生成一個擬合模型的方差分析表,或者比較兩個或更多擬合模型的方差分析表vcov():列出模型參數的協方差矩陣AIC():輸出赤池信息統計量plot():生成評價擬合模型的診斷圖predict():用擬合模型對新的數據集預測響應變量值

? 當回歸模型包含一個因變量和一個自變量時,我們稱為簡單線性回歸。

? 當只有一個預測變量,但同時包含變量的冪時,我們稱為多項式回歸。

? 當有不止一個預測變量時,則稱為多元線性回歸。

? 先從一個簡單的線性回歸例子開始,然后逐步展示多項式回歸和多元線性回歸↓

【簡單線性回歸】

? 數據準備,數據還是模擬電商的交易數據。

setwd("E:/R/基礎/data")library(xlsx)df = read.xlsx("模擬相關數據.xlsx",1,encoding = "UTF-8")

b60cee6caab3f3877bc3f1f7bc295982.png

fit summary(fit)

6f902f50f29c46d66c1368700d9e5562.png

? 通過輸出結果,可以得到預測等式:每日訂單數=19.4+0.0236*每日UV數,相當于,每增加42個UV數,就能帶來一個新的訂單。因為沒有用戶登錄就不可能有訂單,所以沒必要給截距項一個物理解釋,它僅僅是一個常量調整項;在Pr(>|t|)欄,可以看到回歸系數顯著不為0(p<0.001);R平方項(0.6987)表明模型可以解釋69.87%的方差,它也是實際和預測值之間相關系數的平方;

擬合模型的預測值

fitted(fit)

f9b9c1e30494001ff047fefccceaae94.png

擬合模型的殘差值

residuals(fit)

2a0462dacebecb738eb4d7cdee672188.png

plot(df$UV,df$訂單數,     xlab="每日UV數",     ylab="每日訂單數")abline(fit,col='red',lwd=2)

67e04ea597cfaefae543d94620196c62.png

【多項式回歸】

fit2               data=df)

? I(UV^3) 表示向預測等式添加一個UV的立方項。先試了一下平方項,發現3次項擬合效果更好。

2e62f5833c7bf3cf4d87b01d2d8fe7e2.png

? 新的預測等式為:每日訂單數=68.32+9.602e-03*每日UV數+1.389e-10*每日UV數的平方。

plot(df$UV,df$訂單數,     xlab="每日UV數",     ylab="每日訂單數")lines(df$UV,fitted(fit2),col='#0AC941',lwd=2)

9569f1aba4ca3bd89044762478c87e21.png

【多元線性回歸】

? 當預測變量不止一個時,簡單線性回歸就變成了多元線性回歸,分析也稍微復雜些。多元回歸分析中,第一步最好檢查一下變量間的相關性。cor()函數提供了二變量之間的相關系數,car包中scatterplotMatrix()函數則會生成散點圖矩陣。scatterplotMatrix() 函數默認在非對角線區域繪制變量間的散點圖,并添加平滑和線性擬合曲線。對角線區域繪制每個變量的密度圖和軸須圖。

df1?cor(df1)

a781317c8b31550c97530fbfadd40000.png

f870d17ca61585ff2de95594e338d1e3.png

使用lm()函數擬合多元線性回歸模型

fit           data=df)summary(fit)

d60722e7fe5449eac9fa9b6f340850ad.png

? 可以看到,影響銷售金額的主要因素是訂單數、單均價和賣家數量。而這里顯示UV和轉化率對銷售金額影響不顯著,這明顯是不符合常理的。而UV和轉化率對訂單數影響很顯著,然后通過訂單數影響銷售金額。

fit1               data=df)summary(fit1)

ba137efc53b50efc87523c8ee56737dd.png

結果是這樣↓

? 每增加一筆訂單,金額增加356元;

? 單均價增加1元,金額增加116元;

? 賣家數量增加1家,金額增加489元。

? 賣家數量增加很難,就要想辦法增加訂單數和單均價,而訂單數與UV和轉化率關系很大,UV數每增加1000個,訂單數可以增加24個,金額增加8544萬元;而轉化率每增加0.1%,訂單數增加418筆。

? 所以拉新、留存很重要,運營也很重要。

94a920d09b4c3e9e0cce5c753d1c6b8a.gif

End

28b30415b8b9726b508ea05a7352a14b.gif

◆?R語言分詞_jiebaR包◆?R語言_TreeMap◆?R_臉譜圖

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/271462.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/271462.shtml
英文地址,請注明出處:http://en.pswp.cn/news/271462.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Integer對象范圍(-128-127)之間(Integer. valueOf()方法)

1.Integer. valueOf()方法的作用 Integer. valueOf()可以將基本類型int轉換為包裝類型Integer&#xff0c;或者將String轉換成Integer&#xff0c;String如果為Null或“”都會報錯 看下面代碼示例 取值為127時 取值為128時 為什么會是這樣呢&#xff1f; 首先&#xff0c;我們…

操作系統基礎:進程知識筆記(三)

1、死鎖概念知識 計算機中存在許多互斥資源&#xff08;打印機&#xff09;、軟件資源&#xff08;進程表、臨界區&#xff09;如果兩個進程同時調用打印機&#xff0c;或同時進入臨界區必然會出現問題。 死鎖&#xff1a;指兩個以上的進程互相要求對方已經占有的資源導致無法繼…

垂直梯形校正畫質損失多少_梯形校正功能是怎么實現的?其中可大有學問

梯形校正這個概念&#xff0c;想必大部分投影儀用戶早已耳熟能詳。所謂的梯形校正&#xff0c;指的是當我們的投影儀位置擺放不正時&#xff0c;投射出來的畫面會是一個梯形&#xff0c;這時候需要通過投影儀的梯形校正功能將畫面調整為可以正常觀看的矩形。雖然目前市場上的大…

操作系統基礎:存儲管理知識筆記(一)

1、存儲器基礎知識 存儲器管理的對象是主存或內存&#xff0c;存儲器是計算機系統中非常關鍵的資源&#xff0c;用來存放各種信息的主要場所。存 儲器管理功能主要包括&#xff1a;主存空間的分配和回收、提供主存利用率、擴充主存、主存信息的保護。 2、存儲器結構 存儲器結構…

asp點擊按鈕sql列求和_助你2020晉級互聯網大數據陣營(一):輕輕松松學SQL

毫不負責任的說&#xff0c;你和數據科學家最大的鴻溝&#xff0c;就差一個SQL語言&#xff1a;)入門后&#xff0c;后面的事情就簡單了為了幫大家盡快入門Hive SQL、學會提數和分析&#xff0c;實現在大數據領域大干一場的愿望&#xff0c;幫你準備好了數據&#xff0c;準備好…

冪等和高并發在電商系統中的使用

在Java web項目開發中&#xff0c;經常會聽到在做訂單系統中生成訂單的時候&#xff0c;要做冪等性控制和并發控制&#xff0c;特對此部分內容作出總結&#xff0c;在高并發場景下&#xff0c;代碼層面需要實現并發控制&#xff1b;但是冪等性&#xff0c;其實更多的是系統的接…

@transactional注解失效情況

先來了解一下Transactional注解事務的特性吧&#xff0c;可以更好排查問題 1、service類標簽(一般不建議在接口上)上添加Transactional&#xff0c;可以將整個類納入spring事務管理&#xff0c;在每個業務方法執行時都會開啟一個事務&#xff0c;不過這些事務采用相同的管理方…

計算機c盤隱藏了怎么辦,win7怎么隱藏c盤 win7c盤被隱藏了怎么解除

很多的電腦用戶擔心其他用戶在使用電腦時修改c盤中的重要文件&#xff0c;所以會將c盤設置為隱藏&#xff0c;那么大家知道在win7系統中怎么隱藏c盤嗎?方法很簡單&#xff0c;下面小編為大家帶來win7隱藏c盤的詳細教程&#xff0c;不知道怎么隱藏的朋友可以查看下面的教程學習…

操作系統基礎:存儲管理知識筆記(二)

一、分頁存儲管理 1、分頁存儲管理介紹 1.1 分頁原理 頁&#xff1a;將一個進程的地址空間劃分為若干個大小相等的區域稱為頁。 塊、頁框&#xff1a;主存空間劃分成與頁相同的若干個物理塊。 1.2 地址結構 分頁系統地址結構&#xff1a;前一部分為頁號&#xff1b;后一部分為頁…

人工智能 信道估計 深度學習_DEMO演示|基于IVP02D 人工智能工作站的深度學習引擎,實現人群熱力估計...

近年來&#xff0c;隨著深度學習在計算機視覺領域獲得廣泛應用&#xff0c;算法框架也日漸成熟&#xff0c;例如基于深度神經網絡的人群密度分析&#xff0c;通過自動學習能獲得更有效的人群特征&#xff0c;相較于傳統方法取得了一定的提高。AI小知識人群密度分析&#xff08;…

SPSS學習中涉及的統計知識

1、獨立性檢驗 2、方差分析中方差齊性檢驗 3、非參數檢驗 4、p-p圖 5、卡方檢驗&#xff1a;研究分類因變量與分類自變量的關系。獨立性檢驗 6、t檢驗&#xff1a;研究連續因變量與分類自變量的關系。 7、啞變量 總結&#xff1a; 因變量連續&#xff0c;自變量連續&#xff0c…

vscode kite插件_微軟發布 VS Code Python 插件 7 月更新

微軟發布了 7 月的 Visual Studio Code Python 擴展更新&#xff0c;此版本總共修復了 51 個問題&#xff0c;其中包括&#xff1a;支持新的語言服務器&#xff1a;PylanceGather 擴展將 Notebook 導出為 HTML 和 PDF調試器的反向連接支持新的語言服務器&#xff1a;PylancePyl…

360瀏覽器打不開微信的連接服務器,上午還能打開,下午360瀏覽器打不開微信公 – 手機愛問...

2011-08-27ie&#xff0c;搜狗&#xff0c;谷歌瀏覽器都打不開&#xff0c;說打不開ipad說服務器超時是新浪在更新設備嗎&#xff1f;一般你能進入愛問就可以進入郵箱&#xff0c;下面的方法看看(如果你是鐵通的可能是鐵通的問題)。可能是服務器故障引起的&#xff0c;請不要著…

域名還能綁定動態IP?看完又漲知識了!!

點擊上方藍色“冰河技術”&#xff0c;關注并選擇“設為星標”持之以恒&#xff0c;貴在堅持&#xff0c;每天進步一點點&#xff01;作者個人研發的在高并發場景下&#xff0c;提供的簡單、穩定、可擴展的延遲消息隊列框架&#xff0c;具有精準的定時任務和延遲隊列處理功能。…

java 及時釋放內存_JMM(一):初識Java內存模型

在并發編程中&#xff0c;線程之間的通信是一個很關鍵的問題&#xff0c;而該問題解決方案主要可分為兩大類&#xff1a;消息傳遞、共享內存。前者有以Erlang語言為代表的Actor模型&#xff0c;而后者中典型的則是Java語言。對于消息傳遞機制而言&#xff0c;線程之間必須通過發…

php 復習

對所學知識的依次基礎的總結 <?php一.php基礎語法 1.輸出語句&#xff1a;**echo(可以輸出多個字符串); print&#xff08;輸出一個字符串&#xff09;; print_r&#xff08;輸出數組&#xff09;; **var_dump()&#xff08;具體 的數據 還有它的類型&#xff09;;2.php是弱…

mac新建文件夾快捷鍵

mac新建文件夾快捷鍵 COMMAND SHIFT N

python382怎么用_用python做UDP連接

寫個客戶端 #!/usr/bin/env python from socket import * HOST 10.2.167.115 PORT 20001 BUFSIZE 1024 ADDR (HOST, PORT) udpClientSock socket(AF_INET, SOCK_DGRAM) while True: data raw_input(Enter the message you want to send >) if not data: break udpClie…

更新系統后魔獸世界無法連接至服務器,《魔獸世界:熊貓人之謎》5.0launcher更新無法連接服務器解決方法...

早上launcher一半的時候&#xff0c;出現無法鏈接服務器&#xff0c;并且自動關閉。測試多種辦法&#xff0c;已經解決。1、打開目錄x:/world of warcraft/temp2、運行目錄下&#xff1a;wow-4.3-5.0.15890-zhcn-downloader.exe (一個英文下載器)3、報錯could not connect to t…

電腦維修知識:電腦常見故障維修大全及解決方法

電腦已經成為我們學習生活娛樂必不可少的設備了&#xff0c;用得時間久了難免會遇到小故障&#xff0c;今天我們一起來看下遇到常見的電腦方面的小故障&#xff0c;我們應該如何去自己檢測和維修吧。電腦檢測故障我們還是要從電腦的幾大硬件開始檢查起。1、CPU打開機箱查看CPU風…