一、數據集描述,問題要求
下表是40位肺癌病人的生存資料,X1表示生活行為能力平分(1到100),X2為病人的年齡(年),X3由診斷到進入研究的時間(月),X4表示腫瘤的類型(‘0’表示鱗瘤,‘1’表示小型細胞癌,‘3’表示腺癌,‘4’表示大型細胞癌)X5表示化療的方法(‘1’表示常規,‘0’表示試驗新法);Y表示病人的生存時間(‘0’表示生存時間短,‘生存時間小于200天,‘1’表示生存時間長,生存時間大于等于200天)
要求:1、建立E(y)=P(Y=1)對X1-X5的Logistic回歸模型,并進行參數顯著性檢驗和預測。
二、根據數據集,建立Logistic回歸模型,并進行分析
x1<-c(70,60,70,40,40,70,70,80,60,30,80,40,60,40,20,50,50,40,80,70,60,90,50,70,20,80,60,50,
70,40,30,30,40,60,80,70,30,60,80,70)
x2<-c(64,63,65,69,63,48,48,63,63,53,43,55,66,67,61,63,66,68,41,53,37,54,52,50,65,52,70,40,36,44,54,59,69,50,62,68,39,49,64,67)
x3<-c(5,9,11,10,58,9,11,4,14,4,12,2,25,23,19,4,16,12,12,8,13,12,8,7,21,28,13,13,22,36,9,87,5,22,4,15,4,11,10,18)
x4<-c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,0,0,0,0,1,1,1,1,1,1,1,1,2,2,2,2,3,3,3,0,0,0,0,0)
x5<-c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
y<-c(1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,1,0,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1)
df<-data.frame(x1,x2,x3,x4,x5,y)
log.glm<-glm(y~x1+x2+x3+x4+x5,family = binomial,data=df)
summary(log.glm)
運行得到:
從回歸結果可以看到,系數只有一個是顯著的,即病人的生活行為能力X1對p(Y=1)的影響是顯著的,其余系數沒通過檢驗。
三、使用逐步回歸法,篩選出合適變量并找到最優的回歸方程
log.step<-step(log.glm)
summary(log.step)
運行得到:
> log.step<-step(log.glm) Start: AIC=40.39 y ~ x1 + x2 + x3 + x4 + x5Df Deviance AIC - x3 1 28.484 38.484 - x2 1 28.484 38.484 - x5 1 28.799 38.799 <none> 28.392 40.392 - x4 1 32.642 42.642 - x1 1 38.306 48.306Step: AIC=38.48 y ~ x1 + x2 + x4 + x5Df Deviance AIC - x2 1 28.564 36.564 - x5 1 28.993 36.993 <none> 28.484 38.484 - x4 1 32.705 40.705 - x1 1 38.478 46.478Step: AIC=36.56 y ~ x1 + x4 + x5Df Deviance AIC - x5 1 29.073 35.073 <none> 28.564 36.564 - x4 1 32.892 38.892 - x1 1 38.478 44.478Step: AIC=35.07 y ~ x1 + x4Df Deviance AIC <none> 29.073 35.073 - x4 1 33.535 37.535 - x1 1 39.131 43.131
> summary(log.step)Call: glm(formula = y ~ x1 + x4, family = binomial, data = df)Coefficients:Estimate Std. Error z value Pr(>|z|) (Intercept) -6.13755 2.73844 -2.241 0.0250 * x1 0.09759 0.04079 2.393 0.0167 * x4 -1.12524 0.60239 -1.868 0.0618 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 44.987 on 39 degrees of freedom Residual deviance: 29.073 on 37 degrees of freedom AIC: 35.073Number of Fisher Scoring iterations: 6
使用逐步回歸法得到了最終的回歸方程,此時已經剔除了變量X2,X3,X5,只保留變量X1,X4,從回歸方程的檢驗結果來看,系數是顯著性得到了提高。
最終的回歸方程為:
p=exp(-6.13755+0.09759x1-1.12524x4)/(1+exp(-6.13755+0.09759x1-1.12524x4))
使用該回歸方程對,對40位病人生存時間較長的概率(Y=1)進行擬合和預測。
> log.pre<-predict(log.step) > p<-exp(log.pre)/(1+exp(log.pre)) > p 運行得到各病人的生存時間較長的概率p(Y=1):
從而得到最終的生存時間較長的概率的擬合值。