很多新手剛才是總是覺得自己沒什么可以寫的,自己不知道選什么題材進行分析,使用scitable包+ggscitable包后這個完全不用擔心,選題多到你只會擔心你寫不完,寫得不夠快。
既往咱們使用scitable包交互效應深度挖掘一個陌生數據庫,今天咱們來介紹ggscitable包通過曲線擬合深度挖掘一個陌生數據庫非線性關系,還是使用上次的數據,來自一個私人數據庫
溫馨提示:最后有視頻,看視頻更加理解透徹
先導入R包和數據
library(survival)
library(scitable)
setwd("E:/r/test")
bc<-read.csv("qztp.csv",sep=',',header=TRUE)
這個是個來自私人創建的醫院內部數據庫,我一個朋友的,變量我就不解釋了,這個數據有141個變量,605個數據。變量非常多。我們先把變量導出來
dput(names(bc))
像"SID", “REGDATE”, “REGUID”, "Q1"這些變遷。日期人員的變量沒有什么意義,直接刪掉,然后定義我們需要研究的全部變量
allVars <-c("Q1120", "Q657", "Q344", "Q27501", "Q27502", "Q27503", "Q18805", "Q13028", "Q27272", "Q27271", "Q27269", "Q27270", "Q79", "Q82", "Q27410_1", "Q27410_2", "Q27410_3", "Q27410_4", "Q27410_5", "Q27410_6", "Q27410_7", "Q27410_8", "Q27410_9", "Q27410_10", "Q27410_11", "Q27410_12", "Q27410_13", "Q27410_14", "Q27410_15", "Q27273", "Q27277", "Q27406", "Q27291", "Q3806", "Q27204", "Q27279", "Q27278", "Q27297", "Q27284", "Q27299", "Q27282", "Q27280", "Q27283", "Q27205", "Q27507_1", "Q27507_2", "Q27507_3", "Q27507_4", "Q27507_5", "Q27507_6", "Q27506_1", "Q27506_2", "Q27506_3", "Q27506_4", "Q27506_5", "Q27506_6", "Q27506_7", "Q27508_1", "Q27508_2", "Q27508_3", "Q27508_4", "Q27508_5", "Q27201", "Q1865", "Q27192", "Q27206", "Q27207", "Q27208", "Q27286", "Q27358", "Q27359", "Q27302_1", "Q27302_2", "Q27302_3", "Q27302_4", "Q27302_5", "Q27302_6", "Q27302_7", "Q27302_8", "Q27302_9", "Q27302_10", "Q27302_11", "Q27302_12", "Q27302_13", "Q27302_14", "Q20503", "Q27407", "Q27301", "Q434", "Q592", "Q1432", "Q441", "Q368", "Q897", "Q374", "Q1066", "Q802", "Q804", "Q1671", "Q6000", "Q371", "Q572", "Q1308", "Q27509", "Q27510_1", "Q27510_2", "Q27510_3", "Q27510_4", "Q27510_5", "Q27510_6", "Q27510_7", "Q27510_8", "Q27510_9", "Q27510_10", "Q27510_11", "Q27510_12", "Q27510_13", "Q27510_14", "Q79.1", "Q79.2", "BMI", "Q27272.NEW", "Q27271.NEW", "Q13028.NEW", "Q27406.CS", "Q27406.CS.NEW", "Q18805.NEW", "Q1432.T3", "BMI.CS", "Q1432.T3.CONT", "Q344.CS", "白球比", "血淋比", "Q27278.NEW", "Q27278.NEW1", "Q27406.NEW", "Q1432YA")
然后定義一下咱們研究的類型,統一定義為“glm”
使用organizedata2函數進行數據整理,開啟探索模式
out<-organizedata2(data = bc,allVars = allVars,family=family,username=username,token=token,explore = T)
上圖函數提示上面的變量都被刪除了。咱們再out中提出整理好的數據,所有變量和分類變量
data<-out[["data"]]
fvars<-out[["factorvarout"]]
allVars<-out[["allVars"]]
上面這些步驟和sctable包都是一樣的,接下來要定義分析的所有變量和結局變量
##定義要分析的變量和結局變量
var<-allVars
ggexplore(data = data,x=var,y= "Q3806")
各種各種非線性關系圖就出來了,一共又幾十張,向上面這種U型結構是非常適合寫文章的。
剛才咱們定義的是結局變量,看哪個變量和結局又關系,我們也可以定義觀察變量X變量,看哪個變量和X有關系。假設你有一個牛逼的指數,例如下面這些,可以快速找到和指數相關的結局
這次我換個charls數據,我自己提取的,
library(survival)
library(ggscitable)
setwd("E:/公眾號文章2024年/charls數據庫/class5") #設置你放數據文件的地址
bc<-read.csv("data.final.csv",sep=',',header=TRUE)
str(bc)
這個數據中有個TYG指數(甘油三酯葡萄糖指數),假設我想看哪個結局和這個指數相關,前面的整理數據步驟都是一樣的
dput(names(bc))
allVars <-c("age", "sex", "edu", "smoking", "married", "drink", "wc", "bmi", "TC", "HDL", "weight", "TG", "LDL", "FBG", "hba1c", "TYG", "Hypertension", "CVD", "New.diabetes", "sbp", "Lipid.drug","time")
out<-organizedata2(data = bc,allVars = allVars,family=family,username=username,token=token,explore = T)
data<-out[["data"]]
fvars<-out[["factorvarout"]]
allVars<-out[["allVars"]]
整理好數據后直接分析,定義x=“TYG”,Y這里放入所有變量
var<-allVars
ggexplore(data = data,x="TYG",y=var)
上面這些只是一部分,夠咱們寫好多篇文章了。下面還有視頻介紹
ggscitable包通過曲線擬合對數據深度挖掘