挑戰5天一篇預測模型NHANES
Day1!
近期美國關閉seer數據庫的信息在互聯網上廣泛傳播,大家都在擔心數據庫挖掘是否還能做。這個問題其實是有答案的,數據庫挖掘肯定能做,做沒被關的數據庫即可,同時留意一些國產數據庫~
因此我在這個時間段挑戰做一篇nhanes數據挖掘庫挖掘,堅定大家的信念。只有擁有SCI,才有碩士選擇更好的權利,才有讀到博士的機會,一定堅定信念,數據庫那么多,總有我們能做的~
為了提高挑戰的難度和成稿文章的接收率,挑我決定挑戰5天利用NHANES數據庫完成一篇預測模型SCI!
第一天的主要任務就是熟悉數據庫+明確選題+確定目標期刊和目標文獻。
由于我們之前發起過很多期NHANES的挑戰,對NHANES的官網還是非常熟悉的,這里就大大縮短了熟悉網站的時間。
簡單來說,NHANES數據庫是一個 涉及心血管、內分泌、營養、感染、婦產等多個領域的,無需申請或倫理審批,數據完全免費的公共數據庫。數據量特別的大,涉及的相關指標很多,可以適合各個不同的科室的朋友來挖掘寫作~
之前的挑戰大多研究的是A變量與B疾病之間的關聯,這次想做點不一樣的,利用同樣的數據庫來做臨床預測模型~
我用“NHANES + nomogram”進行了初步的檢索,發現發的文章數量不多,正是發文的好時機!
我想建立一個我的目標疾病的人群全因死亡率的列線圖,所以又去檢索了“NHANES and nomogram and 目標疾病”,目前還沒有人發過,那就這么定啦!接著在pubmed上根據我的目的選擇了一個目標雜志,目標期刊:Front Pharmacol 標題Development and validation of a nomogram for predicting all-cause mortality in American adult hypertensive populations,隨后去深入了解了這個雜志,不是水刊,發文量和被引數都還可以,那就他啦
堅定信念,讓我們一起沖沖沖!!!
Day 2!
雖然最近醫院很忙,但挑戰不能停~
第2天主要任務:提取數據前的準備
具體需要干的就是:
- 閱讀5-10篇NHANES預測模型的文章
- 根據文章確定自己需要的變量
- 整理變量的具體信息
- 整理需要的數據
公開數據庫有很多,如MIMIC、eICU數據庫等,但是相較而言NHANES數據庫的數據獲取比較簡單,而且我們已經將所有的數據都下載到了本地,大大縮短了我們提取數據的時間,對我們這些“臨床打工人”來說是非常友好的!
今天最主要的一步就是整理變量的信息,在動手前,我一般會花幾十分鐘時間,整體瀏覽一下這個數據庫,對于什么樣的數據在demo里,什么樣的數據是在問卷里做到心中有數,有些實在找不到的變量,也可以去試試首頁上的search variables。
變量信息整理好后,其實就完成了大半,接下來要做的就是把需要的xpt文件整理好就好啦~我們前期花了一些時間,把所有的周期的所有數據全部下載到本地啦,所以整理數據幾分鐘就能完成~
好啦,今天的分享就到這里啦!
Day 3!
Day3任務:數據提取與清洗。
前期我已經把所有的數據都下載好啦,現在主要的目標就是進行數據的提取清洗,我們用R將所需要的數據提取出來。在第二天我們已經把所需要的數據的具體信息都整理好啦,這個表格對我們的數據提取至關重要~
因為我做的是目標疾病的死亡率的預測模型,所以要考慮的主要有三個方面:
- 目標疾病
- 死亡的信息
- 需要考慮的變量
因為之前以及熟悉過這個代碼啦,所以提數據的時候很easy~用代碼提啊提,很快就搞完了。需要花一點時間的地方就是數據的清洗,做預測模型和普通的NHANES在數據清洗部是一樣的,比如說高血壓看起來只有是和否,但實際上需要依靠多個數據一起來定義:
- 目前正在口服降壓藥 2)血壓大于140/90mmHg(取平均值) 3)被醫生告知有高血壓
工程還是很浩大滴!
但做多了也就熟練啦~猛猛一頓篩選就搞定!
整理好了數據以后,后面的分析實際上是非常簡單的,選題才是最重要、最費時間的,也是最容易浮躁滴,靜下來,方向對了,就一定能出成果。
一起加油呀~
Day 4!
Day4任務:跑出結果+完成中文稿
前期花了3天時間已經將數據都整理好啦,現在的任務就是跑出圖片和表格~
在第2天我們已經大量閱讀了相關的文獻啦,模仿文獻一步一步來就好了,常規NHANES預測模型的文章需要下面這些Table和Figure,我進行了提取和總結
Figure 1:流程圖---數據來源過程及分析步驟
Table 1:基線特征---訓練集和驗證集的基線特征
Table 2:回歸分析---單變量和多變量回歸分析
Figure 2:LASSO 回歸--選擇風險因素
Figure 3:Nomogram--列線圖的構建
Figure 4-6:預測模型的驗證--ROC曲線、校準曲線、DCA曲線
這就是NHANES預測模型文章的主要結果啦,跑完數據后,我又根據我們的寫作法把初稿整完啦,今天又是熬夜肝文章的一天~
因為前期已經整理好了數據,后面的分析實際上是非常簡單的,選題和整理數據才是最費時間的,靜下來,一步步踏實完成。
今日份挑戰成功~
Day?5!
Day5任務:完成文章寫作+投稿
昨天已經將圖片、表格和初稿都已經整完啦,后面就是翻譯潤色和投稿哩!寫作其實是最簡單的哈哈哈~有我們的《框架寫作法》理清思路,我昨天在跑完結果后才能快速寫完初稿哈哈哈~
今天的任務比較輕松,只需要補充模塊化寫作部分,然后翻譯潤色,根據目標期刊改格式就好啦!改完以后再發給導師看一眼就可以準備投稿咯~~
挑戰5天完成一篇NHANES預測模型,挑戰成功!!!