一區思路！挑戰5天一篇NHANES預測模型 DAY1-5

挑戰5天一篇預測模型NHANES

Day1!

近期美國關閉seer數據庫的信息在互聯網上廣泛傳播，大家都在擔心數據庫挖掘是否還能做。這個問題其實是有答案的，數據庫挖掘肯定能做，做沒被關的數據庫即可，同時留意一些國產數據庫～

因此我在這個時間段挑戰做一篇nhanes數據挖掘庫挖掘，堅定大家的信念。只有擁有SCI，才有碩士選擇更好的權利，才有讀到博士的機會，一定堅定信念，數據庫那么多，總有我們能做的～

為了提高挑戰的難度和成稿文章的接收率，挑我決定挑戰5天利用NHANES數據庫完成一篇預測模型SCI！

第一天的主要任務就是熟悉數據庫+明確選題+確定目標期刊和目標文獻。

由于我們之前發起過很多期NHANES的挑戰，對NHANES的官網還是非常熟悉的，這里就大大縮短了熟悉網站的時間。

簡單來說，NHANES數據庫是一個 涉及心血管、內分泌、營養、感染、婦產等多個領域的，無需申請或倫理審批，數據完全免費的公共數據庫。數據量特別的大，涉及的相關指標很多，可以適合各個不同的科室的朋友來挖掘寫作～

之前的挑戰大多研究的是A變量與B疾病之間的關聯，這次想做點不一樣的，利用同樣的數據庫來做臨床預測模型～

我用“NHANES + nomogram”進行了初步的檢索，發現發的文章數量不多，正是發文的好時機！

我想建立一個我的目標疾病的人群全因死亡率的列線圖，所以又去檢索了“NHANES and nomogram and 目標疾病”，目前還沒有人發過，那就這么定啦！接著在pubmed上根據我的目的選擇了一個目標雜志，目標期刊：Front Pharmacol 標題Development and validation of a nomogram for predicting all-cause mortality in American adult hypertensive populations，隨后去深入了解了這個雜志，不是水刊，發文量和被引數都還可以，那就他啦

堅定信念，讓我們一起沖沖沖！！！

Day 2!

雖然最近醫院很忙，但挑戰不能停~

第2天主要任務：提取數據前的準備

具體需要干的就是：

閱讀5-10篇NHANES預測模型的文章
根據文章確定自己需要的變量
整理變量的具體信息
整理需要的數據

公開數據庫有很多，如MIMIC、eICU數據庫等，但是相較而言NHANES數據庫的數據獲取比較簡單，而且我們已經將所有的數據都下載到了本地，大大縮短了我們提取數據的時間，對我們這些“臨床打工人”來說是非常友好的！

今天最主要的一步就是整理變量的信息，在動手前，我一般會花幾十分鐘時間，整體瀏覽一下這個數據庫，對于什么樣的數據在demo里，什么樣的數據是在問卷里做到心中有數，有些實在找不到的變量，也可以去試試首頁上的search variables。

變量信息整理好后，其實就完成了大半，接下來要做的就是把需要的xpt文件整理好就好啦～我們前期花了一些時間，把所有的周期的所有數據全部下載到本地啦，所以整理數據幾分鐘就能完成～

好啦，今天的分享就到這里啦！

Day 3!

Day3任務：數據提取與清洗。

前期我已經把所有的數據都下載好啦，現在主要的目標就是進行數據的提取清洗，我們用R將所需要的數據提取出來。在第二天我們已經把所需要的數據的具體信息都整理好啦，這個表格對我們的數據提取至關重要～

因為我做的是目標疾病的死亡率的預測模型，所以要考慮的主要有三個方面：

目標疾病
死亡的信息
需要考慮的變量

因為之前以及熟悉過這個代碼啦，所以提數據的時候很easy～用代碼提啊提，很快就搞完了。需要花一點時間的地方就是數據的清洗，做預測模型和普通的NHANES在數據清洗部是一樣的，比如說高血壓看起來只有是和否，但實際上需要依靠多個數據一起來定義：

目前正在口服降壓藥 2）血壓大于140/90mmHg（取平均值） 3）被醫生告知有高血壓

工程還是很浩大滴！

但做多了也就熟練啦～猛猛一頓篩選就搞定！

整理好了數據以后，后面的分析實際上是非常簡單的，選題才是最重要、最費時間的，也是最容易浮躁滴，靜下來，方向對了，就一定能出成果。

一起加油呀~

Day 4！

Day4任務：跑出結果+完成中文稿

前期花了3天時間已經將數據都整理好啦，現在的任務就是跑出圖片和表格～

在第2天我們已經大量閱讀了相關的文獻啦，模仿文獻一步一步來就好了，常規NHANES預測模型的文章需要下面這些Table和Figure，我進行了提取和總結

Figure 1：流程圖---數據來源過程及分析步驟

Table 1：基線特征---訓練集和驗證集的基線特征

Table 2：回歸分析---單變量和多變量回歸分析

Figure 2：LASSO 回歸--選擇風險因素

Figure 3：Nomogram--列線圖的構建

Figure 4-6：預測模型的驗證--ROC曲線、校準曲線、DCA曲線

這就是NHANES預測模型文章的主要結果啦，跑完數據后，我又根據我們的寫作法把初稿整完啦，今天又是熬夜肝文章的一天～

因為前期已經整理好了數據，后面的分析實際上是非常簡單的，選題和整理數據才是最費時間的，靜下來，一步步踏實完成。

今日份挑戰成功～

Day?5！

Day5任務：完成文章寫作+投稿

昨天已經將圖片、表格和初稿都已經整完啦，后面就是翻譯潤色和投稿哩！寫作其實是最簡單的哈哈哈～有我們的《框架寫作法》理清思路，我昨天在跑完結果后才能快速寫完初稿哈哈哈～

今天的任務比較輕松，只需要補充模塊化寫作部分，然后翻譯潤色，根據目標期刊改格式就好啦！改完以后再發給導師看一眼就可以準備投稿咯～～

挑戰5天完成一篇NHANES預測模型，挑戰成功！！！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/79173.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/79173.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/79173.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！