北京大學“中國老年健康影響因素跟蹤調查(簡稱‘中國老年健康調查’;英文名稱為Chinese Longitudinal Healthy Longevity Survey (CLHLS))”及交叉學科研究由國家自然科學基金委主任基金應急項目、重大項目、重點項目及國際合作項目。1998-2018年在全國23個省/市/自治區隨機抽取大約一半縣市進行八次跟蹤調查,累計入戶訪問11.3萬人次,其中最需照料的80歲及以上高齡老人占總樣本67.4%,其余為較低齡老人和中年對照組;包括:2.01萬人次百歲老人,2.68萬人次90-99歲老人,2.93萬人次80-89歲老人,2.01萬人次65-79歲老人,1.12萬人次35-64歲中年人;同時訪問2.89萬位65+歲已死亡被訪老人的直接家庭成員,收集了老人死亡前健康狀況、生活質量與醫療和照料需求成本等詳細數據。
1998-2018年八次老齡健康跟蹤調查累計入戶訪問11.3萬人次,其中最需照料的80歲及以上高齡老人占總樣本67.4%,其余為較低齡老人和中年對照組;同時訪問2.89萬位65+歲已死亡被訪老人的直接家庭成員,收集了老人死亡前健康狀況、生活質量與醫療和照料需求成本等詳細數據。“中國老年健康調查”免費向學者們提供數據,跟蹤調查數據在刪除個人隱私信息后已向社會和學界免費開放,包括:存活老人生理心理健康、認知功能、社會參與、行為、飲食營養、生活習慣、社會經濟狀況、家庭結構、代際關系、老年家庭照料需求、照料提供和成本等非常豐富的個體微觀數據、以及65+歲已死亡老人死亡前健康狀況、照料成本與生活質量等豐富個體微觀數據,除了為國家健康老齡化科學決策應用研究服務外,已通過北京大學開放研究數據平臺(http://opendata.pku.edu.cn/)和中國人口與發展研究中心執行的“國家人口宏觀管理與決策信息系統(PADIS)”和“全民健康保障信息化工程”數據庫平臺向學界和社會開放免費使用。
據不完全統計,截至2021年10月15日,10327位學者(不包括他們的項目組其他成員)正式注冊免費使用1998-2018年“中國老年健康調查”數據; 這些學者們使用該調查數據已發表成果:專著17本;國際匿名評審SCI和SSCI學術刊物論文431篇; 國內期刊論文731篇; 通過答辯博士論文99篇和碩士論文678篇;遞交政策咨詢報告68篇。
CLHLS數據下載的網址是:
https://opendata.pku.edu.cn/dataverse/CHADS?spm=5176.28103460.0.0.40f7451e1r7NtX
數據需要先通過申請才能下載,下載到電腦的數據如下圖
數據每個年份是分開的,以sav格式保存。中國健康長壽縱向調查(CLHLS)的有前八波(1998、2000、2002、2005、2008、2011、2014和2018)。這些受訪者于1998年首次接受采訪,后面是對這些患者的跟蹤隨訪。
在編碼系統中,“寫入格式:F3”表示變量的代碼長度為3位數字,沒有小數點,而“寫入格式∶F8.6”表示變量代碼長度為8位數字,小數點后有6位數字。后一種格式(帶小數點)用于權重。
數據集中,大多數變量都被視為“數字”變量,而其中一些變量則被視為字符串變量。年齡、年、月、人數和天數等變量被視為“規模”類型。剩余的大多數變量被視為“名義”變量,包括“是”或“否”二項式問題。B部分中的變量、E部分中與ADL、IADL功能能力相關的變量以及D部分中幸存的個人問卷中的一些變量被視為“順序”變量。死者死亡前的ADL功能也被視為“序數”變量。更詳細的信息可以在編碼系統的“測量級別”中找到。變量名稱中第一個字母為“r”的變量表示問題是由受訪者親自回答或者由代理人回答。
以“_0”、“_2”、“_5”、“_6”、”_11”、“_14”和“_18”為后綴的變量分別用于2000年、2002年、2005年、2008年、2011年、2014年和2018年仍然活著并再次接受采訪的人,而以“d0”、第二年、第五年、第八年、第十一年、第十四年和第十八年為前綴的變量則分別用于1998-2000年、2000-2002年、2002-2005年、2005-2008年、2008-2011年、2011-2014年和2014-2018年調查間隔內死亡的已故受訪者。
“-6”用于表示該變量僅用于在世人員,不適用于已故人員。“-7”表示該變量僅用于已故人員,不適用于幸存的受訪者。“-8”用于表示受訪者在早期浪潮中死亡或失訪,“-9”用于定義失訪。此數據集中使用“-1”表示問題不適用于受訪者的情況。“9”、“99”、“999”和“9999”通常用于表示不同變量中的缺失信息,而在大多數情況下(但不是所有情況下),“8”、“88”、“888”和“8888”用于表示受訪者不知道問題答案的情況。在進行分析之前,用戶需要估算由“8”、“88”、“888”、“8888”、”9”、“99”、“999”和“9999”表示的缺失值,特別是當“缺失”或“不知道”的比例大于5%時。目前沒有用估算值替換缺失數據的數據集。
最后我總結一下,CLHLS的患者年齡偏大,基本大于80歲,包含有飲食數據和生活數據,數據提取方法也和chals類似,可以看作是chals數據的一個補充,可以發一些膳食/飲食指數之類數據的文章,后續將繼續進一步介紹CLHLS。