APP下载

CHNS数据库架构及数据申请提取方法与流程

2018-11-07常虹田国祥柳青青任晓东冀彬吕军

中国循证心血管医学杂志 2018年9期
关键词:官方网站研究者数据库

常虹,田国祥,柳青青,任晓东,冀彬,吕军

中国居民健康与营养调查(China Health and Nutrition Survey,CHNS)网站是一个开放的公共平台[1],网站定期或不定期发布CHNS研究数据等资料。CHNS数据库官方网址:http://www.cpc.unc.edu/projects/china,网站主页见图1。全球感兴趣的研究者均可访问该网站获取项目信息、项目数据信息,也可注册并下载平台公开发布的CHNS研究数据资料。

图1 CHNS数据库官方网站首页

1 CHNS项目

CHNS项目,即中国居民健康与营养调查项目,是由美国北卡罗来纳大学教堂山分校人口中心联合中国疾病预防控制中心营养与健康所开展的国际合作的连续性的队列研究。该研究旨在探讨近30年来中国社会经济转型和计划生育政策开展如何影响国民健康和营养状况的影响。研究内容包括社区组织、家庭和个人经济、人口和社会因素等的现状及变化[2]。

这项调查的研究团队是一个国际研究小组,由营养学、公共卫生学、经济学、社会学、人口统计学等领域研究者组成。项目始于1989年,分别于1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年、2011年、2015年开展项目调研和数据整理及发布[2]。CHNS网站于2018年6月12日更新了数据集内容,更新后的数据集涵盖了1989年~2015年共10次调研数据的纵向整合数据。

调查采用多阶段分层整群随机抽样方法收集中国的东、中、西部地区包括北京市、重庆市、广西省、贵州省、黑龙江省、河南省、湖北省、湖南省、江苏省、辽宁省、上海市、山东省、陕西省、云南省、浙江省等15个省、自治区、直辖市的数据,截止至2018年8月共纳入220个社区样本,7200个家庭样本,30 000个居民样本。调研数据包含社区调查、家庭调查、个人调查数据。其中个人及家庭调查数据包括基本人口学、健康状况、营养膳食状况和健康指标、医疗保险等[3]。社区调查数据包括食品市场、医疗服务及其他社会基础设施建设情况等。CHNS调查地区分布见图2。

图2 CHNS调查地区分布图

2 CHNS官方网站架构

CHNS项目信息及数据均来自于开放的CHNS官方英文网站,熟悉网站的架构是获取项目信息及使用数据库的必要前提。CHNS网站由六部分构成,各部分内容均可通过链接获得主题相关的英文概述。中文翻译后的网站导图见图3。

图3 CHNS官方网站导图

网站主页(Home)介绍了CHNS项目的研究背景、研究团队、研究背景与目的等信息,并实时公布网站数据更新等信息以便访问者获取项目及研究数据梗概。

项目介绍(About Us)全面介绍CHNS项目情况。包括项目描述(设计、研究目标、调查地区、资金来源、数据引用)、项目设计与方法(研究对象、研究设计、样本、数据收集、质量控制)、研究团队等。点击进入网站各项目均有详细对应内容的详细介绍。

调查数据(Survey Data)部分包含CHNS项目公开发布的研究数据,其中内容均可以压缩文件形式下载。其中包括调查问卷、数据文档、数据集,其中数据文档是研究中ID变量、特殊行号、分析单位、变量名、缺失值、日期变量、数据处理与清理及其它数据问题的说明。数据集涵盖了家庭数据、个体水平数据、社区数据等,并增加了生物样本数据、面板数据库等。

已发表研究结果(Publication)版块列出目前全球的研究者基于CHNS数据发表的研究论著、期刊论文、研究报告、会议发言等。研究者可通过一般检索或高级检索方法查找到相关研究成果。

相关网站链接(Related Sites)部分列出中国教育和科研计算机网、世界概况(CIA World Fact Book: China)、密歇根大学中国数据中心(China Data Center at the University of Michigan)等最新的关于中国数据报告等,东亚图书委员会(Council on East Asian Libraries, CEAL)等图书馆资料网站链接,列出中国时空(China in Time and Space CITAS)、世界卫生组织(WHO)、世界银行(The World Bank)等中国标准与索引信息,以便研究者获取研究对象的相关信息。

公告(News)版块公布数据下载、更新、最新整理、数据说明等。2018年CHNS官方网站发出公告发布2009年的生物标志物数据和2015年的大部分调查数据,并发布面板数据库(Longitudinal Master Files)增加项目纵向研究的开展的便利性。

3 CHNS数据库使用申请与数据提取

CHNS数据中家庭数据及个人数据通在CHNS官网向公众免费开放,社区数据数据获取可通过北卡罗来纳大学人口中心签订数据使用协议(Community-Level Data Use Agreement)并在线完成相关流程(Data Linkage Request Form)付费获取,费用标准为330美金。

3.1 CHNS数据库的注册流程广大研究人员需首先进入CHNS数据库官方网站(https://www.cpc.unc.edu/projects/china),点击“Log in Register”进入注册信息界面(见图4~5),有 “*”字段为必填信息,信息填写完成后点击下面的“Register”按钮,即可完成注册(图6),该注册过程是免费的。申请者注册后将于24 h内收到回复邮件(图7)。申请人可根据邮件链接信息激活帐号并设置登陆密码(图8~9)。若未收到邮件可重复上述步骤重新申请。

图4 CHNS数据库界面

图5 CHNS数据库注册表界面

图6 CHNS数据库注册完成界面

3.2 CHNS数据的下载流程注册帐户被激活后,请再次单击CHNS数据库主页“Log in Register”,输入用户名和密码登陆数据库(图10~11)。

图7 CHNS数据库激活邮件

图8 CHNS数据库激活及登陆密码设置

图9 CHNS数据库激活及密码设置成功

图10 CHNS数据库登陆界面

图11 CHNS数据库登陆成功

CHNS数据网站为全球的研究者免费开放调研的个人数据及家庭水平数据。该部分数据下载路径为:主页--Survey Data--Download the Data。下载获取CHNS数据之前需详细填写数据下载注册表,注册成功后可进入CHNS项目数据集列表,选择需要的相应类别数据集下载(图12)。CHNS数据库网站于2018年6月12日更新了数据集内容,包括生物标记物检测数据、营养、农业、城镇化、教育等共22个数据集及51个变量字典文件,项目数据集压缩文件解压后可通过SAS软件格式打开并使用,变量字典为PDF格式(图13)。更新后的数据集涵盖1989年~2015年共10次调研数据的纵向整合数据,这种处理将历年的家庭数据和个人数据纵向联系起来,为全球的研究者提供更大便利和研究可能性。

图12 CHNS数据库数据下载示例

CHNS数据库家庭数据需通过可通过北卡罗来纳大学人口中心签订数据使用协议(Community-Level Data Use Agreement)并在线完成相关流程付费获取,费用标准为330美金(图14)。

研究者要真正应用好CHNS数据库信息,详细阅读以充分了解CHNS项目研究文件是一个必要前提。CHNS数据库网站提供了分类清晰且详细全面的研究说明文件。CHNS数据库说明文件中的历年的调查问卷、数据库说明、ID变量命名(ID Variables)等。CHNS网站提供的调查问卷按照调查年度进行分类,并提供PDF文档格式的中文原版及英文版问卷,调查问卷可通过网站的下列路径下载获取:Home—Survey Data—Questionnaires(图15)。CHNS数据库说明包括对调查数据清理、时间变量的收集规则、ID变量编制规则、缺失值、特殊数据的说明等内容,该说明内容可在网站的以下路径获取:Home—Survey Data—Documentation(图16)。CHNS数据库变量字典是数据使用与解读不可或缺的一部分,其获取路径同样为:Home—Survey Data—Questionnaires。

图13 变量字典下载界面

图14 CHNS数据库社区数据使用协议

3.3 CHNS数据库的数据读取CHNS数据库下载后显示为“ZIP”压缩文件格式,文件解压后为“SAS7BDAT”格式文件,文件可通过SPSS软件进行文件读取,具体步骤如下:解压“ZIP”格式文件到指定位置,双击打开SPSS软件,在菜单里选择文件直接读取“SAS7BDAT”格式文件数据,打开后的数据如图17。为便于在EXCEL软件、R软件、Stata软件等统计分析软件打开应用,建议将数据文件另存为“CSV”格式。

4 讨论

图15 CHNS数据库调研问卷下载界面

图16 CHNS数据库说明文件阅读界面

CHNS这一国际合作的纵向队列研究,始于1989年,截止2015年已进行了10次调研,研究内容涉及中国居民健康与营养状况在个体水平、家庭水平和社区水平的数据,对中国改革开放以来中国国民健康、营养、医疗、经济、社会等的研究提供了较全面的数据支持。CHNS官方网站涵盖了研究的详细信息,网站不仅动态更新研究数据,更提供了研究相关的链接,可便捷检索基于本研究的已有研究成果。CHNS研究数据集可通过在CHNS官方网站下载获取,高效便捷。

图17 SPSS软件读取后的数据状态

本文通过介绍CHNS项目研究背景、CHNS官方网站架构及数据获取、解读,并进行CHNS数据文件用SPSS统计软件读取的方法示例,旨在帮助感兴趣的研究者基本了解CHNS项目信息、熟悉网站架构、高效便捷地提取数据资料,提高研究者的工作效率。

猜你喜欢

官方网站研究者数据库
歌谱十四首
用水痘病毒开发新型HIV疫苗
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
国内外高校官网语种概况分析
研究者调查数据统计
数据库
如何获得域名的准确解析地址
年轻瘦人糖尿病增多
数据库
数据库