HRS数据库的申请及数据提取方法与流程
2018-11-08朱江勃田国祥武冬杨津柳青青吕军王雪
朱江勃,田国祥,武冬,杨津,柳青青,吕军,王雪
人口老龄化作为国际经济社会发展水平的重要衡量指标之一,不仅意味着老年人口数量的增多,同时也给经济社会带来严峻的挑战,这已成为不容忽视的重大社会问题[1,2]。关于老龄化人口健康的资料研究很多,数据种类不断丰富,数据储量迅猛增长,通过传统的数据收集方法很难有效及全面的统计分析[3]。在国家老龄研究所(NIA U01AG009740)和社会保障管理支持下的健康与退休研究(HRS),是由美国密歇根大学自1992年起的一个纵向研究小组研究调查,建立了具有代表性的大样本数据库,通过对50岁以上参与者每两年一次独特和深度的访谈,提供了越来越多的多学科数据。HRS数据库为社会及医疗等研究人员提供了宝贵的资料,从而用它来解决关于老龄化挑战和机遇的重要问题[4-6]。之后评估全球老龄化异同的国际子研究也相继而出,包括墨西哥、英国、欧洲、韩国、日本、爱尔兰、中国、印度尼西亚、哥斯达黎加和新西兰的研究,同时正在向印度、巴西、非洲苏格兰和加拿大发展,从而形成全球老龄化的健康大数据[7-9]。
1 HRS数据库的申请及数据下载
HRS数据库样本量大,质量高,同时是非常丰富和复杂的,为了使数据更容易研究,HRS数据分类为公共数据和敏感/限制数据。任何人都能在HRS数据下载站点上创建一个帐户获得公共数据,而限制数据和敏感的健康数据则需要单独的应用程序完成。
1.1 HRS数据库的注册流程进入HRS数据库的官方网站(http://hrsonline.isr.umich.edu/)(图1),点击“View Researcher Site”,进入研究人员界面(图2),点击“Data Products”,选择最下方“Register and Access Public Data”选项后进入公共数据访问页,若为新用户需点击“New Users”进入注册信息页面(图3)。其中标有星号“*”字段为必填信息,信息填写完成后,若同意遵守使用HRS公共数据的条款,则点击下面的“Register”按钮,即可完成注册,该注册过程是免费的。
申请者注册后将于24 h内收到回复邮件,该邮件提供了初次使用用户名和密码(图4),若未收到邮件可重复上述步骤重新申请。获得用户名及密码后进入注册用户界面,可对个人信息进行更改,以及修改密码。
图1 HRS数据库界面
图2 研究人员界面
图3 HRS数据库注册表界面
1.2 HRS公共数据的下载流程一旦帐户被激活,请单击“Registered Users”,输入用户名和密码即可进入数据下载页面(图5)。进入后点击“Data Downloads”链接,将打开包含各种公共数据源的下载列表页面(图6)。除了敏感的健康数据产品,注册用户将在这里获取每年任何HRS公共数据集及文件清单(数据截止至2010年6月)。
图4 HRS数据库协议书回复邮件
点击所需要的年数据源链接,即可进入子数据集,在该页面下载.zip或.pdf文件(图7),左键单击文件图标或文件名,选择“保存文件”选项。右键单击文件图标或名称,选择“目标另存为”下载相关文件。下载后点击数据集名称将看到源数据信息,包括数据描述、电报密码本、调查问卷。使用的任何数据集之前一定要审查“数据警报”,以了解最新的补充信息。
图5 公共数据访问页面
图6 公共数据下载页面
图7 zip及pdf格式下载
图8 敏感数据访问协议书
1.3 HRS敏感/限制数据的下载敏感的健康数据产品通过补充登记条款制度获得,需要特殊的下载程序。首先要成为HRS数据库的注册用户,下载并完成敏感数据访问协议书(图8),提交敏感数据的订单(图9),如果未将协议书和订单附加在一起,则需通过电子邮件将协议的签署副本发送给hrsdatareq@umich.edu。一旦收到批准通知,在HRS数据下载系统登录网站,在HRS特殊访问文件框右边的页面会看到申请访问的数据集链接,点击相应链接和遵循指令下载所需文件。
另外,对于限制数据的访问与下载,根据数据类型可通过两种协议方法获取。虚拟桌面设施VDI和使用传统的许可协议。两种方法的研究计划和订单数据形式都是一样的(图10),但是数据安全和保密的需求是不同的。
图9 敏感数据订单
图10 限制数据产品订单
2 HRS公共数据库的数据提取
HRS数据库登录后可获得7个方面的数据,包括两年一次的数据产品、纵向数据、非大选年研究、敏感的健康数据(需要补充登记)、研究人员的贡献、兰德的贡献数据和认知经济项目。每个子数据集文件都可以通过SAS、SPSS或Stata三种不同的语句读取。文件扩展名也各有不同,SPSS语句为.SPS,SAS语句扩展名为.SAS,而Stata语句扩展名为.DO和.DCT。每个文件命名相同的前缀开始相应的数据文件。
2.1 SPSS语句读取数据SPSS数据读取:双击SPSS打开软件,在菜单里面以此选择文件,点击打开,语法在弹出框中选择需要执行SPS脚本文件:打开SPS文件后确认对应的DA文件是否存在,以及导出的Sav文件目录是否存在(图11):
选择全部SPS脚本内容如下图(图12),点击绿色三角执行SPS脚本:执行完脚本后,对应的目录下.sav文件生成并自动打开(图13~14),即可读取相关数据:
简易读取数据:HRS数据非常丰富与复杂,为了使数据简易读取,兰德衰老研究中心将数据分为7个类型,使数据更易提取。举例:在数据下载列表中,读取数据以1994年兰德数据为例,点击打开后,将h94f1a_SPSS.zip数据下载到指定位置,解压后左键双击打开进入SPSS数据编辑器,即可直接读取数据。
图11 SPSS语句选择脚本文件界面
图12 SPS脚本界面
图13 SAV文件生成界面
图14 SPSS打开的数据文件界面
2.2 合并数据文件举例说明要将1994年与2000年的数据文件合并,通过SPSS浏览窗口,打开1994年数据文件,合并第二个数据文件,在菜单栏上执行:数据→合并文件→添加个案(图15)。
打开合并文件对话框,点击浏览按钮,找到需要合并的第二个数据文件,点击打开按钮(图16),返回数据合并对话框,在这里检查一下要合并的文件,确认无误,点击“继续”(图17)。
看到变量对话框(图18),右侧的列表是相同的变量,也就是两个数据文件有相同的变量,左侧的列表是只有一个数据文件中有的变量,右边标有“*”号的为第一个数据文件中有而第二个数据文件没有的变量,标有+号的是第二个数据文件有而第一个数据文件没有的变量,根据需要,例如选择将AALIVE添加到相同变量列中,选择后点击中间向右箭头即可实现,最后点击“确定”按钮。
图15 合并文件界面
图17 数据文件合并界面
图18 变量选择界面
就是合并文件以后的数据(图19),由于年龄段这个变量只有一个数据文件有,所以另一个数据文件中的数据在这个变量上显示为空白。
图19 合并后的变量数据界面
3 讨论
HRS数据库是美国关于健康和经济环境的变化与衰老有关的资源数据库,该数据库的大部分公共数据通过用户注册免费开放。其多学科的数据集中在收入和财富、健康、认知和使用医疗服务、工作和退休及与家人联系的调查。HRS数据自2006年以来,数据收集已经扩大到包括生物标志物和遗传学以及更大的深度的心理学和社会背景。这种混合经济,健康和心理信息的数据库为研究者的工作提供了前所未有的潜力[10-12]。本文通过介绍HRS数据库的用户申请及数据提取方法,以期节约研究者在使用该软件过程中的时间和精力,帮助各学科研究人员获得更简便、高效及明确的数据资料获取途径,从而提高工作效率。