国际健康信息研究主题的演化路径分析
2018-07-25刘艳华华薇娜钱爱兵南京中医药大学卫生经济管理学院江苏南京003南京大学信息管理学院江苏南京0093
刘艳华 华薇娜 钱爱兵(.南京中医药大学卫生经济管理学院,江苏 南京 003;.南京大学信息管理学院,江苏 南京 0093)
十九大报告提出“实施健康中国战略”,其中特别指出“深化‘互联网+健康医疗’服务,促进和规范健康医疗大数据应用”,为健康信息研究吹响了号角。健康信息包括维持健康、预防和管理疾病以及做出与健康和卫生保健相关决策的信息[1],对疾病的诊断、治疗与预防乃至提高国民健康素养有重要意义。国际健康信息的研究起步早,研究成果丰富,有文献记载我国自20世纪80年代起有学者关注健康信息,但发展缓慢,研究成果较少。跟踪国际健康信息的研究主题并识别其发展规律,可以帮助学者更好地把握健康信息的国际发展动态,推动我国健康信息的发展。
国内外研究涉及健康信息的各方面,包括健康信息的需求调查[2]、采集[3]、查询[4]、采纳[5]、传播[6]、交换[7]、服务[8]等各环节;电子健康档案、电子病历、电子医嘱等健康信息技术[9]、健康信息系统[10]的使用;健康信息学[11]、健康素养和数字鸿沟[12]、健康信息的个人管理[13]、隐私保护[14]等相关方面。亦有少量学者关注国内外健康信息的研究热点和前沿,如吴浩等以WoS核心集中1995-2014年网络健康信息论文为研究对象,CiteSpace为工具,探测国际网络健康信息的研究热点和前沿[15];陈娟等以1995-2016年国内外有关健康信息的文献题录为研究对象,CiteSpace为工具,通过对关键节点文献的共被引分析形成演进路径;对关键词共现和突变术语的分析获得研究热点和前沿[16]。已有研究主要集中在对健康信息使用过程各个环节的研究,虽有少量文献对国际健康信息的研究热点和前沿进行探测,但无法动态呈现研究主题随时间演化的过程,且数据并不完善;尚未有研究探讨国际健康信息发展至今研究主题的动态演化路径。鉴于此,本文以国际健康信息领域研究性文献的关键词为研究对象,对不同历史时期的研究主题及其动态演化过程进行详细分析,为相关学者把握国际学术发展方向、追踪前沿信息提供参考。
1 数据来源与研究方法
以Web of Science(WoS)核心集SCI-E、SSCI、A&HCI为数据源,检索词包括健康信息(“Health*Information”or“Health Info”)、相关及扩展术语(如“Health Record*”or“Health Text”or“Health*Data*”or“Health Materials”or“Health*Informatics”or“Medical Information”or“Health Literacy”or“Nutrition*Information”or“Patient Education Material*”or“Health*Communication”),标题为检索途径,同时限制相关及扩展术语的文献主题为健康信息。检索年限为2017年及之前,选择所有语种,限定文献类型为研究性文献(Article、Proceedings Paper、Review),2018.2.22实施检索,获得数据4 023条。
对大量文献关键词集合的共词分析和聚类分析是获得特定时期研究主题的常用方法,对不同时间段聚类主题流向的分析可获得持续性研究主题的演化情况。2012年西班牙格拉纳达大学开发的SciMAT可通过向导构建关键词共现矩阵并进行聚类分析,获得研究主题的聚类主题网络图、基于密度和中心度的聚类主题战略图;并可根据主题之间的关联,绘制基于时间序列的聚类主题演化图,揭示研究主题的演化情况[17]。本文以SciMat为知识图谱绘制工具,研究性文献集中作者关键词(Keywords)和增补关键词(Keyword Plus)集合为分析单元,共词分析和聚类分析为研究方法,绘制不同时期研究主题的聚类主题网络图、聚类战略图和主题演化图,识别国际健康信息领域研究主题的动态演化路径。
2 数据预处理
2.1 数据清洗
通过SciMat的清洗功能”Find Similar Words by Plurals(Automatic)”,自动合并关键词的单复数;手动合并因书写、缩写不同未自动合并的关键词,如将”HEALTHCARE-INFORMATION-TECHNOLOGY-(HIT)”、”HEALTHCARE-INFORMATION-TECHNOLOGY”、”HEALTHCARE-IT”、”HEALTH-CARE-INFORMATION-TECHNOLOGY”、”INFORMATION-TECHNOLOGY-(HEALTH-CARE)”合并为”HEALTH-CARE-INFORMATION-TECHNOLOGY””;合并同义词,如将”INFORMATION-SEEKING”和”INFORMATION-SEARCHES”合并为”INFORMATION-SEEKING”;删除一些出现频次较高且意义较宽泛、可能会掩盖其他微观词之间关联的词,如”HEALTH-INFORMATION”、”IMPACT”等。
2.2 研究区间划分
以年度文献量为横坐标、作者人次为纵坐标,绘制1923-2017年国际健康信息研究的散点图(见图1)。为避免数据的平滑性,将研究区间划分为5个时期:1923-1994年、1995-2002年、2003-2007年、2008-2012年、2013-2017年。
图1 1923-2017年国际健康信息研究年度文献量及作者人次散点图
国际健康信息的研究始于1923年,至1994年的72年间文献总量241篇,涉及作者464人次,年度文献量和作者人次不超过两位数,发展极为缓慢。1995-2002年期间文献总量382篇,作者总人次910,研究成果和作者活跃度缓速提高。2003年开始,国际健康信息研究开始稳步、快速发展:2003-2007年期间研究成果增长幅度不大,文献总量492,相关作者人次1 531,学者的研究开始活跃,但成果并不丰富;2008-2012年期间的研究成果和作者人次呈直线式增长,分别达到1 185篇和5 622人次,研究更加活跃且成果增长幅度加快;2013-2017年期间的增长幅度稍缓,文献总量1 723篇,作者总人次6 958。总体而言,国际学术界对健康信息的研究起步早,早期研究迟缓,2003年后整体呈直线式发展。
2.3 参数选择
设置分析单元为词(Author’s Words和Source’s Words),5个时间段的数据精简阈值2、2、3、6、7,网络精简阈值1、2、3、4、6。标准化网络的相似度指标为E指数,聚类算法为简单中心算法,根据关键词之间的相似度聚类,自动选择最核心的关键词标注类名,设置网络最大值12,最小值3,限制聚类网络的大小在合理范围内。聚类质量的计量指标选择文献总被引和篇均被引,被引频次越高,对后期主题的影响越大。演化图的相似度指标选择Jaccard系数,根据相邻时期主题之间概念关系的语义关联强度构建主题演化路径。
3 国际健康信息研究主题的动态演化过程分析
3.1 研究主题演化状态分析
SciMAT绘制的聚类战略图可以直观显示五个时期研究主题的演化状态(见图2)。节点代表聚类主题,数字表示主题相关文献量,文献量越多,受关注程度越高,研究热度越大。横轴为中心度(Centrality),代表与其他主题的关联强度,中心度值越大,在研究领域中越处于中心地位。纵轴为密度(Density),代表主题内部关键词之间的关联程度,密度值越大,内部联系越紧密,主题发展越成熟。
结合聚类质量计量指标文献总被引、篇均被引和各节点的聚类网络图,对5个时期研究主题的演化状态分析如下:
1)1923-1994年期间聚类为3个主题:认证(AUTHENTICATION)、病人教育(PATIENT-EDUCATION)、课程(CURRICULUM)。认证和课程位于右上现象,认证聚类包含智能卡、保密、数字签名等关键词,课程聚类包含关键词健康信息学、培养;主题受关注度相对较高,是发展成熟的核心主题;被引频次低(分别为26和17),对后期研究影响小。左下象限的病人教育聚类包含关键词图书馆和易读性,内部联系松散,发展不成熟,非研究中心,但却具有高被引(被引频次122),对后期研究影响较大。需要注意的是,由于早期文献著录不规范,这一时期的大量文献中缺少关键词著录信息,关键词总量仅125个,在关键词词频不低于2,共现频次不低于1的情况下聚类形成的3个主题并不能完整反映该时期的研究情况。
2)1995-2002年期间聚类为7个主题:信息(INFORMATION)、社会经济地位(SOCIOECONOMIC-STATUS)、决策(DECISION-MAKING)、公共健康(PUBLIC-HEALTH)、技术评价(TECHNOLOGY-EVALUATION)、医学(MEDICINE)、健康素养(HEALTH-LITERACY)。随着文献著录的日益规范和研究力量的加强,关键词数量增加至743个,然新增关键词达到700个,与上一时期共享的关键词极少,新揭示的研究主题较多。
①右上现象的信息、决策、社会经济地位主题,具有高密度和中心度,是发展成熟的核心主题。信息聚类包括病人教育、知识、随机对照试验、患者教育材料、应用传播、健康护理、阅读能力、技能、自我护理、需求、互动健康传播等关键词,与前期病人教育主题共享核心关键词;决策聚类包括医疗信息、易读性、参与、计算机通信网络、偏好、关节炎等关键词,与前期病人教育主题共享次要关键词;这两类主题与前期病人教育主题有一定的关联,研究热度和影响力持续升高,对后期研究的影响极大。社会经济地位聚类包括死亡率、管理数据、健康状况、人口健康、数据系统、不平等等关键词,是这一时期新出现的关键词,发展最为成熟,受关注程度和影响力最低。
②右下象限的医学主题包含医学信息学、干预、支持等关键词,研究热度和影响力表现一般,内部联系松散,发展不成熟、在领域中有一定的研究地位。
③左上现象的技术评价主题,包含健康信息系统、病历系统、可用性工程等关键词,研究热度和影响力较低,发展成熟,中心度低,是领域中被边缘化的、稳定的专业主题。
④左下现象的公共健康和健康素养主题,研究不成熟,与其他主题关联度低,是新生主题,处于领域研究的边缘。公共健康聚类包含隐私、健康信息学、地理信息系统、需求工程等关键词,受关注程度和影响力一般。健康素养聚类包含关键词健康教育和赋权,研究热度较低,篇均被引频次最高,对后期研究的影响大。
3)2003-2007年期间聚类为8个主题:癌症(CANCER)、青少年(ADOLESCENTS)、知识(KNOWLEDGE)、隐私(PRIVACY)、健康状况指标(HEALTH-STATUS-INDICATORS)、病历(MEDICAL-RECORDS)、健康信息系统(HEALTH-INFORMATION-SYSTEMS)、乳腺癌(BREAST-CANCER)。这一时期的关键词总量(1 373个)和新增关键词(1 099个)持续增多,研究范围不断扩大,研究主题更加丰富。
①右上现象的隐私聚类包含电子健康档案、安全性、保密等关键词,吸收了前期公共健康主题的主要关键词,研究热度和影响力不高,但具有高密度和中心度,是领域中发展成熟的、处于研究中心地位的主题。中心度轴上的癌症主题,包含信息查询、消费者、患者、医学信息学、决策、素养、健康教育、易读性、病人教育、乳房X线摄影术等关键词,与前期决策主题共享核心关键词,与医学和健康素养主题共享次要关键词;研究热度和影响力最高,中心度最高,是领域研究的核心,但发展并不成熟,有较高演化能力和发展潜力。
图2 五个时期研究主题的聚类战略图
②右下象限的知识和健康信息系统,中心度高,但发展不成熟,在领域中有一定的研究热度,对后期研究的影响较大,处于研究中心地位,有一定发展潜力。知识主题包含风险、信息、健康素养、预防等关键词,吸收了前期信息和健康素养主题的核心关键词。健康信息系统主题包含关键词健康信息学和决策支持系统,吸收了前期技术评价主题的主要关键词和公共健康主题的次要关键词。密度轴上的乳腺癌主题包含关键词女性和社会支持,受关注程度低,有较高的篇均被引,发展不成熟,与其他主题的关联度一般,是有一定发展潜力的新生主题。
③左上象限的青少年、病历和健康状况指标,内部联系紧密,外部关联度低,发展比较成熟,已非研究中心,是领域中稳定的专业主题。青少年聚类包含儿童、健康、学生、性健康等关键词,在领域中有一定的研究热度和影响力;病历聚类包含关键词医院信息系统和个人健康档案,研究热度和影响力较低;健康状况指标聚类包含关键词信息系统与组织管理、卫生保健提供,相关文献量和被引频次最低,受到极少部分研究团体的关注。
4)2008-2012年期间聚类为9个主题:电子医嘱(PHYSICIAN-ORDER-ENTRY)、健康素养(HEALTH-LITERACY)、信息查询(INFORMATION-SEEKING)、电子健康档案(ELECTRONIC-HEALTH-RECORDS)、初级保健(PRIMARY-CARE)、决策(DECISION-MAKING)、疾病(DISEASE)、数字鸿沟(DIGITAL-DIVIDE)、女性(WOMEN)。这一时期关键词总量(3 062)和新增关键词(2 439)增长幅度加大,新增主题持续增多。
①右上象限的健康素养、电子健康档案和电子医嘱主题,研究热度和影响力大,内部联系紧密,中心度高,是领域中发展成熟的、处于核心地位的热点主题。健康素养聚类包含知识、信息、关联、技能、易读性、慢性病、信念、入院、计算能力、素养、最新关键指标测量量表(NEWEST VITAL SIGN,NVS)等关键词;吸收了前期知识主题的核心关键词和癌症主题的次要关键词,与前期知识主题相似度最高,演化状态从右下转移至右上现象,发展更加成熟。电子健康档案聚类包含医生、病历、电子病历、个人健康档案、健康信息交换、医学信息学、非卧床护理、障碍、电子健康、政策、有意义使用等关键词,吸收了前期病历主题的核心关键词、隐私主题的主要关键词和癌症主题的次要关键词,与病历主题相似度最高,演化状态由左上转移至右上现象,研究热度快速升高,成为领域研究中心。电子医嘱聚类包含健康信息技术、信息技术、预防、临床决策支持系统、差错、护理质量、药品不良事件、用药差错、效益、非预期结果、报警等关键词;吸收了前期知识主题的次要关键词,是这一时期发展最成熟的研究中心。
②右下象限的信息查询主题包含癌症、消费者、乳腺癌、在线、互联网使用、信任、癌症患者、护理信息、偏好、使用、不确定性等关键词,吸收了前期癌症和乳腺癌主题的核心关键词,与癌症主题相似度最高,从中心度轴移至右下象限,研究热度和影响力进一步增强,但其成熟度和在领域中的中心地位有所下降,具备一定的发展潜力。初级保健主题包含管理、随机对照试验、成人、态度、决策支持系统、自我管理等关键词,吸收了前期健康信息系统的次要关键词,在领域中有较高的研究热度和影响力,发展极不成熟,研究地位一般,是领域中基础的、有发展潜力的主题。
③左上现象的女性和疾病主题,研究热度最低,密度较高,中心度最低,是领域中发展成熟的、非研究中心的专业主题。女性聚类包含关键词社会支持和乳腺,与前期乳腺癌主题的相似度最高,由新生主题逐渐发展成熟,研究热度略有升高,对后期主题的影响力有所下降,研究地位更加边缘化。疾病聚类包含关键词死亡率和监测,是这一时期新出现的主题,影响力最低,受到少部分研究团体的关注。
④左下象限的决策主题包含素养、参与、策略等关键词,吸收了前期癌症主题的主要关键词,由研究核心转移到边缘地带,研究热度和影响力下降,是即将消亡的主题。数字鸿沟主题包含关键词服务和健康信息查询,内部关键词少,联系松散,中心度较低,处于研究边缘地带,是新生主题。
5)2013-2017年期间聚类为9个主题:健康素养(HEALTH-LITERACY)、健康信息技术(HEALTH-INFORMATION-TECHNOLOGY)、信息查询(INFORMATION-SEEKING)、医生(PHYSICIANS)、成人(ADULTS)、抑郁症(DEPRESSION)、外科手术(SURGERY)、隐私(PRIVACY)、健康信息系统(HEALTH-INFORMATION-SYSTEMS)。这一时期关键词总量(4 871个)和新增关键词(3 518个)依然保持大幅增长趋势,研究内容更加丰富。
①右上象限的健康信息技术、健康素养和医生主题,研究热度和影响力高,发展成熟,是处于中心地位的热点主题。健康信息技术聚类包含电子健康档案、随机对照试验、电子病历、有意义使用、患者安全、电子医嘱、决策支持系统、临床决策支持系统、非预期结果、协同护理、养老机构等关键词,吸收了前期电子医嘱和电子健康档案主题的核心关键词、初级保健主题的次要关键词;与电子医嘱主题的相似度最高,研究热度持续升高,发展更加成熟,核心研究地位愈加明显。健康素养聚类包含信息、素养、公共健康、老年人、人口、易读性、技能、验证、素养、计算能力、测量等关键词,由前期健康素养发展而来,吸收了决策主题的次要关键词,研究热度升高,研究地位略有下降。医生聚类包含信息技术、健康信息交换、病历、态度、患者、感知、急诊科、障碍、信息系统、使用、护理质量等关键词,吸收了前期电子健康档案主题的主要关键词,电子医嘱、信息查询和初级保健主题的次要关键词,与电子健康档案的相似度高,研究热度升高,成熟度和研究地位略有下降。
②右下象限的成人主题包含管理、知识、干预、初级保健、女性、信息查询行为、健康传播、健康信息全国趋势调查、患病率、疾病、健康素养等关键词,吸收了前期初级保健、疾病、女性、健康素养主题的核心关键词,与初级保健主题的相似度最高,研究热度最高,密度略有下降,在领域中的中心地位有所加强,有较大发展潜力。信息查询主题包含互联网使用、青少年、在线、需求、健康信息查询、数字鸿沟、消费者、癌症患者、在线健康信息、媒体、可信度等关键词,是前期信息查询吸收数字鸿沟主题核心关键词的进一步发展;研究热度升高,密度和研究地位略有降低,依然处于领域研究的中心,是有一定发展潜力的基础主题。
③左上现象的外科手术聚类包含关键词病人教育和可读性评估,抑郁症聚类包含关键词心理健康和障碍;研究热度和影响力低,发展成熟,已非研究中心,是领域中较为稳定的专业主题。
④左下象限的隐私主题包含关键词安全性和保密,健康信息系统主题包含关键词评估和发展中国家;两类主题包含的关键词少,研究热度不高,篇均影响力最低,发展不成熟,处于领域研究的边缘,是新生主题。
3.2 研究主题动态演化路径分析
绘制国际健康信息研究主题的演化路径(见图3)。节点表示聚类主题,节点大小与主题相关文献量成正比;相邻时期节点间的实线表示两个主题共享的是主要关键词(通常是核心关键词),代表主流的演化方向,虚线表示共享的是次要关键词,代表支流的演化方向,线的颜色、粗细与主题相似度成正比,连线颜色深且粗,两个主题的相似度高,关联强度高,演化能力强;孤立点表示在某一时期单独出现的主题,与前后时期主题无关联。
图3 国际健康信息研究主题演化路径图
从演化路径图和各时期主题的演化状态看,主题数量随时间的推移不断增多,呈多样化发展,发文量在后期明显增加,新的研究主题不断涌现,研究内容更加丰富。1923-1994年期间的研究主题少,受关注程度低,与后期主题关联度低。1995-2002年和2003-2007年期间的研究主题开始增多,但受关注程度依然不高,大量新生主题出现,主题间的连线增多,部分主流和支流研究方向得以演化发展,少量主题出现并消亡。2008-2012年和2013-2017年期间的主题数量持续增多,研究热度明显升高,主题间演化更加复杂;主流演化方向稳定发展并持续成为研究热点,新的研究主题和稳定的专业主题出现,但受关注程度低,并未成为研究中心。总体而言,国际健康信息领域的研究处于发展状态,研究并不成熟,各时期的研究主题变化大,主题演化关系复杂,主题分化、融合、转移、再生现象明显。演化过程不稳定,研究发展至今,在两个研究方向上呈现4条演化路径。
1)健康信息查询和健康素养:①病人教育→信息、健康素养→知识→健康素养→健康素养;②病人教育→决策→癌症→信息查询、决策、数字鸿沟→信息查询。这两条演化路径由早期病人教育主题的主流和支流方向演化而来,关注患者教育材料的可读性和质量评估、支持病人教育的体验式健康信息处理模型、健康教育与健康素养的关系、健康信息和健康知识对患者治疗的影响、不同群体对健康信息的偏好和参与决策的意愿、受教育程度和健康素养水平不同的患者参与决策的方式、健康信息查询中数字鸿沟的存在及电子健康技术的使用、患者和家庭护理人员对健康信息的需求和获取、健康信息查询和使用等方面的研究。两条路径在演化过程中相互交叉融合,研究主题从早期的左下象限逐渐转移到右下和右上现象,伴随着主题的吸收、分裂、消亡和转移,主题密度变化幅度较大,发展不成熟,但核心主题在领域中的研究中心地位变化不大,一度成为研究核心。主题研究热度持续升高,影响力逐渐增强(最后一个时期因缺少时间的积累,影响力略低),发展势头良好,是国际健康信息领域的热点研究方向,演化路径相对稳定且较为明晰。
2)公共健康和健康信息技术:①课程→公共健康→隐私、病历→电子健康档案、电子医嘱→医生、健康信息技术;②课程→公共健康、技术评价→健康信息系统→初级保健→成人。两条演化路径均由早期课程主题的支流发展而来,主要关注:健康信息课程的开发与实施;电子病历、电子医嘱、电子健康档案等健康信息技术在公共健康信息系统中的使用及评价;公共健康信息的传播;消费者健康信息技术在成人公共健康初级保健门诊中的使用;病人和公众对电子健康档案的安全性和隐私的看法;病人电子病历中健康信息的隐私保护等内容。第一条演化路径发展迅速,经历第二个时期的新生状态,到第三个时期发展已较为成熟,演化过程中融合了稳定的专业主题,至最后两个时期稳定在右上现象,成为领域研究中心;前三个时期的研究热度不高,至2008年突然引起学者较大关注,研究热度迅速升高,在领域中的影响力增强,成为热点研究方向。第二条路径的演化过程较为复杂,在演化过程中不断吸收一些稳定的专业主题或新生主题,如技术评价、女性、疾病、乳腺癌等;主题演化状态从左下象限转移至右下象限,因不断融合新知识,主题内部联系松散,发展不成熟,研究地位上升缓慢;前4个时期的研究热度均不高,最后一个时期因融合较多新主题,相关文献量呈井喷式增加,在领域中的影响力也逐渐升高,成为有一定研究地位和发展潜力的基础研究方向。
4 结 语
国际健康信息领域的研究起步早,早期研究迟缓,研究主题少,热度低;后期主题数量不断增多,呈多样化发展,新的研究主题不断涌现;领域发展并不成熟,各时期的研究主题变化大,主题演化关系复杂。演化过程不稳定,在两个研究方向上呈现4条演化路径:1)健康信息查询和健康素养:①病人教育→信息、健康素养→知识→健康素养→健康素养;②病人教育→决策→癌症→信息查询、决策、数字鸿沟→信息查询。2)公共健康和健康信息技术①课程→公共健康→隐私、病历→电子健康档案、电子医嘱→医生、健康信息技术;②课程→公共健康、技术评价→健康信息系统→初级保健→成人。健康信息查询和健康素养是主要知识脉络,将持续成为研究热点,演化过程相对稳定且较为明晰;公共健康和健康信息技术的发展较为缓慢,早期受关注程度低,且演化过程不稳定,后期随着健康信息技术的使用,受关注程度升高,研究地位也随之上升,成为国际健康信息领域的热点和有发展潜力的基础研究方向。除此之外,后期出现的专业性较强的主题如抑郁症和外科手术、再生的主题如隐私和健康信息系统在未来的研究中也值得引起人们注意。