基于多源数据整合的居民死亡数据管理与分析研究
2020-03-29汤娟华
汤娟华 陆 凯 袁 焱
常州市卫生健康数据管理中心 江苏 常州213003
一、课题的主要研究内容分析
1.数据采集。通过近几年来的建设和发展,常州市卫生健康数据管理中心管理的区域全民健信息平台已经收集并存储了三十多亿条医疗卫生数据,当前存储在中心机房中,并计划在2020年内迁移到电子政务云——卫生健康专区存储,得到“两地三中心”的容灾备份支持,因此在数据存储和保管方面已经拥有比较完善的基础设施。
2.标准模型建立。考虑对近10年的居民死亡数据进行研究,在研究过程中需要搭建相应主题的数据仓库。首先构建逻辑模型,也就是列出需要分析的主题、明确需求目标、定义关系模式,同时在逻辑模型的基础上对实体的属性、属性的值域等信息进行明确、完善和细化。在逻辑模型建立完毕后,需要基于逻辑模型将其转换为物理模型,主要包括将实体名转换为表名、将属性名转换为列名,确定列的属性;在物理模型的创建过程中,必须要对列的属性进行明确,包括列名、数据类型等。确定物理模型之后,对于数据的存放位置和存储空间的分配等也同时进行规划。
3.数据处理和数据整合。预期建立的居民死因数据档案数据来源包括全民健康信息平台中存储的健康档案数据、江苏省死亡登记系统中常州区域的死因数据、常州市民政系统的殡葬数据和公安系统的非正常死亡数据等,不同的数据来源由于其侧重点的差异,在数据结构设计上存在着较大差异,数据的准确程度也各有不同。全民健康信息平台中存储了居民的健康档案信息和体检相关信息,其中也包括了居民的个人基本信息及就医记录等,但由于数据来源限制,其个人基本信息可能存在部分缺失和更新不及时等问题,死亡登记系统中的数据更加侧重于由直接死因、其他死因和时间间隔等构建起来的死因链,其病理数据记录较为全面也更权威,但由于历史全因,其ICD疾病分类与编码等存在多个不同的版本。民政的殡葬数据主要提供了殡葬地点和较为笼统的死因、住址等信息,公安的非正常死亡数据则是对数据完整性的进一步补充。
4.统计分析。根据数据标准完成数据整合后,需要对数据进一步进行分析。包括但不限于通过数据统计分析工具对每年的死亡人口年龄结构变化、职业结构变化、区位变化、因心脑血管疾病、癌症、慢性呼吸系统疾病和糖尿病这4类重大慢性病导致的死亡数、疾病费用负担等进行分析。
5.数据挖掘算法应用。当前国内对于死因数据的研究主要集中在死亡率计算、生命表编制和死因链分析等基于统计基础的分析和基于医学研究的分析,将数据挖掘技术应用于死因数据的情况还比较少,因此具有一定的尝试和探索价值。当前数据挖掘技术已经在许多领域得到了较好的应用,其中应用广泛的分类回归算法、关联规则算法、聚类算法等监督和非监督算法能否成功应用于死因数据,进行死亡人群分类、预期寿命估计等工作,是本课题需要重点研究的部分之一。
二、研究的实践意义
1.促进数据管理,强化互联互通。当前大数据在医疗健康领域的应用还处于起步阶段,有大量的医疗健康数据因为不符合数据标准、或缺少数据整合而无法进行利用,仍处在“冷数据”状态。当前卫生健康部门收集存储的医疗数据与政府其他各部委办局收集存储的数据之间也存在着“信息孤岛”的现象,跨区域、跨部门的数据交换并不畅通。通过市大数据局管理中心进行部门间数据交换,整合卫健、民政和公安等多个来源的居民死亡相关数据,集中到市级全民健康信息平台上,才能形成较为完整和全面的死因档案数据用于统计分析和算法数据挖掘。
2.推动平台建设,促进全民健康。目前,以人为核心的数据资源在医学诊疗过程中的成功运用,不仅给老百姓带来更加便捷的看病服务,而且进一步提高了医疗资源的利用效率。在平台建设过程中,收集整合死因相关数据,并研究制定相应的数据标准,对数据进行后标准化,有利于平台真正意义上实现全生命周期健康数据管理。此外,当前平台缺乏及时的档案封存工作,这不仅加大了数据存储的负担,也一定程度上影响到了平台数据的准确性。将死因数据整合纳入平台管理,有利于对健康档案及时进行更新和注销,也有利于平台数据质量的进一步提高。另一方面,将全民健康信息平台上现有的数据补充到死因档案中,有助于进行更有效的数据分析。现有的死亡登记系统中存储了详细的死因链等信息,但并没有包括居民的电子病历信息,也就是无法获知其历史就医经历。将历史就医经历补充到死因分析中,能够得到更多有价值的结论,也有利于改善居民健康,延长居民平均寿命。
3.应用相关算法,挖掘数据价值。死因数据分析具有重要的意义,大到国家,小到地区的卫生和经济状况某种程度上都可以通过死因数据分析了解到,分析结果也可以为卫生政策的制定提供依据。数据分析得到的指标可以反映一个国家或者地区的卫生状况、经济水平和文化发展情况,也能够为制定卫生保健措施、卫生事业发展规划乃至社会经济发展提供科学的依据,同时也是医学、人口学、社会学等学科研究的基础参考信息。随着数据价值逐渐被大众所认知,数据挖掘技术在近年来有了长足的发展和进步,目前已经被广泛应用到了各个领域。数据挖掘算法主要包括监督学习算法和非监督学习算法两大类别。监督学习算法又分为分类算法和回归算法,主要包括最近邻(KNN)算法,决策树算法等,非监督学习算法则主要包括聚类方法和关联规则分析算法,常用的有K-均值聚类等。
三、结语
将数据挖掘相关技术和算法应用到死因数据上来,一方面可以弥补传统的统计研究方法中存在的不足,从不同的维度和层面挖掘到有价值、可利用的信息,为政府相关部门的政策制定提供参考意见,另一方面也可以拓宽数据挖掘技术的应用领域,在实践中进一步促进其发展和进步。