基于新型慢病管理模式的医疗数据分析模型的构建
2017-07-27谷静怡程建峰
谷静怡+程建峰
一、检+疗+管理+反馈为一体的慢病管理模式
国内慢病管理的领域内教新的一种慢病管理模式即为慢病管理生态圈的构建,其具有:互动、大数据、人工智能、移动检测、社群管理、公共服务、公益、资源共享等鲜明的特点,基于这些特色功能,使得慢病可防可控成为可能。在国家慢病防控体系的基础上,将以各级综合医院、社区医院为主,体检机构、移动医疗厂商为辅的“检+疗+管理+反馈”的慢病服务体系。结合云服务综合整理分析各环节医疗数据,与各环节共同构建可持续的慢病管理生态网。本模式的第一特色是“寓乐于医”的设计理念,旨在让患者在轻松愉快的状态下进行自身的健康管理。第二特色是全面系统的健康管理,我们通过对合作医院方提供的大数据进行缜密分析并且结合专家团队的意见,制定了针对不同的年龄层健康管理方案,主要包括针对年轻用户的习惯养成方案和针对中老年用户的健康管理方案。第三特色是认知计算的切入点,本团队通过终端平台收集精准的人體数据,通过选取准确的数据挖掘工具和数据分析方法,对用户的体征和行为习惯进行分析,并为之匹配相应的服务。本项目的终端目标是打造多种资源聚合,多重服务融合的app:疾病相关资讯+慢病管理+第三方硬件病情监测+医院干预+公益服务。
二、慢病医疗数据的处理
海量医疗数据服务中存在大量的数据统计以及基于数据统计构建的功能服务,随着服务需求的不断提高,对统计的查询响应时间提出了较高要求。同时,医疗数据数据量大、关联性强、不同用户对相同数据的请求不尽相同,这些都对存储模型提出了很大的挑战。本文提出了一种基于统计树的海量医疗数据的快速统计方法,优化存储模型,提升计算效率,高效的支持多样化的医疗数据服务。
海量医疗数据挖掘平台具有以下三个特点:第一,灵活性。患者的病历档案中新增检测项,或增加新的医疗服务需求,无需大规模变动原有业务,造成系统重构。第二,可扩展性。平台基于云计算架构,弹性存储,绿色节能,具有较强的存储可扩展性;同时,该架构灵活性强,层与层之间相对独立,增强了其计算的可扩展性。第三,重用性。该架构将实时数据处理与批量数据处理有机结合,不仅适用于海量医疗数据的挖掘处理,同时可用于海量交通数据处理、海量物流数据处理等行业。
行政数据,主要包括从医疗支付方(医疗保险机构)或者医疗机构获得的理赔信息等,通常涉及病人所使用的医疗服务、相关诊断信息、提供服务的医疗机构及时间地点、以及费用明细与支付情况。
临床数据,包括从医疗机构获得的电子病历(EMR)、医疗影像数据、处方信息等。
体征数据,例如由检测仪器测量所得的体重、血压、血糖水平等信,以及饮食、运动、睡眠等自我跟踪信息。随着可穿戴设备及相关手机软件的广泛应用,此类数据量越来越大也越来越多元化。
个人及偏好数据,例如性别、年龄、职业等基本信息以及个人偏好、对产品和服务满意度等主观信息。
由于数据量大、种类繁杂,不同类型的数据之间会有交叉或者交集。例如处方数据,既可以从医疗机构的信息系统中获得——即临床数据的一种,也可以从医疗保险机构的理赔数据库中找到——即理赔信息的一部分;又如血压等信息既可以从随身携带的便携血压计测量得到(体征数据),也可以在医疗机构的电子病历中发现(临床数据)。
综合所构建的海量医疗数据挖掘平台的层次模型、平台系统的服务特点、数据存储策略、数据处理流程各部分的设计原则,绘制出海量医疗数据挖掘平台的设计框架如上图所示。
业务层:业务层位于最上层。通过调用功能层单一服务接口,或多种服务接口组合,形成针对于患者、医生、医疗机构、管理部门等不同对象的多样化服务。其包括但不限于报表统计、实时在线查询、临床决策、疾控预警、患者行为分析等服务。
功能层:功能层位于服务层下面。其主要作用是作为服务接口层,平台层通过多种处理方式计算所得的结果形成多样化的服务接口,供业务层进行调用。其主要包括机器学习、深度挖掘、分析统计、实时查询等功能。
平台层:平台层位于功能层之下,基础层之上。主要功能是计算处理各种医疗和健康数据。包括原有系统数据的导入,实时数据流处理,批量数据处理系统以及用于数据挖掘的算法库。能够高效支撑实时离线多种数据处理需求。
基础层:基础层是平台的最底层,提供海量医疗数据挖掘平台运行的支撑平台。其采用云计算架构,弹性存储,灵活可扩展,便于对海量异构的医疗数据进行分布式存储。在云平台上部署有分布式文件系统HDFS,NoSQL 数据库HBase以及MySQL数据库等多种类型数据库,保证复杂多样的医疗数据存储。基础层的主要工作是管理和维护基础硬件设备及数据存储,保证平台的高性能、高可用和高扩展。
异构复杂的海量医疗数据,实时接入Storm流数据处理系统,结合基于统计树及增量计算的动态统计策略,实现数据融合并汇入基于云计算搭建的海量医疗数据挖掘平台得到整合信息,通过深度学习、贝叶斯网络、关联规则等数据挖掘算法将信息转化为知识,进而为不同对象提供实时精准的个性化数据服务。
实时数据的存储和处理过程运用了统计树的方法,使得后续基于统计的数据挖掘变得更为高效。
经存储、处理后的数据形成了便于挖掘的整合信息,根据不同的医疗数据服务需求,选取适当的数据挖掘算法,本文选取了贝叶斯网络及关联规则算法分别实现了疾病与检测参数的关联性挖掘、疾病与疾病之间的关联性挖掘。