基于Hadoop的医疗健康非结构化大数据分析研究
2018-02-26赵俊孙亚丹
赵俊+孙亚丹
【摘 要】随云计算、物联网、虚拟化技术、互联网技术的发展和应用,Watson算法等人工智能技术引入医疗领域,医院为了更好地服务患者、医护人员和医疗管理人员,构建了以电子病历为核心的人口健康信息集成平台和临床数据中心CDR。医疗过程中产生数以万计的医疗数据,针对医疗领域的大数据的特点,海量的医疗健康非结构化数据蕴含着信息价值多样,本文设计了一种基于Hadoop的非结构化数据处理与决策流程,对其进行有效存储、处理、查询和分析,进而辅助某个临床医生做出更为科学和准确的诊断和用药决策,帮助医院根据患者潜在需求制定个性化服务。
【关键词】非结构化;Hadoop;大数据分析;虚拟化
Research on Unstructured Big Data Analysis for Healthcare Based on Hadoop
SUN Yadan ZHAO Jun
(Shanghai Ruanzhong Information Technology Co., Ltd, Shanghai 200235)
【Abstract】With the development and application of cloud computing ,Internet of things, virtualization technology, the hospital has built the information integration platform and Clinical Data Repository, which is the core of the electronic medical record and produces tens of thousands of medical health big data. In allusion to the characteristics of big data in the medical field, massive healthcare unstructured data contains diverse information value. The paper designs unstructured data processing and decision making process based on Hadoop , which is effective in storing, processing, querying and analyzing, and thus assisting a clinician to make more scientific and accurate diagnosis and medication decisions and to help hospitals to develop personalized service according to the potential needs of patients.
【Key words】Unstructured; Hadoop; Big data analytics; Virtualization
1 大数据的时代背景
二十一世纪以来,随云计算、物联网、虚拟化技术和互联网技术的急速成长及“三网融合”、Web2.0时代的到来,网络的迅猛发展引发了应用数据的种类和数量的快速增长。为了更好地为病人服务,进一步缓解医患关系;利于医护人员,提高工作效率,减轻人力成本;支撑管理者运营决策,宏观把控医院发展和医疗进步,构建以电子病历(Electronic Medical Record,EMR)为核心的医院信息集成平台和临床数据中心(Clinical Data Repository,CDR),提升了信息化标准水平,以病人为核心,以电子病历为基准,把医疗的全流程行为中的环节和链条有机链接在一起,形成医疗管理的闭环,包括医嘱、药品、检验、物资耗材、手术麻醉、医疗评价等环节的闭环管理。同时为保证系统的安全性,按照等级保护三级水平建设。信息平台和CDR建设应用,医院如何将CDR中的数据通过技术的工具发挥出最大价值,實现对医生工作实时进行决策,给医院运营进行实时的决策分析,最大化医院数据价值应用,引起了许多医院的管理者、行业专家广泛关注和资金投入。同时随着医疗信息化技术、EMR信息化的发展,人口健康大数据信息迅猛增长。对于浩瀚的医疗大数据信息海洋,如何高效地、有效地、有序地收集、分析、挖掘出信息之间的相关关系,将数据集合化多为精。在实际应用中,大数据和分析技术已成功应用于许多领域,如医疗信息、互联网金融、社会化媒体中的用户行为分析、电子商务等。信息风暴带来了大数据的出现大数据不仅导致了人们的生活、事业和思维方式的改变,同时引发了巨大的变革,因此大数据分析技术顺势而生,成为非常重要的研究领域,同时也逐步在医疗领域使用。
2 医疗健康大数据的特征与非结构性
大数据分析是对结构类型多样、迅猛增长、内容真实的数据进行分析、预测,会使决策更为精确,释放出更多数据的隐藏信息、未知的相关关系以及其他有用信息的过程。医疗健康大数据除了具有大数据5V特征外,还具备自身典型特征:阶段性,时效性和冗余性。随着人口健康信息化和健康医疗大数据的推进和发展,医疗信息数据的来源正在逐步转换,其中有相当一大部分的医疗信息资源是非结构化数据和半结构化数据,如一些影像数据、电子病历数据等。医疗信息资源数据主要是围绕患者的疾病周期过程中进行相关的医疗活动产生的文字、编码、影像等医疗资料,这些数据对于患者的治疗过程至关重要,同时对于医院的临床路径的制定等其他医疗活动具有指导意义。海量的医疗健康非结构化数据包含着巨大的医学价值,通过对其有效处理,辅助临床医师进行诊断和用药决策,基于大数据技术,挖掘医疗信息数据之间价值,帮助临床医生在患者治疗过程中提供制定个性化服务,也为医护工作者提供强有力的支撑,是目前医疗领域探讨的主要问题。
3 基于Hadoop的非结构化大数据分析模型构建
3.1 基于Hadoop的非结构化医疗数据处理与决策流程
医疗健康大数据具有数据量大、复杂性、多源异质性的特征,同时现实应用中产生了数以PB计的大规模数据,主要是由医疗数据库(如电子健康档案数据库和健康体检记录数据库)与互联网数据库(如健康咨询服务网站和移动医疗应用程序)生成[3]。為了保证对非结构化大数据有效、有用价值的挖掘,要求医院应具备对数以万计的非结构化医疗健康大数据进行分布式批处理、实时计算和即时分析的能力,并支持循环数据流和内存分布式计算的能力。基于医疗大数据环境和非结构化数据的特点,本文设计了一种基于Hadoop的非结构化数据处理与决策流程,如图1所示[4]:
图3-1 非结构化医疗健康大数据处理和决策分析流程
该系统主要是由非结构化数据集合、医疗健康大数据并行计算流程、并行分析过程以及非结构化大数据决策过程模块构成。非结构化数据集合模块具有多类型终端、实时采集、动态处理和远程传输的特点,主要是负责非结构化数据的采集、初级处理和向医疗数据中心远程传输数据的任务。医疗健康非结构化大数据并行计算模块主要完成非结构化数据的存储、索引、计算分析和Hadoop计算管理操作,实现非结构化医疗健康大数据的快速并行计算。医疗健康非结构化大数据并行分析过程通过对非结构化数据维度与度量的自定义,由Hadoop分析集群完成对非结构化数据的并行分析,同时将分析产生的结果上报至报表展示中心进行可视化表现。医疗健康非结构化大数据决策过程基于大数据的分析结果,综合医院决策层和医技人员的经验与判断力,为医院的战略选择与制定、医疗服务质量保障提供有力的数据决策支持,为医技人员提供临床诊疗智能决策辅助支持。
3.2 医疗非结构化健康数据分析与决策
3.2.1 构建统一数据模型
非结构化医疗健康大数据主要是医疗诊治流程中形成的文字、符号编码、图表、PACS、CT、等数据资料,大数据类型多样和标准不统一。为了方便识别、处理、存储和快速读取,医院必须采用统一的数据模型对非结构化医疗健康大数据进行刻画,才能提高非结构化数据存储、查询、处理、管理和关联分析的效率。
图3-2 医疗健康非结构化大数据模型
由图3-2所示,医疗健康非结构化大数据的特征集合U=?琢,?茁,?字,?酌,其中,?琢表示医疗健康非结构化数据的基本属性,主要包括数据的名称、类型、作者、时间;?茁表示语义特征,指在特定的情境环境中,非结构化数据用文字方式表达的专属语义,主要包括数据表现的情境、底层特征含义等语义要素;?字表示底层特征,指通过各种专用处理技术(如图像、语音、视频等处理技术等)而获得的非结构化数据特性;?酌表示原始数据,指医院所采集的非结构化数据的原生态文件。该四面体模型能够真实表现所采集的非结构化原始数据,支持语义特征与底层特征可随着服务情境变化而动态扩展,支持计算机的快速识别、处理、查询、深度处理和知识管理,是医院非结构化数据关系发现和价值挖掘的可靠保证。
3.2.2 虚拟化技术的使用
非结构化数据具有海量、数据环境复杂、类型多样和指数递增的特点,传统的医疗数据管理平台无法准确描述和高效管理非结构化数据,因此,必须构建面向大数据的非结构化数据管理平台,才能确保医疗非结构化数据管理安全、高效。目前很多医院为保证数据的安全性、数据存储的高效性、灵活性、可用性、可扩展性以及降低医院的管理成本,采用虚拟化技术。在医疗应用过程中,虚拟化技术主要用来解决高性能的物理硬件产能过剩和老的旧的硬件产能过低的重组重用,透明化底层物理硬件,从而最大化的利用物理硬件。
3.2.3 确保数据安全性和可用性
随着大数据时代的来临,国家层面、相关管理部门以及用户本人都对个人隐私信息越来越关注,2017年6月1日《网络安全法》正式实施,信息安全尤其是个人的隐私问题发生了质变,医疗行业、管理部门、医院层面逐步加强患者隐私保护问题。医院信息系统是具有高科技、高风险、实时性的特点,对于医疗活动不间断支持,同时规避发生故障以及故障发生后缩短恢复时间,必须确保信息系统的高度稳定性和安全性。随着大数据时代的快速发展,保证医疗非结构化健康数据的安全性和可用性是医院首要面临的任务。目前在医疗信息系统建设过程中,部分三级综合性医院要求达到国家信息安全等级保护制度第三级,二级医院以及专科医院达国家信息安全等级保护制度第二级。
4 结束语
目前,很多医院在医疗大数据治理收集和使用的标准不统一,从而导致在数据共享和患者隐私保护存在一定问题。患者隐私保护是数据收集和使用过程中的具有挑战性的难题,也将是未来医院信息系统使用过程中的重点建设内容。为保证医院非结构化大数据的分析与决策过程科学性和高效性,医院应以患者为中心,以“数据驱动”作为医疗非结构化健康大数据分析和决策依据,不断加强医疗非结构化健康大数据在采集、噪音过滤、价值提取和存储中的可用性与可控性管理,努力提升非结构化数据的实时分析、人机互动、科学评估和反馈优化水平,才能有效提升大数据决策的科学性和可用性水平。
【参考文献】
[1]官思发,孟玺,李宗洁,等.大数据分析研究现状、问题与对策[J].情报杂志,2015,34(5):98-104.
[2]夏新,刘博,王珏,等.大数据分析在医院医保管理中的应用研究[J].中国数字医学,2017,12(1):9-11.
[3]Rui Zhao,Yiyun Liu,Ning Zhang,et al.An optimization model for green supply chain management by using a big data analytic approach[J].Journal of Cleaner Production, 2017 (142):1085-1097.
[4]陈臣.基于Hadoop 的图书馆非结构化大数据分析与决策系统研究[J].情报科学,2017,35(1):24-28.
[5]Sreekanth Rallapalli,R.R. Gondkar,Uma Pavan Kumar Ketavarapu. Impact of Processing and Analyzing Healthcare Big Data on Cloud Computing Environment by Implementing Hadoop Cluster [J]. Procedia Computer Science,2016(85):16-22.
[6]Jorge L. Reyes-Ortiz, Luca Oneto,Dvide Anguita. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf [J]. Procedia Computer Science,2015(53):121-130.