APP下载

医疗大数据应用和技术若干问题探讨

2019-09-10杨厂锋胡晓娟张湘星

现代信息科技 2019年9期
关键词:电子病历数据仓库数据挖掘

杨厂锋 胡晓娟 张湘星

摘  要:随着信息技术的不断发展,新一代移动互联网的技术的不断成熟,以及最近兴起的物联网、人工智能等的迅猛发展,大数据的浪潮已经悄然降临。医疗服务作为人类最基本的需求之一,医院信息系统,电子病历、影像、远程医疗等都会产生大量的数据,但是数据都存在于各个分散的医疗机构之中,形成信息孤岛,数据的种类复杂,大多数都没有得到充分利用。本文对医疗大数据的概念进行剖析,并对医疗大数据的应用方向进行了探讨,在此基础之上,阐述医疗大数据处理的基本框架和技术,最后归纳总结医疗大数据面临的挑战和其未来发展。

关键词:医疗大数据;云计算;数据挖掘;数据仓库;电子病历

中图分类号:R197.32;TP311.13       文献标识码:A 文章编号:2096-4706(2019)09-0106-03

0  引  言

随着新一代移动互联网的快速发展,以及物联网和云计算技术的兴起,数据呈现爆炸式增长,大数据的时代已经悄然到来。医疗行业从二十世纪九十年代开始,医院信息化发展迅速,积累了海量结构数据和非结构化数据,也面临着大数据的挑战。知名咨询公司麦肯锡在其研究的报告中说明,大数据分析可以帮助美国的医疗相关产业每年创造超过3000亿美元的附加价值。

医疗大数据概念的火热传播,并不意味着对于医疗大数据的深入了解,比如医疗大数据的概念、关键技术,以及在其利用上存在的很多疑问,尚且没有深入的了解,有一些应用也还处于初始探索阶段。本文对医疗大数据的概念进行剖析,归纳总结医疗大数据应用的分类,在此基础之上对医疗大数据所用到的技术框架进行解析,最后对医疗大数据遇到的挑战进行阐述。

1  大数据与医疗大数据的概念

大数据从表面上理解,是一个比较抽象的逻辑概念,从字面上来说,就是数据累积的规模庞大。但是仅从数据量上来说和以前讨论的海量数据、超大规模的概念没有什么区别,对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过对这些特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是3V定义,即认为大数据需满足三个特点:规模(Volume)、多样性 (Variety)和高速性(Velocity)。

医疗大数据的概念,除包含大数据的这3个特点外,还具有其他一些特点:第一,医疗数据的来源分散,来源于成千上万的医疗机构之中;第二,医疗数据的异构性突出,结构化和非结构化数据大量存在;第三,点医疗数据含有更高的价值。

2  医疗大数据的应用方向

2.1  临床辅助决策

临床治疗是复杂的,从长期看,治疗不足或者治疗过度都会对病人的健康带来负面的影响,并产生高昂的医疗费用。通过研究表明,对同样一种疾病同样一个病人,不同的医疗机构,治疗的方法和护理的手段存在差异,所耗费的医疗资源和费用也有显著差异。通过分析病人的费用数据、治疗信息、体征数据等,可以给医生提供最优的治疗方案,达到效果最好,成本最节约。通过对大型三甲优质医院的电子病历进行分析,分析患者的症状、主诉、病史等信息,可以給医生提供多种的诊断和治疗方案,通过对比各种方案,医生可以选择最佳诊疗路径,可以大幅度减少平均住院天数,降低成本。

2.2  医疗质量监管

通过对医院内部数据进行分析,可以充分地发挥医院自我评价的作用,促进医院内部“医疗质量和医疗安全”的持续改进。大数据改变了原有的现场评审方式,摆脱了以往制度文件的检查方法,将所涉及的各专业和科室贯穿在一起进行整体评价,通过对医院运营和临床诊疗数据的实时抽取、自动转换、集中存储、统一展示,实现对临床业务的规划、协调和控制,实时监测和管理医疗机构的日常运营,为领导决策提供及时、真实、可信的数据,以保证医疗质量和医疗安全。

2.3  疾病预测模型

通过大数据可以分析某种疾病和症状,检查检验数据的相关性,科研人员可以通过这些数据构建出典型疾病的疾病预测分析模型,这些数据模型是固定不变的,会随着数据的不断积累,进行动态的自我学习(机器学习),随着数据的变化不断调整优化。基于大数据的疾病预测模型可以很好地利用数据潜在的知识,不会受到其他因素的影响,从而帮助患者更早地预防疾病或者采取最佳的治疗方案。

2.4  临床实验分析

分析病人住院期间的诊疗记录,以及临床试验数据可以发现各类药品的副作用和适应症。对这些数据进行分析后,可以对药物的疗效进行重新定位,并且可以发现药物的其他适应症,并进行针对性的产品营销。实时收集药物的不良反应报告,可以促进药物的研发改进。还有一个很重要的方面就是,以前没有足够的数据去证明的药物的新情况,基于临床试验的大数据就可以很好地给予佐证。

2.5  个性化治疗

个性化治疗,或者称为精准医疗,通过对大型人体基因组数据进行分析,分析遗传变异、特定疾病的易感染性和药物反应的关系,在药物研发和用药过程考虑各个患者的遗传因素。

个性化医疗可以大幅度提高医疗保健效果,在患者发生疾病前,就进行早期检测和诊断。在临床中,经常发生同样的疾病,用同样的诊疗方案,效果却完全不一样的情况,很重要的一部分原因就是遗传因素,针对不同患者的个性诊疗方案,根据具体情况调整药物种类和剂量,可以最大程度减少副作用,提高诊疗效果。

2.6  对患者健康档案的挖掘分析

在患者健康档案方面可以整合历次在各医院的就诊记录以及体检信息,形成完整的患者一生全视图,应用统计学方法可以分析出哪类人群容易感染哪种疾病、不同地区患者所患病种类的不同、各个病种年龄段的分布情况等等。举例说,可以分析出哪类人群容易患高血压、糖尿病、高血脂症,可以给患者提早进行保健知识的宣传,尽早接受预防性保健方案,并且可以从疾病治疗指南或者疾病管理方案中找到最好的治疗方案。

3  医疗大数据关键技术

3.1  云计算和云存储

云计算是通过使计算能力分布在大量的分布式计算机集群上,而不是本地单个计算机或者远程服务器中,计算能力甚至可以带到万亿次的级别,运用形象的比喻来解释就是从单台发电机模式转向了大型电厂集中供电的模式。这样可以使计算能力作为一种商品进行流通交易,计算就如同水电一样,获取方便,并且费用低廉。

云存储是在云计算概念的基础上扩展出来的一个新的概念,是指使用集群应用、网格技术或分布式文件系统等功能,将大量不同类型的存储设备通过软件集成起来协同工作,对外提供数据存储服务和业务访问功能的一个系统。当云计算系统运算和处理的核心是对大量数据的存储,以及对存储的管理时,云计算系统中就需要配置和管理大量的存储设备,这时云计算系统就转变成为一个云存储系统,因此云存储是一个以数据存储和管理为核心的云计算系统。

3.2  数据仓库和数据挖掘

数据仓库,是为决策制定过程,提供所有类型数据支持的集合,出于分析性报告和决策支持目的而创建的。为需要智能业务的部门,提供业务指导,流程改进、时间监视、成本、质量控制等。数据仓库是决策支持系统和联机分析应用数据源的数据环境。数据仓库主要解决从数据库中获取决策信息的问题,数据仓库的特征包括面向主题、集成性、稳定性和时变性。

数据挖掘是通过算法分析每条数据,从海量数据中寻找其规律,发现潜在问题和信息的技术,主要有数据清洗和准备、规律发现和规律展示3个步骤。数据清洗和准备是从相关的数据源中选取所需的数据进行清洗规整,并集成用于数据挖掘的数据集;规律发现是用各种算法将数据集所含的潜在规律找出来;规律展示是用用户容易理解的方式(例如可视化图表)将发现的规律展示出来。

3.3  常用的数据架构平台

以下常用的主流平台都可以在医疗大数据中采用。

3.3.1  Hadoop分布式平台架构

它是Apache基金会所开发的分布式基础架构,使用该架构的用户不需要了解分布式的实现细节,来开发分布式程序,使用集群进行高速存储和运算,该计划是完全模仿Google体系架构做的一个开源项目,其核心包括Map/Reduce和HDFS文件系统,HDFS提供了海量数据的存储,Map/Reduce提供了海量数据的计算。

3.3.2  AbiCloud云计算平台

AbiCloud是一款开源的云计算平台,使用者能够简单、快速、可扩展地创建和管理复杂的大型信息基础设施,包括虚拟服务器、网络、存储设备、应用等。能够用来开发公有、私有,或者混合云,以及云应用的各种基础设施。

3.3.3  Eucalyptus开源软件基础架构

它是一款开源的软件基础架构,通过集群或者工作站实现弹性的、实用的云计算,创建了一个能够用内部IT资源(包括服务器、存储系统、网络设备)的开源界面,来建立能够和EC2兼容的云计算平台。

以上云存储、云计算、数据仓库等形成典型的医疗大数据架构,如图1所示。

图1  医疗大数据技术架构

4  医疗大数据面临的挑战

4.1  缺乏政策制度方面的支持

众所周知医疗行业是“人命关天”,医疗大数据的研究核心数据是病人的诊疗信息,所有这些信息都涉及病人的隐私。所以必须要有相关的法律做保障,明确数据存储,共享的范围和边界,以及要承担的责任。只有在法律法规的规范下才能使医疗大数据真正落地应用,真正挖掘出医疗大数据的价值。

4.2  缺乏统一的数据标准

对医疗大数据进行研究,首先是收集各个医疗机构的异构数据,这种数据包括医疗诊断、处方、检验等结构化的数据,也包括PACS系統的大量非结构化的数据。要进行大数据研究,必须制定统一的数据共享标准,打破信息孤岛造成的障碍。

4.3  系统的异构性和数据的异构性

各个医院的系统使用的技术架构各不相同,数据的异构性也普遍存在。其中比较典型的例如医院的电子病历,电子病历的发展从二十世纪末至今已有二十多年的历史,其发展历程大致可以分为三个阶段。

第一阶段,类似文本式的录入电子病历,这种模式取代纸质病历,但是没有结构化、标准化,使用不方便。

第二阶段,改善了电子病历的结构,而且发展出了电子病历的专业厂商,取代了文本式的电子病历。提高了电子病历内容标准化程度,并且提高了有效性和规范性,但是结构化方面依然存在一些问题,例如术语不规范,以至于不能很好地实现医院间共享。

第三阶段,从电子病历发展出集成化的电子病历系统,其能够保证在一个完整统一的界面完成整个医嘱的录入、执行和查询等工作,并且可以方便地获取检查、检验、生命体征等数据。

虽然经历了这3个阶段,但各个医院的电子病历发展参差不齐。大多数的医疗机构的数据不能方便地提取。从而造成如图2所示的结果。

图2  医院系统的复杂性

5  结  论

随着医疗数据的爆发式增长,正确利用大数据将为医疗行业带来前所未有的改变。本文对医疗大数据相关方面进行了回顾和总结,介绍了大数据和医疗大数据的基本概念,详细分析了大数据的关键技术,着重介绍了目前医疗大数据研究面临的挑战。总体上说,目前对于医疗大数据的研究仍处于一个初步的研究探索阶段,主要集中在数据标准化、数据收集、数据处理阶段,还有很多基础性的问题有待解决,只有解决了这些基础性问题,医疗大数据才能真正发挥巨大的价值,因此医疗大数据的发展还有很长的路要走。

参考文献:

[1] [美]埃里克·托普.颠覆医疗:大数据时代的个人健康革命 [M].张南,魏薇,何雨师,译.北京:电子工业出版社,2014.

[2] 董建成.医学信息学的现状与未来 [J].中华医院管理杂志,2004(4):232-235.

[3] 孟薇薇.信息爆炸时代的新概念——大数据 [J].商品与质量,2012(9):9.

[4] 李晓辉,王淑艳.大数据及其挑战 [J].科技风,2012(23):51.

[5] 许继楠.医疗服务业率先受益于大数据 [N].中国计算机报,2012-02-20(第17版).

[6] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代——生活、工作与思维的大变革 [M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.

[7] 周光华,李岳峰.数据挖掘技术在卫生统计信息工作中的应用研究 [J].中国卫生信息管理杂志,2012,9(6):82-86.

[8] 汪鹏,李刚荣,周来新.电子病历系统发展趋势 [J].中国数字医学,2011,6(9):19-21.

[9] 梁铭会,俞汝龙,舒婷,等.我国电子病历立法原则的探讨 [J].中国数字医学,2010,5(5):5-9.

作者简介:杨厂锋(1984.04-),男,汉族,陕西乾县人,助理工程师,本科,研究方向:医学信息大数据及应用研究、医院信息平台研究。

猜你喜欢

电子病历数据仓库数据挖掘
基于数据仓库的数据倾斜解决方案研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
电子病历保全与认证研究
数据仓库系统设计与实现
基于R的医学大数据挖掘系统研究
现阶段电子病历问题的探讨及改革
电子病历临床信息系统的解决方案
数据复用在存储数据仓库中的运用
数据仓库技术在档案管理领域的应用