APP下载

健康大数据挖掘方法研究综述

2018-03-26张雷王云光

软件导刊 2018年3期
关键词:数据挖掘

张雷 王云光

摘要:

为了应对当今社会健康数据持续性爆炸增长的态势,从健康大数据的概念及特点入手,针对其数据挖掘问题进行了研究,明晰了健康大数据挖掘的基本流程,重点分析比对了传统与新兴数据挖掘算法的异同及其应用范围,并对健康大数据挖掘的意义及面临的挑战进行了阐述。最后得到结论,只有将现有的挖掘算法与新兴技术结合起来,才是未来健康大数据挖掘的发展趋势。

关键词关键词:健康大数据;数据挖掘;健康医疗

DOIDOI:10.11907/rjdk.172481

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2018)003000103

英文摘要Abstract:In response to the continuing explosion of health data in today′s society,this paper firstly introduces the concept and characteristics of health big data,and then aiming at the problem of data mining, clearing the health the basic processes of data mining, analysis and compare the similarities and differences between traditional and emerging data mining algorithm and its application scope.Finally,we expounded the significance and challenges of health big data mining, concluded that the existing mining algorithms combined with the emerging technology will be the conclusion of the future trend of healthy big data mining.

英文關键词Key Words:health big data; data mining; health care

0引言

随着现代科技的进步,尤其是信息技术的高速发展,传统数据模式已不足以满足人们的需求,因此大数据引起了人们的广泛关注。人工智能和数据挖掘技术的成熟也为健康大数据的发展带来契机,人们身边无时无刻不在流动着大量有关健康方面的信息,但是这些数据分散在不同的医院、健康公司甚至个人医疗系统中,而这些系统由不同软件公司开发,它们之间缺乏联系,数据结构也不尽相同,从而形成“信息孤岛”。因此,需要对这些潜藏于大数据中有价值的健康信息进行分析与挖掘,以使其为健康医疗服务。

1健康大数据概念及特点

实际上,目前对健康大数据的定义尚未形成共识,不同学者对健康大数据的理解不同。本文采用黎建民教授[1]的说法,即健康大数据是指所有与医疗和生命健康相关的,包括患者在受到照护期间产生的所有数据的总合。

舍恩伯格[2]曾经在《大数据时代》一书中讲到大数据具有4V 特点:Volume(海量)、Velocity(快速)、Variety(多样)、Value(价值)。健康大数据除了完全符合这4个特点外(见图1),还具有健康领域特有的一些特征[3],如:①多态性,健康数据包括纯数据、信号、图像、文字等多种形态;②时序性,患者的就诊、疾病发病过程在时间上有一个进度;③隐私性,健康大数据的隐私性极高,如若泄漏将对患者造成严重后果;④冗余性,大批相同或相似的健康信息被记录下来,如与病理特征无关的检查信息或对一些常见疾病的描述信息等。

2健康大数据挖掘流程

一个完整的数据挖掘流程包括数据收集、数据预处理、数据挖掘与结果理解4 个主要组成部分[4](见图2),健康大数据的挖掘也不例外,只是在具体环节上采用的算法有所不同。

(1)数据收集:针对所选择的目标进行数据挖掘,分析与其相关的所有数据,也包括目标外部的数据信息(如天气、空气、环境等外部信息会对某些医疗行为产生影响),并选出适应于该挖掘目标的数据。

(2)数据预处理:通过收集得到的数据中通常存在噪声、不完整和不一致的数据,这是数据仓库与大型数据库的共同特点[5]。因此,需要在挖掘之前对这些数据进行预处理,以提高其质量和分析能力。具体步骤有:数据清洗与加工(通过各种方式对所收集数据的准确性、合法性、完整性、一致性、时效性等各方面进行检查,对质量差的数据进行修正甚至删除)、数据标准化(为收集的数据建立数据集标准,并按该标准进行数据格式的转换、采集)、属性选择(采用相应算法对数据属性值进行评估,选取与结果相关性高的属性)。数据预处理过程十分繁琐,往往占用整个工作流程一半甚至60%左右的时间。

(3)数据挖掘:又称为建立模型,需要确定模型的算法和评价方法。对于健康大数据的挖掘主要有2种思路:一是根据之前的经验人为建立数学模型分析数据,即传统算法;二是通过近年来兴起的人工智能系统,利用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力,即新兴算法。模型构建之后需要对模型进行评估和优化,若有必要还需返回上一流程进行参数调整。

(4)结果分析:即对模型的解释,实际应用效果要反馈给建立的模型,而且要根据应用效果进行模型的相应调整。

3健康大数据挖掘算法

在健康大数据时代,数据的产生和收集是基础,挖掘是关键,数据挖掘是健康大数据研究中最关键且最有价值的工作。传统的挖掘算法有分类、聚类、预测、关联规则等。这些算法在分析健康大数据时依然可以使用,但是由于大数据的超大规模性和快速增长性,传统挖掘算法的效率有时跟不上用户预期,而且在处理非结构和半结构化复杂数据时面临一定困难。而新兴的算法如网络爬虫、云计算等挖掘方式效率更高,应用范围也更广,处理实时且快速。

3.1传统算法

3.1.1算法分类

通过找出数据库中一组数据对象的共同特点即分类标号,然后根据训练数据集和类标号属性构建模型,对现有数据及新数据进行分类 [6]。具体分类算法有决策树、神经网络、支持向量机、贝叶斯分类等。

其中在健康医疗领域应用比较广泛的有决策树算法,决策树是一种典型的分类算法,其在医药大数据的处理中十分常见。决策树是一种类似于流程图的树结构,决策树算法是通过测试每个属性的信息增益,选择具有最大信息增益的属性作为当前节点的测试属性,并自上而下对属性进行递归划分从而构建树的算法。它可以提高处理多维且数量巨大的医药数据的速度,因此为数据量巨大的医疗大数据处理带来了便利。 而且,此方法也可以用于一些需要长期观察的慢性病研究,分析疾病的变化趋势,对疾病作出预测。决策树算法的最大优点是它可以自学习,在学习过程中,并不需要使用者了解很多背景知识,只要训练事例能够用属性-值的方式表达出来,就能使用该算法进行学习。此外,决策树算法的健壮性较好,还能够处理非线性关系。但是它也存在着缺乏伸缩性的缺点,即由于进行深度优先搜索,所以算法受内存大小限制,难以处理大训练集。

3.1.2聚类

聚类类似于分类,但与分类的目的不同。聚类是把不同的对象集合分成若干个不同类别的模型,每个模型具有相似的对象,有着基本相似的特征,又与其它类别中的对象不同[7]。聚类算法又分为划分法(如K-MEANS、K-MEDOIDS算法)、层次法(如BRICH算法)与基于密度的方法(如DBSCAN算法)。通过聚类方法可以对医疗大数据进行分类处理,找出与其它病症不同或类似的病症,从而能够分析出同一病种的微小差异, 做到精准治疗。如Hastie等[8]通过对疼痛反应结果的聚类分析,完成了对热性疼痛、压力性疼痛、缺血性疼痛的诱因分析。聚类分析在医疗健康记录的关键词分类、生理信号分析中也发挥着重要作用。但是也要注意到目前的许多聚类算法都只是理论上的,经常处于某种假设之下,比如聚类能很好地被分离,没有突出的孤立点等,但现实中的数据尤其是医疗数据通常很复杂,噪声也很大。因此,如何有效地消除噪声影响,提高处理现实数据的能力还有待进一步研究。

3.1.3预测

预测是指基于历史数据建立模型,运用数据对未来发展趋势进行测算,以预先了解事情发展的结果。具体预测方法有回归分析(简单线性回归、多元线性回归、非线性回归)和时间序列(时序平均数法、移动平均法等)。

其中,回归分析方法在健康领域应用较多。回归分析方法反映的是数据库中属性值在时间上的特征,其主要研究包括数据序列的趋势特征、数据序列预测以及数据间的关系等问题。例如对医院信息系统中医疗风险因素的回归分析,即分析各个影响因素与医疗风险之间的联系及引起风险的概率变化,用于指导医院的风险管理。但有时在回归分析中,选用何种因子和该因子采用何种表达式只是一种推测,从而影响了因子的多样性,使回归分析在某些情况下受到限制。

3.1.4关联规则

关联规则是描述数据库中数据项之间所存在的某种潜在关系的规则,也即可以从一个事务中某些项的出现推导出另一些项在同一事务中也将出现。该方法能够发现医疗信息数据库中满足目的的最小支持度和最小可信度的所有關联规则,从而揭示隐藏在健康大数据中的关联关系[9]。在一些存在大量用户医疗信息的数据库中,比如个人健康信息、临床治疗信息、临床诊断信息等,可以通过这一方法进行数据的挖掘处理,实现疾病的临床决策和特殊疾病诊断[10]。关联规则算法对患者所表现出的疾病特点及诊疗过程研究十分有效,但其也存在着在每一步产生侯选项目集时循环产生组合过多的缺点,且没有排除不应该参与组合的元素,从而产生过多的候选项目集,导致I/O负载大。

3.2新兴算法

3.2.1云计算

云计算作为一种高扩展、高弹性、虚拟化的计算模式,为健康大数据挖掘存储能力及处理速度提升提供了动力支撑。基于云计算的数据挖掘是分布式并行数据挖掘与服务模式,一方面对于同一算法可以分布于多个节点上,另一方面多个算法之间是并行的,多个节点的计算资源可以按需分配。基于云计算的数据挖掘可以将传统算法,如关联分析、决策树、神经网络等算法结合使用。其主要有以下优点:①减少费用。医院或医疗机构之间不需要单独建立一个计算中心,只需要在云平台上购买所需的服务,从而节省了大量费用;②高可靠性。云计算使用数据多副本容错、计算节点同构可互换等措施,从而保障了服务的高可靠性,使用云计算比使用本地计算机更加可靠;③移动化。相比于传统基于本地的服务,云计算可以使人们随时随地进行移动办公。目前,基于云计算的大数据挖掘在健康领域主要应用在医学图像诊断、临床决策支持等方面[9]。

3.2.2网络爬虫

运用网络爬虫技术打破数据壁垒,对健康大数据进行整理融合,对数据挖掘具有十分重要的意义。而且先进的健康数据大都存在于网页之中,而运用网络爬虫(Web crawler)技术可以快速、准确地获取大量网页信息,并实现数据的实时更新[11]。

网络爬虫的核心原理为: 通过统一资源定位符(URL)地址,利用超文本传输协议 (HTTP) 模拟浏览器请求访问网站服务器的方式,封装必要的请求参数,获取网站服务器端的许可,返回原始页面并解析数据,其一般工作流程如图3所示。

卞伟玮、王永超等[12]利用网络爬虫技术快速、准确地获得公共卫生服务系统的医疗数据,并进行数据整理,为建立人群健康风险评估模型提供数据基础。然而目前基于网络爬虫的数据挖掘算法在健康领域的应用还不太广泛,有待进一步研究。

4健康大数据挖掘面临的挑战

目前健康医疗大数据技术还处于早期发展阶段,许多专业医疗机构、研究机构、企业都参与其中,推出各种特色的应用方案,以期挖掘健康医疗大数据的价值, 促进健康医疗行业发展。因此,健康医疗大数据将在医疗行业发挥越来越重要的作用。尽管如此,在实际应用中还存在许多问题和挑战:

(1)数据共享困难。“信息孤岛”普遍存在,来自不同医疗机构的数据结构差异性大,比如各个医院的电子病历格式都不相同。在这种情况下进行挖掘,会延长挖掘周期,从而大大限制健康医疗数据的应用范围。

(2)数据标准不统一。各医疗机构通常有自己的信息化系统,且不同厂商的设备标准也不一样,导致挖掘健康大数据时采用的原始数据质量较差。

(3)隐私保护堪忧。这主要是由于健康大数据的高度隐私性决定的,不同于其它大数据,健康大数据一旦发生泄漏,将损害患者的人格和尊严,特别是基因数据。由于每个人的基因数据都不相同,所以一旦泄漏后果不堪设想。如何在数据挖掘和分析过程中保护好患者隐私,是一项巨大的挑战。

(4)复合型人才不足。医疗行业缺乏既精通医疗业务又擅长信息技术的新型健康管理人才,这已成为阻碍健康大数据挖掘技术应用的一大难题。

5结语

医疗健康与人类生活息息相关,如今正处在健康医疗行业大数据分析的一个重要转折点,如何更好地利用身边的大数据,促进人们生活水平的提高,是一个亟待解决的问题。健康大数据的应用,不仅可以为人们带来更好的医疗健康服务,更重要的是在应用中,利用大数据挖掘算法可以不断发现新的知识内容,从而促进医学技术进步。而每一种数据挖掘算法都有其优缺点,适用范围也不相同,因此在以后的研究中需要比较每种算法的优缺点,并将它们与新兴技术结合起来,这将是未来健康大数据研究的重点。

参考文献参考文献:

[1]黎健民.大数据时代下的医疗康复与健康[J].中国医药导报,2016,13(33):178181.

[2]迈尔舍·恩伯格,肯尼思·库克耶.大数据时代生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[3]许培海,黄匡时.我国健康医疗大数据的现状、问题及对策[J].中国数字医学,2017,12(5):2426.

[4]李雨童,姚登举,李哲,等.基于R的医学大数据挖掘系统研究[J].哈尔滨理工大学学报,2016,21(2):3843.

[5]JIAWEI HAN,MICHELIN KAMBER.數据挖掘:概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008:3031.

[6]SCHAFFER,CULLEN.Selecting a classification method by cross validation[J].Machine Learning, 1993,13(1):135143.

[7]宋波,杨艳利,冯云霞.医疗大数据研究进展[J].转化医学杂志,2016,5(13):298300.

[8]HASTILE BA, ROBINSON ME,et al.Cluster analysis of multiple experimental pain modalities[J].Pain,2005,116(3):227237.

[9]孙艳秋,王甜宇,曹文聪.基于云计算的医疗大数据的挖掘研究[J].计算机光盘软件与应用,2015(2):1113.

[10]FANG Z,FAN X,CHEN G.A study on specialist or special disease clinics based on big data[J].Front Med,2014,8(3):376381.

[11]孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术,2010,6(15):41124115.

[12]卞伟玮,王永超,崔立真,等.基于网络爬虫技术的健康医疗大数据采集整理系统[J].山东大学学报:医学版,2017,55(6):4755.

责任编辑(责任编辑:黄健)

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议