APP下载

基于MapReduce 的健康大数据并行挖掘算法研究

2023-06-16何慧敏梁志胜

现代电子技术 2023年12期
关键词:数据挖掘规范化聚类

陈 榆,何慧敏,梁志胜,欧 旭

(广西医科大学 信息中心,广西 南宁 530021)

0 引 言

信息时代的到来,使得信息技术得到了极好的发展,在多个领域被广泛关注和应用,尤其是医疗领域。医院信息系统、临床信息系统、电子病历等相继建立完成,再加之移动医疗、自动化分析检测仪等设备的普及,医院、医生与患者均成为了数据的直接创造者,健康大数据呈现指数级别增长的趋势[1]。与此同时,医疗数据交换平台、区域医疗平台的构建,打破了医疗数据的区域限制,形成了多种多样的数据库,例如基因组数据库、癫痫病数据库、心脏病数据库等,通过数据共享使得数据体量飞速增长。健康大数据具有实时性强、数据量大、潜藏价值高、种类丰富等特点,如何对其潜藏价值进行深度挖掘,是提高医疗服务质量、加强个人健康管理的关键所在。

随着中国老龄化的加剧、疾病年轻化,健康大数据受到了前所未有的重视。虽然健康大数据中蕴藏着庞大的潜藏价值,但挖掘过程却充满困难与挑战。文献[2]提出一种基于关联规则与相似度的数据挖掘算法,读入数据并构建矩阵,利用关联规则支持度度量的特性来增加判断属性,以加快结束迭代过程;再使用相似度算法去除冗余的关联规则,结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出,从而得到用户感兴趣的关联规则。文献[3]提出基于Change-Point 的风电数据挖掘算法,通过划分不同置信区间求取置信度的方法,解决奇异变点的不确定度问题,完成风电数据的挖掘。但是,上述方法在数据挖掘过程中没有对数据进行处理,导致数据挖掘效率较低。对此,本文提出一种基于MapReduce 的健康大数据并行挖掘算法。

1 健康大数据并行挖掘算法

1.1 健康大数据预处理

预处理是健康大数据挖掘中至关重要的一个环节,是在并行挖掘之前对健康大数据进行人为处理,其处理结果的优劣直接关系着挖掘数据潜在价值的多少。一般情况下,原始健康大数据是脏数据,存在着大量的噪声,故需要对其进行一定的预处理,为后续健康大数据的聚类奠定坚实的基础[4]。

1.1.1 健康大数据去噪处理

以规范化健康大数据集合Y为基础,应用双边滤波算法去除噪声,提升健康大数据的信噪比,以此来增加挖掘健康大数据的有效性与应用性。基于双边滤波算法的去噪公式表示为:

式中:yi与y′i表示去噪处理前、后的健康大数据;α0表示双边滤波因子;Ni表示健康大数据对应法向量;β1、β2分别表示距离权重函数、特征保持权重函数。β1和β2是影响去噪效果的关键参数,计算公式分别为:

式中:χ1、χ2分别表示距离权重因子、特征保持权重因子。χ1与χ2计算公式为:

式中k代表健康大数据相邻数据的总数量。

1.1.2 健康大数据规范化处理

健康大数据种类较多,量纲存在着较大的差异,衡量标准也是不同的,若直接对其进行挖掘处理,容易增加算法的计算负担[5]。因此,本文研究应用最小-最大规范化方法对健康大数据进行初步处理,表达式为:

式中:X、Y分别表示最小-最大规范化处理前、后的健康大数据;Xmin、Xmax表示原始健康大数据的最小值、最大值。

应用式(1)可以将不同量纲的健康大数据取值限制在一定范围之内,使得后续健康大数据聚类变得更简便,降低聚类失误时间的发生。健康大数据规范化处理效果主要通过损失函数等高线进行展示,损失函数定义如下:

式中m表示样本数。

等高线定义如下:

式中:w表示变量;xi表示横坐标;yi表示纵坐标。

根据上述定义进行计算,并将计算结果映射到二维平面上,具体如图1 所示。原始健康大数据损失函数等高线呈现为椭圆形,寻优需要通过多次迭代。经过规范化处理后,健康大数据损失函数等高线呈圆形,寻优迭代次数显著减少,可以有效提升健康大数据挖掘的效率,为其应用提供更有效的支撑[6]。

图1 规范化处理效果示例图

由于经过规范化处理后的数据会出现数据信息丢失的情况,对此,根据下述公式对数据进行修复:

式中:w表示缺失数据p的缺失属性值;K表示缺失数据属性的聚类中心;ej表示缺失数据属性类型;r表示重要属性;u表示非重要属性;E′表示缺失数据属性间的差别矩阵;S表示缺失数据修复规则。

1.1.3 健康大数据冗余处理

健康大数据体量过大,数据冗余度也是居高不下,极大地影响了健康大数据的处理与应用[7],因此采用前缀树原理对冗余数据进行检测,并对其进行剔除处理[8]。依据健康大数据前缀树结构计算健康大数据对应的信息增益数值大小,反映其对数据集的影响程度,表达式为:

式中:G(y′i,Y′)表示健康大数据y′i的信息增益数值;F(yi′ )表示健康大数据y′i的熵;F(yi′/Y′)表示健康大数据y′i相对于数据集y′i的熵值;n表示健康大数据的总数量;Pi表示健康大数据y′i出现的频率。

将式(7)计算结果——信息增益G(y′i,Y′)作为健康大数据的权重数值,以此为基础,制定冗余数据判定规则,具体如下式所示:

式中,|G(y′i,Y′)-G(yj′ ,Y′)|表示任意两个健康大数据y′i与y′j信息增益差值的绝对值。

依据公式(8)即可快速检测到健康大数据中的冗余数据,对其进行删除处理,可以有效降低健康大数据的维度与量级[9]。

上述过程完成了健康大数据的预处理(去噪处理、规范化处理与冗余处理),可为后续聚类操作提供便利。

1.2 健康大数据聚类

以上述预处理后的健康大数据集合Z ={z1,z2,…,zm} 为依据,获取初始簇中心,度量健康大数据之间的距离,以此为基础,将健康大数据划分为多个类别,为最终健康大数据并行挖掘实现做好充足的准备[10]。初始簇中心选取步骤如下:

1)将健康大数据维度空间均匀划分为2m个网格单元,计算每个维度网格的边长,表达式为:

式中:L表示维度网格边长;zmax与zmin表示维度空间内健康大数据的最大值与最小值;p表示维度网格空间内健康大数据的数量。

2)根据健康大数据之间的最小距离计算网格密度阈值,以此来降低异常数据对聚类操作精度的影响[11]。网格密度阈值计算公式为:

式中:δ∗表示网格密度阈值;p0表示最小维度网格空间内健康大数据的数量;zi与zj表示任意两个健康大数据。

3)以步骤2)计算结果——网格密度阈值δ∗为基础,将小于或者等于δ∗的健康大数据进行删除处理,计算剩余健康大数据的平均数值,认定其为初始簇中心,记为{o1,o2,…,ot}。

应用欧氏距离方法衡量健康大数据与初始簇中心之间的距离,表达式为:

式中dij表示健康大数据zj与初始簇中心oi之间的距离。

当dij小于或者等于距离阈值͂时,将健康大数据zj归于初始簇中心oi的类别Ci。依据上述规则,即可将健康大数据划分为多个类别{C1,C2,…,Cq},为并行挖掘的实现打下坚实的基础[12]。

1.3 健康大数据并行挖掘

以上述健康大数据的聚类结果{C1,C2,…,Cq}为基础,应用MapReduce 制定健康大数据并行挖掘程序,执行制定程序即可完成健康大数据的并行挖掘,为健康大数据的应用提供支撑[13]。基于MapReduce 的健康大数据并行挖掘程序如图2 所示。

图2 健康大数据并行挖掘程序图

图2 中,MapReduce 实质上是一种任务调度与分布式编程模型,适用于大数据集下的并行运算,主要由映射阶段(Map)与化简阶段(Reduce)构成,两者均采用键值对形式表示健康大数据单元[14]。在健康大数据并行挖掘过程中,数据格式需要经过两次转换,具体如下式所示:

式中:、List()、表示健康大数据并行挖掘中的三种数据格式。需要注意的是,并行挖掘输出结果数据格式为,需要根据公式(12)进行逆运算恢复成数据格式,方便健康大数据的应用与观察[15]。

上述过程完成了健康大数据的并行挖掘,发挥了健康大数据的潜在价值,有助于提升医疗服务质量与效率。

2 实验与结果分析

为了验证提出算法的应用性能,选取文献[2]提出的基于关联规则与相似度的数据挖掘算法与文献[3]提出的基于Change-Point 的风电数据挖掘算法分别作为对比算法1 与对比算法2,设计对比实验,具体实验过程如下所示。

2.1 实验准备阶段

选取某医院信息数据库作为实验数据,由于数据库内部信息体量较大,会提升实验的复杂度,因此,在保障实验需求的前提下,随机在数据库中选取1 330 GB 数据作为实验对象,将其随机划分为10 个组别,具体如表1 所示。表1 中,设置实验组别中数据量、信噪比与冗余度均存在着较大的差别,说明10 个实验组别对应的实验工况具有差异性,满足提出算法应用性能测试的需求。

表1 实验数据表

另外,所提算法应用MapReduce 模型,在实验之前需要对其进行一定的训练,以此来保障MapReduce 模型运行状态达到最佳,获取更为精准的实验结论。MapReduce 模型训练过程如图3 所示。采用图3 所示过程对MapReduce 模型进行训练,验证MapReduce 模型数据格式转换规则是否准确,输出数据是否具有潜在价值等,以此来保障后续实验顺利进行,为实验结果分析提供准确的实验数据支撑。

图3 MapReduce 模型训练过程图

2.2 实验结果分析

以上述设置的实验数据、训练的MapReduce 模型为基础,进行健康大数据并行挖掘实验。为了直观显示提出算法的应用性能,选取健康大数据挖掘时间与加速比作为评价指标,具体实验结果分析过程如下。

2.2.1 健康大数据挖掘时间分析

通过对比实验获得三种方法的健康大数据挖掘时间,具体如图4 所示。

图4 健康大数据挖掘时间数据图

从图4 数据可知,所提方法的健康大数据挖掘时间最长为1.1 s,对比方法1 的数据挖掘时间最长为2.9 s,对比方法2 的数据挖掘时间最长为4 s。由此可见,相较于对比算法1 与2,本文算法获得的健康大数据挖掘效率更高,拥有一定的技术水平与实用性。

2.2.2 加速比分析

加速比可以直接反映算法的运算性能,计算公式为:

式中:ξ表示加速比;T1表示算法单个节点运算时间;TN表示算法并行运算时间。

通过实验获得的加速比数据如图5 所示。从图5 结果可知,相较于对比算法1 与2,应用提出算法获得的加速比数值较大,最大值为4.5,说明该算法运算性能更佳。

图5 加速比数据对比图

上述实验结果显示:相较于两种对比算法,应用提出算法获得的健康大数据挖掘效率更高,加速比数值较大,充分证实了提出算法数据挖掘性能更优质。

3 结 语

健康大数据体量较大,在海量的健康大数据中寻找需求的数据需要耗费大量的时间与精力,而现有数据挖掘算法运算性能有限,无法满足医疗领域的需求,故提出一种基于MapReduce 的健康大数据并行挖掘算法。提出算法可以有效提高健康大数据挖掘效率与加速比,为健康大数据的处理与应用提供更有效的算法支撑。

猜你喜欢

数据挖掘规范化聚类
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
价格认定的规范化之路
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
一种基于Hadoop的大数据挖掘云服务及应用
狂犬病Ⅲ级暴露规范化预防处置实践
高血压病中医规范化管理模式思考
一种层次初始的聚类个数自适应的聚类方法研究
满足全科化和规范化的新要求