基于spark技术的心脏病预测平台研究与设计

2021-08-31杨宇

电子测试 2021年17期

杨宇

（贵州电子信息职业技术学院，贵州凯里，556000）

0 引言

随着信息技术的不断发展，大数据和人工智能技术已经渗透到医疗行业有关信息系统和智能化平台，智慧医疗、医疗大数据也开启了新一轮的研究浪潮[1]，如何利用大数据及人工智能技术辅助医生对有关病例实施智能化诊断、决策成为主要的研究领域。心脏病是人类健康的头号杀手，通过对人体的有关体测指标的挖掘分析，实现辅助病理医生进行心脏病预测具有重要作用[2]。本文采用spark大数据处理技术[3]，结合HDFS分布式数据存储技术[4]，设计一种心脏病预测平台。利用SpringBoot技术搭建Web服务器[5]，结合Mysql数据库实现心脏病预测模型与Web服务器的数据实时交互[6]。

1 系统设计

1.1 系统整体设计

本系统的整体实现构架如图1所示。

图1 系统整体构架图

整个系统主要由分布式集群服务器、Web服务器、客户端三个部分组成，其中分布式集群服务器主要负责对心脏病体测数据分析建模，其内部组成结构如图2所示。

在图2中，HDFS分布式文件存储系统用于存储心脏病体测数据，Spark大数据处理平台主要提供SparkMllib机器学习库[7]，用于心脏病预测模型的建模分析，MSQL数据库主要用于存储Web前端提交的待测试数据及预测结果。

图1中的Web服务器及客户端的基本构成如图3所示。

在图2中，spark集群的sparkMllib库中的机器学习算法的预测结果被写入MYSQL数据库。在图3中Web服务器主要采用SpringBoot+Vue技术进行搭建[8]，主要负责与客户端进行数据交互，为预测数据提供提交平台与结果反馈平台，以提供良好的用户体验，完成系统闭环设计。客户端主要由PC机浏览器、手机浏览器及微信入口三个部分构成，Web服务器同时支持以上三种访问模式。

图2 分布式集群服务器结构图

图3 Web服务器及客户端

1.2 系统模型设计

由于心脏病预测属于二分类任务，因此模型主要采用Spark大数据处理平台下的机器学习算法模块Mllib中的决策树算法进行实现。

（1）决策树算法实现预测模型

决策树是一种经典的分类算法，已经在许多分类任务上取得了良好的效果。决策树算法的模型结构呈现树状结构，每一个节点代表一个属性，每一个输出代表一个测试输出，每个叶子节点代表一个输出类别。模型训练时，以损失函数最小化为学习目标，通过不断迭代优化，即可得到预测模型[9]。决策树构建过程就是把数据按照其特征分布划分到不同的区域，该区域就属于一个类别标签。在决策树的构建过程中，需要根据信息熵作为划分标准，信息熵的计算公式下[10]：