APP下载

基于机器学习的呼吸道疾病预测可视化系统

2023-03-06陈静雯张鹏鹏徐思语李正伟

物联网技术 2023年2期
关键词:特征选择决策树可视化

陈静雯,张鹏鹏,徐思语,李正伟,路 董

(上海电机学院 电子信息学院,上海 201306)

0 引 言

呼吸道疾病是一种传染性强、覆盖范围广、易感人群多的常见疾病。因呼吸道疾病就诊的人数正在逐年增加。儿童和老人是呼吸道疾病的高发人群,每年因呼吸道疾病致死的人数约700万[1]。21世纪始,新型呼吸道传染性疾病屡屡出现。2003年主要爆发于亚洲的SARS就是一种新型非典型性呼吸道传染性疾病,据世界卫生组织2003年8月15日公布的最新统计数字,中国内地累计病例5 327例,死亡349人;中国香港1 755例,死亡300人[2]。2019年末至今,在全球范围广泛爆发的新型冠状病毒也是一种新型呼吸道传染性疾病。截至2021年12月20日,全球新冠肺炎确诊病例超过2.7亿例,死亡病例超过535万例[3]。新型冠状病毒COVID-19的变种越来越多,危险性和传播性也越来越高。

传统呼吸道疾病主要通过医生依据检查和检验的结果根据经验进行判断。随着信息技术的发展,呼吸道疾病预测走向了智能化发展的道路。现有的疾病预测系统基于SEIR模型建立,而SEIR模型将传染病流行范围内人群分为易感者(Susceptible)、潜伏者(Exposed)、感染者(Infected)、康复者(Recovered),四种人群以固定的概率转化,并由此对疫情的情况进行模拟[4]。但是该模型存在很多缺陷,很多细节并未考虑到,例如该模型未考虑人群的年龄结构和病毒的变异等。

机器学习是让计算机像人类一样学习和行动的科学,通过观察与现实世界进行互动的形式向他们提供数据和信息,随着时间的推移,以自主方式提高计算机的学习能力。在全民大数据时代,它能处理的数据量更大,超过了单人的处理能力,也超过了多人协作处理的能力。机器学习算法通过训练样本进行泛化学习能够成功解释全新的数据。实际生活应用中,它能够将生活中的现实问题模拟成数学问题,将各种影响转化为参数,以减少真实场景对使用者的影响,并利用各种数学方法来解决问题,从而解决现实生活中的问题。在本系统的实际应用中,机器学习算法可以通过各种特征选择来训练模型进行泛化学习,从而对新的数据进行分析绘图。

因此,开发一个能识别和分析常见呼吸道疾病,并能为早期发现新型呼吸道疾病提供途径的可视化系统很有必要。

1 可视化系统结构

本文针对常见呼吸道传染性疾病,设计开发了一款基于机器学习的可视化呼吸道疾病预测系统。该系统可实现从数据输入、特征选择与提取、疾病类型的分类识别和预测结果显示与分析的可视化全流程服务,以实现智慧医疗,辅助医生诊断常见呼吸道疾病。该系统架构如图1所示,主要分为数据管理层、算法训练层、辅助诊断层。

图1 系统架构

数据管理层的主要功能包括基本数据维护、数据批量导入、增删改查等,其目的为训练准备好基础数据。该层功能包括:数据批量导入,如Excel数据导入数据库总库(MySQL、SQLite……);数据单条编辑,如新增、删除、更新等;数据浏览与查询,如表格化浏览与模糊查询;数据预处理,如异常数据处理等。

算法训练层的主要功能包括算法模型选择(KNN、随机森林等)、设定AI训练的参数集合(测试数据验证数据的划分比例),其目的为选择合适的训练算法生成诊断模型。该层功能包括:训练算法选择;训练集与验证集的切分—设定比例;训练算法的参数选择—特征选择等;训练算法生成模型;模型的验证与调优。

辅助诊断层的主要功能包括为医护人员提供可视化诊断服务,该层功能包括:患者化验单录入(并计入诊断库);系统自动诊断生成报告(诊断结论、可视化图表)。

2 机器学习预测方法

在医疗行业,人工智能已应用于疾病鉴别/诊断、个性化治疗/行为矫正、药物发现/生产、临床试验研究、放射学和放射治疗、智能电子记录和流行病爆发预测等方面[5]。早期,开发人员主要采用专家系统形式,通过演绎推理实现疾病预测[6]。随着计算机技术的发展,机器学习方法被证明更适合预测与分类问题。本系统采用多种机器学习方法为常见呼吸道疾病的分类与预测提供技术支持,也为今后及早发现新型呼吸道疾病的爆发提供可能途径。针对常见呼吸道疾病可实现疾病特征选择与提取、疾病类型识别、疾病预测结果可视化和结果分析可视化等智慧医疗功能,辅助医生诊断常见呼吸道疾病。同时本软件系统为用户提供了使用说明及文档以便用户理解使用。

本系统采用的机器学习方法主要有支持向量机、K近邻、决策树和随机森林。支持向量机(Support Vector Machine,SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大分类超平面[7-9]。通过核函数,可将线性SVM扩展到非线性分类[10]。K邻近分类算法是数据挖掘分类技术中最简单的方法之一,该方法的思路简单直观,即如果一个样本在特征空间中的K个相似(即特征空间中邻近)样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别[11]。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。决策树中采用熵表示系统的凌乱程度,常用算法有ID3,C4.5,C5.0等[12]。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定[13]。在训练数据中抽取多个样本,然后对每个数据样本建模。当需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好地估计真实的输出值。随机森林是对这种方法的一种调整,在随机森林中决策树被创建以便通过引入随机性来进行次优分割,而不是选择最佳分割点。因此,针对每个数据样本创建的模型将会与其他方式得到的有所不同,不过虽然方法独特且不同,但它们仍然是准确的。结合它们的预测可以更好地估计真实的输出值[14-15]。

3 数据与结果可视化

系统主界面如图2所示。本系统提供两种数据输入方式:选择数据集文件和输入数据(即多条数据和单条数据)。考虑到用户的不同需求,系统同时提供了特征选择功能,为用户提供多维度观察数据的方法。在疾病识别过程中,不同的特征选择会带来不同的结果,可得到符合呼吸道疾病的特征组合。缺失值填充功能取决于特征选择的结果,使得软件适应性有所提升。考虑到实际情况中,大多数患者并不会检测所有指标,一定存在数据缺失现象,因此本系统提供了多种缺失值填充方法。之后,通过对数据集进行归一化处理,统一数据范围,选择机器学习方法建立预测模型。此外,本系统还为数据和结果提供多种可视化方法,以便用户以各自最需要的方式快速捕获所需信息[16]。

图2 系统主界面

本系统提供了数据分析可视化功能。用户选择数据特征后,系统可向其提供所选特征缺失值情况(如图3),便于用户进行数据分析和缺失值填充方式的选择。系统为用户提供了学习选取中位数、选取众数、选取平均值等缺失值填充方法。中位数填充方法选取数据中间位置上的值作为缺失值,适合作为顺序数据的集中趋势测度值;众数填充方法选取数据分布的峰值作为缺失值,适合作为分类数据的集中趋势测度值;平均数填充方法针对数值型数据计算,而且利用了全部数据信息,它是应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,选取代表性较好的平均数,填充入缺失值中。当用各种合适的填充方式填补完缺失值后可以进行模型训练与数据分析。结果ROC曲线可视化如图4所示。

图3 特征缺失值可视化

图4 结果ROC曲线可视化

在预测模型建立和使用后,本系统为用户提供了预测结果ROC曲线可视化等结果可视化图,便于用户对不同预测模型和分类结果进行对比分析。图4为多分类的模型性能评测,图中点线为平均得分,其他不同线用于表示所使用的模型以及参数。ROC曲线用于给模型确定阈值,AUC曲线用于评判二分类模型的优劣。如果一个预测模型的ROC完全包住了另外一个预测模型的ROC,那么前者性能优于后者,但是如果有交叉部分,就需要比较两者的AUC[17]。

4 结 语

本系统是一款基于机器学习的呼吸道疾病预测可视化系统,主要针对常见呼吸道传染性疾病,实现从数据输入、特征选择与提取、疾病类型的分类识别和预测到结果显示与分析的可视化全流程服务,以实现智慧医疗,辅助医生诊断常见呼吸道疾病。系统架构分为3层,即数据管理层、算法训练层和辅助诊断层。系统提供多种机器学习方法,如支持向量机、KNN、决策树等进行常见呼吸道疾病的分类与预测。此外,系统还提供了数据和结果可视化功能,避免了机器学习的“黑匣子”问题,填补了当前预测模型可视化的空缺,有助于智能医疗在医疗环境中的认可与使用,也为今后及早发现新型呼吸道疾病的爆发提供可能途径。

猜你喜欢

特征选择决策树可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
一种针对不均衡数据集的SVM决策树算法
“融评”:党媒评论的可视化创新
决策树和随机森林方法在管理决策中的应用
Kmeans 应用与特征选择
基于决策树的出租车乘客出行目的识别
联合互信息水下目标特征选择算法
基于肺癌CT的决策树模型在肺癌诊断中的应用