基于LSTM神经网络的麻疹发病率预测
2018-07-25韩天齐
韩天齐 宋 波
1 引言
麻疹是一种常见的急性呼吸道传染病之一,该疾病传染性很强,在人口密集而未普种疫苗的地区易发生流行。自1965年我国开始普种麻疹减毒活疫苗以来,各地麻疹发病率逐渐下降,麻疹大规模流行基本上得到控制。但由于改革开放及经济发展所带来的人口流动增加,原有的疫苗接种制度受到了一定的冲击,部分儿童麻疹疫苗漏种或免疫失败的现象不断出现。加之初免后随着年龄增长而免疫力逐渐降低等原因,致使麻疹小规模流行仍时有发生。据统计数据显示,麻疹流行有明显的季节性,以10月至次年2月为发病季节。普种麻疹疫苗后,发病季节后移至每年3~5月份,麻疹流行大幅度的周期波动减弱,但仍有一定的小幅度周期波动。
在传染病的预防过程中,发病率的预测起着重要作用,研判传染病流行初期的发展趋势,对制定相关疾病的预防和控制措施有重要的参考意义。目前在疾病发病率预测工作中,一种常用方法是基于统计学的分析模型或时间序列模型,如基于ARIMA和NAR模型对细菌性痢疾发病率的预测[1]研究,基于Poisson模型对人口死亡率[2]的研究,另一种是基于机器学习的神经网络模型对历史数据分析训练并预测未来走势,如基于BP神经网络模型对肺结核发病率的预测[3]等等。
近年来,随着深度学习技术发展成熟,越来越多的深度学习模型被应用到数据分析预测的研究中。其中循环神经网络(Recurrent Neural Network,RNN)在对时间序列数据的分析中表现出更好的特性,基于RNN模型出现了很多的变
体模型,其中长短期记忆(Long Short-Term Memory,LSTM)模型[4]弥补了RNN的梯度消失和梯度爆炸、长期记忆能力不足[5]等问题,使得循环神经网络能够更加有效地利用长距离的时间序列信息。本文通过对麻疹疾病历史发病数据进行分析,通过LSTM网络模型对原始数据进行训练拟合、分析以及测试,力求对未来各地区麻疹发病趋势作出预测,为预防和控制疫病相关措施的部署提供理论依据,尽最大力度减少麻疹疾病造成的影响。
2 长短期记忆神经网络
2.1 LSTM的网络结构
图1 LSTM结构图
LSTM网络是一种特殊的RNN类型,是为了解决RNN模型梯度弥散的问题而提出的。最初的LSTM门层只有输入门和输出门,由Gers FA等[6]加入遗忘门成为现在通用的LSTM结构,由Duan Y等[7]引入了“peephole connection”,让门层也会接受细胞状态的输入,成为LSTM最流行的一个变体。传统的RNN模型,在训练的过程中的梯度下降过程中,回传的残差便会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此LSTM通过设置一个存储单元来存储记忆,通过输入输出门来解决输入输出权值的矛盾问题。
2.2 LSTM网络的训练方法
现在针对LSTM模型的训练方法主要分为实时递归学习算法(Real Time Recurrent Learning,RTRL)[8]和反向传播算法(Back-Propagation Through Time,BPTT)[9],本文采用时间效率较高的按时间展开反向误差传播算法来训练LSTM模型。反向传播算法的大致思路如下:先将LSTM网络按照时间顺序展开为一个深层的网络,然后反复应用链式规则,经过损失函数(loss function)计算,然后通过BPTT反向传播算法计算梯度,通过自适应矩估计算法(adaptive moment estimation,Adam)[10]更新网络权重。
图2 模型训练示意图
2.3 LSTM模型框架
本文构建的基于LSTM预测模型的整体框架流程图如下:
图3 模型框架图
通过LSTM模型训练数据,训练模型包括数据预处理模块,LSTM模型模块(包括输入层、隐藏层、输出层、网络训练更新模块),数据后处理模块,输出展示模块,以及通过加载训练好的模型参数进行拟合预测流程的功能模块。数据预处理模块对原始时间序列数据处理为LSTM网络需要的格式,LSTM网络对数据进行训练,计算梯度,采用优化算法更新权重,输出结果经过处理还原后送到数据结果展示平台显示。
3 研究结果与分析
3.1 数据集
本文使用人口与健康科学数据共享平台提供的1950至2014年全国麻疹报告数据集,包括各省及全国发病人数(morbidity)、死亡人数(death)、发病率(morbidity ratio)、死亡率(death_ratio)。根据数据集可以发现,随着医疗条件改善和生活水平的提高,特别是实行了普种麻疹减毒活疫苗以来,部分省市有连续多年死亡人数和死亡率统计为0的情况。因此以发病人数或发病率进行麻疹的发病预测更有指导意义。
根据给定数据集,本文选取发病率作为训练数据,这是一个关于时间序列的数据,从这个时间序列中拟合原始数据并预测未来的发病率趋势。原始数据记录显示大部分省份统计数据先后于1965年之后出现下降趋势,并最迟在1980-1985年间逐渐下降并稳定到一个小幅度波动范围内波动。由于改革开放后我国医疗水平大幅度提高,导致1985年前后统计数据波动幅度差别很大,故本文对原始数据集训练了两个模型(全体数据集的拟合模型和1985年之后数据的拟合预测模型),预测模型用于1985年之后数据拟合以及对未来趋势的预测。
3.2 实验结果
验证结果度量指标采用均方根误差(Root Mean Square Error,RMSE),均方根误差是均方误差(Mean Square Error,MSE)的算术平方根:
其中,observedt和predictedt分别为t时刻的观测值和模型输出值,N为数据点个数。本文通过对训练集和测试集分别计算RMSE值来定量地评价模型的拟合和预测精度。下文中计算的RMSE均为拟合或预测数据逆归一化还原后的值和原始数据进行均方根误差计算的结果。
通过上述模型设定,对原始数据集预处理后进行模型训练,用训练好的模型对各省数据进行拟合和预测,部分实验结果如下:
图4为河北省以全体数据集训练的模型拟合结果和原始数据曲线的对比。蓝线为实际数据曲线,黑线为模型拟合曲线。结果显示全数据集训练的模型对1985年前的年份拟合
图4 河北省数据拟合图
图5 为河北省以1985年之后数据集训练的模型拟合结果和原始数据曲线的对比。
图5 河北省近20年数据拟合图
为了验证该模型发病率预测的效果。本文选取四川省卫生和计划生育委员会官方发布的2015年至2017年麻疹疫情数据,以1985年至2014年的数据集训练的模型预测结果与2015年至2017年全国和四川省的麻疹实际发病率进行对比,如图6所示,蓝线为实际发病率曲线,黑线为模型预测曲线。结果显示模型预测发病率数据与实际发病率数据拟合度较高。
图6 四川省2014年至2017年实际发病率与预测发病率结果对比图
图7 为该模型对西南地区未来5年麻疹发病率趋势的预测,通过预测的发病率可以对麻疹疫情的预防和监测起到一定的指导作用。
图7 西南地区麻疹发病率趋势预测图
4 总结
本文通过LSTM网络构建拟合预测模型,对麻疹疾病发病率拟合预测及参数优化等结果实验测试表明,LSTM网络模型对疾病预测相关的时间序列问题具有一定的适用性。由于麻疹疾病的爆发流行受到诸多因素的影响,同时原始数据集波动幅度比较大,统计结果显示各省数据波动有一定规律和相关性,却又各不相同,神经网络模型的非线性变换对处理这种多相关和非线性问题相比传统统计学分析模型更具优势。但单纯依靠历史数据预测未来趋势仍有一定的局限性。基于目前的工作,后续研究可以考虑引入更多相关影响因素,同时对数据集预处理过程进行优化调整,对模型参数选择可以进行更多优化测试。