基于逆传播神经网络的麻疹短期发病预测研究
2013-04-20徐学琴徐玉芳朱明军
徐学琴,徐玉芳,朱明军,赵 敏,孙 宁
随着麻疹减毒活疫苗的推广应用,我国麻疹发病率显著下降。但2005年麻疹发病率大幅回升,2006、2007年发病率有所下降,但仍处于较高水平[1-2]。因此,麻疹的预防控制仍是公共卫生工作的重要部分。若能对麻疹的流行趋势进行合理预测,将对麻疹的预防控制工作提供理论依据。
随着计算机的应用和推广,预测理论及其应用得到了迅速发展。在我国,传染病的预测方法研究逐渐成为疾病监测工作的热点,其预测方法种类较多、方法各异[3-4]。近年来,人工神经网络(artificial neural network,ANN)模型越来越多地应用于传染病的分析与预测[5],其中逆传播神经网络(back propagation neural network,BPNN)是一种误差反向传播的多层前向网络,该网络具有很强的泛函逼近能力,易于掌握和应用,在ANN中应用最为广泛[6]。本研究即建立用于麻疹短期预测的BPNN模型,并对2013年上半年麻疹的月发病数进行预测。
1 资料与方法
1.1一般资料以2011年1月—2012年12月全国麻疹月发病数据作为建立模型和检验模型的原始数据。数据来源于国家卫生部发布的法定报告传染病发病数据,其中2011年1月—2012年11月的发病数用于训练模型,2012年12月的发病数用于检验模型。
1.2方法
表1 预测模型对麻疹短期发病数的预测结果及相对误差
注:-代表数据不存在
1.2.1BPNN原理BPNN由信号的正向传播和误差的逆向传播两部分组成[7-8],其结构通常包括输入层(X)、隐含层和输出层(Y),每层包括若干个神经元,各神经元间的连接传递相应的权重(W)。用Wjk表示输入层第k个神经元和隐含层第j个神经元之间的连接权重,用Wij表示隐含层第j个神经元和输出层第i个神经元之间的连接权重(见图1)。输入层负责从外界接受信息并将信息传递给隐含层,隐含层为信息处理单元,也是BPNN的主要功能单位,可以是一层或多层,输出层则将来自隐含层的信息传递给外界,完成正向传播。如果网络的输出值与目标值之间的误差没有达到预期要求,则将误差逆向传播回隐含层,并根据各神经网络节点的参考误差修改各单元权重。正向传播和误差的逆向传播形成的循环就是训练过程,当网络的输出值与目标值之间的误差达到可接受的程度,即达到预期要求时,循环停止,训练完毕。
注:X为输入层;Y为输出层;Wjk和 Wij分别为输入层第k个神经元与隐含层第j个神经元之间的连接权重以及隐含层第j个神经元与输出层第i个神经元之间的连接权重
图1BPNN的神经元模型
Figure1Neuron model of BPNN
1.2.2数据的处理及基本参数的确定为了降低训练的难度,需要将麻疹的每月发病数进行处理。将所有数据除以一个数值,使得各数据均转化为较小的数值,将该数值定为2 000,所得商保留小数点后5位。预测所得的2011年5月以后的发病数预测值需再乘以2 000还原,数值保留整数位。
一般来说,当网络的层数选取3层时即可获得很好的逼近性能,同时训练时间也较短。本研究即采用仅有1个隐含层的3层BPNN。BPNN的输入层神经元数定为4,即以连续4个月的发病数预测第5个月的发病数。输出层神经元数定为1,隐含层神经元数定为7。
1.2.3模型的训练训练的目的是确定BPNN中各神经元的阈值和神经元间的连接权重,以使网络模型输出的发病数与实际发病数之间的吻合度最高。选择网络的训练期望精度为0.001,采用自适应速率训练方法进行训练。如果经若干代训练后BPNN达到该期望精度,则训练完毕。
1.2.4仿真预测利用训练完毕的BPNN对处理后的样本数据进行仿真预测,即用2011年1—4月的发病数预测5月的发病数,用2—5月的发病数预测6月的发病数,如此类推,得到2011年5月—2012年11月的预测发病数。若预测数据和真实数据比较吻合,说明该BPNN的预测精度较高,可用于麻疹月发病数的短期预测。
1.2.5模型的检验及未来发病数的预测以2012年12月麻疹发病数检验该模型。用经检验合格的BPNN模型预测2013年1—6月麻疹的月发病数,将每个预测值乘以2 000即得到全国2013年1—6月的预测发病数。
2 结果
2.1仿真预测与检验用该BPNN模型对2011年5月—2012年11月的发病数进行了仿真预测,仿真预测结果逼近真实值(见图2),仿真预测样本点的平均预测相对误差为0.774%(见表1);例如,采用2012年12月的数据检验该预测模型,预测发病数为860,2012年12月的真实发病数为849,检验样本的相对误差为1.296%,平均预测相对误差为0.800%。
2.2预测利用该BPNN模型采用分步预测法得到2013年1—6月麻疹的发病数预测值(见表1),将预测得到的数值乘以2 000,得到全国麻疹2013年1—6月的发病数,分别为787、786、603、523、573、629。
图2 麻疹月实际发病数及预测发病数
Figure2Actual and predictive numbers of measles
3 讨论
20世纪80年代以来,传染病预测方法研究在我国得到了较快的发展,逐渐成为疾病监测工作中的热点。大量实践也证明进行预警预测在传染病防治中具有良好的卫生经济学指标,具有低投入、高回报的特征[9]。传染病预测是根据传染病的发生、发展规律及有关因素,用分析判断和数学模型等方法对传染病的发生、发展和流行趋势做出的预测。影响传染病发生的因素复杂多变,如人群免疫水平、气候条件、人口流动性、自然环境、卫生状况等,它们多以非线性的方式影响传染病的发生及流行,很难用简单的数学模型描述其中的规律。而BPNN模型能够很好地处理含有非线性关系的复杂的数据问题[10]。理论上来说,3层网络即可以充分逼近任意复杂的函数关系,因此,本研究选择用3层BPNN算法来建立麻疹的预测模型。
科学的预测是制定传染病预防和控制策略的前提。根据预测时限的长短分为长期预测(>3年)、中期预测(1~3年)和短期预测(月、季、半年、1年)。本研究即利用2011—2012年全国麻疹的月发病数建立用于麻疹短期预测的BPNN模型,并采用2012年12月的发病数进行了检验。结果显示:预测发病数与实际发病数非常吻合,在仿真预测样本点的平均预测相对误差为0.774%,检验样本的相对误差为1.296%,在所有预测点上的平均预测相对误差为0.800%,均显示出所建立的模型具有很高的预测精度,利用该BPNN模型进行麻疹月发病数预测是可行的。经该模型的预测,2013年上半年麻疹的发病趋势是:1—4月麻疹发病数逐渐下降,但较2012年同期发病数要高,从5月开始又有所回升。麻疹的预防控制工作仍需加强,不能放松。
通过对麻疹的短期预测,及时预警,并开展一系列防控措施可有效降低麻疹流行强度[11-12]。但在利用BPNN模型进行预测时需注意,目前我国已对新生儿实行了接种麻疹疫苗,这将改变麻疹暴发的内在规律,在实际预测过程中,还应当根据实际情况及时更新训练数据和验证数据,重新训练BPNN模型,以达到较好的预测效果[13]。
1余文周,税铁军,李黎,等.全国2004~2006年麻疹流行病学特征和预防控制措施分析[J].中国计划免疫,2006,12(5):337-341.
2马超,罗会明,安志杰,等.中国2006~2007年麻疹流行病学特征及消除麻疹措施分析[J].中国疫苗和免疫,2008,14(3):208-213.
3常艺,刘民,刘艳俊,等.北京市某社区2008年报告传染病发病资料分析[J].中国全科医学,2011,14(3):769.
4孙振球.医学统计学[M].北京:人民卫生出版社,2002:352.
5董选军,贾伟娜.ARIMA时间序列和BP神经网络在传染病预测中的比较[J].现代实用医学,2010,22(2):142-143,147.
6谢朝晖,黄建始.传染病预测方法探讨[J].中国全科医学,2008,11(1):85-87.
7王浩全.基于BP神经网络提高伪装目标识别概率的研究[J].光谱学与光谱分析,2010,30(12):3316-3319.
8侯瑞生,陈文玲,赵盛,等.人工神经网络在传染病疫情分析与预测中的应用[J].旅行医学科学,2008,14(2):31-33.
9尹志英,方春福.传染病预警预测方法探讨[J].中国卫生统计,2010,27(2):218-220.
10易静,胡代玉,杨德香,等.三种预测模型在肺结核发病预测中的应用[J].中国全科医学,2012,15(13):1495-1497.
11魏小庆,蓝羲,黄星辉,等.预警机制对麻疹防控的效果研究[J].预防医学论坛,2008,14(12):1208-1210.
12蔡立标.盐都区2001—2009年麻疹流行病学调查研究[J].实用心脑肺血管病杂志,2010,18(12):1782.
13余滨,丁春,魏善波,等.神经网络在麻疹预测预警中的应用[J].中华流行病学杂志,2011,32(1):73-76.