动态因子模型在安徽省乙类传染病发病情况分析中的应用*
2018-01-03杨丽娟张燕杰黄晓磊范引光潘贵霞
杨丽娟 段 禹 张燕杰 黄晓磊 范引光 潘贵霞 王 静
安徽医科大学公共卫生学院流行病与卫生统计学系(230032)
动态因子模型在安徽省乙类传染病发病情况分析中的应用*
杨丽娟 段 禹 张燕杰 黄晓磊 范引光 潘贵霞 王 静△
安徽医科大学公共卫生学院流行病与卫生统计学系(230032)
目的采用动态因子模型分析安徽省近11年常见乙类传染病发病率,为传染病的防控工作提供参考。方法用Stata 11.0软件基于安徽省2004年1月到2014年12月乙类传染病的发病率建立动态因子模型,通过提取的共同因子来了解传染病发病率的动态趋势。结果2004-2014年安徽省发病率最高的5种乙类传染病依次是肺结核、乙肝、痢疾、疟疾和梅毒,其年均发病率(/10万)分别为73.14,53.79,21.42,16.33和15.25。消化道传染病、呼吸道传染病和虫媒传染病的发病率总体呈下降趋势,模型中消化道传染病共同因子一阶和二阶滞后参数为1.620(P<0.001)和-0.882(P<0.001),呼吸道传染病共同因子一阶和二阶滞后参数为1.242(P<0.001)和-0.494(P<0.001),虫媒传染病共同因子一阶滞后参数为0.881(P<0.001)。经体液传播乙类传染病发病波动较大且呈上升趋势,其共同因子一阶和二阶滞后参数为-1.081(P<0.001)和-0.440(P=0.008)。结论应重点加强对经体液传播乙类传染病的防控力度,动态因子模型可用于乙类传染病的综合分析。
乙类传染病 时间序列 动态因子模型
乙类传染病从2004年开始网络直报,病例较多且对人群健康危害较重大[1]。了解认识传染病的发病水平和流行规律对传染病防控工作有重要意义。目前已有多种动态分析传染病资料的方法[2-3],但一般都是只分析某一种疾病,而不能同时对多种疾病进行综合分析。由于某些原因,如相同传播途径,不同传染病的发生可能存在一定的共性。若能观测到这种共性便可从总体上了解某一类传染病发病和流行规律,进而为某一类传染病的防控提供思路。动态因子模型(dynamic factor model,DFM)的思想是从若干变量中提取潜在、不可观测的共同趋势,并利用这个共同趋势,对变量进行分析、预测等。DFM因其灵活性和在处理高维数据时的明显优势近年来逐渐受到更多学者的关注,DFM已被广泛应用在宏观经济和管理领域的评估、预测等方面广泛应用[4]。本次研究采用DFM分析对安徽省近十一年的常见乙类传染病的总体发病情况进行研究,并观察其动态变化情况,为传染病的防控工作提供参考,同时尝试DFM这种分析方法在医学研究领域中的应用。
动态因子模型
DFM是一种基于因子模型提出的,适用于分析多组时间序列分析的统计方法[5-6]。以本次研究为例,每种疾病不同时期发病率构成都是一个时间序列,DFM将每个时间序列的变化看作由全部时间序列的共同趋势部分和每个时间序列的特殊部分组成,共同部分用几个不可观测共同因子ft的滞后多项式表示,特殊部分用相互独立的特殊因子ut表示,其形式可表述如下:
yt=Pft+Qxt+ut
(1)
ft=Rwt+A1ft-1+A2ft-2+…+At-pft-p+vt
(2)
ut=C1ut-1+C1ut-2+…+Ct-qut-q+εt
(3)
其中,yt是通过观测得到的n个发病率时间序列;ft是共同因子,即这n个时间序列的共同趋势,P是因子载荷矩阵;ut是每个时间序列除去共同趋势后的特殊因子;ft和ut分别有p和q阶自回归结构,自回归参数矩阵分别是Ai和Ci,νt和εt是自回归方程的扰动向量;xt和wt是可能纳入方程的外生变量,Qi和Ri是外生变量参数矩阵。以发病率时间序列为因变量建模可得到模型中各参数,进而可得到不可观测的共同因子。
建模时需确定因子个数,目前确定因子个数的方法尚无权威性定论[4],研究者常根据所选数据特征取合适因子个数。因子自回归阶数可根据模型似然函数值最大化(MLR),赤池信息量准则(AIC)和贝叶斯信息准则(BIC)等来选择。
实证分析
1.资料与方法
(1)数据与变量选取
收集2004-2014年安徽乙类传染病月发病数并从国家统计局获取安徽各年平均人口数,计算各月发病率(/10万)。乙类传染病按传播途径可分四类,我们分别对这四类传染病进行DFM分析。实际操作中有些疾病发病率被纳入模型时会存在变量不显著,海塞矩阵非半负定等问题,所以需尝试对纳入的变量进行调整以使模型能运行。在综合考虑了疾病发病率和模型自身等多方面因素后,拟在每一类中选取3到4种疾病的发病率作为观测变量。
(2)统计分析方法
本研究采用Stata 11.0对数据进行分析。DFM要求观测序列有平稳性,故用单位根检验(augmented dickey-fuller test,ADF)判断序列平稳性并用差分来调整非平稳序列。为估计出因子,所有序列做标准化处理。参照相关方法[7]对所选的3或4个观测变量提取一个动态因子且该因子有一阶或二阶自回归过程,无内生变量被纳入方程,扰动项自回归阶数q=0。
结 果
1.常见乙类传染病发病率
本次研究,消化道传染病选取痢疾、戊肝和伤寒发病率作为观察变量,呼吸道传染病以肺结核、麻疹、流脑和百日咳发病率为观察变量,经体液传播疾病选取乙肝、梅毒、淋病和HIV感染发病率,经虫媒传播传染病选疟疾、乙型脑炎、血吸虫病和狂犬病发病率。各疾病发病率(/10万),单位根检验及相关性检验结果见表1。
表1 四类传染病发病率和单位根检验以及相关性检验
安徽省近十一年发病率较高的乙类传染病有痢疾、肺结核、乙肝、梅毒和疟疾。狂犬病发病率最低。由Kaiser-Meyer-Olkin(KMO)值和Bartlett球形检验结果知,同类传染病之间有较好相关性,适合做DFM分析。梅毒、淋病和HIV感染的发病率时间序列是非平稳的。
2.消化道传染病
乙类消化道传染病有4种,选取痢疾、戊肝和伤寒为观察变量,动态因子数为1,自回归阶数为2,参数估计和检验结果及共同因子的变化见表2和图1。
图1 消化道传染病动态因子变化趋势
表2中各种疾病所对应参数即为式1中参数P的矩阵,L1和L2即为式2中A1和A2估计值。图1中,共同因子波动较规律,其峰值在2005年之后逐渐减小,到2008年开始上升,在2012年之后又逐渐下降。
3.经呼吸道传播疾病
乙类呼吸道传染病共8种,以其中4种为观察变量,参数估计和检验结果及共同因子的变化情况见表2和图2。呼吸道传染病共同因子在2005年,2008年和2009年分别有一次大幅度上升,且波动的幅度逐渐减小,2010年之后保持平稳状态,且大致处于零水平线以下。
图2 呼吸道传染病动态因子变化趋势
图3 经体液传播疾病动态因子变化趋势
图4 经虫媒传播疾病动态因子变化趋势
4.经体液传播疾病
该类传染病共4种,所有观测序列经一阶差分处理,参数估计结果及共同因子的变化见表2和图3。经体液传播疾病共同因子波动频率较大,波动幅度相对较小,总体上保持相对平稳状态。2013年左右波动幅度达到最大。从图中不能看出共同因子具有明显规律性。
5.经虫媒传播疾病
经虫媒传播乙类传染病共10种,以其中四种为观察变量,参数估计和检验结果及共同因子变化见表2和图4。2008年之前共同因子波动幅度较大,2008年后减小且总体处于零水平线以下,2014年因子波动有增加。总体上看,动态因子呈下降趋势。
表2 四类传染病的动态因子模型参数估计及检验结果
*:ft,共同因子;L1,一阶滞后;L2,二阶滞后
讨 论
从图1共同因子趋势看,消化道传染病发病有明显季节性,与其他研究相符[8],总体发病率有下降,这可能与经济发展和饮用水管理等有关[9]。加强5到8月间疾病的防治,尤其在4月份左右发病率迅速上升前采取措施,对降低发病有重要意义。在2005,2008和2009年呼吸道传染病发病率均有大幅上升,2010年后较平稳且处于历年平均发病率以下,2014年后有增大趋势,应注意加强防控。发病率几次升高可能与麻疹等局部暴发有关[10],也可能是由于手足口病及流感暴发[11]增加了呼吸道疾病的检测和报告率。平稳性检验时只有体液传播疾病不满足平稳性要求,原始数据差分处理过,共同因子趋势不能直接代表发病率变化,但其波动情况说明在消除原有趋势后发病率总体波动较不稳定,防控措施需进一步加强。2008年之前虫媒传染病发病率波动较大,2008年后较平稳且多处于历年平均发病率以下。这可能与常见疾病的防控[12]及疫苗的使用等有关。虫媒传染病发病常有季节性,这种波动可能也与发病季节性有关[12]。
DFM与分析某类或单种疾病发病趋势的传统方法相比[1-3,12],考虑到相同类型疾病的相关性,并能充分提取每一种疾病发病率变化信息,从总体层面对多种疾病同时分析,所得的总体趋势不受单种疾病发病率绝对值大小影响,结果更为可信。DFM在处理高维时间序列方面有明显优势,可用于指数构建[13],变量预测[14]及结构分析[15],其预测效果要优于VAR和ARIMA模型,以后的研究可参照经济学领域,用DFM构建指数以从总体评价及预测疾病流行和防控效果等。DFM也有不足,主要是共同因子含义不明确,由此扩展出的分层DFM在一定程度上解决了这一问题。DFM理论尚处于发展期,由其拓展出的许多理论方法也越来越受关注[16-18]。由于模型本身特点和软件限制,本次研究不能把所有乙类传染病都纳入分析,只能选几种疾病代表一类疾病分析。尽管如此,本次研究内容和结果可对传染病的分析方法以及预防和控制措施提供一定参考价值。
[1] 李欣,裴姣,高博.我国6年间法定甲乙类传染病流行趋势分析.现代预防医学,2009,36(1):25-27.
[2] 王伶,姚文清.利用时间序列模型分析预测辽宁手足口病疫情趋势.中国卫生统计,2016,33(5):847-849.
[3] 孟凡东,吴迪,隋承光.2004-2015年中国狂犬病发病数据ARIMA乘积季节模型的建立及预测.中国卫生统计,2016,33(3):389-391+395.
[4] 高华川,张晓垌.动态因子模型及其应用研究综述.统计研究,2015,32(12):101-109.
[5] Geweke J.The Dynamic Factor Analysis of Economic Time Series.Latent Variables in Socio-Economic Models.Netherlands.Springer Netherlands,1982,317-337.
[6] Breitung J,Eickmeier S.Dynamic factor models.AStA Advances in Statistical Analysis,2006,90(1):27-42.
[7] 沈磊.基于动态因子模型构建的中国广义价格指数的估计.安徽:安徽财经大学,2015.
[8] 魏珊.我国乙类法定报告传染病的发病趋势和季节性研究.上海:复旦大学,2013.
[9] Teschke K,Bellack N,Shen H,et al.Water and sewage systems,socio-demographics,and duration of residence associated with endemic intestinal infection diseases:A cohort study.BMC Public Health,2011,10(1):767-780.
[10]Zhang Z,Zhao Y,Yang L,et al.Measles Outbreak among Previously Immunized Adult Healthcare Workers,China,2015.Can J Infect Dis Med Microbiol.2016,2016:1742530.
[11]叶冬青.甲型H1N1流感的流行与应对.中华疾病控制杂志,2009,13(3):215-218.
[12]樊雯婧,陆群,仰凤桃,等.2005-2009年安徽省合肥市疟疾发病趋势分析.中华疾病控制,2013,17(5):410-413.
[13]Kim CJ,Nelson CR.Business Cycle Turning Points,a New Coincident Index,and Tests of Duration Dependence Based on a Dynamic Factor Model with Regime Switching.The Review of Economics and Statistics,2006,80(2):188-201.
[14]Eickmeier S,Ziegler C.How successful are dynamic factor models at forecasting output and inflation? A meta-analytic approach.Journal of Forecasting,2008,27(3):237-265.
[15]Forni M,Gambetti L.The dynamic effects of monetary policy:A structural factor model approach.Journal of Monetary Economics,2010,57(2):203-216.
[16]朱满洲.动态因子模型的理论和应用研究.湖北:华中科技大学,2013.
[17]Forni M,Hallin M,Lippi M,et al.The Generalized Factor Model:Identification And Estimation.Review of Economics and Statistics,2000,82(4):540-554.
[18]Koop G,Potter S.Forecasting in dynamic factor models using Bayesian model averaging.The Econometrics Journal,2004,7(2):550-565.
ApplicationofDynamicFactorModelintheIncidencesofBCategoryInfectiousDiseasesinAnhuiProvince
Yang Lijuan,Duan Yu,Zhang Yanjie,et al
(DepartmentofEpidemiologyandBiostatistics,SchoolofPublicHealth,AnhuiMedicalUniversity(230032),Hefei)
ObjectiveWe aimed to analysis the incidence of B category infectious diseases in last eleven years in Anhui province based on dynamic factor model,and provide references for control of B category infectious diseases.MethodsWe set up dynamic factor models with Stata 11.0 software based on incidences of B category infectious diseases in Anhui province from 2004 to 2014 and extracted a general factor to analysis the dynamic trend of incidence.ResultsPulmonary tuberculosis,hepatitis B,dysentery,malaria and syphilis were the top five B category infectious diseases with incidences of 73.14,53.79,21.42,16.33 and 15.25 per 100000 persons in Anhui province from 2004 to 2014.Infectious diseases transmitted through digestive tract,respiratory tract and insect were on the decline,parameters of lag dynamic factor in the models were 1.620(P<0.001) and -0.882(P<0.001),1.242(P<0.001) and -0.494(P<0.001),and 0.881(P<0.001) respectively.Humoraldiseases were on the rise in general,parameter of lag dynamic factor in the model were -1.081(P<0.001)and-0.440(P=0.008).ConclusionTo prevent and control B category infectious diseases,more attention should be humoral diseases.Dynamic factor model can be used in the comprehensive analysis of B category infectious diseases.
B category infectious diseases;Time series;Dynamic factor model
国家自然科学基金(11526034);安徽省重大自身免疫性疾病重点实验室;2016年安徽省质量工程教学研究重大项目(2016jyxm0378)
△通信作者:王静,E-mail:jwang2006@126.com
郭海强)