基于ARIMA模型的非伤寒沙门菌发病率趋势预测
2022-01-04程颖,田滢
程 颖, 田 滢
(湖北省妇幼保健院1.儿童重症医学科,2.耳鼻喉科,湖北省武汉市430070)
沙门菌可分为伤寒沙门菌与非伤寒沙门菌(nontyphoidal salmonella,NTS),除引起肠道黏膜炎症外,活菌所释放的大量内毒素可引起全身反应,发病急,临床表现轻者有发热、恶心、呕吐、腹泻等消化道症状,严重者排脓血便,出现脱水、酸中毒、全身中毒症状,甚至发生休克[1]。近年来,NTS感染在儿科呈现上升趋势,故预测NTS发病率能使被动预防向主动预防转化,防控端口前移,可以为科学决策提供理论依据,消除或减少决策的盲目性,减轻疾病负担。
自回归滑动平均混合模型(autoregressive integrated moving average model,ARIMA)分析数据的时间序列随机性、平稳性和季节性,并在此基础上进行预测,该模型短期预测效果较好,目前被广泛应用于医疗卫生等领域的预测[2]。本文利用湖北省某三级甲等儿童专科医院2015年—2019年儿科非伤寒沙门菌发病率数据构建ARIMA预测模型,对小儿因非伤寒沙门菌感染致病的发病率进行预测,探讨其内在规律,及早发出预警,为非伤寒沙门菌感染引发疾病的临床治疗及疾病控制工作提供理论依据。
1 资料和方法
1.1 资料来源
选择2015年1月—2019年12月湖北省某三级甲等儿童专科医院儿科住院腹泻患儿,从住院腹泻患儿中筛选粪便培养为非伤寒沙门菌阳性的患儿。
1.2 自回归滑动平均混合模型的建立
NTS致病具有季节性,多发生于夏秋季节,因此,采用自回归滑动平均混合模型(ARIMA)拟合时间序列具有较好的预测效果。ARIMA模型是一种时间序列预测方式,简称为B-J模型[3],因短期相关性和季节效应之间具有乘积关系,为季节性模型,其中s示季节周期,p(P)、q(Q)、d(D)分别表示非季节性(季节性)自回归、移动平均阶数以及差分。建模中含有3个阶段,主要为模型定阶和识别、参数估计和模型检验、预测应用。在建模前先预处理数据,ARIMA模型需要时间序列上的数据具有一定的平稳性,序列的平稳性、随机性和季节性可根据时序图识别,非平稳序列可利用差分或自然对数方法使其平稳化。
1.2.1 模型定阶和识别 利用绘制平稳后的偏自相关参数估计、自相关函数(autocorrelation function,ACF)以及模型检验函数(partial autocorrelation function,PACF)图,进一步的定阶可将阶数逐个尝试,依据贝叶斯信息准则(Bayesian information criterion,BIC)优先选择,其值越小模型越优。
1.2.2 参数估计和模型检验 进行参数估计与假设检验,检验模型是否具有统计意义及残差是否为白噪声,如都满足则说明所构建模型合理,否则需要重建。
1.2.3 预测应用 以2015年1月—2019年6月数据作为训练样本,2019年7月—12月数据作为模型预测验证样本,检验模型的准确性。
1.3 统计学分析
用Excel处理全部数据,计算每年各个月的发病率,以SPSS19.0分析并建立ARIMA模型,并对模型参数估计与检验。以P<0.05为差异有显著性。
2 结 果
2.1 基本情况
湖北省某三级甲等儿童专科医院2015年—2019年儿科出现的非伤寒沙门菌发病率见表1。各年度发病率依次为0.55%、1.90%、1.51%、2.37%、1.20%,发病率时序图见图1中的蓝线,可以观察到其发病率表现出一定的季节性和周期性特点,年发病率表现出锯齿状趋势,该序列可作为不平稳时间序列,在实施平稳化处理后,再对原始数据采用一阶差分后消除序列长期趋势,发病率时序图接近平稳趋势,见图1中红线。
表1 2015年—2019年某医院非伤寒沙门菌各月发病率 单位:%
图1 2015年—2019年某院儿科NTS发病率数据时序图
2.2 模型识别与定阶
根据原始时间序列数据差分变换的次数,初步可以确定模型形式为ARIMA(p,1,q)×(P,1,Q)12,对差分后的序列作ACF和PACF图(图2原始序列经一阶差分)。由图2可知,ACF在13延迟数目处大于2倍标准差,且呈递减及拖尾现象,而PACF在13延迟数目处小于2倍标准差,故初步确定q和p分别取1或0。根据文献[4]的取值范围不超过2对P和Q进行取值,将P、Q分别取0、1、2逐个进行尝试,并结合与BIC值进行挑选,BIC越小则模型拟合效果越好。通过尝试最终确定最佳模型ARIMA(1,1,0)×(1,1,0)12,经检验,该模型平稳的R方为:R2=0.573、BIC=5.182。此模型中残差序列ACF和PACF如图2所构建模型所示,ACF和PACF基本上在可信区间内,模型的预测值与实际值拟合度较高,残差能够通过白噪声检验(P>0.05),且参数差异均有统计学意义(均P<0.05)。
图2 原始序列经一阶差分后与所构建模型的自相关(ACF)和偏相关图(PACF)
2.3 模型预测应用
利用该模型对2019年7月—12月儿科非伤寒沙门菌发病率进行预测,预测结果表明该模型预测值与实际值差别不大(表2),实际值全部在预测值的95%置信区间中,表示这个模型可以很好地预测趋势效果(图3),可以较好地把握未来发病率的趋势。
图3 2015年—2017年某院儿科NTS发病率拟合与预测图
单位:%
3 讨 论
沙门菌是肠杆菌科中极其重要的致病菌,目前中国有255个以上血清型,而国际上已确认有2 500个以上血清型,是诱发食物中毒和相关食源性疾病常见的一类病原菌[5],其广泛分布于自然界的环境中,能引起感染性腹泻病、菌血症、慢性肠炎、脑膜炎等多种疾病,对人体健康危害极大[6-7]。儿童大多因自身的免疫功能发育并不完全,成为容易被沙门菌感染的群体,其中以学龄前儿童最为常见,患儿感染后主要会出现急性胃肠炎相关症状(大多因NTS感染造成),沙门菌感染是目前全世界危害儿童健康的主要因素之一[8-9]。
非伤寒沙门菌是引起全球小儿感染性腹泻病的常见病原菌,其流行特点除受细菌自身流行及可能致病的微生物学特性外,也随时间、空间、环境及人群变化而变化。在中国非伤寒沙门菌是引起儿童食源性疾病的重要致病菌之一,其感染所致急性胃肠炎的比例与欧美国家类似,故疾病负担严重,若防控不当,极易造成局部传播甚至短期内爆发流行[10]。加强对沙门菌的了解,做好疾病监测的前瞻性研究,利于有效防治和降低其发病率,减轻疾病负担。运用统计数据挖掘其中的规律,建立预测预警模型是其临床医学发展的重要方向。
ARIMA模型作为常用的时间序列分析手段,利用历史数据伴随着时间变动的季节性和周期性特点,来进一步定量预测分析未来发病趋势。本文结合湖北省某三级甲等儿童专科医院2015年—2019年每个月的NTS发病率数据,采用ARIMA模型分析该数据后,确立了相关模型中的参数,得到适合本院儿科的最佳预测模型,并利用该模型分析预测2019年7月—12月数据,结果发现:该模型的预测值和实际值之间的稳合度较好,波动形式比较相似,实际值全部在预测值95%置信区间范围中,拟合预测效果很好。曲线分析表明,在2015年—2019年中,每年5月份开始NTS发病率开始明显上升,峰值一般出现在7、8、9月份,尤其以7月份居多,10月份开始有下降趋势,至11月份开始普遍下降,12月至次年3月降至最低。究其原因,可能与该地区季节周期性相关,5月—10月亦是该地区食源性疾病监测工作的重要时间窗口;夏秋季气温炎热,利于病原菌滋生繁殖,加之小儿消化道多种酶含量及活性低下、肠道屏障功能差等因素,易导致患儿感染。全年均有散发病例,每年5月—10月儿科病区对腹泻患儿应提高警惕,根据病原学检测结果及时调整病房,按接触隔离要求做好空气、物表及手的消毒,并落实病区的随时消毒及终末消毒。
近年来,由于NTS的耐药菌株呈上升趋势,故临床医生在抗菌药物的选择上应尽可能根据药敏结果合理选用。在临床工作中,对于由NTS所致的重症患儿,全身感染中毒症状明显,高热,排脓血便,可表现为脓毒性休克,若合并惊厥,反复抽搐,必要时行气管插管机械通气给予呼吸支持。
尽管ARIMA在流行病预测上有较多研究[11-13],但本文方法用于NTS致病发病率预测鲜有报道,同时本文需要指出的是,不同地区、不同医院、不同沙门菌类型的数据各有特点,在日常研究中应根据研究目的、数据特点构建ARIMA模型中不同的参数,也需不间断的加入新的数据将模型修正,必要时还需再建立一个新的参数预测模型,从而可以更加精准的预测分析。此外,NTS发病率受很多外在因素的影响,本研究只分析了单一时间对发病率的影响,并未考虑其他的影响因素,若具有更多的数据,可以最大程度将不同影响因素纳入模型中,从而提高模型的预测精度。
本研究仅探讨了ARIMA模型在非伤寒沙门菌发病率预测中的简单应用,为医院的预防治疗关口前移提供科学决策依据。至于如何将其他模型应用于非伤寒沙门菌发病率中,以及其预测效果、对比分析等还有待进一步深入研究。