自回归求和滑动平均模型在河南省出生缺陷发生率预测中的应用
2023-03-14王美芝杜真张猛赵冰陈露孙利环吴雪柯胡孟彩
王美芝,杜真,张猛,赵冰,陈露,孙利环,吴雪柯,胡孟彩
出生缺陷也称先天异常,是出生前胚胎发育紊乱引起的异常,出生时或出生后可见的先天畸形、功能障碍和代谢紊乱的总称[1],出生缺陷发生的病因众多,遗传变异和环境影响是主要因素。出生缺陷是导致围产儿死亡的主要原因,严重影响儿童的身心健康,已成为世界共同关注的重大公共卫生问题。根据《全国出生缺陷综合防治方案》[2]统计,目前我国出生缺陷发生率在5.6%左右。预防出生缺陷是我国妇幼保健工作面临的严峻挑战,构建适当的模型并进行预测,可为出生缺陷防控工作提供数据支持,并为制定合理的防控措施提供科学依据。
时间序列是对相同统计指标的数值按时间顺序排列而成的数列进行分析,主要目的是挖掘历史数据规律实现对未来的预测。自回归求和滑动平均模型(autoregressive integrated moving average,ARIMA)是常见的时间序列模型,它可以结合出生缺陷时间序列数据的分布特征进行动态预测,将时间因素作为一个综合影响因子,而不依赖于危险因素。目前,国外针对出生缺陷的研究主要集中在危险因素及流行特征分析方面[3-5],我国已有学者利用ARIMA模型对上海市闵行区和西安等地出生缺陷发生率进行了预测,并得到了可靠的结果[6-7]。河南省出生缺陷监测项目已实施多年,但基于监测数据构建预测模型的研究较少,为充分评价其预防效果,本研究基于ARIMA乘积季节模型对河南省月度出生缺陷发生率进行预测,以了解河南省出生缺陷发生率发展趋势,为制定科学的出生缺陷防控措施提供参考。
1 资料与方法
1.1 资料来源
收集2011年1月至2020年12月河南省37所国家级出生缺陷监测点所有围产儿的出生缺陷监测数据,监测期限为妊娠满28周至产后7 d,出生缺陷主要包括先天性心脏病、多指/趾、外耳其他畸形、尿道下裂、马蹄内翻足、并指/趾、总唇裂、小耳、腭裂、直肠肛门闭锁或狭窄等23类。
1.2 监测方法
各监测点按《中国出生缺陷监测方案》要求及国家缺陷监测中心《中国出生缺陷工作手册》中的23类出生缺陷诊断标准进行临床监测。监测人员每年进行统一培训。对每一例分娩的缺陷儿填写《出生缺陷儿登记卡》,疑难疾病诊断不明者请新生儿及相关专家会诊,以保证监测质量,避免误诊、漏诊。汇总填写《围产儿季报表》,表卡资料经医院审核后每季度上报1次。
1.3 ARIMA模型的构建
1.3.1 ARIAM模型基本思想 将预测值随时间迁移而形成的数据序列视为一个随机序列,用相对应的数学模型来近似描述该序列。当模型被识别后,就可从该时间序列的过去值及现在值实现未来值的预测。本研究应用ARIMA乘积季节模型(p,d,q)(P,D,Q)S分析河南省出生缺陷发生率的趋势性和季节性,其中p、d、q分别为自回归阶数、差分阶数、移动平均阶数,P、D、Q分别为季节自回归阶数、季节差分阶数、季节移动平均阶数,s为季节周期。
1.3.2 建模及预测步骤 ① 绘制时序图:初步判断原始数据随时间的变化特点。② 平稳化处理与白噪声检测:对非平稳时序数据进行差分处理,得到d和D的取值。③ 模型识别和定阶:根据自相关函数(auto correlation function,ACF)图和偏自相关函数(partial auto correlation function,PACF)图的图形特征初步确定p和q的取值,构建备选模型。④ 参数估计与模型诊断:所有备选模型均满足残差序列白噪声要求[8](P>0.05),进一步比较,采用贝叶斯准则(bayesian information criterion,BIC)确定最佳模型。⑤ 模型预测及预测效果评价:计算出生缺陷发生率预测值和真实值的平均绝对百分比误差(mean absolute percentage error,MAPE)比较模型的预测性能[9-10]。
1.4 统计学方法
本研究采用Excel 2022软件进行数据分析,计算2011~2020年河南省月度出生缺陷发病率(1/万),公式如下:出生缺陷发生率=出生缺陷发生数/同期活产数×10 000(1/万)。采用SPSS 26.0软件进行ARIMA乘积季节模型建模,并对模型的拟合效果进行检验,检验水准α=0.05;回代2020年数据计算模型预测平均相对误差,并利用最优模型预测2021~2022年河南省出生缺陷发生率。
2 结果
2.1 2011~2019年河南省月度出生缺陷发生率
2011~2019年河南省37所国家级出生缺陷监测点总体、城镇和乡村围产儿月度出生缺陷发生率均呈现上升趋势,见图1。
图1 2011~2019年河南省月度出生缺陷发生率
2.2 时间序列分析
2.2.1 模型识别 河南省出生缺陷发生率随时间变化呈波动上升趋势,序列取值以12个月为周期上下波动。由时序图可知序列不平稳,见下页图2 Aa-Ac,存在周期性,再对该序列作差分处理,充分提取序列的趋势性和季节周期性,时序图基本平稳,见图2 Ba~Bc。
2.2.2 模型拟合和比较 河南省出生缺陷发生率序列具有长期趋势性和季节周期性,说明适合ARIMA乘积季节模型(p,d,q)(P,D,Q)S。经差分处理后,序列的趋势性和季节周期性被消除,故判断d=1,D=1,s=12。根据差分后的ACF图(见图2 Ca~Cc)和PACF图(见图2 Da~Dc)判断P、Q的取值,通常小于2,接着对所有可能的模型进行拟合,选出备选模型。经过比较,选取BIC为6.997最小的相对最优模型ARIMA(0,1,1)(0,1,1)12,参数估计均具有统计学意义,对残差进行Ljung-Box Q检验,检验结果无统计学意义(P=0.854)。同理分别构建城镇和乡村ARIMA乘积季节模型,得到相对最优模型分别为ARIMA(2,1,2)(2,1,0)12、ARIMA(0,1,1)(0,1,1)12,均符合建模要求(P值分别为0.292、0.785)。
2.2.3 模型检验 本研究所构建总体、城镇和乡村出生缺陷率ARIMA(0,1,1)(0,1,1)12、ARIMA(2,1,2)(2,1,0)12、ARIMA(0,1,1)(0,1,1)12模型通过拟合优度检验且残差均为白噪声(P>0.05),见下页图3。
2.2.4 模型预测与评价 分别利用最优模型对2020年1~12月河南省总体、城镇和乡村月度出生缺陷发生率进行预测并评价拟合效果。结果显示,预测2020年1~12月河南省总体、城镇和乡村月度出生缺陷发生率呈继续上升趋势,且真实值和预测值变化趋势一致,实际出生缺陷发生率均落在95%置信区间内,详见下页表1。
表1 2020年1~12月河南省总体、城镇和乡村月度出生缺陷发生率回代验证结果
2.2.5 模型应用 使用上述最优模型对2021年1月至2022年12月河南省月度出生缺陷发生率进行预测,并给出上下限(见下页表2),出生缺陷发生率呈现继续上升趋势(图4,见封3)。这一部分结果待后期真实结果出来后进一步验证。
表2 2021年1月至2022年12月河南省出生缺陷发生率预测结果
3 讨论
本研究显示,河南省近十年出生缺陷发生率呈现上升趋势,利用最优模型计算2020年预测值和真实值的平均相对误差均小于15%,模型预测精度较高[11],可以对未来河南省月度出生缺陷发生率进行预测,2021~2022年预测结果显示出生缺陷发生率均呈现上升趋势,与全国总体水平[12]以及其他部分省市[13-15]报道基本一致。这可能与《中国妇女发展纲要(2011-2020)》和《中国儿童发展纲要(2011-2020)》进一步贯彻和落实,出生缺陷监测系统日益完善,监测覆盖面逐渐加大有关。出生缺陷的发生受多种因素的影响:10%~25%与遗传因素有关,10%~20%与环境有关,两者共同作用占60%~80%[16]。随着国家三孩政策[17]放开,出生人口数、高龄产妇比例及高危产妇数不断增加[18-20]。近年来B超[21]、MRI[22]等影像学技术以及分子生物学技术[23-24]等检测技术的不断提高使得出生缺陷检出率增加、漏检情况减少,这些可能是出生缺陷发生率不断上升的原因。针对出生缺陷上升,河南省近年来已围绕出生缺陷三级预防采取一系列措施:涵盖婚前检查、叶酸补服、孕前优生教育;免费NT产前超声筛查、免费产前血清筛查(唐氏筛查)、唐氏筛查高危人群、高龄孕妇(≥35岁)免费产前诊断管理;新生儿苯丙酮尿症、先天性甲状腺功能减低症、听力筛查等。
ARIMA模型综合考虑时间序列的趋势性、周期性变化及随机干扰等情况,使用模型参数进行量化,在一定程度上排除了主观判断的随意性,在反复识别和拟合中选择最佳模型来预测序列的发展趋势,能较好地反映序列的趋势和变化[25],它将影响疾病发生发展的多种因素综合考虑于时间变量中,是一种实用性很强且成本较低的预测方法。本研究使用ARIMA乘积季节模型进行预测,考虑出生缺陷发生率与季节之间的相关关系,充分提取了数据中的有效信息,提高了预测的准确度。近年来,国内已有学者利用ARIMA模型对出生缺陷发生率进行预测,并得出了可靠的结果:张丽等[26]利用ARIMA(0,0,1)(0,l,1)12预测2015年9月至2016年9月西安市妇幼保健院出生缺陷发生率,平均相对误差为11.00%;陈敏等[6]利用ARIMA(1,1,1)预测2016年1~12月上海市闵行区出生缺陷发生率,平均相对误差为12.41%。本研究预测模型与其他不同地区预测模型不尽相同,可能与经济发展水平、环境空气质量、医疗环境、社会保障力度、文化程度、生育观改变等因素有关。因此不可直接采用其他地区的预测模型,应当结合实际情况,构建适宜本地区使用的模型。
本研究将数学模型与出生缺陷研究结合,为河南省出生缺陷研究提供了新的思路,为制定科学的出生缺陷防控策略提供依据。但是,本研究构建ARIMA乘积季节模型以2011~2020年河南省月度出生缺陷发生率数据为基础进行数据外延,若影响出生缺陷发生的外界因素突然变化,或是更新数据,都会影响模型预测效果,减低预测效能。ARIMA模型适用于短期预测模型,无法实现长期趋势预测[27-28],因此需要持续收集和更新数据,确保模型的预测性能。其次,本研究构建模型着眼于河南省出生缺陷总发生率的预测,未对重大出生缺陷疾病如先天性心脏病、多指(趾)、外耳其他畸形、尿道下裂、并指(趾)的发生趋势进行预测。最后,本研究构建的ARIMA模型并未考虑干预措施、诊断手段和报告质量等因素对出生缺陷发生率的影响。在今后的研究中,可以探讨Holt-Winters加法模型、多层感知器模型、灰色模型、神经网络模型等模型在出生缺陷发生率以及重大出生缺陷发生率中的应用价值。
综上所述,合理的预测模型在出生缺陷的科学防控中具有一定的指导意义。出生缺陷的防控是一项长期、艰巨的任务,需要政府、社会、家庭的共同参与。卫生行政部门应当重视出生缺陷防控工作,健全出生缺陷防治网络,加强出生缺陷监测,加强防治出生缺陷病因学科研攻关,促进出生缺陷防治领域科技创新和成果转化,将出生缺陷发生率控制在合理的范围。