APP下载

基于ARIMA 模型艾滋病患者真实世界治疗研究

2021-01-07王熙昊高兴元郭朝燕杨秋英

医学信息 2020年24期
关键词:序列图阶数差分

王熙昊,高兴元,郭朝燕,杨秋英

(1.首都医科大学基础医学院,北京 100069;2.北京航空航天大学机器人设计室,北京 100191;3.山西省运城市中心医院信息科,山西 运城 044000;4.首都医科大学生物医学工程学院,北京 100069)

艾滋病(AIDS)指由艾滋病病毒(HIV)引起的获得性免疫缺陷综合症(AIDS)。中国疾控中心、联合国艾滋病规划署和世界卫生组织联合评估了中国艾滋病疫情情况,截至2019 年底,全球报告存活艾滋病感染者约3800 万人[1]。2019 年全年中国新发感染者约7.12 万例,死亡约2.1 万例[2]。目前针对艾滋病患者,我国提供了高效联合抗逆转录病毒治疗(HAART),即通过两种或两种以上抗病毒药物联合作用达到一定程度上控制艾滋病毒复制的目的[1,3],而临床上常用CD4+T 淋巴细胞数目来衡量药物疗效,判断艾滋病患者病情状况。鉴于艾滋病的高危害性,临床上建立了艾滋病确诊人群随访队列,为每个患者建立随访档案,便于管理患者、了解其病情发展、指导用药以及预约随访。然而,通过观察临床医院获取的艾滋病就诊患者的随访数据发现:大部分患者没有按时随访,且在随访50 次左右之后就会失联。这样既没法用数据来了解真实世界艾滋病的用药情况,又无法有效了解患者的病情发展。因此,对于真实世界艾滋病患者服药后CD4+T 淋巴细胞数量的模型预测就显得尤为重要。到目前为止,在艾滋病预测模型方面,研究学者们进行了大量的研究,但大都集中在艾滋病发病人数、发病率及死亡率等方面[4-6]。本研究基于真实世界的随访数据,针对治疗方案为TDF+3TC+EFV 的患者,选取其中3 位为研究目标,使用EViews 软件对临床随访测得的CD4+T数量为基础建立ARIMA 模型并预测,现报道如下。

1 资料与方法

1.1 数据来源 患者数据来源于山西某传染病医院2014~2018 年的临床数据。选取治疗方案为TDF+3TC+EFV,随访次数大于18 次、中途未更换药物组合、疗程较完整的患者数据。

1.2 基于EViews 的ARIMA 模型建立 作为一款计量经济学软件包,EViews 具有回归分析、数据预测处理、计量统计等功能。一般情况下多使用EViews建立时序模型进行数据分析[7]。ARIMA(p,d,q)模型是一种根据时间序列预测的分析模型,其中d 为差分阶数,p 为自回归参数,q 为移动平均阶数。ARIMA模型具有较高的精确度,但前期参数定阶的准备工作往往较为繁复。功能强大的EViews 在简化ARIMA 模型建立过程的同时也保证了ARIMA 模型的高精确度。ARIMA 模型的建立过程主要包括6 步:序列图检验、ADF 检验、阶数d 的确定、阶数p、q 的确定、模型诊断、模型预测,具体过程如下[7-9]:①序列图检验:首先根据整理的数据绘制出序列图,然后观察图像有无明显的波动或者周期,若图像波动性较大且不易观察到明显趋势,则考虑先进行数据平稳化,降低异方差的影响,消除数据波动。②ADF 检验:检验时间序列的平稳性。用假设检验确定该序列是否存在单位根,若结果显示t值大于1% level 或P值大于显著性水平,即代表该序列存在单位根,序列不平稳,需要进一步差分直至序列不存在单位根。③阶数d 的确定:若由②得到的序列仍存在单位根(即时间序列非平稳),则重复②依次进行一阶差分、二阶差分、……、n 阶差分至该序列平稳,此时经过的差分阶数即为d。④阶数p、q 的确定:采取AIC 准则定阶,根据③得出的d 阶差分序列的自相关系数与偏相关系数开始趋于零且保持时的阶数确定,若该序列没有趋向于零的趋势,则需枚举多组(p,q)值进行比较,择优选取,可得到ARMA(p,q)序列。⑤模型诊断:对模型进行检验,观察其残差序列是否符合期望为0,方差为常数的纯随机过程白噪声序列的特征,当经过检验的模型表现出白噪声序列则代表该模型符合标准。反之,重复④至该模型第一次出现白噪声序列,此时得到符合标准的模型。⑥模型预测:运用EViews 的Forecast 功能进行预测,将预测得到的结果与实际值相比较以验证模型的可靠性。

1.3 基于ARIMA 模型艾滋病治疗研究 随机选取3位患者中的1 位使用EViews 软件对临床随访测得的70%的CD4+T 数量为基础建立ARIMA 模型,预测之后随访中该患者的30%的CD4+T 淋巴细胞数量变化,并与实际采集的值相比较,检验所建立的ARIMA 模型的可靠性。若该模型通过可靠性检验,则进一步将该模型运用于相同用药情况的其他2 位患者进行预测,以检验利用ARIMA 模型预测方法的普适性。

2 结果

2.1 ARIMA 模型构建 选取患者1 的随访记录为样本,提取其前70%(15 次)的随访次数与CD4+T 淋巴细胞数量的序列图,见图1。经观察,该序列图波动较大;先对该序列平稳化,平稳化后的序列波动幅度减小,但仍有增长趋势,见图2;然后对该序列进行ADF 检验,见图3。

根据ADF 检验结果可知,一阶差分序列的ADF检验值约为-8.49,小于1% level 水平的-3.83,且P<0.05,确定ARIMA(p,d,q)模型中的d=1。之后对该序列进行自相关偏相关分析得到p,q 的值。对一阶差分序列进行自相关与偏相关分析得到结果见图4,由图4 可知,偏相关系数从第2 项起有迅速趋近于0 且保持的趋势,确定p 值为1。而自相关系数在滞后6 阶时落在2 倍标准差边缘,滞后11 阶时趋近于零,因此将图4 中q=1~10 代入检验采取AIC 准则定阶,得到结果见表1。当q=7 时,AIC 值最小,因此确定q 值为7,对ARMA(1,7)进行残差序列模型检验,得到结果见图5,残差序列的自相关与偏自相关系数都在置信区间内,符合白噪声序列特征,建立的模型为ARIMA(1,1,7)。

表1 p,q 值不同的ARMA 模型AIC 值

2.2 ARIMA 模型检验 用建立的ARIMA(1,1,7)模型,预测患者1 后30%(6 次)随访次数的CD4+T 情况,预测值与实际值的平均误差约为3.88%,ARIMA(1,1,7)模型拟合较好,各次预测值、实际值、预测值与实际值的绝对误差及相对误差见表2。

表2 患者1 后30%随访次数的预测值与误差

表3 患者2 随访次数16~18 次预测值与误差

2.3 普适性检验 选取另外2 位患者进行预测,患者2 用ARIMA(1,1,7)根据现有数据,预测的随访结果见表3;患者3 用ARIMA(1,1,7)模型预测的随访结果见表4。可知,ARIMA(1,1,7)模型对于生理条件相近、用药情况相同的患者的CD4+T 淋巴细胞短期预测具有很高的准确性,但该模型在应对相同用药情况、但生理条件有较大差异的患者的预测中产生了较大的误差。

表4 患者3 随访次数19~21 次预测值与误差

3 讨论

虽然中国疾病预防控制中心就艾滋病治疗方案用药进行了规定[3],但是临床上执行起来都比较复杂且不同的医院、不同的医生执行时也容易出现偏差。使用EViews 软件中的ARIMA 模型运用于艾滋病患者CD4+T 淋巴细胞的预测具有一定的实用性。作为一种根据时间序列预测的分析模型,ARIMA 在实际运用中体现出了它在短期预测方面高精度的特性,甚至在一些生理条件相似的患者中体现出了普适性。本研究方法在收集到足够基础数据的前提条件下,将使得为每个患者进行药物疗效和恢复情况的高精度预测成为可能,为其后续治疗方案的制定提供有一定参考价值的预测信息。

猜你喜欢

序列图阶数差分
关于无穷小阶数的几点注记
数列与差分
确定有限级数解的阶数上界的一种n阶展开方法
基于SPSS序列法的商务谈判实务课程混合教学模式实证研究
基于SysML的平台无关模型转换研究
应用ETDFA生成CBTC联锁软件形式化模型的方法
思维游戏
基于差分隐私的大数据隐私保护
一种新的多址信道有效阶数估计算法*
关于动态电路阶数的讨论