APP下载

组基础模型在HIV/AIDS患者随访纵向数据研究中的应用*

2018-11-05芦文丽

中国卫生统计 2018年5期
关键词:亚组轨迹概率

彭 琴 郭 剑 王 媛△ 芦文丽

【提 要】 目的 介绍组基础模型基本原理,使用HIV/AIDS患者随访纵向数据说明分析步骤和实现方法。方法 建立组基础模型,通过选择最优轨迹组数,估计亚组成员资格概率,依据亚组成员资格后验概率分配成员资格的步骤,确定HIV/AIDS患者随访三年CD4细胞计数所属的轨迹组,并分析轨迹组分配概率的影响因素。结果 528名HIV/AIDS患者CD4细胞计数最终被分为四组,各轨迹形态依次为:第1组为线性,第2组为常数,第3、4组为2次曲线。样本中大部分对象被分配到第1组(31.82%)和第2组(46.97%),第3、4组分配比例较低。各组分配正确率很高,均≥80%。时间恒定协变量中,以第1组为参照,其余3组中仅确诊感染HIV年龄有统计学意义(P<0.05),且为负向作用,提示确诊感染HIV年龄越大,进入第1组的可能性越高。接受抗HIV治疗在第2、3、4组存在统计学意义(P<0.05),为负向关系,提示接受抗HIV治疗者CD4细胞计数更低。结论 组基础模型在考虑总体异质性的前提下分析纵向数据,阐明个体所属的不同形态的轨迹组,并揭示影响个体分组的主要因素。

公共卫生领域中常会产生与随访有关的纵向数据,用来说明特定事物随时间发展变化的趋势。处理纵向数据通常采用重复测量方差分析、多水平模型技术,用以阐明个体在不同时间的测量结局变化。这种分析思路假设样本中个体来自同一总体,在平均发展轨迹周围的个体变化可以由随机变化的截距和斜率来解释。然而,在实际工作中,个体发展轨迹的差异也可能源于总体的异质性。在分析纵向数据时,要考虑到个体可能来自不同的群组,会有不同的发展轨迹。组基础模型(group based model,GBM)能够区分个体间不同的发展轨迹,并将其归入有限数目的亚组,属于个体为中心的分析家族。它假设发展轨迹的个体变异是由于存在规模和轨迹形态异质性的不同轨迹亚组造成的,因而与传统的以变量为中心分析方法注重探索变量间的关系并不相同。本研究旨在介绍GBM基本原理,并结合HIV/AIDS患者随访纵向数据说明分析步骤和实现方法。

资料与方法

1.基本原理[1]

对于一组样本测量指标,Yi={yi1,yi2,…,yim},表示第i个个体观测m次测量指标生成的纵向序列。πg表示个体i属于第g个亚组的概率;Pg(Yi)表示在特定亚组g成员资格条件下Yi的概率。因此,个体i测量指标的纵向序列概率公式如下:

其中pg(yit)为确定g组成员的yit的概率分布函数,其分布形式结合相应的数据类型定义,如logisitc回归分布、泊松分布、删截正态分布、正态分布等。由于pg(yit)也表示时间多项式函数,其估计结果决定亚组轨迹趋势。值得注意的是,这里假设同一亚组内个体有相同的发展轨迹,即同一亚组内个体具备同一截距、斜率等参数。不同轨迹组间无相关。

2.分析步骤

(1)选择最优轨迹组数

GBM分组数目通常从1组开始,逐渐增加。在考虑轨迹组数量基础上,还要评估各轨迹组发展形态,即利用多项式函数,拟合常数、线性、2次、3次曲线等不同类型的发展曲线。筛选模型时,依据拟合优度指标BIC(越接近0,提示拟合优度越好),建议从1组开始逐渐增加组数,先比较亚组数目相同,发展形态不同的模型,再从各亚组数目中选取最优者进行比较。以确定最佳组数和发展轨迹形态。

(2)亚组成员资格概率

确定模型后,利用现有样本计算个体所属亚组成员的资格概率。公式如下:

公式中θg是由带协变量X的多项式logit模型估计出来的一组参数。在使用SAS PROC TRAJ拟合模型时,能把时间恒定协变量,如性别、发病年龄等纳入多项式logit模型,来估计θg,得到亚组成员资格概率。

(3)依据亚组成员资格后验概率分配成员资格

当测量指标随时间的发展轨迹能够区分为明显的不同亚组,则每一个体均具有属于某一具体轨迹组的概率。根据最后对应的亚组数目和轨迹形态,生成后验概率估计值,按照最大后验概率确定个体所属群组。公式如下:

由于依据后验概率分组,可能产生错误分类,当组成员被正确分配的概率≥0.7时,则认为该分类原则可以被接受。

3.资料来源

2005年至2016年某艾滋病防治机构管理的HIV/AIDS患者(N=528)随访资料。选取确诊感染HIV后第3、6、9、12、18、24、30、36个月,三年共8个时点(T1-T8)的HIV/AIDS患者CD4细胞计数,以及T1-T8的各时点内是否接受了抗HIV治疗。

4.研究假设

在艾滋病防治工作中,通过早发现、早诊断、早治疗的策略,可以使感染HIV的患者及早了解自身免疫状态,并得到治疗。初始CD4细胞数越高,治疗越早,免疫力越容易长期维持在较高水平。通过组基础模型分析,本研究欲了解:(1)不同初始免疫水平(CD4细胞计数)的HIV/AIDS患者,三年内免疫水平是否存在不同的发展轨迹;(2)发展轨迹是否受性别、发病年龄、教育程度、婚姻状况、感染途径等个体因素影响;(3)抗HIV治疗对免疫水平轨迹变化存在何种影响。

5.分析工具

使用SAS 9.4软件包PROC TRAJ过程实施组基础模型拟合。SAS PROC TRAJ程序可在http://www.andrew.cmu.edu/user/bjones/download.htm下载。

结 果

1.分布类型

T1-T8时点CD4细胞计数近似呈正态分布。经探索建模,最终确定4个组为最佳数量。

2.模型拟合

按照亚组数目1~4组,各亚组数目内,拟合不同轨迹形态的曲线:常数、1次、2次、3次曲线。最终,选择将样本亚组数目分为4组,各组轨迹形态分别为:第1组为线性;第2组为常数;第3、4组为2次曲线。拟合优度:BIC=-16127.92(N=2437),BIC=-16117.98(N=528)。样本分组情况如图1。

图1 HIV/AIDS患者4个组发展轨迹

第1组:初始CD4水平在100~200个/ul,以后仅轻度升高。

第2组:初始CD4水平在400个/ul左右,三年内一直保持平稳。

第3组:初始CD4水平在500个/ul左右,此后逐渐升高,在T6后出现轻度下降。

第4组:初始CD4水平在800个/ul左右,此后保持升高态势。

样本中大部分对象被分配到第1组(31.82%)、第2组(46.97%),第3、4组分配比例较低。各组分配正确率很高,均≥80%。模型估计中,总体估计比例的分类与样本成员分类结果相近,见表1。

表1 轨迹组成员资格概率、样本组成员分类及总体估计比例

3.带协变量的组基础模型估计

将性别、确诊感染HIV年龄、是否拥有大学学历、是否经同性传播感染HIV、是否已婚作为时间恒定协变量纳入模型;T1-T8各时点内是否接受抗HIV治疗作为时间变化协变量纳入模型。

结果表明:时间恒定协变量中,以第1组为参照,其余3组中,仅确诊感染HIV年龄有统计学意义(P<0.05),且为负向作用,提示确诊感染HIV年龄越大,进入第1组的可能性越高。接受抗HIV治疗在第2、3、4组存在统计学意义(P<0.05),为负向关系,提示接受抗HIV治疗者CD4细胞计数更低(表2)。拟合优度:BIC=-16096.98(N=2429),BIC=-16072.53(N=527)。

4.抗HIV治疗与CD4细胞计数关系

本研究在对4组患者8时点CD4细胞计数分析后发现,全部样本中,接受治疗者CD4细胞水平低于未接受治疗者,各亚组中也观测到类似趋势。在随访早期阶段,治疗者CD4水平低于未治疗者,但在随访中后期T4、T5阶段,情况发生逆转,治疗者的CD4水平开始高于未治疗者(图2)。由于HIV/AIDS患者存在随时间推移迁移、失访的情况。第4组中总数43例,到最后T8时点,仅7人做了CD4检测,其中1人接受抗HIV治疗,CD4:853个/ul,未治疗组6人平均CD4:(1195±402.18)个/ul,故T8时点时治疗组CD4水平低于未治疗组。

讨 论

由于HIV侵害CD4细胞,发现感染HIV越早,通常CD4水平会较高,反之亦然。年龄较高的患者常因不了解自身感染状况,直至发病期就医才被发现[2]。因而,本组资料中确诊感染HIV年龄越高的患者CD4水平会偏低。另一方面,我们发现接受抗HIV治疗对发展轨迹变化也有影响。目前国内艾滋病防控领域提倡“发现即治疗”策略,及早保护CD4水平,可改善远期免疫情况[3]。本组资料中第1组因初始CD4水平偏低,免疫功能受损严重,在接受治疗后,与未接受治疗者相比,免疫水平改善并不显著,而其余三组均显示接受治疗者具有更高的CD4水平。

表2 HIV/AIDS患者CD4细胞随访纵向资料组基础模型估计结果*

*性别(1:男,2:女)、确诊感染HIV年龄(岁)、已婚(1:是,2:否)、大学学历(1:是,2:否)、同性传播(1:是,2:否),抗HIV治疗(1:是,2:否)

图2 HIV/AIDS治疗与未治疗者CD4细胞计数发展轨迹

GBM在考虑总体异质性的前提下分析纵向数据。这一策略克服了单元/多元重复测量方差分析、多水平模型分析等传统纵向数据分析方法,假定样本来自于同一总体,忽视组间异质性的缺点,能够鉴定不同亚组的发展轨迹,并在此基础上探索相关影响因素。这是一种将个体和变量间关系两个角度结合起来分析纵向数据的新思路。通常个体为中心和变量为中心的分析被认为是不同的分析策略,使用不同的模型和分析工具。近年来,出现了一系列将个体与变量结合起来分析的新方法,常见的有潜在分层分析(latent class analysis,LCA)、潜在转変分析(latent transition analysis,LTA)、潜在分层生长分析(latent class growth analysis,LCGA)、生长混合模型(growth mixture modeling,GMM)和广义生长混合模型(general growth mixture modeling,GGMM)等。此类分析方法有助于回答同时涉及个人与变量关系两方面的研究问题。

GBM在分析纵向数据中的不足是假设发展轨迹组间异质和组内同质。即认为同组内个体无个体变异,模型中同一组内截距和斜率要求保持一致。在实际工作中,这一假设常难以实现。为解决这一问题,Muthen等人建议使用生长混合模型(growth mixture modeling,GMM),该模型允许各亚组内个体存在变异[4]。然而,有人认为这样做有可能混淆亚组间轨迹的差异和亚组内个体变异引发的差异。后来,Nagin建议将GBM与GMM联合使用,先用GBM确定轨迹组数量,再利用GMM对模型实施进一步优化,以达到优化纵向数据分析的目的[5]。

猜你喜欢

亚组轨迹概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
轨迹
轨迹
艾灸神阙穴对不同程度力竭运动大鼠海马区单胺类神经递质的影响❋
冠心病患者肠道菌群变化的研究 (正文见第45 页)
不同年龄阿尔茨海默病患者脑核团ADC值与年龄的相关性
轨迹