基于贝叶斯多变量联合模型的体检人群脑卒中发病风险因素的纵向研究
2023-02-23杨毅丛慧文王廉源杨丽萍包绮晗王浩桦李承圣周立雯丁子琛石福艳王素珍
杨毅,丛慧文,王廉源,杨丽萍,包绮晗,王浩桦,李承圣,周立雯,丁子琛,石福艳*,王素珍*
脑卒中又称中风,是全球第二位主要死亡原因,也是导致残疾的主要因素之一[1]。虽然在过去20年中,全球脑卒中死亡率的年龄标准化率有所下降,但每年脑卒中患者的绝对人数、与脑卒中相关的死亡人数以及全球脑卒中总负担均不断增加[2-4]。近年来,我国人群慢性病发病率呈上升趋势,脑卒中作为常见慢性病之一,因其高死亡率、高致残率及预后较差等特点将给社会带来极重的经济负担和疾病负担。然而,脑卒中又是一种可以有效预防和控制的疾病。相关研究表明,脑卒中死亡率大幅度下降的原因主要为危险因素的下降[5-6]。因此,探讨脑卒中的危险因素,进而有针对性地采取干预措施是降低脑卒中疾病负担的关键措施之一。
健康体检纵向数据累积了大量的健康信息,为慢性病的有效防控研究提供了重要平台。许多学者采用Logistic回归、Cox回归模型等方法对体检人群的相关健康信息进行了深入挖掘,对体检个体健康信息与健康结果之间的关联性进行了深入分析[7-8]。然而,健康体检纵向数据由于缺失数据多、样本量小等诸多问题,导致健康体检数据利用率低、重要的健康相关信息未能得到充分挖掘,进而对健康体检信息的有效利用、常见慢性病的有效防控等工作带来一定困难。
近年来,为了研究纵向指标的动态变化与生存结局指标之间的关联,有研究者引入联合模型(joint model)处理技术[9-10],该方法可分析纵向变量动态变化轨迹对生存结局的影响,可减少模型中参数估计的偏差,为深入挖掘纵向随访数据信息提供了新的研究思路。相关研究表明,贝叶斯联合模型具有对数据分布要求低、小样本数据处理结果稳健、可同时分析多个纵向检测变量与生存结局的关系等优点[11-12]。
鉴于此,本研究采用贝叶斯多变量联合模型方法,基于健康体检人群数据,探讨分析影响健康体检人群脑卒中发病的主要影响因素,进而为脑卒中的有效防控提供科学依据,也可为其他慢性病危险因素探讨研究提供新的方法和思路。
1 资料与方法
1.1 一般资料 本研究使用空军军医大学西京医院健康医学中心2008—2015年的体检数据,其中包括个人基本信息(姓名、性别、出生日期、年龄、婚姻状况、文化程度),基本体格检查指标〔身高、体质量、体质指数(body mass index,BMI)、血压、血脂四项〕等。随访情况:工作单位集体定期到院体检,体检间隔时间为1年,以首次发生脑卒中为结局事件,发生结局事件立即停止随访;若未发生,到2015年体检信息收集完成后结束随访。
纳入标准:(1)体检人群年龄≥20周岁;(2)常住地为陕西省;(3)个人基本信息完整。排除标准:(1)随访时间<3年;(2)进入随访队列前已临床确诊糖尿病、心血管疾病、肝脏疾病及肾脏疾病等;(3)进入随访队列前已临床确诊脑卒中;(4)随访过程中相关诊断记录缺失。
依据随访过程中是否发生脑卒中将体检人群分为脑卒中组和非脑卒中组。本研究已通过潍坊医学院医学伦理委员会审批(潍医伦理研2018第145号),研究对象的信息收集完全基于其自愿和知情同意的前提下进行。
1.2 诊断标准 急性缺血性脑卒中的诊断标准为[13-14]:(1)急性起病;(2)局灶神经功能缺损(一侧面部或肢体无力或麻木,语言障碍等),少数为全面神经功能缺损;(3)影像学检查出现责任病灶或症状/体征持续24 h以上;(4)排除非血管性病因;(5)颅脑CT/MRI排除脑出血。根据国际临床诊断标准[14],采用CT/MRI对其余类型脑卒中进行诊断。糖尿病、心脑血管疾病、肝脏疾病等混杂疾病的诊断均以国际临床诊断标准为准[15-16]。
1.3 观察指标及样本量确定原则 本研究纳入的纵向观察变量包括总胆固醇(total cholesterol,TC)、三酰甘油(triglyceride,TG)、低密度脂蛋白胆固醇(low-density lipoprotein,LDL-C)、高密度脂蛋白胆固醇(high-density lipoprotein,HDL-C)、体质指数(body mass index,BMI)和收缩压(systolic pressure,SBP)。以研究人群第一次记录的体检数据作为基线,对此后每年的体检数据进行记录与整合,从而形成整体纵向数据。根据上述纳入、排除标准,共筛选得到234例研究对象,其中70例在随访期间发生脑卒中,运用10 EPV(Events Per Variable)原则[17]对样本含量进行验证,满足最小样本含量要求。
1.4 研究方法 贝叶斯多变量联合模型(Bayesian Multivariate Joint Models)[18-21]包括纵向子模型与生存子模型,纵向子模型的选择包括广义线性模型、线性混合效应模型、比例优势累积logit模型等,生存子模型通常选择Cox回归模型。线性混合效应模型既保留了传统线性模型中的正态性假定条件,又对独立性和方差齐性不做要求,进而将协变量的固定效应和随机效应同时分析,分析结果更加可靠;Cox回归模型在生存分析研究中已被广泛接受,且作为半参数模型,不对事件时间的分布做出任何假设,分析过程更加简便灵活[22]。因此,本研究选用线性混合效应模型作为纵向子模型,Cox回归模型作为生存子模型。
1.4.1 纵向子模型 假设有k=(1,……,k)个纵向结局,令Yik(t)为个体i在时间tij上第k个纵向结局的值,此时多纵向数据的线性混合效应模型为:。其中,βk是第 k 种纵向测量结局的固定效应,bik是第k种纵向测量结局的个体随机效应,分别是固定效应与随机效应的设计矩阵,εik(t)表示随机误差。
1.4.2 生存子模型 本研究以Cox回归模型构建生存子模型,即:。其中,λi(t)表示t时刻发生结局事件的风险,λ0(t)表示未指定分布的基线风险函数,X2i是生存过程中的基线协变量,γ为相应的回归系数,W2i(t)表示多纵向过程与生存过程的关联项。
在构建贝叶斯多变量联合模型的过程中,本研究以观测时间为时依协变量,以TC、TG、HDL-C、LDL-C、BMI、SBP为因变量构建纵向子模型;以生存时间和结局事件为因变量构建横向子模型。两个子模型通过共享相同的随机效应链接。
1.4.3 贝叶斯参数估计 在贝叶斯方法下,采用无信息先验简化模型的分析过程,使用马尔可夫蒙特卡罗(MCMC)算法对模型的参数进行估计。假设纵向过程和结局事件发生相互独立,且每个个体相互独立,经过MCMC迭代,在给定随机效应的情况下推导出模型参数的后验分布,为:p(yi│bi,θ)= ∏lp(yil│bi,θ)。其中θ表示全参数向量,p(·)表示概率密度函数,从而进行贝叶斯统计推断。
1.5 统计学方法 采用Excel 2019整理脑卒中发病数据集,SPSS 22.0统计软件对基线数据进行初步分析。基线数据中,符合正态分布的计量资料以(±s)表示;脑卒中组与非脑卒中组的组间比较采用独立样本t检验;采用多因素Cox回归模型分析基线情况对脑卒中结局事件的影响。采用贝叶斯多变量联合模型将纵向变化过程对脑卒中结局事件的影响进行分析,通过R 4.1.1软件的JMbayes包实现,迭代次数设定为3 000次,预热500次。本研究的统计学分析均为双侧检验,以P<0.05为差异有统计学意义。
2 结果
2.1 研究对象基线情况 本研究共纳入234例研究对象,总计1 581条纵向随访记录,研究对象纳入流程图见图1。234例研究对象基线平均年龄为(49.6±9.5)岁,中位年龄为50.5岁;随访时间为3~7年,平均随访时间为(6.4±1.2)年。随访过程中共70例(29.9%)研究对象发生脑卒中,归入脑卒中组,其余为非脑卒中组,进行研究分析。两组患者基线TC、TG、LDL-C、HDL-C、BMI、SBP比较,差异均无统计学意义(P>0.05),见表1。
图1 234例研究对象纳入流程图Figure 1 The flowchart for inclusion of 234 subjects
表1 非脑卒中组与脑卒中组基线观察指标比较(±s)Table 1 Comparison of baseline observation variables between stroke and non-stroke groups
表1 非脑卒中组与脑卒中组基线观察指标比较(±s)Table 1 Comparison of baseline observation variables between stroke and non-stroke groups
注:TC=总胆固醇,TG=三酰甘油,LDL-C=低密度脂蛋白胆固醇,HDL-C=高密度脂蛋白胆固醇,BMI=体质指数,SBP=收缩压;1 mm Hg=0.133 kPa
组别 例数 TC(mmol/L) TG(mmol/L) LDL-C(mmol/L) HDL-C(mmol/L) BMI(kg/m2) SBP(mm Hg)非脑卒中组 164 4.5±0.9 1.9±1.1 1.6±0.6 2.8±0.7 24.2±1.8 124±15脑卒中组 70 4.4±0.9 2.1±1.6 1.6±0.8 2.6±0.9 24.4±3.1 126±20 t值 0.352 -0.834 -0.037 1.619 -0.417 -1.037 P值 0.725 0.405 0.970 0.107 0.667 0.247
2.2 研究对象体检指标动态变化轨迹情况 分别对脑卒中组与非脑卒中组的TC、TG、LDL-C、HDL-C、BMI和SBP纵向轨迹变化情况进行了分析,由图2可知,脑卒中组和非脑卒中组研究对象的TC、TG、LDL-C等指标的变化轨迹不同,其中脑卒中组研究对象的TC、TG、LDL-C和HDL-C指标的变化幅度较大,而非脑卒中组研究对象的TC、TG、LDL-C和HDL-C变化轨迹趋于平稳状态。
图2 两组观察指标的纵向变化轨迹图Figure 2 Longitudinal trajectory of the observation indexes in different groups
2.3 基线观察指标对脑卒中发病的影响情况分析 以脑卒中发生情况为因变量,以基线分析变量为自变量(赋值见表2),进行多因素Cox回归模型分析,结果显示,基线TC、TG、LDL-C、HDL-C、BMI、SBP对脑卒中发病均无影响(P>0.05),见表3。
表2 基线观察指标对脑卒中发病影响的多因素Cox回归模型赋值情况Table 2 Assignment of multifactorial Cox proportional risk models for the effect of baseline observables on stroke onset
表3 基线观察指标对脑卒中发病影响的多因素Cox回归模型Table 3 Multivariate Cox proportional hazards model of the effect of baseline observation indexes on the incidence of stroke
2.4 贝叶斯多变量联合模型的纵向观察指标对脑卒中发病的影响 本研究以TC、TG、LDL-C、HDL-C、BMI和SBP为纵向监测变量,构建贝叶斯多变量联合模型的纵向子模型,以脑卒中是否发生为结局变量,构建脑卒中发病风险贝叶斯多变量联合模型的生存子模型,分析TC、TG、LDL-C等体检指标的纵向变化轨迹对脑卒中发病的影响,结果显示,TG和LDL-C对脑卒中发病有影响(P<0.05)。TG每纵向升高1 mmol/L,脑卒中发病风险升高1.863倍;LDL-C每纵向升高1 mmol/L,脑卒中发病风险升高1.347倍(P<0.05),见表4。
表4 贝叶斯多变量联合模型的纵向观察指标对脑卒中发病的影响Table 4 Results of the Bayesian multivariate joint model of the effect of longitudinal observation indexes on stroke incidence
3 讨论
脑卒中具有发病隐匿、潜伏期长、发病后不能自愈或很难治愈等特点,是目前影响人类健康的主要公共卫生问题之一[23-24]。近年来,随着健康体检的逐步规范化及人们对健康体检的重视,健康体检项目逐步增多,采集的健康体检信息也逐年增加,健康体检数据对常见慢性病的有效防控带来了诸多便利。本研究采用贝叶斯多变量联合模型,基于健康体检数据,对体检人群的脑卒中发病风险因素进行了深入探讨研究,以期为脑卒中的有效防控提供借鉴。
本研究中独立样本t检验和多因素Cox回归模型结果显示:所有纵向观测变量的基线情况比较无差异,且其对脑卒中发病均无影响(P>0.05),两组研究对象的TC、TG、LDL-C等基线观察指标分布均衡。这与国内外研究不完全一致。HAGBERG等[25]认为,高BMI可能会增加心肺负担,通过影响脑部血液流动,致使脑卒中发病概率升高;PETERS等[26]发现,女性脑卒中的发病率随TC水平的增加而增加。本研究中传统多因素Cox回归模型结果并未得出影响脑卒中发病的危险因素,造成上述结果的原因可能是传统多因素Cox回归模型只考虑了研究对象的基线情况,静态模型并未考虑纵向指标的动态变化,因此可能产生一定的差异。而贝叶斯多变量联合模型可以将纵向观测指标的动态变化过程和结局事件关联起来,更加完整地考虑了生存过程,提高结果估计的精确性。
TC、TG、LDL-C等指标的纵向变化轨迹图分析结果显示:相较于非脑卒中组,脑卒中组的TC、TG等体检指标的变化幅度较大,其动态轨迹变化可能影响脑卒中的发病率。为进一步深入探讨分析TC、TG等指标的纵向动态变化轨迹对脑卒中发病的影响,本研究采用贝叶斯多变量联合模型进行分析,分析结果显示:TG和LDL-C的动态变化轨迹影响脑卒中发病(P<0.05),TG和LDL-C的纵向变化与脑卒中的发病率呈正相关。该研究结果与国内外部分研究结论相似。大量研究表明,不良的脂质纵向轨迹变化会增加心脑血管疾病的风险[27-30],其中TG作为心血管疾病的危险因素,已广泛被医学界接受,高TG水平会引起冠心病、动脉粥样硬化,导致脑部血流量减少,增加脑卒中的发病风险。李志强[31]通过分析2008—2016年人群队列研究发现,脑卒中的发病风险会随着TG水平的降低而降低。LEE等[32]进行的一项前瞻性队列研究发现,高TG水平的成年人,其脑卒中发病的概率更高。LDL-C是一种运载胆固醇进入外周组织细胞的脂蛋白颗粒,当其过量时,其携带的胆固醇会在动脉壁上累积,进而引发动脉硬化。GU等[33]通过纳入6项共计267 500例研究对象的队列研究发现,LDL-C水平升高容易引发大动脉硬化,同时随着LDL-C水平升高,脑卒中的发病率也会增加。另外,前期相关研究表明,TC、HDL-C等也是影响脑卒中发病的危险因素[32,34],但本研究中并未发现TC、HDL-C的动态变化对脑卒中发病的影响,可能是因为高TC、低HDL-C水平与多数心脑血管疾病发病的相关度较高,本研究在设计前期为排除其他疾病对脑卒中发病的影响,将基线患有心脑血管疾病的患者排除,从而未能发现TC、HDL-C与脑卒中发病的相关性。
本研究也存在一定的局限性:如本研究纳入的变量较少,且为一些常见的血脂、血糖等指标,缺乏脑卒中发病的特异性因素,后期在条件允许的情况下,可进一步增加研究变量,以深入探讨分析影响脑卒中发病的影响因素。另外,贝叶斯多变量联合模型的拟合过程中仅考虑了无信息先验的情况,未来的研究可以考虑纳入外部有信息先验进而提升贝叶斯联合模型的估计精度。
综上所述,TG和LDL-C的纵向增长是影响体检人群脑卒中发病的关键危险因素。本研究结果提示,健康体检人群除了应进行定期体检,注意体检指标是否异常外,还应密切关注体检对象体检指标的动态变化轨迹,特别对于那些动态轨迹变化较大的指标,应提高警惕,并及时进行有针对性的干预及治疗,进而降低人群发病的风险。此外,由本研究结果可知,贝叶斯联合模型可用于健康体检人群脑卒中等常见慢性病的危险因素的探讨研究。
作者贡献:杨毅负责选题、清洗保留研究数据、模型构建、计算机代码和支持算法的实现、原稿写作;丛慧文和王廉源负责模型构建、计算机代码和支持算法的实现;杨丽萍负责调查开展、提供研究数据;包绮晗负责数据可视化展示;王浩桦和李承圣负责验证研究结果;周立雯和丁子琛负责清洗和整合研究数据;通信作者石福艳和王素珍对选题进行指导,对文章涉及观点及立论依据进行审阅和修订;所有作者确认了论文的最终稿。
本文无利益冲突。