基于多变量纵向数据联合模型的血脂异常对脑卒中发病的影响研究*
2022-05-28潍坊医学院公共卫生学院261053
潍坊医学院公共卫生学院(261053)
毛 倩 管佩霞 刘玉洁 王 喆 肖宇飞 杨 毅 丛慧文 王廉源 石福艳△ 王素珍△
【提 要】 目的 基于多变量纵向数据联合模型,探讨人群血脂异常对脑卒中发病风险的影响,为脑卒中的有效预防提供科学依据。方法 以陕西省西安市某医院2008-2015年234例健康体检数据为例,通过R 3.6.2软件,利用Cox比例风险模型,分析基线水平下TC、TG、HDL-C、LDL-C与脑卒中发病的关联,利用多变量联合模型,分析纵向数据下四项指标的动态变化对脑卒中发病的影响。结果 本研究纳入的234例受试者中,其中有70例(29.9%)发生结局事件(脑卒中)。Cox比例风险模型结果显示:基线年龄每降低一个单位,发病风险将增加0.9437倍(95%CI=0.9140~0.9733),sqrt(TG)每增加1mmol/L,发病风险随之增加2.3020倍(95%CI=1.6217~2.9824),sqrt(HDL-C)每降低1mmol/L,发生脑卒中的危险性增加0.2115倍(95%CI=0.0071~0.8257)。多变量纵向数据联合模型结果显示:受试者年龄每纵向增加一个单位,发病风险将升高2.8548倍(95%CI=2.7670~2.9426),sqrt(TG)每纵向增加1mmol/L,发病风险将升高9.7865倍(95%CI=3.7934~15.7796)。结论 个体年龄、TG水平随着时间的纵向增长,会增加脑卒中的发病风险。
脑卒中(stroke),常称为中风,它是由多种致病因素共同作用导致脑血管阻滞出现短时间内血液不能流入脑部或脑部血管急性破裂引起的脑功能损伤的一组急性脑血管疾病[1]。脑卒中发作具有不可逆性,且救治困难,发病所致的高死亡率、高致残率及高复发率等特点将给社会带来极大疾病负担,已成为世界范围内重大的公共卫生问题之一。然而,脑卒中是可以预防的,研究显示,全球90.7%的脑卒中与高血压、糖尿病、血脂异常、吸烟饮酒、腹型肥胖等10项可纠正风险因素相关[2]。因此,对脑卒中进行一级预防是降低发病风险的根本措施。
国内外部分研究显示,总胆固醇(total cholesterol,TC)、甘油三酯(triglyceride,TG)、低密度脂蛋白胆固醇(low density lipoprotein-cholesterol,LDL-C)、高密度脂蛋白胆固醇(high density lipoprotein-cholesterol,HDL-C)等血脂水平的异常与脑卒中发病之间具有相关性[3-5]。然而目前,研究结论尚不完全统一,仍需进一步探索。近年来,多数学者均局限于研究血脂指标的静态水平与脑卒中发病的关联,模型选择多为logistic回归、Cox比例风险模型、随机森林和竞争风险模型等[6-7],缺乏考虑纵向指标动态变化会出现拟合效果差、误差大等结果,而联合模型(joint model)可为其提供新的方法借鉴[8]。
由于脑卒中发病机制牵涉的复杂因素和作用机制众多,通常由遗传因素和环境因素等共同作用[9],本研究采用多变量纵向数据联合模型(joint model for multivariate longitudinal data)[10]探索血脂异常对脑卒中发病的影响,为脑卒中的有效防控提供科学依据。
资料与方法
1.数据来源
本研究使用陕西省西安市某医院2008-2015年健康人群体检的纵向数据。其中,包括个人基本信息(姓名、性别、出生日期、年龄、婚姻状况、文化程度),基本体格检查指标(身高、体重、体重指数、血压、空腹血糖、TC、TG、HDL-C、LDL-C)等。
研究对象纳入标准:①体检次数≥3次;②基线无糖尿病、心脑血管疾病、肝脏疾病及肾脏疾病等患者;③基线相关诊断信息无缺失者。排除标准:①体检次数<3次;②基线已患脑卒中者。经整理,根据年龄、性别等指标,按照1:2的配对设计,本研究共纳入234例研究对象,其中70例在随访期间发生脑卒中。
2.研究方法
(1)Cox比例风险模型
Cox比例风险模型(Cox proportional hazards model)[11],又称Cox回归,其一般形式如下:
h(t,X)=h0(t)exp(β1x1+β2x2+…+βnxn)
h(t,X)表示t时刻暴露于危险因素状态(x1,x2,…,xn)的风险函数,其中h0(t)表示危险因素状态处于(0,0,…,0)时的基线风险函数,(β1,β2,…,βn)为回归系数。本研究以生存时间、结局状态为因变量,年龄、sqrt(TC)、sqrt(TG)、sqrt(HDL-C)与sqrt(LDL-C)为自变量,构建Cox比例风险模型。
(2)多变量纵向数据联合模型
多变量纵向数据联合模型[12]包括纵向子模型与生存子模型,本研究中纵向子模型选择线性混合效应模型,生存子模型选用Cox比例风险回归模型。
①纵向数据子模型
假设纵向监测变量有k个(k=1,2,…,k),纵向子模型要分别以每个纵向监测变量为因变量,以相关时变协变量为自变量,拟合k个线性混合效应模型。
μik(t)=xikT(t)βk
其中,xik(t)是具有相应固定效应项βk的时变协变量,zik(t)是具有相应随机效应项bik的时变协变量,其遵循具协方差矩阵的零均值多元正态分布,而εik(t)是模型误差项,假设服从(0,σk2)的独立正态分布。
②生存分析子模型
λi(t)=λ0(t)exp{viT(t)γv+W2i(t)}
根据纵向观测变量分布要求,需对四项指标进行平方根转换方可满足正态分布,故本研究以sqrt(TC)、sqrt(TG)、sqrt(HDL-C)和sqrt(LDL-C)为纵向子模型因变量,以观测时间为时变协变量。生存子模型中以年龄为基线变量,以sqrt(TC)、sqrt(TG)、sqrt(HDL-C)和sqrt(LDL-C)为时变协变量进行拟合。
③参数估计算法
a.E步(求期望):根据观测数据和参数的当前估计值,计算完整数据的期望对数似然。
b.M步(求最值):最大化期望,更新参数估计值。本研究除γv和γy之外所有参数估计的最大化以封闭形式计算,参数γ=(γvT,γyT)T使用牛顿-拉夫森算法(Newton-Raphson algorithm)[15]联合更新:
此外,MCEM算法制定了更严格的收敛标准,在这种情况下,会由于随机性而过早停止收敛,因此本研究的迭代次数初步设置为N=100K(K为纵向观测变量的数量)[13]。检验纵向数据子模型与生存分析子模型的收敛轨迹可知,模型最终完成了423次迭代,且在增加至400次迭代后,两个子模型参数的变化均呈渐趋平稳的趋势,说明迭代次数的设置较为合适,模型拟合达到了较为理想的效果。
3.统计学分析
本研究采用Excel 2016整理脑卒中发病数据集。Cox比例风险模型survival包与多变量纵向数据联合模型通过R 3.6.2软件的joineRML包实现。本研究中的统计学分析均以P<0.05为差异有统计学意义。
结 果
1.研究对象一般情况
本研究纳入234名研究对象,共1581条观测记录。其中,男性167名,女性67名,基线年龄在23~69岁之间,中位年龄为50岁,随访年限在3~8年之间,中位随访年限为7年。在研究期间共有70例(29.9%)受试者发生脑卒中。每个受试对象的收集指标见表1。
表1 234例研究对象变量说明
本研究中,受试对象的四项血脂指标与观测时间的纵向轨迹如图1所示。由图1可知,在各个观测时间点上,血脂指标的变化轨迹与观测时间无明显规律。
图1 四项血脂指标的纵向轨迹图
2.Cox比例风险模型分析结果
Cox比例风险模型结果如表2所示,基线年龄、sqrt(TG)和sqrt(HDL-C)对脑卒中发病影响的差异有统计学意义(P<0.05)。受试者年龄每降低一个单位,发病风险将增加0.9437倍(95%CI=0.9140~0.9733);sqrt(TG)每增加1mmol/L,发病风险也随之增加2.3020倍(95%CI=1.6217~2.9824);sqrt(HDL-C)每降低1mmol/L,发生脑卒中的危险性增加0.2115倍(95%CI=0.0071~0.8257)。
表2 Cox比例风险模型结果
3.多变量纵向数据联合模型分析结果
多变量纵向数据联合模型拟合结果见表3。由表3可知,年龄、sqrt(TG)的关联参数γ有统计学意义(P<0.05),即受试者年龄每纵向增加一个单位,发病风险将升高2.8548倍(95%CI=2.7670~2.9426);受试者sqrt(TG)每纵向增加1mmol/L,发病风险将升高9.7865倍(95%CI=3.7934~15.7796);sqrt(TC)、sqrt(HDL-C)与sqrt(LDL-C)的关联参数无统计学意义(P>0.05)。
表3 多变量纵向数据联合模型参数估计结果
讨 论
脑卒中作为全球第二大死亡原因和致残因素,近年来,其发病率在全球范围内均呈上升趋势,然而引发脑卒中发病的风险因素仍不明确[16-17]。目前,年龄、性别、高血压、糖尿病、血脂异常、心脏疾病、不健康饮食等因素被公认为脑卒中发病的主要危险因素,且不同危险因素对脑卒中发病的作用大小不同。本研究对血脂异常与脑卒中发病之间的关联性进行了初步探讨分析,进而为脑卒中发病风险因素探索提供参考依据。
Cox比例风险模型结果显示,基线水平的低年龄、高TG水平、低HDL-C水平与脑卒中发病风险有关联,这与国内外其他研究结果不完全一致[18-21]。闫丽等[18]通过Cox回归分析发现高龄是脑卒中发病的风险因素之一;余慧等[19]认为高TG水平可能通过影响脑血流动力学指标,致使脑卒中发生风险升高;Shahar E等[20]对脑卒中危险因素进行多变量校正后并未发现HDL-C水平与发病具有关联性,然而已有大量研究表明,HDL-C与脑卒中发病风险相关[21]。造成结果不一致的原因很多,其中传统的静态模型并未考虑个体指标随时间的动态变化以及其他协变量的影响,可能导致结果存在偏差。多变量纵向数据联合模型,通过连接函数可将纵向指标与结局事件关联起来,可提高信息估计的精确性。
本研究采用多变量纵向数据联合模型对年龄、TC、TG、HDL-C、LDL-C与脑卒中的发病关联进行了动态分析,研究结果与国内外部分研究结果一致[3,22-23]。李志强[3]基于2008-2016年队列人群研究发现,TG降低,发生脑卒中的风险明显降低(HR=0.59,95%CI=0.42~0.84);王毅[22]将中国脑卒中一级预防人群进行分层,并在各层之间比较血脂水平与脑卒中发生率的相关性,认为脑卒中的发生率随年龄分位升高而增加,随TG水平的增加而增加,且在年龄最高分位人群中,脑卒中发病风险与血清TG水平相关性更大;Lee J等人[23]针对美国一项中位随访17.7年的前瞻性队列研究发现,高TG和低HDL-C的成年人,发生脑卒中的风险更高(HR=1.32,95%CI=1.06~1.64)。
综上所述,年龄、TG指标的纵向增长变化是影响脑卒中发病的关键因素。人群应定期参加体格检查,密切关注各项血脂指标的变化趋势,不可轻易忽视指标在正常范围内的增长,同时保持健康的生活方式,如健康膳食与积极锻炼等。临床医生也应重视高年龄段人群的血脂指标水平,针对TG指标浮动的患者及时给予治疗措施与生活建议,降低脑卒中的发病风险。本研究也有一定的局限性:随访时间有限,脑卒中发病是长期动态化发展的结果,因此本文中随访年限尚短,可能导致模型拟合出现偏差;数据仅来自于一家医院,不具有显著代表性,可能会产生选择偏倚。