基于危险因素和常规实验室指标的子痫前期风险预测模型研究*
2021-10-11邓兴宇杨楠薛宇廷张华贾珂珂
邓兴宇,杨楠,薛宇廷,张华,贾珂珂
(北京大学第三医院a.检验科, b.输血科, c.临床流行病学研究中心,北京100191)
子痫前期(preeclampsia, PE)被定义为妊娠20周后出现高血压、蛋白尿或其他器官损害,是导致孕产妇和围产儿发病乃至死亡的重要原因[1],发生率约在2%~8%[2]。其基本病理生理改变表现为全身性的小血管痉挛和血管内皮损伤导致的多脏器和系统损害[3]。
目前PE发病机制仍未阐述清楚,可能与子宫动脉重塑障碍、氧化应激反应、母体炎症反应失调及免疫平衡失调等多因素有关[4]。临床上唯一有效的治疗方法是终止妊娠,常见措施是对患者进行对症治疗和严密监控以改善预后。早期识别和干预能有效降低不良妊娠结局的发生,本研究根据PE的临床表现与发病机制,选择可能具有预测价值的常规实验室指标,检测其在妊娠6~10周的水平,结合一般资料、PE危险因素,采用Logistic回归模型和极端梯度提升(XGBoost)模型预测PE风险,为临床诊断PE提供思路。
1 研究方法
1.1研究对象 回顾性研究。纳入2015年1月至2020年8月于北京大学第三医院妇产科就诊的中国籍孕妇共2 338例,作为PE组。PE组包括子痫、PE、慢性高血压伴发PE患者,入组标准参照《妊娠期高血压疾病诊治指南(2020)》[1]。同时选择2018年8月至2020年8月于北京大学第三医院妇产科就诊且正常分娩、单胎活产的中国籍孕妇9 413例作为对照(CON)组。
根据纳入和排除标准,最终纳入8 538例,其中CON组7 613例,PE组925例,见图1。
图1 研究对象分组
1.2预测指标 从电子病历中获取患者的一般资料,如入院年龄、孕周、病史、孕产史及血压(1 mmHg=0.133 kPa);PE发病危险因素,包括糖尿病、血栓类疾病、SLE、抗磷脂综合征(APS)、肾病、辅助生殖技术、阻塞性睡眠呼吸暂停、孕前身体质量指数(BMI)>30 kg/m2、年龄>35岁、多次怀孕、初产妇以及既往子痫或PE史,共12个因素;常规实验室指标,包括清蛋白(Alb)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、补体C1q、钙(Ca)、肌酐(Cr)、C反应蛋白(CRP)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、脂蛋白(a)[Lp(a)]、载脂蛋白A1(ApoA1)、总蛋白(TP)、三酰甘油(TG)、总胆固醇(TC)、总胆汁酸(TBA)、尿酸(UA)、尿素(Urea)、磷(P)、淋巴细胞绝对值(Lym)、中性粒细胞绝对值(Neu)、血小板计数(Plt)、Neu/Lym比值、Plt/Lym比值、凝血酶原活动度(PTA)、活化部分凝血活酶时间(APTT)、纤维蛋白原(Fib)、凝血酶时间(TT),共27项指标。
1.3统计学分析 用SPSS 24.0、R3.6.1软件进行数据分析。采用K-S正态分布检测数据正态性,非正态分布的计量资料用中位数(25分位数,75分位数)描述。偏态分布计量资料的组间比较采用Mann-WhitneyU检验。计数资料用例数(百分比)描述,其组间比较采用卡方检验。以P<0.05为差异有统计学意义。资料缺失值<30%,用中位数替代。
1.3.1Logistic回归模型 对所有实验室指标和危险因素进行单因素二元Logistic回归分析,筛选出P<0.05的变量并进行多因素二元Logistic回归分析,建立模型,以约登指数最大值为截断点,风险程度用OR值(95%置信区间,95%CI)表示,并作ROC曲线,计算ROC曲线下面积(AUCROC)。
1.3.2XGBoost模型 采用XGBoost建立模型,并与Logistic回归模型进行比对。XGBoost是一种基于梯度Boosting的集成机器学习算法,原理是通过弱分类器的迭代计算实现准确的分类效果,最大特点在于加入正则项,控制模型的复杂度,防止模型过拟合,近年来广泛应用于医学领域[5]。本研究使用R语言(3.6.1版本)软件包XGBoost(1.1.1.1版本),随机将数据按照2∶8比例划分成测试集和训练集,训练集用于拟合预测模型,测试集用于评价模型效果。将训练集纳入XGBoost反复训练得到最佳参数(max_depth=100, eta=0.4,nthread=-1, objective=binary: logistic, nrounds=1 000),建立模型。使用测试集测试,制作ROC曲线,计算AUCROC、敏感性、特异性。利用XGBoost中 “plot.importance” 对预测模型特征进行重要性排序,判断每个特征变量对XGBoost模型的贡献程度,为临床判断PE发病风险提供参考依据。
2 结果
2.1一般资料比较 见表1。两组孕妇的孕周差异无统计学意义(P>0.05),年龄、孕前BMI、血压差异均有统计学意义(P均<0.05)。PE组孕前BMI和血压均高于CON组。两组孕妇是否患血栓性疾病、阻塞性睡眠呼吸暂停以及受孕方式差异均无统计学意义(P均>0.05),是否有糖尿病、SLE、APS、肾病、子痫或PE史以及是否为初产妇的比例差异均有统计学意义(P均<0.05)。PE组患血栓性疾病的比例低于CON组,其余比例均高于CON组。
表1 PE组和CON组的一般资料
2.2妊娠6~10周的常规实验室指标比较 见表2。27个常规实验室指标中,两组除Plt/Lym的水平差异无统计学意义(P>0.05)外,其他指标水平差异均有统计学意义(P均<0.05)。
表2 妊娠6~10周的常规实验室指标
2.3Logistic回归分析 纳入所有变量进行单因素二元Logistic回归分析,筛选出33个指标(P<0.05)。对8项危险因素分析,将其纳入多因素二元Logistic回归分析,采用逐步向后法,以P<0.05为标准,去除无意义变量,筛选出7项指标,建立基于危险因素的Logistic回归模型,见表3。
表3 PE危险因素的单因素和多因素Logistic回归分析结果
对8项危险因素和25项实验室指标进行分析,以同样的方法,筛选出20个指标,建立基于危险因素和常规实验室指标的Logistic回归模型。见表4。
表4 PE实验室指标及危险因素的单因素和多因素Logistic回归分析结果
2.4Logistic回归模型 仅对12项PE危险因素分析,根据上述方法,最终纳入模型的共7项,作ROC曲线分析,最大约登指数为0.163时,模型敏感性=34.8%,特异性=81.5%,AUCROC=0.621,95%CI为0.601~0.640,见图2。
对12项PE危险因素和27项实验室指标分析,最终纳入模型的共20项(6项危险因素+14项实验室指标),作ROC曲线分析,最大约登指数为0.402时,模型敏感性=64.2%,特异性=76.0%,AUCROC=0.752,95%CI为0.735~0.769,见图2。
图2 危险因素和实验室指标ROC曲线(Logistic模型)
2.5XGBoost模型 应用XGBoost算法,最大约登指数为0.553时,模型敏感性=73.0%,特异性=82.3%,AUCROC=0.867,95%CI为0.839~0.896,见图3。纳入XGBoost模型的所有指标中,重要程度排在前20位的指标见图4。
图3 危险因素和实验室指标ROC曲线(XGBoost模型)
图4 各变量重要性特征
3 讨论
PE发病与螺旋动脉重塑障碍、胎盘供血供氧不足、血管痉挛有关[6],故任何影响胎盘建立、损伤血管内皮功能的因素都可能是其危险因素。本研究中患SLE、肾病、BMI>30 kg/m2、年龄>35岁、是初产妇、有既往子痫史是PE的独立危险因素,与众多研究相符[7]。本研究中PE组无人患血栓性疾病,可能是因为具有血栓疾病倾向的孕妇在孕早期持续服用抗凝药物,有效预防了异常血流状态和血栓形成,降低PE发生风险。
PE患者由于胎盘建立不良,母胎界面发生氧化应激反应,多种具有血管活性的细胞因子分泌至胎盘绒毛间隙,损伤血管内皮功能,导致妊娠晚期母体高血压、蛋白尿、凝血功能和肝肾功能等器官系统异常[8]。
胎盘建立过程产生大量细胞碎片和凋亡细胞,激活补体系统进行清除,激活过度或不足都会影响胎盘建立[9-10]。C1q是补体活化经典途径的启动因子,有研究表明PE 患者血清 C1q 水平显著低于正常妊娠组[11],本研究关注妊娠6~10周水平,PE组高于CON组,提示PE患者发病前,因孕早期胎盘建立异常,过度激活补体系统,致C1q在早期升高,20周后随病情进展,补体过度消耗,水平降低。
目前也提出PE发病可能与母体炎症反应失调相关[7],本研究中PE组CRP、Neu和Lym水平显著高于CON组,这种改变可能源于炎症反应。
本研究中两组凝血指标及Plt水平均有统计学差异,但仅PTA、Fib与Plt有助于预测PE发病风险。PE患者由于血管痉挛和血管内皮损伤表现为病理性高凝状态,易形成血栓[12],随疾病进展,凝血激活诱导血小板活化、聚集、消耗,使Plt不断降低,可用于PE发病预测[13]。妊娠早期时PE组患者病情还未进展,血小板可能处于活化阶段,可解释PE组水平高于CON组。
肝肾功能指标中,本研究将Alb、AST、TBA、TP、Cr、P纳入预测模型中。PE导致的血管痉挛、血栓形成可使肝脏肾脏缺血缺氧,致肝损伤、肾小球病变[14-15],妊娠早期PE还未进展时,孕妇脏器血管可能已发生细微改变,肝功能受到影响,表现为肝酶升高,蛋白质合成、物质代谢异常。而肾小球内皮细胞潜在病变,机械屏障、电荷屏障受损,各分子通透性增加,造成PE患者各肾功能指标异常及出现蛋白尿症状[16]。大量清蛋白及液体渗出后,常合并低清蛋白血症[17]。但肝脏代偿功能强,故在早期,机体可能代偿性产生Alb,使之高于CON组。
众多研究表明PE患者脂代谢异常,血管动脉粥样硬化可能性增大,同时可引起氧化应激,损伤血管内皮从而加重疾病[18-19]。本研究中,HDL-C、Lp(a)、LDL-C被纳入模型,且除前两者外,其余脂类指标PE组均高于CON组,与之相符。而HDL参与胆固醇的逆向转运, 作为血管保护因子具有抗动脉粥样硬化作用,PE组低于CON组,与既往研究相符[18]。
本研究基于患者的一般资料、PE发病危险因素、6~10周常规实验室指标,采用传统Logistic回归和机器学习XGBoost算法构建预测模型。仅纳入危险因素建立Logistic回归模型,AUCROC为0.621(95%CI:0.601~0.640);纳入危险因素和实验室指标建立Logistic模型,AUCROC为0.752(95%CI:0.735~0.769);建立XGBoost模型,AUCROC为0.867(95%CI:0.839~0.896)。本研究中XGboost模型早期预测PE发病的能力最优。
由此可见,仅对危险因素建立的回归模型准确性不高,有局限性,但联合常规实验室指标建立回归模型后,提高了预测的准确性。XGBoost算法近年来受到广泛关注,不同研究问题、研究设计和数据,XGBoost和Logistic回归模型的优劣不尽相同。研究表明,XGBoost算法能够极大地提升模型的预测性能,具有较好的临床应用前景[20],在本研究中XGBoost即有更好的预测性能。用XGBoost再对变量重要性进行分析,识别对XGBoost模型贡献较高的变量,如排在前3位的TG、Lp(a)、C1q,为未来预测PE提供参考。
曾有研究选择平均动脉压、子宫动脉搏动指数和血清胎盘生长因子作为生物标志物进行PE预测[21-22],虽然准确度、特异性比较高,但采集成本高,操作不易,本研究采用的实验室检测指标包含在常规产前检查中,方便获得,简单快速,同时为患者减少额外花费,降低预测成本。但不足也在于此,建立的模型缺少PE的特异性指标,模型的特异性不高。PE组样本量相较于CON组而言较小,可能会对模型造成一定的影响。后续研究将在此方面改进。
综上,单独使用临床危险因素预测PE的效能不高,危险因素结合常规实验室指标预测妊娠早期PE发病风险的效果更优;XGBoost模型相较于Logistic回归模型,AUCROC、特异性、敏感性都有较大的提升;TG、Lp(a)、C1q是早期预测PE发病的重要变量,为临床对PE的早期筛查提供了一定方向。