APP下载

常规检验数据挖掘对急性缺血性脑卒中并发卒中相关肺炎的预测价值

2023-02-21曾瑞璜陈智熙王小林秦昌宏

中国感染控制杂志 2023年2期
关键词:计算器线图实用性

曾瑞璜,陈智熙,王小林,秦昌宏

(叙永县中医医院检验科,四川 叙永 646400)

心血管疾病是中国居民死亡的首要原因,患病率仍处于持续上升趋势,其中缺血性脑卒中的发病人数居首位,具有较高的致残率和致死率[1]。肺炎是卒中后最常见的并发症,是院内死亡和卒中后不良结局的主要原因[2-3]。因此早期诊断急性缺血性脑卒中并发卒中相关肺炎(stroke-associated pneumonia,SAP)具有重要意义。以往相关研究多采用单指标,评分量表及新型生物标志物等方式进行预测[4-6],在预测效能和临床实用性方面具有一定局限性。而列线图作为一种模型可视化方式,在疾病的诊断和预测方面具有较好的临床实用性[7-8],近年来随着预测计算器的兴起,使得列线图的使用和实用性得到极大的提高[9],并且常规检验数据易获取、成本低,具有一定可操作性。因此本研究拟通过对常规检验数据进行挖掘分析,应用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)筛选相关检验参数,构建联合检测的列线图模型,布置网页计算器,充分发挥检验数据的剩余价值,为临床提供经济、方便、准确的预测模型。

1 资料与方法

1.1 研究对象 选取2019年6月—2021年6月叙永县中医医院确诊为急性缺血性脑卒中的患者作为研究的基本人群,2021年7月—2022年6月在该院确诊为急性缺血性脑卒中的患者作为外部验证人群。纳入标准:符合SAP的诊断标准[10]。排除标准:(1)脑卒中后遗症期和出血性脑卒中;(2)严重肝、肾功能不全;(3)自身免疫性疾病;(4)血液疾病和肿瘤。

1.2 方法

1.2.1 资料收集 回顾性收集患者的性别、年龄、高血压病史、糖尿病史,及入院24 h内的相关实验室检测结果。使用迈瑞BC-6900检测血常规参数:白细胞(WBC)、中性粒细胞(NEU)、淋巴细胞(LYM)、血红蛋白(Hb)、红细胞体积分布宽度变异系数(RDW-CV)、血小板(PLT)。使用德国思塔高STA R MAX检测凝血相关项目参数:纤维蛋白原(Fib)和D-二聚体。使用迈瑞BS-2000M检测生化相关参数:丙氨酸氨基转移酶(ALT)、天门冬氨酸氨基转移酶(AST)、γ-谷氨酰转肽酶(γ-GGT)、清蛋白(Alb)、前清蛋白(PA)、尿素(Ur)、肌酐(Cr)、尿酸(UA)、葡萄糖(Glu)、甘油三酯(TG)、总胆固醇(TC)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)、载脂蛋白A1(APOA1)、载脂蛋白B(APOB)、同型半胱氨酸(Hcy),脂蛋白a[Lp(a)]。试剂盒和校准品分别购自深圳迈瑞和德国思塔高公司。

1.2.2 LASSO筛选检验参数 LASSO通过构造一个惩罚函数,控制参数lambda对高纬度特征变量进行压缩,将不重要特征变量系数压缩为0,留下相关性较强的特征变量。参数设置:模型设置为二项式分布(“family-binomial”),衡量模型指标函数为-2倍的对数似然值(type.measure=deviance),通过10折交叉验证选择最优lambda参数。

1.2.3 联合检测列线图预测模型构建与验证 采用训练集、测试集和验证集将LASSO筛选出的检验项目参数通过回归系数加权后对模型进行可视化分析与验证。每个指标根据相应权重具有不同的评分范围,根据指标得分总和从而获得患者的患病风险概率。构建的列线图模型通过Hosmer-Lemeshow检验分析列线图的拟合度,绘制校准曲线分析模型的校准度,采用受试者工作特征(receiver operating characteristic,ROC)曲线判断模型预测效能,评估模型的区分度。通过临床决策曲线(decision curve analysis,DCA)判断模型的净获益,评估模型的临床实用性。

1.2.4 布置网页计算器 通过将传统列线图以网页计算器形式布置到shinyapps.io网页上,临床医生通过访问相应网址或者二维码能方便、快捷的使用该计算器进行风险预测,提高临床实用性。

2 结果

2.1 研究人群基本情况 本次研究共纳入379例急性缺血性脑卒中患者作为研究的基本人群,其中SAP 42例,发病率为11.08%。SAP组与非SAP组患者的基本情况见表1。

表1 研究人群基本情况

2.2 建模验证人群拆分 将2019年6月—2021年6月收治的379例急性缺血性脑卒中病例以7∶3分配方式,分为训练集265例,年龄(66.07±9.30)岁;测试集114例,年龄(66.38±9.64)岁;两组患者年龄、性别、高血压病史、糖尿病史、NEU、LYM、PA、Fib、D-二聚体等临床特征比较,差异均无统计学意义(均P>0.05),见表2。将2021年7月—2022年6月收治的157例急性缺血性脑卒中病例作为验证集,其中SAP 24例,发病率为15.29%。

表2 训练集和测试集临床数据比较[例(%)]

2.3 模型建立 将纳入的25个检验参数通过LASSO的10折交叉验证对特征变量组合进行拟合,采用-2倍的对数似然值作为评价标准,将25个特征变量通过增加lambda值进行压缩组合,见图1。通过对压缩过程中不同变量数目组合间的性能评价,剔除不重要的临床特征变量,从而筛选出最优变量及最优lambda参数,见图2。最终选择lambda.1se作为最优变量选择参数,共筛选出5个检验参数,分别NEU、LYM、PA、Fib、D-二聚体。

图1 LASSO压缩参数

图2 LASSO筛选参数

将筛选出的5个检验参数根据最佳截断值进行二分类变量转化,以简化列线图模型和网页计算器,便于临床使用,见表3。根据5个检验参数相应回归系数权重构建列线图模型,通过每个检验参数不同的权重可以获得不同的评分,从而计算出相应的风险概率。

表3 检验参数最佳截断值

2.4 模型的验证 为了防止联合检测出现过拟合,通过对全数据集的拆分,使用训练集构建模型,测试集进行内部验证模型,验证集进行外部验证模型。以确保联合检测模型的准确性及稳定性。区分度评估显示全数据集曲线下面积(Area Under Curve,AUC)=0.924,灵敏度为83.33%,特异度为87.24%,见图3。训练集AUC=0.922,灵敏度为79.31%,特异性为91.95%,见图4。测试集AUC=0.919,灵敏度为84.62%,特异性为86.14%,见图5。结果表明模型具有良好的预测效能,全数据集、训练集、测试集5个检验参数AUC与联合检测相比差异有统计学意义(P<0.05),见表4。校准度评估显示训练集其Hosmer-Lemeshow检验拟合优度差异无统计学意义(χ2=6.565,P=0.476),校准曲线显示预测概率和实际概率具有良好的一致性。测试集其Hosmer-Lemeshow检验拟合优度差异无统计学意义(χ2=7.015,P=0.319),校准曲线显示预测概率和实际概率较一致,见图6。临床实用性评估显示训练集DCA结果显示高风险阈值在0~0.75,净获益为0~0.11。测试集高风险阈值在0~0.65,净获益为0~0.11,见图7。均具有良好的临床实用性,外部验证采用验证集,其AUC=0.850,灵敏度为66.67%,特异度为89.47%,阳性似然比为6.33,阴性似然比为0.37,阳性预测值为53.30%,阴性预测值为93.70%,模型具有良好的外部适用性,见图8。

图3 全数据集ROC曲线

图4 训练集ROC曲线

图5 测试集ROC曲线

表4 预测效能比较

图6 训练集和测试集校准曲线

图7 训练集和测试集DCA曲线

图8 验证集ROC曲线

2.5 模型呈现 将构建好的联合检测列线图预测模型,见图9。通过R语言的“DynNom”软件包布置到https://ww-rstudiomn.shinyapps.io/SAP-nomgram/或通过二维码进行访问,见图10。经过测试网页计算器性能,测试结果稳定,见图11。

图9 训练集联合预测列线图模型

图10 二维码

图11 网页计算器

3 讨论

本研究通过常规检验数据的挖掘分析,构建了急性缺血性脑卒中并发SAP的预测模型,模型具有较好的预测效能,且通过布置网页计算器提高了其临床实用性,助力临床进行早期诊断及治疗。近年来列线图在临床医学中广泛使用,其相对于传统logistic 回归模型,其可视化得到了极大的提高,具有一定的临床实用性[11-12]。列线图的临床实用性虽然有所提高,但是临床医生的使用率并不高,其使用过程仍不够简便。因此本研究为了进一步提高临床实用性,对构建的列线图进行优化,将连续变量转变为二分类变量,并采用网页列线图形式,使参数指标更加直观的判断,并且使用性能方面得到较大提升,对于辅助临床医生进行诊断更具有临床实用性[13]。当然检验参数指标的选择也尤为重要,以往对于SAP的预测多采用的是单个指标,评分量表及新的生物标志物,这些方式可能存在一定局限性,例如可能会增加患者检测费用,预测效能不高,不利于临床推广,不便于临床医生使用。因此本研究采用既往常规检验数据的挖掘,通过LASSO筛选出具有价值的检验参数,充分利用检验数据的剩余价值,开发出新的联合检测预测模型,为临床提供辅助诊断。Li等[14]研究显示通过机器学习开发的缺血性脑卒中并发SAP的模型中XGBoost模型具有较高的诊断效能,其AUC为0.841,灵敏度为81.00%,特异度为73.30%。张娜等[15]研究比较了6种预测缺血性脑卒中并发医院获得性肺炎的评分量表,其中ISAN量表预测效能最高,AUC为0.778。本研究通过NEU、LYM、PA、Fib、D-二聚体等5个检验参数构建的列线图网页计算器,其训练集AUC为0.922、测试集AUC为0.919,验证集AUC为0.850,预测效能均较高,并且临床实用性较高,对于临床辅助诊断具有一定价值。

急性缺血性脑卒中后容易诱发免疫抑制综合征(SIDS),过度、持续的炎症反应可能耗尽免疫系统,最终导致系统免疫的抑制,削弱人体对病原体的抵抗力并导致肺部感染[16]。本文研究筛选出的检验参数中,NEU、LYM、Fib、D-二聚体反映机体的炎症及免疫系统状态,研究结果显示SAP组中NEU、Fib、D-二聚体均高于非SAP组,LYM低于非SAP组,表明机体可能存在持续的炎症状态,存在免疫抑制风险。相关研究[17]表明,营养不良会增加感染风险,营养风险评分越低,SAP发病率越高。PA作为营养不良的敏感指标,可能是确定临床状态和预后的有效指标,本文研究显示,SAP组PA水平低于非SAP组,并且具有良好的预测效能,研究结果与文献[17]一致。当然本研究也存在一定局限性,由于是单中心小样本量研究,外部验证仅采用了本中心数据,模型外部适用性和准确性可能存在一定偏倚。

综上所述,本研究利用检验相关参数构建的SAP预测模型在临床相关性及临床实用性方面都具有一定价值,充分实现了检验项目的剩余价值,为临床早期的预防性抗菌药物治疗、抗炎和免疫调节治疗以及营养支持提供了依据。

利益冲突:所有作者均声明不存在利益冲突。

猜你喜欢

计算器线图实用性
医学论文实用性的判断
医学论文实用性的判断
预测瘢痕子宫阴道试产失败的风险列线图模型建立
基于箱线图的出厂水和管网水水质分析
医学论文实用性的判断
[计算器不是万能的]
东山头遗址采集石器线图
一个损坏的计算器
一个损坏的计算器
计算器游戏