BP神经网络、随机森林和决策树预测急性脑梗死患者静脉溶栓后发生早期神经功能恶化的效能比较
2023-02-22徐守权唐国文黄舞标包仲明陈锦凤李超杰彭美玲赖瑜梅文黛薇
徐守权,唐国文,黄舞标,包仲明,陈锦凤,李超杰,彭美玲,赖瑜梅,文黛薇
急性脑梗死(acute cerebral infarction,ACI)具有较高的致残率和致死率,可严重威胁人们的生命安全。目前临床上建议ACI患者采取超早期治疗,以减少因血栓堵塞造成的供血区神经元死亡并挽救缺血脑组织[1]。既往研究证实,ACI发病4.5 h内采用重组组织型纤溶酶原激活剂(recombinant tissue-type plasminogen activator,rt-PA)治疗是有效的[2-3]。但ACI发病机制尚未完全明确,部分患者行溶栓治疗后伴有神经功能缺损症状加重,即出现早期神经功能恶化(early neurological deterioration,END),导致患者预后不良,甚至死亡[4-5]。因此,早期预测END发生风险对调整ACI患者治疗策略、评估患者预后具有重要意义。目前,临床上多采用回归分析筛选ACI患者发生END的影响因素,但回归分析存在无法处理非线性数据、仅适用半定量资料等局限。数据挖掘是一种新兴的统计学方法。本研究旨在比较BP神经网络、随机森林和决策树预测ACI患者静脉溶栓后发生END的效能,旨在寻找一种能有效预测ACI患者静脉溶栓后发生END的风险预测模型,现报道如下。
1 对象与方法
1.1 研究对象 选取2021年3月至2022年3月在梧州市中医医院神经内科接受静脉溶栓治疗的ACI患者342例。纳入标准:(1)符合《中国急性缺血性脑卒中诊治指南2018》[6]中ACI的诊断标准,并经颅脑CT和/或MRI检查证实;(2)美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS)评分≥4分;(3)发病至入院时间≤4.5 h;(4)临床资料完整。排除标准:(1)溶栓治疗前或溶栓治疗后24 h内未完善头颈部血管检查者;(2)出现症状性出血转化者;(3)静脉溶栓治疗后行桥接血管内治疗者;(4)伴有严重的心、肾、肺等脏器功能损伤、自身免疫系统疾病及恶性肿瘤者;(5)既往有脑外伤、脑卒中及脑肿瘤史者;(6)住院时间<24 h者;(7)伴有脑底异常血管网症、血管炎者;(8)其他原因导致的END者,如恶性脑水肿、痫性发作等。根据患者是否发生END将其分为END组(n=66)与非END组(n=276)。本研究经梧州市中医医院医学伦理委员会审核批准(ZY-021378)。
1.2 END诊断标准 溶栓治疗24 h内患者NIHSS评分较入院时增加≥4分或死亡定义为END[7-8]。
1.3 方法
1.3.1 rt-PA静脉溶栓治疗方法 所有患者采用rt-PA静脉溶栓治疗,rt-PA治疗总剂量为0.9 mg/kg,其中1/10静脉推注,其余静脉泵注(1 h内完成),rt-PA最大治疗剂量为90 mg。
1.3.2 临床资料收集 查阅医院电子病历系统,收集符合纳入与排除标准的患者的临床资料,包括性别、年龄、BMI、合并症〔脑梗死/短暂性脑缺血发作(transient ischemic attack,TIA)、糖尿病、高血压、冠心病、心房颤动〕情况、吸烟情况、用药情况(使用抗血小板聚集、他汀类药物情况)、发病至静脉溶栓时间、入院至静脉溶栓时间、TOAST分型(分为大动脉粥样硬化型卒中、小动脉闭塞型卒中、心源性脑卒中及其他)、基线NIHSS评分、大脑中动脉高密度征(hyperdense middle cerebral artery sign,HMCAS)发生情况及溶栓前血压(收缩压和舒张压)、实验室检查指标〔包括空腹血糖、白细胞计数、纤维蛋白原、D-二聚体(D-dimer,D-D)、LDL-C、HDL-C、尿酸、单核细胞与高密度脂蛋白比值(monocyte to high-density lipoprotein cholesterol ratio,MHR)〕。
1.4 预测模型
1.4.1 BP神经网络 采用多层感知器,将筛选出的变量作为输入变量,将是否发生END作为输出变量,隐藏层设置为自动计算,构建BP神经网络。
1.4.2 随机森林 采用Rstudio软件中的randomforest包(包含mtry和ntree参数)构建随机森林分类识别模型,其中mtry参数的取值方法为输入变量数量开平方根,本研究输入10个变量,故参数mtry设置为3;ntree为随机森林中包含的决策树数目(默认为500)。
1.4.3 决策树 采用CHAID算法,以是否发生END为因变量,以筛选出的影响因素为自变量,采用交叉验证的方式进行剪枝,设置母节点、子母节点最小样本量,生成决策树。
1.5 统计学方法 应用SPSS 24.0和Rstudio软件进行统计分析。符合正态分布的计量资料以(±s)表示,两组间比较采用成组t检验;计数资料以〔n(%)〕表示,组间比较采用χ2检验;将所有患者按照7∶3的比例分成训练集和测试集,训练集用于构建BP神经网络、随机森林和决策树,测试集用于评估BP神经网络、随机森林和决策树的预测效能。绘制ROC曲线以评估BP神经网络、随机森林、决策树预测ACI患者静脉溶栓后发生END的效能,并计算AUC、精确率、召回率、灵敏度、特异度、正确率,AUC的比较采用Delong检验。以P<0.05为差异有统计学意义。
2 结果
2.1 两组临床资料比较 两组性别、年龄、BMI、糖尿病发生率、高血压发生率、冠心病发生率、心房颤动发生率、用药情况、入院至静脉溶栓时间、基线NHISS评分及溶栓前舒张压、纤维蛋白原、LDL-C、HDL-C、尿酸比较,差异无统计学意义(P>0.05);两组脑梗死/TIA发生率、吸烟率、发病至静脉溶栓时间、TOAST分型、HMCAS发生率及溶栓前收缩压、空腹血糖、白细胞计数、D-D、MHR比较,差异有统计学意义(P<0.05),见表1。
表1 两组临床资料比较Table 1 Comparison of clinical data between the two groups
2.2 ACI患者静脉溶栓后发生END的预测模型
2.2.1 BP神经网络 将表1中有统计学差异的指标〔脑梗死/TIA(赋值:未发生=0,发生=1),吸烟(赋值:否=0,是=1),TOAST分型(赋值:大动脉粥样硬化型卒中=1,小动脉闭塞型卒中=2,心源性脑卒中=3,其他=4),HMCAS(赋值:未发生=0,发生=1),发病至静脉溶栓时间及溶栓前收缩压、空腹血糖、白细胞计数、D-D、MHR均为实测值〕作为输入变量,将是否发生END(赋值:否=0,是=1)作为输出变量,纳入训练集构建BP神经网络,结果显示,隐藏层数为1,神经网络的输入层层数与输入变量数量相同,共包含10个节点。根据输入变量对网络的影响程度由高到低依次为HMCAS、脑梗死/TIA、吸烟、白细胞计数、溶栓前D-D、溶栓前空腹血糖、溶栓前MHR、发病至静脉溶栓时间、TOAST分型及溶栓前收缩压,见图1。
图1 ACI患者静脉溶栓后发生END的BP神经网络Figure 1 BP neural network for the risk of END in patients with ACI after intravenous thrombolytic
2.2.2 随机森林 以mtry=3建立随机森林训练模型,当ntree>100时,模型误差率的变动幅度开始减小且趋于平稳,见图2;结合输入变量重要性测度结果(见图3),得出影响ACI患者静脉溶栓后发生END的变量排序,依次为溶栓前D-D、溶栓前空腹血糖、发病至静脉溶栓时间、溶栓前白细胞计数、溶栓前MHR、溶栓前收缩压、脑梗死/TIA、HMCAS、TOAST分型、吸烟。
图2 模型错误率与随机森林树目关系的可视化结果Figure 2 Visualization results of relationship between model error rate and random forest trees
图3 输入变量重要性测度结果Figure 3 Importance measure results of input variables
2.2.3 决策树 构建ACI患者静脉溶栓后发生END的决策树,共筛选出3个解释变量,分别是溶栓前D-D、发病至静脉溶栓时间、溶栓前白细胞计数。结果显示,溶栓前D-D是ACI患者静脉溶栓后发生END的首层影响因素,其中溶栓前D-D≥2.8 mg/L者END发生率为10%,溶栓前D-D≥1.9 mg/L、发病至静脉溶栓时间≥4.1 min、溶栓前白细胞计数>7.1×109/L者END发生率为5%,见图4。
图4 ACI患者静脉溶栓后发生END的决策树Figure 4 Decision tree of END after intravenous thrombolysis in ACI patients
2.3 BP神经网络、随机森林、决策树的预测效能比较ROC曲线分析结果显示,BP神经网络预测训练集ACI患者发生END的AUC为0.963,随机森林为1.000,决策树为0.916,见表2。BP神经网络预测测试集ACI患者发生END的AUC为0.957〔95%CI(0.918,0.995)〕,随机森林为0.969〔95%CI(0.913,1.000)〕,决策树为0.848〔95%CI(0.737,0.959)〕。Delong检验结果显示,随机森林预测测试集ACI患者发生END的AUC大于决策树,差异有统计学意义(D=-1.982,P=0.049);BP神经网络与决策树、BP神经网络与随机森林预测测试集ACI患者发生END的AUC比较,差异均无统计学意义(D值分别为-1.813、0.254,P值分别为0.072、0.780),见表3、图5。
图5 BP神经网络、随机森林、决策树预测测试集ACI患者静脉溶栓后发生END的ROC曲线Figure 5 ROC curve of BP neural network, random forest and decision tree in predicting END after intravenous thrombolysis in test set ACI patients
表2 BP神经网络、随机森林和决策树预测训练集ACI患者发生END的效能Table 2 Efficiency of BP neural network,random forest and decision tree in predicting the END after intravenous thrombolysis in training sets ACI patients
表3 BP神经网络、随机森林和决策树预测测试集ACI患者发生END的效能Table 3 Efficiency of BP neural network,random forest and decision tree in predicting END after intravenous thrombolysis in test set ACI patients
3 讨论
数据显示,ACI患者溶栓后END发生率为6.7%~29.8%[9-10],由于END病因不明确,故早期诊断并评估END有助于ACI患者选择治疗策略及评估预后。既往研究表明,年龄、性别、基础NIHSS评分、高血压、糖尿病、高同型半胱氨酸血症是ACI患者发生END的重要诱发因素[11-12]。本研究结果显示,脑梗死/TIA、吸烟、发病至静脉溶栓时间、TOAST分型、HMCAS及溶栓前收缩压、空腹血糖、白细胞计数、D-D、MHR可能是ACI患者静脉溶栓后发生END的影响因素,分析机制可能如下:(1)脑梗死/TIA发生机制较为复杂,该疾病患者可伴有颈动脉斑块,动脉管腔狭窄发生风险较高,进而增加其END发生风险[13]。(2)研究表明,吸烟患者烟草依赖程度越重,其脑血流量下降程度越明显,导致神经功能缺损症状加重,进而导致脑血管事件发生风险增加[14]。(3)研究表明,在发病至静脉溶栓治疗时间窗内,发病至静脉溶栓治疗时间越长患者溶栓后发生END的概率越高,预后越差[15]。(4)既往研究表明,TOAST分型为大动脉粥样硬化型卒中是预测ACI患者发生END的独立危险因素[16]。研究表明,大动脉粥样硬化所致ACI患者静脉溶栓效果有限,分析其原因主要为:血栓溶解过程中具有明显致栓性的动脉粥样硬化斑块暴露,使血栓扩大,而较大的斑块溶解后形成小栓子并进入血液循环,进而堵塞远端分支动脉,导致脑组织缺血缺氧,临床症状加重[17]。(5)HMCAS的出现提示机体血液流速变慢,甚至出现栓塞、闭塞。宋红松等[18]研究结果显示,HMCAS阳性患者发病24 h后脑梗死面积大于HMCAS阴性患者,NIHSS评分高于HMCAS阴性患者。因此,伴有HMCAS的ACI患者溶栓后END发生风险升高。(6)研究显示,基线收缩压与脑梗死面积呈正比,且其是脑梗死患者发生不良临床结局的重要影响因素[19]。(7)SAQQUR等[20]研究发现,入院时高血糖是急性缺血性脑卒中患者静脉溶栓后发生END的独立危险因素,分析原因可能为:脑卒中后血糖应激性升高,抑制了溶栓药物继发的纤溶系统亢进,进而导致缺血半暗带血流灌注减少,脑梗死面积扩大,END发生风险升高。(8)白细胞计数与中性粒细胞计数升高是脑梗死患者神经功能损伤加重、死亡的危险因素[21]。CHENG等[22]通过分析ACI患者静脉溶栓后的预后与白细胞计数的关系发现,白细胞计数升高是ACI患者溶栓治疗后发生END、3个月后预后不良及死亡的独立危险因素。(9)国外学者HSU等[23]研究结果显示,脑卒中后24 h内D-D水平升高的患者出血转化风险增加,且D-D水平与预后不良相关。(10)单核细胞是一种免疫细胞,高密度脂蛋白可逆向转运脂肪,是ACI的保护因素[24],故较高的MHR提示ACI患者病情严重。赵妮等[25]研究表明,MHR升高提示ACI患者氧化应激、炎症反应剧烈,故患者溶栓后发生END的概率升高。
近年临床数据越来越复杂,传统数据分析方法与数据分析工具已无法满足当前需求,而机器学习算法显示出明显优势,常用的机器学习算法有可处理非线性关系的预测模型(BP神经网络和决策树)及具有较高稳健性与容错性、可高效处理大数据集的随机森林。本研究收集ACI患者病历资料,分别基于BP神经网络、随机森林和决策树构建ACI患者静脉溶栓后发生END的风险预测模型,以期能选择出最优的风险预测模型,这对指导临床医务工作者采取治疗策略、降低END发生率具有重要意义。
本研究基于上述10个危险因素分别构建BP神经网络、随机森林和决策树,结果显示,BP神经网络预测训练集ACI患者发生END的AUC为0.963,随机森林为1,决策树为0.916,提示三种模型的拟合效果较好;BP神经网络预测测试集ACI患者发生END的AUC为0.957〔95%CI(0.918,0.995)〕,随机森林为0.969〔95%CI(0.913,1.000)〕,决策树为0.848〔95%CI(0.737,0.959)〕;Delong检验结果显示,随机森林预测测试集ACI患者发生END的AUC大于决策树,BP神经网络与决策树、BP神经网络与随机森林预测测试集ACI患者发生END的AUC比较无统计学差异。提示BP神经网络、决策树及随机森林对ACI患者发生END的预测效能均良好,其中随机森林对ACI患者发生END的区分度优于决策树。分析原因可能如下:与决策树相比,随机森林具有随机特征,且不存在过度拟合情况。随机森林的主要优势是分析复杂的非线性关系的数据,且不会限制预测变量数量,此外其还能根据特征变量重要程度进行排序,并同时处理连续变量与分类变量[26-27]。但考虑BP神经网络、随机森林及决策树均为机器学习算法,且三者预测ACI患者静脉溶栓后发生END的效能均良好。因此,临床上可结合患者实际情况选择风险预测模型。
综上所述,BP神经网络、决策树及随机森林对ACI患者静脉溶栓后发生END的预测效能均良好,其中随机森林对ACI患者静脉溶栓后发生END的区分度优于决策树。但本研究仍存在以下不足:(1)本研究为单中心、回顾性研究,且样本量较小,可能存在选择偏倚和信息偏倚;(2)本研究纳入的ACI患者发生END的危险因素并不全面,仍有待未来研究构建更有效的风险预测模型。
作者贡献:徐守权进行文章的构思与设计,并对文章整体负责、监督管理;徐守权、包仲明进行研究的实施与可行性分析;徐守权、唐国文、陈锦凤、李超杰、彭美玲进行数据收集、整理、分析;徐守权、赖瑜梅进行结果分析与解释;徐守权、黄舞标负责撰写、修订论文;徐守权、文黛薇负责文章的质量控制及审校。
本文无利益冲突。