急性缺血性卒中患者行阿替普酶静脉溶栓治疗住院期间脑出血预测模型研究
2023-07-05陈慧陈思玎朱之恺俞蔚然姜勇王拥军
陈慧,陈思玎,朱之恺,俞蔚然,姜勇,2,王拥军
卒中是我国居民的第三位死亡原因,仅次于恶性肿瘤和心脏病[1]。卒中包括缺血性卒中和出血性卒中,其中,急性缺血性卒中(acute ischemic stroke,AIS)是最常见的卒中类型,占全部卒中的87%,rt-PA静脉溶栓治疗是AIS发病4.5 h内的标准治疗方法[2-3]。然而,rt-PA静脉溶栓治疗的预期益处会受到脑出血风险的影响,有研究表明,静脉溶栓治疗后症状性颅内出血(symptomatic intracerebral hemorrhage,SICH)的发生率和死亡率分别为5.6%±2.3%、14.7%±4.7%,且静脉溶栓治疗患者的SICH发病率与死亡率之间存在中度相关性[4]。尽管已存在多种对rt-PA静脉溶栓后脑出血进行预测的评分量表[5-11],但大部分评分工具都是基于国外人群开发的,由于国外人群在饮食、行为习惯等对脑血管病有重要影响的特征分布上与我国人群存在差异,基于国外人群开发的评分工具未必能很好地适用于我国脑血管病患者,这就需要开发基于我国脑血管病患者群体、适用性更强的rt-PA静脉溶栓治疗决策支持工具,以用于早期准确识别rt-PA静脉溶栓治疗后的脑出血发生风险,从而有助于更好地选择溶栓适应证,帮助临床医师根据患者的基础情况调整治疗策略,使更多符合溶栓条件的AIS患者接受rt-PA静脉溶栓治疗,这对改善患者预后、降低残疾率/致死率以及提高患者生存质量有重要意义。随着大数据时代的到来,算法技术日益丰富,机器学习算法在医疗卫生领域的应用已经取得不错的效果,且相较于传统统计模型,机器学习算法对于分类问题有着更高的灵敏度、特异度,更能满足精准医学的需求。本研究基于中国卒中中心联盟(China Stroke Center Alliance,CSCA)数据库,采用逻辑回归、极致梯度提升(extreme gradient boosting,XGBoost)、随机森林、梯度提升决策树(gradient boosting decision tree,GBDT)、分类梯度提升(categorical boosting,CatBoost)5种模型对rt-PA溶栓治疗患者住院期间脑出血情况进行预测。
1 对象与方法
1.1 研究对象 本研究的研究对象来源于CSCA数据库,CSCA是一个全国性的、基于医院、多中心、多方面的干预和持续的卒中医疗质量规范和改进项目,该项目面向中国所有二级和三级医院,CSCA的数据协调中心位于国家神经系统疾病临床医学研究中心和首都医科大学附属北京天坛医院[12]。2016年1月—2020年12月,CSCA注册中心登记了1 365 427例诊断为AIS、TIA、脑出血或蛛网膜下腔出血,在症状出现7 d内入院且年龄≥18岁的患者。本研究入组标准:①发病年龄≥18岁;②初步诊断为缺血性卒中或TIA;③发病7 d内就诊并住院治疗;④发病4.5 h内行rt-PA静脉溶栓治疗。排除标准:①接受尿激酶静脉溶栓治疗;②接受本院动脉导管再灌注治疗。本研究共纳入患者74 654例,其中住院期间发生脑出血患者2038例(2.73%)。按照年份将患者进行分组,其中,2016—2019年登记患者作为训练集(n1=58 628,占78.53%),用来构建预测模型,2020年登记患者作为测试集(n2=16 026,占21.47%),用来测试模型性能。
1.2 变量选择、数据预处理与分析方法
1.2.1 变量选择 本研究所有诊断均经头颅CT或MRI证实,以最终诊断是否为“梗死后脑出血”作为结局,剔除与预测结局不相关或缺失值≥20%的变量,结合临床经验并参考现有脑出血评分量表所纳入的预测因子,从CSCA数据库中获得患者人口学信息、临床变量、疾病史、用药史、体格检查、生化检查等41个变量的信息。
1.2.2 数据预处理 由于数值变量均不服从正态分布,本研究对数值变量缺失值进行中位数填补,结合临床经验,对疾病史、用药史等分类变量进行众数填补,即缺失值填补为“否”。由于研究人群中,出血患者有2038例(2.73%),存在正负样本不平衡现象,而机器学习在算法设计中,以整体准确率为优化目标,使得算法易向多数类样本倾斜,导致少数类样本检出率低。因此,有必要在使用训练集进行学习之前对数据进行预处理,即对不平衡数据进行重新采样。本研究采用原型选择下采样方法对训练集进行平衡处理(原型选择算法是直接从原始数据集中抽取实现数据均衡化的一种技术)。
1.2.3 模型算法及模型解释方法 本研究采用逻辑回归、XGBoost、随机森林、GBDT、CatBoost 5种机器学习模型。
(1)逻辑回归模型:是分析疾病与影响因子直接联系的重要统计学方法,也称为对数概率回归,其是以疾病发生的概率为因变量,以影响疾病发生的因子为自变量的一种回归方法,在对输入数据进行线性加权后,经sigmoid函数处理以获得输出概率结果,然后通过符号函数将概率结果转换为二进制输出[13]。
(2)XGBoost模型:是由陈天奇团队开发的一种高效且可扩展的机器学习分类器,是一种基于树的算法,以提升的方式将多个决策树组合在一起,创建的每颗新树通过梯度提升拟合前一个模型的残差,以提高模型效率。
(3)随机森林模型:是一种基于递归分类树的有效监督学习算法,对原始训练数据集采用bootstrap法有放回地随机抽取新的样本集并由此构建分类树,每次未被抽到的样本组成的袋外数据为测试集。最终将生成的多棵分类树组成随机森林,组成随机森林的每一棵分类树视为弱分类器,分类结果由每一个弱分类器投票决定,对异常值和噪声有较好的容忍度。
(4)GBDT模型:是一种基于决策树的集成学习模型,在迭代训练过程中,该模型基于上一次迭代的残差生成弱分类器,并通过不断减少训练过程中生成的残差来达到数据分类的目的,有着较强的泛化能力。
(5)CatBoost模型:是一种更强大的梯度提升算法,可以在训练期间处理分类特征,在为当前树构造新分割点时,使用贪婪策略以提高分类精度。此外,该算法可以克服梯度偏差,有效避免过拟合。
(6)采用SHAP图对机器学习模型筛选出的特征进行可解释性分析。
1.2.4 统计学方法 本研究中数值变量以M(P25~P75)进行描述,经由Wilcoxon秩和检验;分类变量以例数和率(%)进行描述,经由卡方检验,对训练集的出血组与未出血组进行单因素分析,筛选P<0.1的变量用以构建模型。本研究使用AUC、灵敏度、特异度、Brier评分等指标评价模型的预测效果,其中AUC值越高表示区分度越高,XGBoost、GBDT、CatBoost、随机森林和逻辑回归模型AUC的显著性比较采用Delong检验(P<0.05表示差异有统计学意义),Brier评分越低,表示模型校准度越好。
2 结果
2.1 特征选择 本研究共包括74 654例初步诊断为AIS或TIA的患者,平均年龄为(65.55±12.14)岁,男性48 493例(64.96%)。其中,2038例(2.73%)患者在住院期间发生脑出血,72 616例(97.27%)患者未发生院内脑出血。2016—2019年登记患者(训练集)共58 628例,其中1652例(2.82%)患者住院期间发生脑出血,56 976例(97.18%)患者未发生脑出血。对训练集中发生脑出血和未发生脑出血患者的人口学信息、临床变量、疾病史、用药史、体格检查、实验室检查等特征进行比较,以P<0.1为标准,筛选出年龄、性别、现在是否吸烟、现在是否饮酒、发病距溶栓治疗时间窗、就诊时NIHSS评分、住院NIHSS评分、糖尿病或空腹血糖>7 mmol/L、心房颤动病史、心肌梗死病史、心力衰竭病史、平均动脉压、BMI、低密度脂蛋白、空腹血糖、糖化血红蛋白、血小板计数等28个变量(表1)。
表1 出血组与未出血组单因素分析结果(训练集)
2.2 模型构建 逻辑回归模型最终在训练集上确定住院NIHSS评分、年龄、心房颤动病史、空腹血糖、发病距溶栓治疗时间窗、糖尿病或空腹血糖>7 mmol/L等排前20位的预测因子(图1A);随机森林模型在训练集上确定住院NIHSS评分、年龄、空腹血糖、心房颤动病史、就诊时NIHSS评分、血小板计数等排前20位的预测因子(图1B);XGBoost模型在训练集上确定住院NIHSS评分、年龄、空腹血糖、心房颤动病史、血小板计数、发病距溶栓治疗时间窗等排前20位的预测因子(图1C);CatBoost模型在训练集上确定住院NIHSS评分、年龄、空腹血糖、心房颤动病史、血小板计数、BMI等排前20位的预测因子(图1D);GBDT模型在训练集上确定住院NIHSS评分、年龄、空腹血糖、心房颤动病史、血小板计数、BMI等排前20位的预测因子(图1E)。
图1 各个预测模型的SHAP解释(训练集)
2.3 模型预测效果 所有模型在测试集中都表现出良好的预测力,其中XGBoost模型表现最优(AUC=0.770),其次为GBDT模型(AUC=0.766)和CatBoost模型(AUC=0.765);Brier评分越趋近于0,则表示模型校准度越好,其中GBDT模型Brier评分最低(Brier评分=0.154),表示该模型校准度最好。各模型ROC曲线如图2所示,各模型具体评价指标见表2。
图2 各个预测模型的ROC曲线(测试集)
表2 预测模型性能评价(测试集)
3 讨论
随着大数据时代的到来和精准医疗的快速发展,人工智能技术被越来越广泛地应用到医疗卫生领域,被誉为深度分析“载体”的机器学习方法已经在广泛的临床应用中衍生出了预测工具。近年来已经有部分研究探索了机器学习模型准确预测rt-PA静脉溶栓后脑出血的能力[14-16],尽管准确性很高,但这些研究的数据来源于单中心或样本量有限,仅包括数百项观察结果,模型很可能过度拟合特定群体,因此缺乏泛化能力。本研究数据量庞大,数据来源于全国1470家二级或三级医院,共纳入AIS或TIA并接受rt-PA静脉溶栓治疗的患者74 654例,其中住院期间发生脑出血患者2038例,占2.73%,发生脑出血患者数量远少于未发生脑出血患者,即正负样本极不平衡,使用不平衡数据进行建模,会导致分类器训练后的模型偏向于多数类,存在预测的偏向性问题,为避免这一问题,本研究采用原型选择下采样技术对数据进行平衡处理,以提高模型分类效果。
本研究基于机器学习算法构建模型,用于预测静脉注射rt-PA溶栓治疗患者住院期间脑出血情况,在测试集中,所有模型都对患者住院期间脑出血结局的发生情况表现出一定预测力,其中XGBoost模型预测效果最好,其区分度要优于逻辑回归模型,这可能是因为逻辑回归本质上是一个线性分类器,不能很好地处理特征之间相关的情况,而XGBoost、GBDT等机器学习模型是基于决策树的集成模型,擅长非线性问题,能很好地处理分类问题。为了提高模型预测效果,本研究综合脑出血经典预测评分量表中所使用的预测因子以及经过多年研究已经确定的一些与rt-PA静脉溶栓治疗后脑出血发生情况有关的危险因素如平均动脉压、NIHSS评分、年龄、血糖等[17-18],结合CSCA数据库特点,尽可能全面地纳入需要的特征,以实现对患者不良结局的预测。XGBoost模型SHAP图所显示的特征贡献度表明,住院NIHSS评分高、年龄大、空腹血糖水平高、心房颤动病史、血小板计数低等变量与脑出血的发生有关,因此,应用这些变量作为输入特征,可以实现对AIS或TIA患者行rt-PA静脉溶栓治疗后脑出血的预测。此外,本研究发现高NIHSS评分、当前吸烟、低密度脂蛋白水平降低、平均动脉压增高、血糖水平增高会增加脑出血发生的风险,与同类研究一致[17,19]。
本研究也存在一定的局限性:首先,模型的Brier评分结果不理想,提示模型校准度尚有提升空间,可能原因是本研究所纳入变量仅仅包括人口学信息、生化检查、疾病史及用药史等简单易获取的信息,缺乏影像数据,与实际临床应用仍存在一定差距,对脑出血的预测力尚有很大的提升空间,后续研究考虑纳入影像数据或结合结构化电子病历为构建预测模型提供更丰富的预测因子;其次,尽管CSCA数据库涵盖了全国范围内一千多家二级或三级医院的AIS或TIA患者,在我国卒中人群中有较好的代表性,但仍需进一步在独立的外部人群中进行验证。通过对行rt-PA静脉溶栓治疗的卒中患者院内出血情况进行预测和风险评估,可以提前对不良预后进行预警并制定个性化治疗方案,以期最大限度地减少患者溶栓后的脑出血风险、降低病死率和致残率。因此,有必要在该领域进行更深入的探索,使机器学习模型的结果能够为临床医师提供更加可靠的参考,进一步完善现有的评分系统。
【点睛】机器学习算法在处理大体量、高纬度数据方面较传统统计学方法有更高的效率,现被广泛用于医疗卫生领域。本研究构建了XGBoost、CatBoost、随机森林、GBDT、逻辑回归5种预测卒中患者溶栓后脑出血的模型,并证实XGBoost模型预测效果优于逻辑回归模型。