基于随机森林算法对首发缺血性脑卒中患者出院90 d复发的预测作用评价
2021-05-21张晓林彭晨殷淑娟陈积标王嘉晶易应萍
张晓林,彭晨,殷淑娟,陈积标,王嘉晶,易应萍
(南昌大学第二附属医院信息处,江西 南昌 330006)
脑卒中是一种全球范围内的常见疾病,发病率和病死率高,且复发率和残疾率也较高[1]。脑卒中居我国死因第一位[2],且发病率每年以近9%的速度不断上升[3],其中缺血性脑卒中占70%~80%。近年来,国内外关于脑卒中复发的研究较多,但大多数是针对影响脑卒中复发的独立危险因素研究,缺少多因素联合预测研究。随机森林[4](random forests)是一种基于分类树的算法,其因对样本量要求低、准确而高效、具有良好的稳定性以及可以综合考虑各因素等优势,目前已广泛应用于人工智能、大数据分析、临床医疗等领域[4]。本研究针对首发缺血性脑卒中患者构建基于随机森林算法的出院90 d复发预测模型,将所有影响指标按重要度排序,旨在为临床上预测及预防复发提供依据,现报道如下。
1 资料与方法
1.1 临床资料 回顾性分析2019年1月至2019年7月于南昌大学第二附属医院就诊的580 例首发缺血性脑卒中患者的临床资料,根据出院90 d 是否复发分为复发组(n=110)和正常组(n=470)。
纳入标准:均经头颅CT 或MRI 确诊;年龄18~85 岁;出院诊断为缺血性脑卒中(ICD10 编码为I63-I639)。排除标准:癌症者;出血性卒中或合并血管畸形等严重神经系统疾病者;合并严重心、肝脏、肺、肾脏系统疾病者;有卒中史者;使用抗凝药物者;医院内或出院90 d内死亡者;临床资料不完整以及失访者。
1.2 方法 通过大数据平台收集患者年龄、性别、高血压史、糖尿病史、吸烟史、饮酒史等;同时,收集患者血液检查值包括红细胞计数、血红蛋白、白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、血小板计数、红细胞压积、平均红细胞体积、总胆固醇、血清载脂蛋白A、血清载脂蛋白B、高密度脂蛋白、低密度脂蛋白等33 个指标。MHR=单核细胞计数/高密度脂蛋白胆固醇,NLR=中性粒细胞计数/淋巴细胞计数。于患者出院90 d后进行电话随访,调查患者复发情况(90 d内有新发神经系统表现、原有表现突然加重及头颅MRI或CT确诊新发,则视为复发[5])。
1.3 观察指标 采用随机森林模型与多因素Logistci 回归模型筛选患者出院后90 d内复发的影响因素,比较两种方法的准确度、灵敏度、特意度、约登指数,并评价随机森林的预测效果。
1.4 统计学方法 采用SPSS 25.0 和R 统计软件进行数据分析,计量资料符合正态分布以“±s”表示,组间比较采用独立样本t检验,计量资料呈偏态分布以M(P25,P75)表示,组间比较采用Mann-WhitneyU检验,计数资料组间率(%)的比较采用χ2/Z检验,以P<0.05为差异有统计学意义。
2 结果
2.1 复发组与正常组临床资料比较 首发缺血性脑卒中患者出院90 d 内复发率为18.97%(110/580)。复发组与正常组比较,男性、吸烟、饮酒、糖尿病、高脂血症比例明显升高,肌酐、MHR水平明显升高,舒张压、总蛋白、白蛋白、高密度脂蛋白胆固醇、载脂蛋白A、载脂蛋白B 明显下降,差异均有统计学意义(P<0.05)。两组其他特征指标比较差异均无统计学意义,见表1。
表1 复发组与正常组临床资料比较Table 1 Comparison of clinical data between recurrence group and normal group
2.2 复发影响因素的多因素Logistic 回归分析 以首发缺血性脑卒中患者出院90 d内是否复发作为因变量,将单因素分析筛选的性别、吸烟、饮酒、糖尿病、高脂血症、舒张压、总蛋白、白蛋白、肌酐、高密度脂蛋白胆固醇、载脂蛋白A、载脂蛋白B、MHR因素作为自变量,纳入多因素Logistic回归分析模型中,结果显示,饮酒、糖尿病、高脂血症、舒张压、载脂蛋白A 首发缺血性脑卒中患者出院90 d 内复发的独立危险因素(P<0.05),见表2。
表2 复发影响因素的多因素Logistc回归分析Table 2 Multivariate Logistic regression analysis of influencing factors of recurrence
2.3 基于随机森林的首发缺血性脑卒中患者出院90 d复发的风险预测模型分析 随机森林模型中各影响因素按重要程度排序依次为载脂蛋白A、天门冬氨酸氨基转移酶、白蛋白、红细胞压积、糖尿病、乳酸脱氢酶、肌酐、尿素、饮酒、总蛋白,重要程度依次为6.091、5.045、4.531、4.492、4.346、4.331、4.251、4.135、4.086、3.976。
2.4 多因素Logictic回归分析模型与随机森林模型预测复发效能比较 以患者出院90 d内是否复发为因变量,随机森林模型的准确性、灵敏度、约登指数均高于多因素Logistic回归分析,见表3。
表3 多因素Logictic回归分析模型与随机森林模型预测复发效能比较Table 3 Comparison of recurrence prediction efficiency between Logistic regression analysis model and random forest model
3 讨论
目前,随机森林算法已广泛应用于人工智能等领域,在医学相关领域研究较少,如刘文博等[6]利用随机森林对Pima印第安人是否患有糖尿病进行预测;张英男等[7]利用随机森林模型探究老年人生活方式与阿尔茨海默症之间的相关性;在国外,随机森林算法已应用于疾病的诊断,如Sundarsingh 等[8]将椎间盘形状特征与纹理特征结合利用随机森林算法进行椎间盘突出诊断与预测分析。
本研究中首发缺血性脑卒中的复发率为18.96%(110/580),在基于随进森林算法的首发缺血性脑卒中患者出院90 d 的复发风险预测模型中,在排名前6 的影响因素中,载脂蛋白A、糖尿病、饮酒与多因素Logistic 回归分析中差异有统计学意义的变量一致。两个模型预测效能比较发现,随机森林模型的准确性、灵敏度、约登指数均高于多因素Logistic 回归分析模型,分析原因为随机森林算法具有较高的准确率,同时,不易过拟合,对噪声和异常数据有较高的忍耐[9],此外,多因素Logistic 回归分析中各特征之间相互独立,且模型只有线性分割性[10],故导致准确率更低。
在随机森林模型显各影响因素中,饮酒、糖尿病是目前公认的脑卒中复发的危险因素[11-12];载脂蛋白A主要存在于高密度脂蛋白中,可抑制低密度脂蛋白氧化、激活卵磷脂胆固醇脂酰基转移酶,调节炎症反应,还可促进胆固醇从动脉符合符合血管壁中流出,对脑卒中的复发具有一定的抑制作用[12];天门冬氨酸氨基转移酶属于细胞酶类,广泛存在于全身细胞内,当脑细胞受损时,增加细胞内酶释放活性[13],但目前尚未有对脑卒中复发的影响相关研究;血清总蛋白与白蛋白是临床上常用的评价营养状态的指标,低水平的总蛋白和白蛋白可明显增加患者的住院时间、感染率及康复时间,不利于机体神经功能恢复,从而可能会导致脑卒中的复发[14];红细胞压积是影响血黏度的主要因素,动脉血管的血流动力异常影响脑卒中斑块的形成和发展进程[15];乳酸脱氢酶是脑组织损伤时最敏感的酶,当脑组织受损时,大量蛋白酶通过血脑屏障进入血液,使乳酸脱氢酶活性增加,细胞破坏加重,进而易导致脑卒中复发[16];肌酐、尿素的变化是急性肾功能障碍的主要表现之一,肾功能不全作为脑卒中发生的独立危险因素[17-18],其与脑卒中复发之间的关联仍需进一步研究。本研究存在以下不足:①本研究所选样本全部来源于南昌大学第二附属医院,以江西地区为主,缺乏一定的代表性;②所选样本量较少,缺乏一定的准确性;③一些生化指标由于缺失严重,而未纳入如C反应蛋白、同型半胱氨酸等指标,可能会对研究结果造成一定的影响。
综上所述,随机森林算法构建的首发缺血性脑卒中患者出院90 d 的复发的预测模型的预测效果相对于传统的多因素Logistic 回归分析模型有显著优势,可用于首发缺血性脑卒中患者出院90 d复发的预测,临床应用价值较高。