APP下载

基于随机森林模型的大疱性类天疱疮患者预后因素分析

2023-05-15赵丹丹

中国麻风皮肤病杂志 2023年5期
关键词:血钙死亡率准确率

赵丹丹 甄 莉

1山西医科大学,太原,030001;2山西医科大学第一医院皮肤科,太原,030001

大疱性类天疱疮(bullous pemphigoid, BP)是一种发病率和死亡率都较高的自身免疫性皮肤病,其预后的影响因素深受国内外学者重视。抗BP180抗体阳性是首个被证实的增加BP患者死亡率的因素[1]。随后的研究表明高龄[2-16]、性别[9-11,13-15]、患者的一般状态[6,8,9,15,16]、疾病的严重程度[2,5,13,15]、合并神经系统疾病[2,3,5,8,11,13,15,16]、合并心脏病[4-13]等可能是影响BP患者死亡率的危险因素。这些研究多采用Logistic回归和COX回归,目前应用随机森林算法分析影响BP患者预后的因素国内外尚未有报道,随机森林算法作为机器学习的经典算法之一,在疾病风险预测和诊断方面具有较高的准确性,目前在分子及基因水平等医学领域得到广泛应用。因此本研究分别应用Logistic回归和随机森林算法构建BP预后模型,探讨BP患者预后不良的相关因素,并比较两种模型的预测效果,为其病情评估、早期预防提供进一步依据。

1 资料与方法

1.1 研究对象 本研究回顾性分析山西医科大学第一医院皮肤科住院部2015年1月1日至2021年4月30日诊断的BP患者,共查询到122例,根据纳入及排除标准,确定研究对象为93例。本研究收集的患者临床表现及皮肤组织病理均符合BP,即临床表现为紧张性水疱,尼氏征阴性,皮肤组织病理为表皮下水疱。排除标准:(1)诊断有异议或不确定者;(2)临床资料缺失的患者;(3)失访的患者。

1.2 资料收集 收集患者的一般资料、既往史、临床表现、实验室指标及治疗方案,见表1。

表1 变量赋值表

随访:通过电话进行随访,了解患者的预后,目前治疗情况。

1.3 相关变量定义 身体质量指数(body mass index,BMI):用于评价人体的营养状况、胖瘦程度或身体发育水平,等于体重(kg)/身高2(m2)。

病变范围:局限是指分布于一个解剖区域的孤立水疱性病变和/或中度湿疹/荨麻疹病变;广泛是指两个或更多解剖区域的中度至弥漫性水疱病变和/或中度至弥漫性湿疹/荨麻疹病变。

入院时的一般状态:通过 Karnofsky评分来评估,Karnofsky评分是衡量患者一般状况和自主性程度的指标,评分范围0~100分,得分越高表示病情越好,自主性越强。本研究的一般状态差指Karnofsky评分≤40分,长期坐轮椅或卧床状态,自主功能丧失。

诊断延迟:自发病到确诊时间>30天。

伴有局部皮肤感染:皮损分泌物细菌和(或)真菌培养结果阳性。

是否合并其他疾病:神经系统疾病包括痴呆、脑卒中、帕金森病、癫痫、多发性硬化症等;心脏病包括冠状动脉粥样硬化性心脏病、心律失常、心力衰竭、先天性心脏病等;泌尿系统疾病包含肾功能不全、肾病综合征、肾小球肾炎、肾盂肾炎、肾衰竭等;呼吸系统疾病包括慢性阻塞性肺疾病、支气管哮喘、肺间质病变、肺纤维化等;消化系统疾病包括溃疡性结肠炎、克罗恩病、肝硬化等;甲状腺疾病包括甲状腺功能亢进、甲状腺功能减退、甲状腺炎等。

BP的1年死亡率作为衡量BP预后的指标。

1.4 数据填补 原始数据存在缺失值,我们对原始数据的缺失情况进行了探索,存在缺失值的变量分别是n20~n32,为弥补数据的实用性,我们利用基于随机森林的多重插补方法对数据进行插补。

1.5 统计学方法 采用R4.1.1对数据进行统计分析。利用基于随机森林的多重插补方法对数据进行缺失值填补,得到完整的数据集,通过套索算法(least absolute shrinkage and selection operator,LASSO),也称LASSO算法,进行特征选择。服从正态分布资料则采用(均数±标准差)表示,不服从正态分布资料则采用中位数(P25,P75)表示,分类变量采用百分比/构成比进行表示。我们将经过特征选择后的数据随机划分为训练集(70%)和测试集(30%),设置随机种子为123。然后用训练集分别构建随机森林模型和Logistic回归模型(逐步回归),并用测试集对模型的性能进行评定,在训练集和测试集使用了相同的分类阈值。检验水准α=0.05。

2 结果

2.1 一般资料 男63例(67.74%),女30例(32.26%),确诊时患者的年龄为45~94岁,平均(72.55±10.72)岁,年龄中位数为74岁。93例BP患者,1年内死亡21例,1年死亡率为22.58%。

2.2 LASSO结果 图1显示,当变量个数取9的时候,模型的均方误差最小,故我们保留了9个变量用于后续的模型构建。根据算法输出的结果,他们分别是年龄、是否吸烟、是否累及黏膜、是否伴有局部皮肤感染、入院时一般状态差、中性粒细胞绝对值、血清白蛋白、血钙、是否合并神经系统疾病。

图1 LASSO特征选择结果可视化图

2.3 随机森林算法的结果 将经过特征选择后的9个变量作为特征输入随机森林模型,利用训练集的数据训练模型,在利用训练集训练模型之前,对随机森林的参数进行了调整,包括ntree参数初始设置为500,mtry初始设置为3(分类工作),并挑选使得模型错分率最小的树的棵数,再将得到的最佳参数进行建模,以保证模型的灵敏度和特异度最优,模型预测结果最佳的分界值(阈值)是0.41333。设置参数随机抽取的变量个数mtry=3,ntree=200。用已训练好的模型对验证集患者的预后进行预测,准确率为81.84%。随机森林模型对影响BP患者预后的因素进行了重要性排序(图2),排名前五位的分别是年龄、是否累及黏膜、是否合并神经系统疾病、血钙水平、是否伴有局部皮肤感染。

图2 基于随机森林纯度的特征重要性排序图

2.4 Logistic回归的结果 以BP患者1年内是否死亡为应变量,将LASSO算法选出的9个特征变量作为自变量,基于训练集的数据向前逐步进行变量筛选,逐步回归分析结果(表2)显示高龄、血钙水平降低、合并神经系统疾病是BP患者预后不良的危险因素,病变累及黏膜的患者1年内死亡率更低。其中n6的P值为0.056>0.05,考虑到如果扩大样本容量,P值可能降低,故将是否累及黏膜也作为影响BP患者预后的一个因素。模型预测结果最佳的分界值(阈值)是0.4837932。我们通过绘制列线图进一步可视化Logistic回归模型,如图3所示。

表2 Logistic逐步回归的结果

图3 可视化Logistic回归的列线图

2.5 两种模型的比较 以BP患者1年内是否死亡作为应变量,用所构建的 Logistic 回归模型、随机森林模型验证集数据进行预测,并分别绘制出两种预测模型训练集和测试集的受试者工作特征曲线(receiver operating characteristic curve,ROC),具体见表3、图4,并对随机森林模型和Logistic回归模型预测的一致性进行分析(表4、5)。随机森林模型在训练集中的ROC曲线下面积为1.000,准确率为1.000,灵敏度为1.000,特异度为1.000,F1值1.00,测试集中ROC曲线下面积为0.763,准确率为0.8148,灵敏度为0.6667,特异度为0.8571,F1值0.62,训练集和测试集差异较大。Logistic回归模型在训练集中的ROC曲线下面积为0.923,准确率为0.8788,灵敏度为0.7500,特异度为0.9074,F1值0.69,测试集中ROC曲线下面积为0.8118,准确率为0.7778,灵敏度为0.5556,特异度为0.8889,F1值0.63,训练集和测试集差异与随机森林相比较小。随机森林模型和Logistic回归模型取并集后训练集准确率、灵敏度、特异度均为100%。测试集准确率为(18+5)/27×100%=85.2%,灵敏度=5/7×100%=71.42%, 特异度=18/20×100%=90%,均高于两模型单独预测。

表3 随机森林和Logistic模型在训练集和测试集的评价指标

图4 随机森林和Logistic回归模型在训练集和测试集的ROC曲线

表4 随机森林和Logistic回归模型在训练集的分类一致性

表5 随机森林和Logistic回归模型在测试集的分类一致性

3 讨论

BP是最常见的自身免疫性大疱性皮肤病,治疗首选糖皮质激素,长期使用糖皮质激素有发生免疫抑制的风险,易引起多种并发症和多脏器功能衰竭而导致患者死亡。据报道BP的全球平均年发病率为每百万人2.5~42.8例,1年死亡率为23.5%[17]。目前国内外已有的关于BP患者预后影响因素的研究,多采用Logistic回归和COX回归,大量的理论和实证研究都证明随机森林与传统统计学模型相比,具有更高的预测准确率,且不容易出现过拟合[18]。因此本研究采用随机森林算法研究影响BP患者预后的因素,并与传统Logistic回归相比较,以期为BP的临床治疗及预后提供更好的指导。

两种模型均表明年龄、是否合并神经系统疾病是影响BP患者预后的重要因素,Logistic回归显示年龄每增加1岁,BP患者1年死亡率增加0.127倍,合并神经系统疾病的BP患者死亡危险度是未合并神经系统疾病患者的5.45倍,这与大多数研究结果一致[2-16,19-23]。随着年龄的增加,患者免疫功能减退,身体机能退化,一般状况差,且易合并多种系统性疾病如神经系统疾病等,导致其死亡率较高,所以对老年BP患者尤其是合并神经系统疾病的患者临床上更应谨慎对待。本研究表明是否累及黏膜影响BP患者的死亡率,且Logistic回归结果显示回归系数为负数,表明累及黏膜是BP患者预后的保护因素,这与我们对疾病的认识不相符。造成这种结果的原因可能是若患者病变累及黏膜,临床上可能会给予更加积极的治疗,以迅速控制患者的病情,从而使得死亡率降低。在本研究中,两种模型均表明血钙水平影响BP患者的预后,随着血钙水平的增高,BP患者的死亡率降低,这在以往的研究中没有报道,但有研究表明较高的血清25羟基维生素D浓度与较轻的BP相关[24],维生素D可以促进机体对钙的吸收,血钙水平可间接反映机体维生素D的水平。本研究中是否伴有局部皮肤感染进入随机森林模型,皮肤局部感染不仅影响皮损的愈合,严重时还可引起菌血症、脓毒血症危及患者生命,从而影响BP患者的死亡率。Phoon等研究表明,感染是BP的常见并发症,同时感染也是BP患者的主要死因[25,26]。入院时一般状态、诊断延迟未能进入两种模型的原因不清楚,可能与样本含量少有关。

随机森林模型显示影响BP患者预后的因素排名前五位的分别是年龄、是否累及黏膜、是否合并神经系统疾病、血钙水平以及是否伴有局部皮肤感染。逐步回归分析结果显示高龄、血钙水平降低、合并神经系统疾病是BP患者预后不良的危险因素,病变累及黏膜的患者1年内死亡率更低。两种模型的结果基本一致,说明预测结果较可靠。随机森林模型AUC值、准确率、灵敏度、特异度以及F1值训练集和测试集的差异较大,Logistic回归模型与之相比差异较小,模型稳定性更好,若进一步增加样本含量,随机森林模型训练集和测试集之间的差异可能减小。随机森林模型对变量的数目没有限制[27,28],且可以提供模型预测中各个变量的重要性排序,Logistic回归模型简单易实现,可直观解释各个变量的相对危险度,两个预测模型各有优缺点,临床上两个模型取并集共同预测大疱性类天疱疮患者的预后更具实践意义。

猜你喜欢

血钙死亡率准确率
走路可以降低死亡率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
春季养鸡这样降低死亡率
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
新冠肺炎的死亡率为何难确定?
血钙正常 可能也需补钙
急性烂鳃、套肠、败血症…一旦治疗不及时,死亡率或高达90%,叉尾鮰真的值得养吗?
高速公路车牌识别标识站准确率验证法
氟斑牙患儿ERα启动子区甲基化率与血钙和尿氟的相关性