重症新型冠状病毒肺炎的危险因素分析及预测模型构建
2022-06-20沈梦媛颜学兵李春阳周冬梅
沈梦媛,李 伟,颜学兵,李春阳,周冬梅
根据临床特征,新型冠状病毒肺炎(COVID-19)可分为:轻型、普通型、重型和危重型[1]。轻症患者预后良好,重症是构成死亡的主要原因。然而,由于快速的病毒复制和细胞因子风暴,该疾病可在短时间内(7~10 d)由轻症进展为重症,包括急性呼吸窘迫综合征(ARDS)和其他多器官并发症等[2]。这种突然暴发性进展导致了疾病死亡率的增加。目前还没有针对COVID-19的特效药物。部分重症患者最终会出现呼吸困难,而在早期阶段患者没有特异的症状[3]。因此,及早确定COVID-19进展的实验室预测因素至关重要。通过严格的监测和早期诊断,及时识别和干预是降低重症患者病死率的关键。
1 材料与方法
1.1 患者来源及分组
选取2020年1月10日—2月27日在南京鼓楼医院共享数据平台可收集到的江苏多地医院救治的COVID-19患者,共计342例。数据经脱敏处理,真实可靠。
纳入标准:符合国家卫生健康委员会发布的《新型冠状病毒肺炎诊疗方案(试行第八版)》[1]诊断标准的确诊病例。排除标准:临床资料不全及精神障碍者。按病情严重程度分为轻型、普通型、重型、危重型[4]。各型诊断标准为:轻型为①临床症状轻微;②影像学未见肺炎表现。普通型为①具有发热、呼吸道症状等;②影像学可见肺炎表现。重型为符合下列特征之一,即①出现气促,呼吸≥30 次/min;②静息状态下,指脉血氧饱和度≤93%;③动脉血氧分压(PaO2)/吸氧浓度(FiO2)≤300 mm Hg;④肺部影像学显示24~ 48 h内病灶进展>50%。危重型为符合下列特征之一,即①出现呼吸衰竭,且需要机械通气;②出现休克;③合并其他器官衰竭需要入住ICU治疗。轻型和普通型患者为非重症组,重型和危重型患者为重症组。
1.2 研究方法
回顾性分析两组患者的基础信息包括性别、年龄、体重指数(BMI),既往生活史信息如有无吸烟、饮酒,患病史信息如有无糖尿病、高血压、慢性肺疾病等;实验室指标[空腹血糖(FBG)、红细胞计数(RBC)、血红蛋白(HGB)、血小板计数(PLT)、白细胞计数、中性粒细胞百分比(NE%)、中性粒细胞百分比/淋巴细胞百分比(NLR)等。
1.3 统计学分析
采用 SPSS 23.0软件进行分析,计量资料符合正态分布的数据采用均数±标准差表示,组间比较采用独立样本t检验。不符合正态分布的数据采用中位数(四分位数)表示,组间比较采用Mann-WhitneyU检验。分类计数资料采用例数(百分比)表示,组间比较采用χ2检验。利用logistic回归分析确定独立危险因素,对各指标绘制受试者工作特征(ROC)曲线,并计算曲线下面积(AUC)。利用K折交叉验证后LASSO回归算法和弹性网回归算法分别针对预测重症患者的高风险因子进行筛选,并建立预测模型。最后利用ROC曲线及AUC值对各模型性能进行比较,从而筛选出最佳预测模型。按检验水准P<0.05表示差异具有统计学意义。
2 结果
2.1 危险因素分析
2.1.1 一般情况比较 分析两组患者基础信息、患病史、生活史等发现,重症组中糖尿病患者比例较高,同时,年龄、BMI也高于非重症组,差异具有统计学意义(P<0.05),见表1。
2.1.2 实验室指标比较 重症组患者的NE%、NLR高于非重症组患者,淋巴细胞百分比(LY%)、PLT低于非重症组患者,差异均具有统计学意义 (P<0.05),见表1。
表1 重症与非重症COVID-19患者一般情况比较Table 1 Clinical and laboratory data compared between severe and non-severe COVID-19 patients
2.1.3 重症COVID-19危险因素分析 以是否重症为因变量,单因素分析结果显示差异有统计学意义的指标为自变量,进行逐步logistic回归分析,结果显示BMI、NLR、FBG为重症COVID-19的独立危险因素,见表2。
表2 重症COVID-19的危险因素逐步logistic回归分析Table 2 Stepwise logistic regression analysis of risk factors for severe COVID-19
2.1.4 应用ROC曲线评价相关指标对重症风险预测价值 BMI 预测重症COVID-19的 ROC曲线的AUC是 0.738,P<0.001,95%可信区间为 0.688~0.784;FBG的 ROC曲线的AUC是 0.839,P<0.001,95%可信区间为 0.796~0.877;NLR的 ROC曲 线 的AUC是 0.818,P<0.001,95%可信区间为 0.773~0.857,见图1。可见,BMI、FBG、NLR 均能较好地预测重症COVID-19的发生,其中 FBG较BMI、NLR预测的灵敏度更高。
2.2 应用模型筛选重症患者的危险因素
对于预测重症COVID-19患者的高风险因子,利用K折交叉验证后LASSO回归算法和弹性网回归算法分别进行筛选,经过对比分析,最终选出以下5项指标:糖尿病、LY%、NLR、PLT、总胆红素(TBIL)。
2.2.1K折交叉验证的LASSO 回归 根据本文数据设定3折交叉验证,也就是κ= 3。本文采用使均方误差(MSE)最小值的logλ确定的λ值去拟合模型。在测试集上验证使用K折交叉验证之后的 LASSO 模型,模型的误差为 0.060 033 26,并且通过模型筛选出7个变量,分别是NLR、单核细胞百分比(MO%)、单核细胞数、RBC、HGB、PLT、TBIL,见表3。
表3 K折交叉验证的 LASSO 回归结果Table 3 Results of K-fold cross-validation for LASSO regression model
2.2.2 弹性网回归 结合弹性网模型参数的最优组合为λ= 0.02,α= 0.8,筛选出的特征结果如下,LY%、NLR、PLT、TBIL,见表4。
表4 弹性网回归结果Table 4 The results of elastic net regression
由于 LASSO 回归算法在筛选变量时预测变量具有群组效应,也就是当一组数据具有很密切的相关关系时,用 LASSO 回归只能选出其中一个变量而且不考虑变量被筛选的缺陷,因此可结合弹性网回归进行变量筛选。
本研究利用重采样方式,指定参数为 LOOCV,最终得到弹性网模型的最优网络参数,根据选择最优模型的原则就是选择均方根误差(RMSE)值最小的模型,最终,结合弹性网模型参数的最优组合λ= 0.02,α= 0.8,筛选出的特征结果如下:LY%、NLR、PLT、TBIL。
2.2.3 重症COVID-19危险因素logistic回归预测 利用上文筛选出的4个连续特征变量以及1个分类变量糖尿病,采用 logistic 回归模型对是否为重症进行预测,结果见表5。
优势比可以解释为特征中1个单位的变化导致的结果发生比的变化:一般系数>1,则表明特征的值增加,结果的发生比会增加,反之,结果的发生比降低。可以得到本文的LY%、NLR的系数<1,而糖尿病、TBIL、PLT的系数>1。
2.2.4 多重共线性检验 对各个特征进行潜在多重共线性检验,查看VIF统计量的值,根据VIF经验法则,共线性对模型影响不大(VIF统计 量<5),见表5。
表5 logistic 回归和各变量优势比结果Table 5 The results of logistic regression and multicollinearity test
2.2.5 验证模型准确性 将数据按8∶2的比例划分训练集和测试集,在训练集上模型的混淆矩阵,可以看出预测错误的概率为0.083 9,见表6。
表6 logistic回归训练集混淆矩阵结果(阈值为0.5)Table 6 logistic regression analysis of training set confusion matrix at cutoff value of 0.5
同时给出在测试集上模型的混淆矩阵,其预测错误的概率为0.102 9,见表7。
表7 logistic回归测试集混淆矩阵结果(阈值为0.5)Table 7 logistic regression analysis of testing set confusion matrix at cutoff value of 0.5
2.2.6 应用ROC评价相关模型预测性能 为更好地选择具体模型,分别加入了交叉验证后的logistic 模型、基于 BIC 准则的最优子集模型与全模型进行对比,模型的选择主要是利用 ROC曲线对分类器性能进行比较,上述 ROC 曲线中分别给出了logistic 全(full)模型、基于 BIC 最小模型、基于K折交叉验证logistic 模型,由于K折交叉验证后将模型的特征减少至只剩一个变量,即LY%,仅有一个特征的模型,成为糟糕(bad)模型。logistic全模型的AUC值最高,为0.906 332,仅有一个特征的糟糕模型AUC值最小,为0.862 997 7。从各个方面来看,logistic全模型的预测效果更优。因此,从该模型可以得到,重症COVID-19的高危因素为:糖尿病、LY%、NLR、PLT、TBIL。见图2。
3 讨论
重症COVID-19患者病情通常迅速进展,常合并多种并发症,最终导致患者死亡。因此,明确与病情严重程度相关的指标,及时准确判断病情并采取相应治疗可能是降低重症患者比例、减少COVID-19死亡的关键。
既往发现在233例肺炎链球菌肺炎患者中,FBG≥10 mmol/L的患者死亡率是FBG<7 mmol/L 患者的3.4倍[3]。在无糖尿病病史的患者中,疾病的严重程度与FBG的水平有很强的联系[4],这与本研究结果相符。COVID-19严重程度与高血糖之间的关系可能是双向的,感染可能带来应激状态,引发促炎性细胞因子的增强释放,可能导致胰岛素抵抗[5]。应激也可能诱发应激激素的释放,使肝糖原溶解,加重影响[6]。这些因素共同作用,可能导致COVID-19重症患者高血糖的发生。
有研究表明,COVID-19患者中白细胞和中性粒细胞计数增加,而淋巴细胞减少[7]。根据 logistic 模型的结果可以看到,LY%的P值为0.027 5,明显小于 0.05,表明LY%对于危重症患者的预测具有显著影响。同时结合模型中LY%的优势比其结果小于1,这就表明当LY%减少时,重症的可能性会增加。淋巴细胞的作用主要为体液免疫、细胞免疫和直接杀伤作用,因此,我们认为LY%的减少与疾病的发展相关。
根据logistic 模型的结果,NLR的P值为 0.819 7,明显大于 0.1,表明NLR对于危重症患者的预测不具有显著影响。但因NLR为复合指标,且优势比为0.96,接近1,可以看作优势比≥1,因此,可以认为,NLR越高,重症的发生率越高。其主要原因可能由于这一指标主要反映了NE%与LY%之间的平衡,在本研究COVID-19患者队列中,NLR也成为死亡率的独立预测指标之一,该结果与先前发表的研究一致[8-9]。有研究表明,与非重症患者相比,重症患者中较高的炎性细胞因子、趋化因子和NLR与疾病的严重程度相关,提示细胞因子风暴与疾病严重程度的关 系[10-13]。重症患者由于免疫功能低下而更容易出现细菌和病毒双重感染,这也可能是重症患者中性粒细胞升高的原因之一。有研究发现NLR>19.94的患者死亡率更高[14],表明NLR的升高可作为预测COVID-19患者预后的标志物[15]。上述发现均与本研究结果一致。
本研究发现,BMI也是重症COVID-19的独立危险因素,高BMI已被确定为下呼吸道感染预后不佳的重要危险因素。肥胖患者的气道狭窄与气道关闭和气道高反应性相关[16]。COVID-19可能导致潜在的气道威胁,并导致急性呼吸窘迫综合征(ARDS)[17]。由于呼吸道阻力增加和胸壁力学增加,呼吸肌力量下降,需氧量增加了3倍以上[18],耗氧量增加会导致需要更多的氧气支持,甚至呼吸衰竭。
本研究为一项多中心回顾性分析,比较了COVID-19重症、非重症患者的相关实验室指标及既往病史,此外,在分析原有数据的基础上,通过LASSO回归联合弹性网回归筛选高危因素,基于多因素回归分析,将多个指标进行整合,构建预测模型,将各高危因素导致重症的风险进行量化,并通过多重共线性检验及ROC曲线对分类器性能的比较,证明该模型预测性能较佳,这对辅助临床评估患者,选择更具针对性的防治措施以及临床工作具有指导意义。
本研究尚有几个局限性:首先,样本量较少,尤其是重症患者,因数据受限,未能进一步阐述糖化血红蛋白的影响。其次,当收集相应样本时,处于不同炎症阶段的患者可能也会导致炎性因子风暴指标的变化。 第三,由于各地检测仪器设备的不同,可能会存在系统误差。
本次通过回顾性分析发现既往有糖尿病病史的患者中,重症发生的比例更高,与其他研究的结论一致[19-20]。同时在研究中发现,重症患者的NE%、NLR、TBIL指标较非重症患者更高,LY%、PLT较轻症患者更低。由此,我们认 为,FBG、BMI、NLR、NE%、LY%是 重 症COVID-19的独立危险因素。
COVID-19疫情防控任务仍然艰巨,如果能在确诊早期判断和评估出患者转为重症的潜在风险,及时予以针对性治疗,能降低疾病死亡率。因此,建议应用更多研究以验证FBG、BMI、NE%、LY%和NLR早期诊断重症COVID-19患者的临床价值,用于识别危重患者、改善患者预后。