APP下载

基于梯度提升机算法的弥漫大B细胞淋巴瘤患者并发间质性肺炎预测模型构建与验证

2023-07-09李虎生宾燕成廖家蓓叶光剑

实用临床医药杂志 2023年12期
关键词:吸烟史单抗年龄

李虎生, 吕 钊, 冯 翠, 宾燕成, 廖家蓓, 叶光剑, 张 华

(广西壮族自治区玉林市红十字会医院 血液内科, 广西 玉林, 537000)

弥漫大B细胞淋巴瘤(DLBCL)是最常见的淋巴系统恶性肿瘤,占淋巴瘤的30%~40%[1]。利妥昔单抗+环磷酰胺+长春新碱+多柔比星+泼尼松(R-CHOP)是目前DLBCL的一线治疗方案,可治愈60%的DLBCL患者[2]。然而, 8.1%~28.46%的DLBCL患者接受R-CHOP治疗后出现间质性肺炎(IP), 对预后产生不良影响[3-4]。利妥昔单抗治疗后DLBCL患者并发IP既受药物因素影响[5], 又与患者年龄、性别、疾病分期、高血压病史、糖尿病病史、吸烟史等有着密切关系[6-7], 多数高风险患者同时存在多种危险因素,若单独考虑某因素对IP的影响则不利于医生的临床决策。在R-CHOP治疗前预测DLBCL患者发生IP的风险,可帮助临床医生针对性地调整治疗方案或提前干预,从而降低并发症的发生率。Logistic回归模型是预测常用的模型,但对数据不平衡的处理存在一定局限性,很难拟合数据的真实分布情况[8]。梯度提升机(GBM)算法是机器学习的一种常用工具,该算法由大量弱分类器集合而成,在医学数据分析中具有更高的可解释性[8-9]。本研究基于GBM算法构建预测模型,评估R-CHOP治疗后DLBCL患者并发IP的影响因素,以便临床医生识别和判断高风险人群,现报告如下。

1 对象与方法

1.1 研究对象

收集2019年1月—2022年4月本院血液科诊治的DLBCL患者的资料。纳入标准: ① 在本院接受全程治疗的DLBCL患者; ② 治疗方案为R-CHOP者; ③ 化疗前胸部CT检查显示无IP表现者; ④ 未发生IP患者均接受至少4个周期治疗。排除标准: ① 合并其他恶性肿瘤,既往接受过化疗或放疗等抗肿瘤治疗者; ② 化疗过程新发感染性肺部疾病者; ③ 有严重精神疾病者; ④ 临床资料不全者。本研究共纳入220例DLBCL患者,通过计算机采用随机数字表法将患者按7∶3比例分为训练集154例和测试集66例。训练集用于构建GBM模型,测试集用于验证模型效能。本研究经医院伦理委员会审核批准。

1.2 研究方法

1.2.1 IP诊断标准: 依据患者的胸部CT检查结果和临床症状进行诊断,即胸部CT影像显示双肺弥漫阴影、毛玻璃状影、絮状或斑片状影、蜂窝状及网格状影等,临床症状表现为发热、干咳、气急、胸闷等。

1.2.2 资料收集: 查阅医院电子病历档案,收集患者年龄、性别、疾病分期、B症状、肺部感染史、国际预后指数(IPI)评分、高血压病史、糖尿病病史、吸烟史等资料。研究[10-11]表明IP发病时间多为利妥昔单抗治疗的第3~4周期,故本研究在发生IP时或第4个治疗周期前采集患者静脉血检测乳酸脱氢酶(LDH)和β2微球蛋白(β2-MG)水平。

1.2.3 GBM模型构建与验证: 构建模型纳入的变量包括年龄、性别、疾病分期、B症状、肺部感染史、IPI评分、高血压病史、糖尿病病史、吸烟史、LDH和β2-MG。通过R包“gbm”, 采用10折(cv. Folds=10)交叉验证测试模型准确性。基于训练集建立模型并确定最优超参数,模型参数为shrinkage=0.01, n. trees=651, interaction. depth=1, n. minobsinnode=10, bag. fraction=0.5。模型构建与验证通过R包“gbm”“rms”“caret”完成。

1.3 统计学分析

采用SPSS 24.0统计学软件分析数据,年龄、性别、疾病分期等计数资料以[n(%)]表示,比较采用χ2检验。通过R 4.1.2软件和RStudio软件构建模型,采用受试者工作特征(ROC)曲线评价模型区分度,采用校准曲线表示模型的拟合情况,比较GBM模型与Logistic回归模型的预测效能。P<0.05为差异有统计学意义。

2 结 果

2.1 临床特征分析

220例DLBCL患者中,男133例,女87例; 年龄41~75岁,平均(58.82±8.02)岁; Ann Arbor分期为Ⅰ~Ⅱ期149例, Ⅲ~Ⅳ期71例; 51例患者发生IP, 169例患者未发生IP, IP发生率为23.18%。训练集与测试集患者在年龄、性别、疾病分期、B症状、肺部感染史、IPI评分、高血压病史、糖尿病病史、吸烟史、LDH和β2-MG方面比较,差异均无统计学意义(P>0.05), 见表1。

表1 训练集与测试集患者的临床特征比较[n(%)]

2.2 GBM模型构建与验证

以训练集154例患者为样本进行χ2检验,将P<0.05的临床特征纳入GBM模型。经过筛选,年龄(χ2=21.437,P<0.001)、疾病分期(χ2=27.090,P<0.001)、IPI评分(χ2=12.810,P<0.001)、LDH(χ2=14.321,P<0.001)、吸烟史(χ2=19.352,P<0.001)这5项临床特征被纳入GBM模型进行分析。通过GBM算法获得各项临床特征的相对重要性,从高到低依次为年龄、疾病分期、LDH、IPI评分、吸烟史,见图1。为了进一步验证GBM模型的预测效能,分别绘制训练集和测试集的ROC曲线, GBM模型在训练集和测试集中均有较高的预测准确性,曲线下面积(AUC)分别为0.872(95%CI: 0.800~0.945)、0.891(95%CI: 0.755~1.000), 最佳截断值分别为0.414、0.523, 特异度分别为0.923、1.000, 灵敏度分别为0.703、0.786, 见图2。校准曲线显示, GBM模型在训练集和测试集中的预测概率均与实际IP发生率具有较好的一致性,见图3。

图1 各变量在GBM模型中的相对重要性

A: 训练集中GBM模型的ROC曲线; B: 测试集中GBM模型的ROC曲线。

A: 训练集GBM模型的校准曲线; B: 测试集GBM模型的校准曲线。

2.3 GBM模型与Logistic回归模型的预测效能比较

GBM模型、Logistic回归模型的预测效能主要采用AUC、Kappa、准确度、灵敏度和特异度这5个指标进行衡量。GBM模型预测利DLBCL患者并发IP的AUC与Logistic回归模型接近(分别为0.873、0.871),Kappa、准确度和特异度高于Logistic回归模型,灵敏度略低于Logistic回归模型,见表2。Logistic回归Hosmer-Lemeshow拟合优度检验结果显示,χ2=20.257,P<0.05, 表明Logistic回归模型的预测值与真实值之间存在显著差异,模型拟合度较差。

表2 GBM模型与Logistic回归模型的预测效能比较

3 讨 论

精确预测DLBCL患者是否发生IP对后续治疗决策具有重要意义,故本研究构建GBM模型对DLBCL患者并发IP情况进行预测。该GBM模型强调各指标的相对重要性,提示年龄、疾病分期、IPI评分、吸烟史、LDH可准确预测DLBCL患者的IP发生概率,且模型具有良好的区分度、校准度和准确度。

尽管已有诸多学者通过分子生物学技术发现具有更高预测价值的分子标记物,用以改善肿瘤患者并发症的评估和干预措施,但由于检测价格昂贵且缺乏统一检测标准,尚无法广泛应用于临床。因此,结合现有临床数据构建一个可提高预测准确性的模型,可为临床肿瘤的个体化治疗提供参考依据。GBM模型由大量弱分类器集合而成,且用不同的权重将分类器进行组合,可降低损失,避免因样本分布不平衡对模型造成影响[12]。本研究样本分布不平衡,相较于Logistic回归模型, GBM模型可以较好地处理这一问题。本研究中, GBM模型由年龄、疾病分期、LDH、IPI评分、吸烟史组成,具有较高的准确性、可靠性和临床实用性。此外, GBM模型强调各指标的相对重要性,可为临床决策提供丰富信息。刘海钰等[13]通过梯度提升树模型预测肝癌早期复发风险,得出复发的最优阈值为12个月。范烨等[9]比较了GBM模型和肝内胆管癌分期系统的预测效能,发现前者能够更好地识别出手术预后良好的肝内胆管癌患者。本研究比较了Logistic回归模型与GBM模型的预测效能,发现GBM模型优于Logistic回归模型。Logistic回归插入到sigmoid函数中的函数是线性的,而GBM算法是非线性的[14]。Logistic回归以线性回归为支持理论,在Logistic回归中, sigmoid函数只能假设输入变量空间中的线性超平面,而在GBM模型中,该函数可以假设非线性超平面来进行分类[15],这大大提高了模型的准确度,避免了线性超平面导致的过度拟合。

以利妥昔单抗为基础的免疫治疗联合CHOP方案治疗DLBCL, 可提高疾病缓解率,改善患者生存质量。然而,利妥昔单抗引发IP的概率高,严重者甚至面临死亡风险[3, 16]。LI C等[6]报道R-CHOP方案治疗后DLBCL患者IP发生率为8.16%, 潘娟等[3]报道R-CHOP方案治疗后IP发生率为23.4%。本研究结果显示, R-CHOP方案治疗后DLBCL患者的IP发生率为23.18%, 与既往研究[3]结果相近。除药物因素以外,年龄≥60岁、IPI评分高、LDH异常等亦可增加IP的发生风险。刘澍等[4]发现,年龄≥60岁淋巴瘤患者肺炎发生风险增加了1.79倍,与本研究结果类似。高龄患者发生IP与其器官退化、新陈代谢速度缓慢、耐受力低等有关,加之高龄患者长期卧床,大多采用半卧位饮食法,极易引起肠道微生态失调,导致呼吸道和口腔异常分泌物增加,引发误吸、呛咳,进而增加IP发生风险[17]。研究[17]表明,伊布替尼联合利妥昔单抗治疗DLBCL相关IP发生的影响因素包括吸烟史、肺部感染史、LDH水平、肺实质侵犯。本研究结果也提示,吸烟史、肺部感染史、LDH水平与DLBCL患者发生IP有关。Ann Arbor分期系统将DLBCL分为Ⅰ~Ⅳ期,分期越高表示患者病情越严重,免疫功能越差,其中Ⅲ~Ⅳ期患者的治疗周期更长,导致药物毒副作用更明显,IP发生率更高[18]。IPI评分是淋巴瘤通用的临床评分系统,评价指标包括年龄、疾病分期、LDH是否异常、淋巴结外受侵部位数目,可反映患者的预后效果[19]。IPI评分越高,提示患者预后越差,并发症发生率越高[20-21]。吸烟可引发多种形式的肺损伤,可能是IP发生风险增加的影响因素[22-23]。血清LDH是糖无氧酵解及糖异生的重要酶系之一,其水平反映了DLBCL的发展程度,通常可用作DLBCL的诊断和预后指标[24]。与健康人相比, DLBCL患者的LDH水平显著升高,是预后不良的独立危险因素[25-26]。杨英等[24]发现, DLBCL患者不良预后的危险因素为LDH>245 U/L。本研究结果显示, LDH≥255 U/L是DLBCL患者发生IP的危险因素,与既往研究[24-27]结果相近。何晶等[11]指出,在DLBCL患者利妥昔单抗治疗的第3~4周期时,临床医师需加强对IPI评分中高危、LDH水平升高患者的监测和预防措施。

本研究存在一定局限性,例如仅对本院患者临床数据进行回顾性分析,样本量较小,可能存在一定的样本偏倚,还需进一步开展大样本、多中心的研究进行验证,以获得更全面的临床信息和更高的应用价值。此外,本研究仅通过GBM这一种机器学习算法进行预测,未来还应通过其他机器学习算法(例如人工神经网络和支持向量机)进行预测分析。

综上所述, R-CHOP方案治疗后DLBCL患者的IP发生率为23.18%, 主要与年龄、疾病分期、IPI评分、吸烟史、LDH水平有关,基于这些因素构建的GBM模型具有较高的准确度和区分度,可为DLBCL患者的临床治疗决策提供参考依据。

猜你喜欢

吸烟史单抗年龄
FOLFOXIRI联合贝伐单抗±阿替利珠单抗治疗转移性结直肠癌
变小的年龄
慢性阻塞性肺疾病流行病学调查及防控分析
如何筛选肺癌的高危人群?
司库奇尤单抗注射液
COPD合并活动性肺结核患者的危险因素及临床特征探析
年龄歧视
算年龄
胎球蛋白A与急性冠脉综合征发病风险的相关性分析
使用抗CD41单抗制备ITP小鼠的研究