基于列线图的利福平敏感肺结核患者不良转归预测模型的构建和验证
2023-10-09陈代权林淑芳戴志松周银发陈堃
陈代权 林淑芳 戴志松 周银发 陈堃
我国是结核病高负担国家,通过持续开展结核病控制规划,我国利福平敏感肺结核成功治疗率已达到90%以上,但由于患者基数大,2020年全国登记的患者中仍有3万余例活动性肺结核患者治疗不成功[1]。现有研究表明,不规律治疗是影响治疗转归的重要因素[2-5]。通过加强患者的服药管理可以明显降低患者不良转归率[3-6]。
我国于2015年起将结核病患者健康管理纳入基本公共卫生服务项目。随着基本公共卫生服务项目的开展,群众对高质量基本公共卫生服务的需求增加,基层医疗卫生机构人员不足问题日渐凸显[7]。近年来,“互联网+”技术和各种智能工具在患者管理中得到广泛应用,专家建议,应以患者为中心,按照多样化、个性化和可调整的原则选择合适的督导管理方式[8]。因此,开展患者治疗不成功风险评估和分类,根据评估结果选择合适的督导管理方式迫在眉睫。
现有的预测模型大部分基于专项调查或临床检查的数据,其中有些预测因素在县级定点医院结核门诊无法及时获得;且预测模型为复杂函数公式,不易理解,导致预测模型在基层医疗卫生机构实际使用遇到困难。列线图因其简单易懂,容易操作,在临床中得到广泛应用,李本春等[9]和李颜玲等[10]分别使用列线图对结核病患者治疗依从性和治疗不成功风险进行了预测,Yan等[11]对肺结核合并肺部真菌感染诊断进行了预测,均取得较好的预测效果。
本研究利用“中国疾病预防控制信息系统”的子系统“结核病管理信息系统”(以下简称“系统”)中的肺结核患者监测信息,采用列线图构建了一个供基层医疗卫生机构使用的转归预测模型,旨在对患者发生治疗不成功风险进行分类,对不同风险人群采取不同干预措施,加强高风险人群督导管理,从而提高患者成功治疗率。
资料和方法
一、研究资料
从系统中导出2016年1月1日至2020年12月31日登记的现住址为福建省的利福平敏感活动性肺结核患者的相关资料,去除患者个人标识信息等脱敏后进行统计分析。
二、样本量估算和纳入排除情况
图1 模型构建样本筛选流程图
三、变量定义
根据《中国结核病预防控制工作技术规范(2020版)》定义,利福平敏感肺结核患者治疗转归分为:治愈、完成治疗、治疗失败、死亡、失访和其他,成功治疗包括治愈和完成治疗[13]。本研究将成功治疗以外的转归定义为不良转归。本研究根据既往研究发现的肺结核不良转归影响因素和同类研究的预测因子[2,6,14],同时考虑不同地区差异,以患者服药管理开始时可从系统中获取的年龄、性别、职业、患者发现方式、治疗分类、肺外结核、合并症、现住址类型、户籍地址类型、现住址所属地市和初诊病原学检查结果等变量为潜在预测因子进行模型构建。
四、模型构建和验证
1. 列线图:又称诺谟图,是基于多因素回归分析的结果,同时整合多个预测因子,并根据这些预测因子预测结局事件发生的概率,该方法优点是能够将复杂统计预测模型可视化,用图形直观呈现,使其更为通俗易懂。其原理为根据模型中各个因素对结局变量的贡献程度(回归系数的大小),给每个影响因素的每个取值水平进行赋分,然后再将各个评分相加得到总评分,最后通过总评分与结局事件发生概率之间的函数转换关系,计算出该个体结局事件的预测概率值。
2. 预测模型的构建:采用R语言sample函数将数据集按照1∶1的比例随机分为训练集和验证集,训练集37 532例,验证集37 531例。在训练集中,以是否发生不良转归为因变量,采用卡方检验和t检验进行单因素分析,以单因素分析中P<0.05的因素为自变量,采用多因素逐步logistic回归进行变量筛选。以多因素逐步logistic回归筛选出的自变量为预测因子,构建预测模型。采用列线图进行预测模型展示。
3. 预测模型评价:分别从区分度、校准度和临床实用性3个方面对预测模型进行评价。区分度采用一致性指数(index of concordance)和受试者工作特征(receiver operating characteristic curve,ROC)曲线的曲线下面积(area under curve,AUC)进行评价;校准度通过绘制校准曲线和Hosmer-Lemeshow检验进行评价;预测模型的临床实用性采用决策曲线(decision curve analysis,DCA)通过计算模型净获益进行评价。
4. 预测模型验证:在验证集中,通过训练集建立的预测模型计算每个个体发生不良转归的预测概率,并分别从区分度、校准度和临床实用性等方面对预测模型在验证集中的预测效果进行评价。
5. 动态列线图:通过DynNom包生成网页版动态列线图,使用rsconnect包将动态预测模型部署到shinyapps的服务器网址(https://www.shinyapps.io)上,动态列线图结果展示的网址为:https://fjcdq.shinyapps.io/dynnomapp/。
五、伦理学审查
本研究使用的数据均为经专门工作人员从“系统”中导出并脱敏的常规监测数据,不涉及人体组织、生物样本或个人隐私信息,数据处理过程中使用的患者编号均为加密后的匿名编号,不影响患者的权益和利益,符合《涉及人的生命科学和医学研究伦理审查办法》第三十二条的规定,免于伦理学审查。
六、统计学处理
结 果
一、基本情况
二、 训练集和验证集比较
经检验,训练集和验证集在性别、年龄、民族、职业、现住址类型、户籍地址类型、现住址所属地市、患者发现方式、合并症、患者治疗分类、初诊痰菌结果、是否合并其他部位结核及治疗转归分类构成方面差异均无统计学意义(P值均>0.05),见表1。
表1 训练集和验证集一般情况的比较
三、模型构建
采用训练集数据构建预测模型,单因素分析结果显示,性别、年龄、职业、户籍地址类型、患者发现方式、是否有合并症、治疗分类、初诊痰菌结果和现住址所属地市与患者治疗转归不良有关(P值均<0.05),见表2。以是否转归不良为因变量,以单因素分析中P<0.05的因素为自变量进行多因素逐步logistic回归分析,变量赋值情况见表3。结果显示,性别、年龄、职业、治疗分类和现住址所属地市与活动性肺结核转归不良有关,见表4。以多因素逐步回归分析最后模型保留的因素为预测因子构建预测模型,采用列线图进行模型展示,见图2。
表2 利福平敏感肺结核治疗转归影响因素的单因素分析
表3 多因素logistic回归分析变量赋值表
表4 利福平敏感肺结核治疗转归影响因素的多因素logistic回归分析
图2 预测利福平敏感肺结核患者不良转归的列线图
四、模型评价
1. 模型区分度:在训练集中,预测模型的一致性指数为0.671;经ROC曲线分析显示,模型区分度均表现一般,约登指数最大时的截断值为9.64%,对应的AUC为0.671(0.662~0.680),见图3。
图3 训练集和验证集预测模型的ROC曲线图
2. 模型校准度:Hosmer-Lemeshow检验结果显示,模型校准度较高(χ2=5.045,P=0.753);校准曲线结果显示,在训练集中模型预测概率与实际概率高度一致,尤其是在预测概率低于20%时,预测概率与实际概率几乎完全一致,见图4。
3. 临床实用性:决策曲线结果显示,当阈值概率在0~32%范围内时,预测模型能获得正向的大于全干预模型和不干预模型的正向净获益。当阈值概率为10%时,预测模型净获益为0.205,即当治疗不良转归发生率为10%时,采用预测模型可以减少20.5%患者的强化随访管理而不错过任何治疗转归不良的患者,见图5。
图5 预测模型的决策曲线
五、模型内部验证
将预测模型应用于验证集进行模型预测效果验证,结果显示,预测模型区分度表现一般,一致性指数为0.674,AUC为0.674(0.665~0.683),见图3。Hosmer-Lemeshow检验结果显示,模型校准度较高(χ2=3.091,P=0.929),校准曲线显示当预测概率在20%以内时,预测概率与实际概率基本一致,实际概率>30%时,预测模型可能低估不良转归风险,见图4。验证集中预测模型的DCA曲线与训练集基本重合,当阈值概率在0~32%范围内时,预测模型能获得正向的大于全干预模型和不干预模型的正向净获益,当阈值概率为10%时,预测模型净获益为0.204,即当治疗不良转归发生率为10%时,采用预测模型可以减少20.4%患者的强化随访管理而不错过任何治疗转归不良的患者,见图5。
讨 论
福建省2016—2020年利福平敏感活动性肺结核不良转归率为9.15%,低于青海省的11.14%[15]和全球平均的19.9%[16],成功治疗率达到“十三五”规划大于90%的要求。5年间成功治疗率呈上升趋势,可能的原因之一为近年来福建省逐步加大活动性肺结核耐药筛查力度,积极发现和治疗耐药患者,通过在治疗开始和治疗效果不理想时及时开展耐药筛查,早期发现耐药肺结核患者,避免了耐药患者按敏感肺结核方案治疗,最终出现不良转归的风险。不良转归主要原因为丢失、非结核死亡、不良反应和其他,提示应加强患者的治疗管理,及时发现患者治疗时发生的不良反应,督促患者按时复诊,坚持完成治疗。
在训练集中,多因素logistic回归分析发现,性别、年龄、职业、治疗分类和现住址所属地市与不良转归有关,与既往肺结核治疗转归相关研究结论一致[15,17]。Peetluk等[14]对33项研究的37个结核病治疗转归预测模型进行系统分析发现,最常用的潜在预测因子为年龄、性别、肺外结核、痰涂片结果、体质量指数、影像学检查结果及既往治疗史,纳入模型的最常见因素为年龄、性别、肺外结核、痰涂片结果、体质量指数、影像学检查结果、既往治疗史和是否合并HIV感染。本研究以结核病日常监测信息为基础进行模型构建,主要是考虑监测系统信息的可获得性强,所有患者在登记时信息均已收集完善,使构建的预测模型在基层医疗卫生机构可操作性强。基于此,本研究采用了通俗易懂、可视化强的列线图对预测模型进行展示,同时本研究还提供了预测模型的网页动态版本,以方便基层医务人员使用(网址:https://fjcdq.shinyapps.io/dynnomapp/)。
既往系统综述结果显示,关于肺结核治疗转归的预测模型的区分度常用ROC曲线的AUC评价,大部分预测模型区分度处于中等水平,AUC为0.75(0.68~0.84)[14]。本研究结果显示,验证集中预测模型区分度表现一般,AUC仅为0.674,低于其他相关模型[9-10,18],可能与本研究仅以监测信息包含的变量进行模型构建,一些对治疗结局有较大预测作用的临床监测指标或治疗过程中的检测指标未被纳入有关;另一方面,本研究的研究对象为现住址为福建省的利福平敏感活动性肺结核患者,利福平耐药和跨省流动等影响肺结核成功治疗的重要影响因素在研究对象中不存在,可能也是本研究区分度表现不佳的原因之一;此外,本研究发生不良转归人群中有20.97%为非结核死亡,其发生原因多难以预测。验证集内部验证结果显示,模型在验证集中表现与训练集基本一致,具有较好的外推性,这得益于本研究样本量较大,模型稳定性高。DCA曲线是Andrew Vickers博士等研究出的一种评价方法,其较ROC曲线的主要突破是能评价预测模型的实际临床收益[19]。近年来,DCA曲线已广泛用于预测模型实际临床收益的评价[20]。本研究结果显示,模型阈值概率在0~32%范围内时,预测模型能获得正向的高于全干预模型或不干预模型的净获益。当阈值概率为10%时,净获益为0.205,通过采用该预测模型,可以减少对20.5%的患者进行直接面视下服药管理,不会错过任何治疗转归不良的患者。近年来,我国数字健康工具在结核病患者管理领域被广泛使用,一项多中心大规模随机对照试验结果显示,数字健康工具(电子药盒)管理的患者治疗结局与对照组差异无统计学意义,且对患者失访率影响不大[21],而失访是导致患者治疗不成功的重要因素。通过使用该预测模型,每100例肺结核患者中有20例患者判定为不会发生不良转归且实际不会发生不良转归,可对预测模型判定低不良转归风险的人群使用电子药盒等“互联网+”等新型随访管理措施,减轻基层医务工作者随访管理工作负担,集中精力对其他人群加强管理,实际防控效益尚可。
本研究尚存在一些不足。首先,该预测模型为保证资料的可获得性,采用“系统”中的资料进行模型构建,模型区分度较低,在下一步的研究中,应进一步探索纳入更多易于收集的潜在预测因子,以提高模型区分度和预测性能。其次,虽然本研究采用了较大的样本量进行模型构建,并在内部验证中取得了较好的一致性,但未能进行外部验证,未来可以选取若干县区,对模型效能进行外部验证。再者,本研究以监测信息为基础开展研究,研究结果受监测信息质量的影响较大,下一步可以通过专项调查数据,进一步验证预测模型的效能。
综上,本研究以“系统”中的登记信息构建了一个肺结核不良转归的预测模型,模型区分度一般,校准度较高,防控实际净效益尚可。可使用该模型对患者进行不良转归风险分类,加强高风险人群督导管理,从而提高患者成功治疗率。
利益冲突所有作者均声明不存在利益冲突
作者贡献陈代权:研究设计、实施调查、论文撰写、数据整理/分析、论文修改;林淑芳、戴志松、周银发:研究设计/指导、实施调查、数据整理、论文修改;陈堃:研究设计/指导、数据整理/分析、论文修改