2型糖尿病患者发生心力衰竭风险预测模型的系统评价
2023-02-22杨玉涵刘岩袁如月胡超越张晔张力杨晓晖
杨玉涵,刘岩,袁如月,胡超越,张晔,张力,杨晓晖
心力衰竭是各种心脏病的终末阶段,其具有患病率高、病死率高、再住院率高等特点[1]。2017年,全球心力衰竭患者约有6 430万例[2],心力衰竭发病后5年内死亡率约为50%[3]。在我国,心力衰竭患者人数约为890万,约占全球心力衰竭患者总数的13.8%[4]。2型糖尿病(type 2 diabetes mellitus,T2DM)是心力衰竭的独立危险因素,T2DM患者心力衰竭发生风险较非T2DM患者增加2~4倍[5],心力衰竭住院风险较非T2DM患者增加2倍[6]。T2DM患者合并心力衰竭后临床症状、体征更明显,心功能、生活质量更差,死亡风险较未合并心力衰竭患者增加10~12倍[7],故T2DM患者心力衰竭风险防控形势依然严峻。近年随着研究不断深入,T2DM患者发生心力衰竭的危险因素被不断发现,且国内外研究者根据危险因素构建了多个T2DM患者发生心力衰竭的风险预测模型,但鲜有研究对这些风险预测模型进行评价,这在一定程度上影响了风险预测模型在医疗决策中的应用。因此,本研究对T2DM患者发生心力衰竭风险预测模型进行系统评价,以期为临床医生选择合适的预测模型提供参考。
1 资料与方法
1.1 检索策略 计算机检索PubMed、Embase、Cochrane Library、中国知网、万方数据知识服务平台、维普网及中国生物医学文献数据库中有关T2DM患者发生心力衰竭风险预测模型的文献,检索时间从建库至2022-04-30。采用主题词和关键词相结合的检索方式,其中英文检索词:“diabetes/diabetes mellitus/type 2 diabetes mellitu/T2DM”“heart failure/cardiac dysfunction/incident heart failure/congestive heart failure”“risk prediction/risk score/risk assessment model/risk prediction model”;中文检索词:“糖尿病/2型糖尿病”“心力衰竭/心功能不全”“风险预测/风险评分/风险评估模型”[8]。并手动检索纳入文献的参考文献。
1.2 文献纳入与排除标准 纳入标准:(1)研究对象:T2DM患者,种族、国籍、T2DM病程不限;(2)研究类型:开发、更新或验证风险预测模型的研究;(3)结局指标:心力衰竭,包括心力衰竭、再次发生心力衰竭、因心力衰竭住院、因心力衰竭死亡或残疾。排除标准:(1)以包括心力衰竭在内的复合终点为结局指标的文献;(2)会议摘要、灰色文献等非正式发表的文献;(3)综述、述评及基于系统评价/Meta分析建立风险预测模型的文献;(4)基础实验;(5)无法获取全文的文献。
1.3 资料提取 根据CHARMS清单制定资料提取表[9],提取内容包括纳入文献的基本特征(包括第一作者、发表时间、研究类型、数据来源、模型类型、研究对象、随访时间、结局指标)、模型构建情况〔包括样本量、心力衰竭发生例数、候选变量情况(包括数量和连续变量处理方法)、缺失数据情况(包括数量和处理方法)、建模方法及变量选择方法〕、模型预测效能〔包括AUC、校准方法、内部验证和外部验证(包括作者或其他研究者进行外部验证)〕情况、模型变量及模型呈现形式。
1.4 偏倚风险与适用性评价 应用预测模型偏倚风险和适用性评估工具(Prediction Model Risk of Bias Assessment Tool,PROBAST)评估模型构建和验证的偏倚风险[10-11],其中偏倚风险评价内容包括研究对象、预测因素、结局、分析4个领域共20个信号问题,任意一个领域评为高风险或不清楚则为整体偏倚风险高;适用性评价内容包括研究对象、预测因素和结局3个领域,任意一个领域适用性低则为整体适用性低。
1.5 质量控制与数据分析 文献筛选、资料提取、偏倚风险与适用性评价均由两位经过培训的研究者平行完成,并交叉核对结果。若两人意见存在分歧且经过讨论不能达成共识,则寻求第3方意见并达成共识。数据以描述性分析为主,计量资料以M(QR)表示,计数资料以绝对数表示。
2 结果
2.1 检索结果 初步检索相关文献3 420篇,根据文献纳入与排除标准,最终纳入12篇文献[12-23],均为英文文献。文献筛选流程见图1。
图1 文献筛选流程Figure 1 Literature screening process
2.2 文献基本特征 12篇文献[12-23]共构建了14个风险预测模型。研究类型为随机对照试验5篇[13,17-19,22],队列研究4篇[12,14,16,21],医疗机构电子数据2篇[20,23],注册研究1篇[15];数据来源为欧洲4篇[13-16],美洲4篇[17-18,20-21],亚洲2篇[12,23],全球26个国家2篇[19,22];随访时间为2.1~17.6年。纳入文献的基本特征见表1。
表1 纳入文献的基本特征Table 1 Basic characteristics of included literature
2.3 模型构建情况 14个模型的样本量(M=8 756,QR=22 168)和心力衰竭发生例数(M=402.5,QR=976)间的差异较大,候选变量为6~109个。12个模型未提及缺失数据,6个模型未提及缺失数据处理方法。14个模型中建模方法为Cox比例风险回归模型10个,Weibull比例风险回归模型2个,机器学习1个,参数比例风险模型1个;14个模型中变量选择方法为逐步选择法9个,弹性网正则化1个,随机生存森林选择1个,未提及变量选择方法3个,见表2。
表2 模型构建情况Table 2 Model construction
2.4 模型预测效能、模型变量及模型呈现形式 仅1个模型未提及AUC,13个模型的AUC为0.72~0.87;仅1个模型未提及校准方法,13个模型报告了校准方法;8个模型采用Bootstrap法进行内部验证,5个模型采用分割样本法进行内部验证,1个模型采用交叉验证法进行内部验证;8个模型是作者或其他研究者进行外部验证,6个模型未进行外部验证;14个模型包含3~16个模型变量,其中最常见的模型变量是年龄(8个模型)、糖化血红蛋白(glycosylated hemoglobin,HbA1c)(8个模型)及BMI(7个模型);模型最常见的呈现形式为评分分级(6个模型),其次为方程(5个模型),见表3。
2.5 偏倚风险及适用性评价 分别有8、13、3、2个模型在研究对象、预测因素、结局和分析领域被评为低偏倚风险,偏倚风险方面存在的主要问题如下:(1)未说明预测因素的采集时间以致无法确定是否是在不清楚结局数据的情况下评估预测因素(1个模型)及预测因素评估和结局确定的时间间隔是否合理(9个模型);(2)所有研究对象结局的定义可能不相同(2个模型)。14个模型整体均存在高偏倚风险,但整体适用性高,见表4~5。
表4 模型的研究对象、预测因素、结局、分析领域偏倚风险评价结果Table 4 Bias risk assessment results of the research objects,predictors,results and analysis fields of the model
表5 模型的偏倚风险及适用性评价结果Table 5 Evaluation results of bias risk and applicability of the model
3 讨论
2015年,WANG等[24]进行的Meta分析共纳入31篇文献,但其文献纳排标准宽泛,主要研究目的是分析T2DM患者发生心力衰竭的风险。2022年,RAZAGHIZAD等[25]考虑模型的实际应用情况,要求模型有严格的纳排标准,即提供模型的截距、预测因素系数等关键数据,最终纳入15篇文献,该研究有助于研究人员进一步校准、验证T2DM患者发生心力衰竭的风险预测模型,但临床医生仍无法仅凭借相关风险预测模型指导T2DM患者的预防用药及制定护理措施。为了补充既往Meta分析的不足,本研究评价了T2DM患者发生心力衰竭风险预测模型的偏倚风险及适用性,同时延长了文献检索时间,最终纳入12篇文献,共构建了14个T2DM患者发生心力衰竭风险预测模型,其AUC为0.72~0.87,提示T2DM患者发生心力衰竭风险预测模型具有一定区分度。
外部验证是验证风险预测模型临床适用性的必要步骤,但开发模型的研究者在进行外部验证时可能会倾向于选择与开发模型的队列具有相似特征的人群,进而导致对模型的预测效能过于乐观[26]。本研究中6个模型由开发模型的研究者完成外部验证,3个模型由其他研究者完成外部验证。COLLINS等[27]研究发现,由开发模型的研究者进行外部验证的平均AUC为0.78,高于其他研究者进行外部验证的0.72。另一方面,考虑实际应用模型的人群可能在基线特征、基线发病风险等方面存在较大差异[28],临床应用模型前需要多次进行外部验证以明确其是否具有可推广性。因此,研究者应注重对现有模型的外部验证,确定模型的可重复性及可推广性。
本研究14个模型整体均存在高偏倚风险,偏倚风险方面存在的主要问题如下:(1)未说明预测因素的采集时间以致无法确定是否是在不清楚结局数据的情况下评估预测因素(1个模型)及预测因素评估和结局确定的时间间隔是否合理(9个模型);(2)所有研究对象结局的定义可能不相同(2个模型)。分析主要偏倚风险来源为缺失数据处理方法不当(8个模型)、样本量不足(6个模型)、连续变量处理方法不当(3个模型)。首先,本研究中12个模型未提及缺失数据,6个模型未提及缺失数据处理方法。在临床研究中,缺失数据多为非随机缺失,通常与纳入研究的人群或疾病特征相关,故直接排除缺失数据不仅会影响模型的预测效能,还会增加模型的偏倚风险[29-30]。其次,样本量不足可能会错误估计模型的预测效能[31]。样本量大小通常以结局事件数与协变量个数比(the number of events per variable,EPV)进行衡量。一般认为,模型的EPV<10提示存在过度拟合的可能性较大,偏倚风险高。许多研究者推荐EPV至少应>20以降低模型的潜在偏倚[32-34],而对于使用机器学习建立的预测模型则需要更高的EPV(>200)以减少过度拟合情况[35]。本研究纳入研究中近一半研究EPV<20,尤其是SEGAR等[18]采用机器学习建立风险预测模型,但其EPV仅为2.9,导致了高偏倚风险。最后,针对连续变量应首先分析变量分布情况及其与结局指标的关系,最佳处理方法是通过线性或非线性拟合后代入方程[30]。有时考虑实际需求,研究者会将连续变量根据切点转换为分类变量,但若直接转换为分类变量,由于数据信息丢失严重,会导致模型性能大幅下降且偏倚风险较高;当采用3个或以上切点分割连续变量时,尤其是采用共识或指南中提供的切点时,模型的偏倚风险相对较低[36-37]。本研究中PANDEY等[21]和BERG等[22]将相同的生物学指标作为预测因素,前者选择单一切点分割连续变量,偏倚风险较高;后者采用4个切点分割连续变量,偏倚风险相对较低。
综上所述,目前构建的T2DM患者发生心力衰竭风险预测模型的AUC为0.72~0.87,具有一定区分度,但部分模型缺乏外部验证,且所有模型存在高偏倚风险。未来应积极开展模型的外部验证及更新,明确模型的可重复性及可推广性;建立或验证模型时注重报告的完整性及方法学规范,可参考个体预后或诊断的多变量预测模型透明报告(Transparent Reporting of A Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD)[38]及PROBAST[10]以降低模型偏倚风险。但本研究仍存在一定局限性:本研究仅纳入中文、英文文献,未检索灰色文献,且纳入的模型数量较少;因纳入文献的数据来源不同且存在统计学异质性,故未对研究结果进行定量分析。
作者贡献:杨玉涵、刘岩、杨晓晖进行文章的构思及设计、可行性分析及统计学处理;袁如月、胡超越、张晔负责研究的实施、资料收集;杨玉涵进行资料整理,论文撰写;刘岩、张力、杨晓晖负责文章的质量控制及审校;杨晓晖对文章整体负责、监督管理。
本文无利益冲突。