我国护理学者开展预测模型研究的现状和启示：一项范围综述

2022-12-07徐园朱丽筠王钰孙建华王晓杰邓海波王磊安然逊马玉芬

中国护理管理 2022年5期

徐园朱丽筠王钰孙建华王晓杰邓海波王磊安然逊马玉芬

随着医学的进步，越来越多的研究证实临床事件的发生多受一系列因素的影响，且因素间存在着较为复杂的交互关系[1]。既往可通过经验或量表评估临床事件风险，但其评估结果面临严峻挑战[2]。在医疗资源紧张、患者需求多样、医疗护理服务质量要求高的当下，精准医疗受到热切关注，其中能够精确预测风险、低成本、高效率的预测模型更成为研究趋势和热点[3]。国务院办公厅于2021年发布的《深化医药卫生体制改革2021年重点工作任务》中提出“要提升早期监测预警、风险评估研判的能力”，更是为预测模型的研发和应用提供了政策保障。近年来，我国护理学者也开展了大量预测模型的研究，以期精准预测潜在风险，保证患者安全。为了系统描述并剖析我国护理学者公开发表的预测模型相关文献，进而推动其高质量发展，本研究在澳大利亚Joanna Briggs Institute（JBI）循证卫生保健中心范围综述方法学框架[4]的指导下，描述了该领域的研究现状、研究方法和研究内容，并借鉴个体预后或诊断的多变量预测模型透明报告（Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis，TRIPOD）[5-6]对模型进行评价。现将结果报告如下。

1 资料与方法

1.1 文献纳入和排除标准

纳入标准：①我国护理学者发表的中、英文文献，特指从事临床护理（护士）、护理教育工作者（护理教师）及护理专业学生（如护理学研究生）撰写的文献；②针对特定的临床护理问题，通过严谨的方法学构建预测模型的文献。排除标准：①综述或个案类文献；②会议类文献；③重复发表的文献；④无法获取全文的文献；⑤非中、英文的文献。

1.2 检索策略

计算机检索中文数据库包括中国生物医学文献服务系统（SinoMed）、中国知网（CNKI）、万方数据库（Wanfang Data）及中文科技期刊数据库（VIP）；英文数据库包括Embase、PubMed、CINAHL、Web of Science。采用主题词与关键词相结合的方式，根据数据库的具体要求及医学信息学专家意见制定检索策略，全面收集我国护理学者发表的预测模型建立的相关文献。在预检索的基础上，确定最终的中文检索式（以万方数据库为例）：（预测模型）AND（建立OR研发OR构建OR开发OR形成）AND（护理）；英文检索式（以PubMed为例）：((((Models， Statistical [MeSH Terms]) OR (((prediction model*[Title/Abstract]) OR (risk assessment[Title/Abstract])) OR(risk prediction[Title/Abstract])))AND ((China[MeSH Terms])OR ((China[Title/Abstract])OR (Chinese[Title/Abstract]))))AND ((nurses[MeSH Terms])OR ((nurse*[Title/Abstract]) OR(nursing[Title/Abstract])))) AND((((build*[Title/Abstract]) OR(establish[Title/Abstract])) OR(structure[Title/Abstract])) OR(construct*[Title/Abstract]))。检索时限均为建库至2021年8月31日。

1.3 文献筛选和资料提取

首先将检索出的文献导入EndNote软件进行整理和去重。由2名受过JBI循证方法培训的研究者严格按照纳入及排除标准，先阅读文献题目和摘要进行初筛，然后进一步查阅全文进行复筛。对筛选结果有争议时，邀请第3名专家进行判定。根据TRIPOD标准形成了信息提取表，内容包括如下2个部分。①基本信息：研究者姓名、单位和地区，文献标题、发表年份、期刊名称和基金，学位论文年份和类型等；②研究内容及方法：所采取的理论框架、研究主题、研究设计、研究对象、研究场所、样本量、模型建立的方法、呈现方式等。

1.4 统计学方法

将信息提取表的内容导入SPSS 22.0软件进行统计分析。采用频数、构成比、率等对数据进行描述性分析。

2 结果

2.1 文献检索结果

按照检索策略从数据库共检索出文献1 005篇，最终纳入文献141篇（中文136篇，英文5篇）。文献筛选流程见图1。

2.2 文献的基本信息

本研究共纳入文献141篇，其中学位论文29篇（20.6%），期刊论文112篇（79.4%）。学位论文以硕士论文为主，占到89.7%（26篇），自2014年开始，呈逐年递增的趋势。期刊论文中，核心期刊文献或SCI文献占77.7%（87篇），虽然自2003年开始已有相关文献发表，但发文量主要集中在2019年及以后（图2），占83.9%（94篇）。在刊载期刊方面，共发表于43种期刊，76.8%（86篇）的文献发表在护理类期刊，其中发表量排在前5位的期刊分别为《中华护理杂志》（15篇，占13.4%）、《护理学杂志》（13篇，占11.6%）、《护理研究》（12篇，占10.7%）、《中华现代护理杂志》（11篇，占9.8%）及《护理学报》（8篇，占7.1%）。在基金资助方面，56.3%（63篇）的文献有基金支持，其中，以省部级及以上的基金支持为主（36篇，占57.1%），其次为市级基金（14篇，占22.2%）。在第一作者来源方面，有26.8%（30篇）的作者来自学校，有73.2%（82篇）来自医院。从研究者所在地区看，文献分布区域以北京、上海、广州等一、二线城市为主。

2.3 文献研究问题

在纳入的141篇文献中，从建立预测模型聚焦的问题看，围绕并发症主题的预测模型最多，占61.7%，其次为疾病转归（9.9%）、心理健康（6.4%）等。具体内容见表1。

2.4 预测模型建立的研究设计

2.4.1 数据来源

在纳入的141篇文献中，横断面调查研究58篇（41.1%），回顾性研究55篇（39.0%），前瞻性研究28篇（19.9%）。研究皆可清晰描述数据收集的起始、结束时间和随访结束时间节点。

2.4.2 研究对象与场所

研究对象主要以患者为主（116篇，占82.3%），其次为孕产妇（9篇，占6.4%），同时还关注到了儿童、失能老年人等特殊群体。患者多围绕慢性病（冠心病、高血压、血透/腹透、糖尿病、慢性阻塞性肺疾病等）、重症（ICU、急性缺血性/出血性卒中、急性冠脉综合征）、癌症（肺癌、乳腺癌、肿瘤晚期）、手术（神经外科、心脏、骨科、血管）、传染病（乙肝）人群，同时也关注到了血友病等罕见病患者人群的研究。

研究场所以单中心为主（116篇，占82.3%），仅有25篇（17.7%）选择了多中心研究，涉及医院、社区或护理院等不同场所。

2.4.3 预测因素

预测因素的筛选方面，有35篇文献单纯采用了文献回顾的方法纳入预测因素，3篇文献采用文献回顾结合统计分析的方法，33篇文献采用文献回顾结合专家意见的方法，1篇文献单纯使用文献统计分析的方法，1篇文献单纯采用专家意见法，还有2篇文献同时采用了以上3种方法（文献回顾、统计分析、专家意见）。另外，有66篇文献（46.8%）未介绍预测因素筛选的来源。

2.4.4 样本量及缺失数据

48篇（34.0%）文献详细阐述了研究的样本量计算方法，纳入样本量从60～188 715例不等。其中样本量在500例以下的文献共94篇（66.7%），500～1 000例的有20篇（14.2%），1 000例以上的共23篇（16.3%）。有4篇文献使用Meta分析或德尔菲方法筛选危险因素，因此未提及样本量及其计算方法。

另外，在缺失数据处理方面，仅有26篇文献（18.4%）简单阐述了研究数据收集过程中缺失数据的处理方法。

2.5 预测模型建立的方法

2.5.1 预测模型的拟合（统计模型类型）

模型的建立过程中，大多数文献（119篇，占84.4%）选择了二分类变量结局的常用方法Logistic回归拟合模型。其余研究的统计模型类型使用的是机器学习（8篇）、COX回归拟合（6篇）、结构方程模型（5篇）、德尔菲专家函询（1篇）、相关与回归分析（1篇）、整合移动平均自回归模型（1篇）。

2.5.2 预测模型的评价

预测模型的性能评价包括区分度和校准度两部分。纳入的141篇文献中，有45篇文献（31.9%）完成了模型的区分度和校准度的评价，并以ROC曲线或校准曲度等图形进行呈现，来反映模型的性能。有73篇文献（51.8%）仅完成了区分度的评价，有23篇文献（16.3%）未完成模型的性能评价。

2.5.3 预测模型的验证

模型的验证包括内部验证和外部验证。52篇文献（36.9%）完成了预测模型建立的内部验证，选用的方法有随机拆分验证（26次）、交叉验证（4次）和Bootstrap方法（25次）。进行外部验证的文献仅有34篇（24.1%）。

2.5.4 预测模型的呈现

31.9%（45篇）的文献将模型进行了可视化呈现，其中以列线图为主，占84.4%（38篇），还有6篇文献（13.3%）建立了评分标准/评分表，1篇文献（2.2%）构建了生存曲线图。

2.6 预测模型的局限性

在讨论或结论中对研究存在局限性进行说明的有113篇，占80.1%。其中以研究场所多为单中心或范围较小（73次）及研究样本量有限（60次）为主，同时也有学者关注到模型的建立使用了回顾性研究（16次），且纳入的预测因素较为局限（25次）。

3 讨论

预测模型的建立，标志着循证医学高质量研究证据的诞生，也为精准医学提供了有利的应用工具[7]。它实现了根据预测人群未来发病风险的高低将风险人群正确地区分出来[6]。然而，临床预测模型的质量欠佳将直接影响模型的应用与推广[8]。因此，依据TRIPOD声明对现有护理学者发表的预测模型进行评价不仅可以提高模型报告的规范性，也将有利于预测模型研究质量的提高。

3.1 科学、精准的预测模型逐步受到护理学者的青睐

本研究检索了4大中文数据库和4大英文数据库自建库至2021年8月31日我国护理学者公开发表的预测模型建立的相关研究，从研究数量上看，尽管我国护理学者开展预测模型研究起步较晚且呈散发状态，但2019年及以后文献发表数量急剧增加。这与近年来我国护理人员对预测模型这一量化工具的认可有关，预测模型的出现为临床护理决策提供了便捷。而本研究也发现，超过一半的研究都具备基金项目支持，且有73.2%的作者都来自临床一线。这说明护理预测模型的建立不仅符合目前国家政策发展需要，得到项目评审的认可，也切实围绕护理工作的中心——患者，解决了他们的需求。从研究主题可再次印证，与患者密切相关的问题是护理预测模型关注的热点，排在前3位的研究问题分别是并发症、疾病转归和心理健康，均与患者紧密相关。这些预测模型的临床应用将帮助发现患者早期的潜在问题、识别高危个体，更可促进临床研究的高效转化。我国护理学者开展预测模型研究的增加，有助于推动护理人员临床决策工具质量的提高，提升异常风险识别的科学性和准确性。同时使用高质量的预测模型，引导护理人员洞察临床护理实践中患者存在的问题，是为患者提供精准护理的有力保障。

3.2 护理领域现有预测模型的质量有待进一步加强

将预测模型的开发和验证过程进行完整的报告将有利于模型外部验证、临床应用及推广。然而本研究纳入的护理学者开展的预测模型研究在使用TRIPOD声明评价后，发现报告的质量欠佳、信息不完整，还有较大的改进空间，这与李秋萍等[9-10]的研究结果一致。具体表现在如下几个方面。

3.2.1 数据来源应严谨

本研究纳入的141篇文献，仅有19.9%的预测模型采用了前瞻性研究，而回顾性研究占到39.0%。这样的研究设计将形成选择偏移和回忆偏移等，导致模型的质量降低。有学者指出，利用已有数据进行预测模型的构建，不一定能较好地满足模型研究需要，高质量的预测模型原则上应使用专门针对该预测模型设计和构建的前瞻性研究[11]。因此，未来我国护理学者在进行预测模型的研究时应克服研究设计上的局限性，通过严谨的研究设计实现高质量预测模型的构建。

3.2.2 预测因素纳入应全面

本研究结果显示，将近一半的文献未报告预测因素纳入的方法，这将直接影响模型所涉及的因素来源及研究的质量。可以看出，预测模型建立前都进行了预测因子的汇集及梳理，但仅有53.2%的研究进行了来源报告。事实上，在建立预测模型前，研究者应该系统检索文献，收集、整理已报道的预测因子作为备选预测因子。而后，利用统计方法并结合医学认识和专家经验，从备选因素中选出最终纳入模型的预测因子开展研究[8]。另外尽管部分研究报告了预测因素的纳入方法，但在确定预测模型的预测因素时，部分研究单纯将多种量表或问卷作为预测因素，增加了指标测量及应用的难度，导致模型在最终应用过程中资料收集的难度增加。因此护理学者应严格选用预测因素的获取及报告方法，同时纳入便于临床实践直接应用的因素以提高预测模型研究的科学性和应用性。

3.2.3 样本及场所的选择应谨慎

预测模型研究中除了要详细报告研究样本的选择及样本量的确定方法外，结合预测模型很难直接在不同类型的场所互通使用的特点，应对研究场所进行详细的报告，以便于判断模型的应用范围[9]。本研究中25篇文献选择了多中心研究，进一步分析发现有2项研究在多中心场所选择上出现差异，选择了不同等级、不同地域城市的场所进行研究，这无形中增加了模型使用的复杂性。现实中不同区域患者特点存在的差异限制了预测模型应用的目标人群特征，会影响预测模型的通用性和准确性[8，12]。因此，在进行场所的选择时，应谨慎地选择研究场所的性质、数量和位置，然后进行严格的样本量测算，以提高模型的质量。

同时数据缺失在研究中难以避免，从本研究的结果可以看出，仅有18.4%的文献描述了缺失数据的处理方法，占比较低。未来的研究中可以通过清晰透明地描述缺失数据的处理方法，提高研究结果报告质量及研究的可重复性[9]。

3.2.4 模型的评价与验证应完善

在最终形成临床可直接使用的预测模型前，模型需要经历拟合、评价、验证、呈现等步骤[8]。应进行严格的验证，以考察模型的可重复性以及外推性。但从本文结果可以看出，目前我国护理预测模型的报告中，模型的评价和验证并不完善且质量欠佳。在模型的评价过程中，存在仅完成了区分度的检测、未进行模型校准度评价等类似问题，使得模型建立过程不完整。这与王俊峰等[13]的研究结果相一致，他提出相比于模型开发的蓬勃发展，模型验证却存在一定程度的滞后。这将造成未被有效验证的同一疾病或终点事件的新预测模型不断涌现，导致仅有少数模型可应用于临床实践[14-15]。

3.2.5 研究局限性应报告

TRIPOD声明里明确提到要对研究的局限性进行阐述和分析[6]，然而本研究纳入的141篇文献中仍有19.9%的文献未提及模型建立过程的局限性及不足。作为科学论文讨论中最有价值的部分之一，有必要在研究中充分认识并承认研究的局限性。大部分学者在局限性中建议未来应开展多中心、大样本、前瞻性研究，以提高模型的准确性及可行性。

3.3 对未来研究和实践的建议

3.3.1 采用可视化方法促进模型结果的呈现

临床预测模型本质上是预测因素间复杂的公式组合，并不能在临床上直接应用。为了更好地应用模型，研究者还需要考虑模型的呈现方式，这样才能将复杂的模型公式转化成方便临床使用的工具。从本综述纳入的模型中可以看出，列线图已在预测模型呈现方面形成了应用规模[16-18]，其便捷、可视化的方法，在一定程度上代替了复杂、烦琐的计算公式[19]。因此，在模型生成时，可通过直观的工具，如列线图、评分表、线上预测软件/工具等，方便医护人员及患者使用。

3.3.2 借助人工智能等方法提高模型的科学性

机器学习作为疾病预测模型构建的常见方法之一，通过其强大的数据信息提取功能，实现了智能地采集、分析、存储和预测数据，对临床疾病的管理与决策有着积极的作用[20]。本研究中仅有1篇文献采用了机器学习中随机森林、人工神经网络模型等方法构建预测模型，研究的样本量为11 788例[21]，且该研究严格按照TRIPOD声明的要求开展模型的构建及报告。然而现有的护理模型建立研究中多以单中心、小样本的研究为主，这与临床易开展简洁、快速、低成本的护理研究有关。但随着医学的发展，借助人工智能等高质量的研究方法将是未来研究的趋势，它可规避传统方法的局限，从而实现高质量模型成为疾病预测发生的关键要素[1]。

3.3.3 结合临床实际建立预测模型以提高模型的应用性

对于尚处于起步阶段的护理预测模型研究，除了需要严谨的研究方法，还需要紧密结合临床实际情况，去解决存在潜在风险的问题，才能更好地指导临床实际工作。同时，临床预测模型还需要不断地更新，以避免出现模型因疾病危险因素、治疗措施及治疗背景等随时间变化而发生的性能下降[7]。可见，临床预测模型要在临床实际情况中不断调整、动态更新，从而提高模型的可推广性。

4 小结

本研究对我国护理学者开展的预测模型建立研究从发文数量、研究设计及模型建立方法等方面进行了系统的回顾与分析。总体来看，我国护理学者开展预测模型研究的报告质量不高，存在研究方法缺陷及报告不完整等问题，建议护理学者遵循TRIPOD声明中要求的研究方法和报告流程，以提高模型的报告质量。本研究也存在一定的局限性，未对模型外部验证方面进行系统的检索与分析，可在后续研究中进一步开展。