APP下载

《GRADE在健康决策建模中证据分级》文献解读

2021-03-12王巍巍杨智荣冯子昭

中国循证儿科杂志 2021年6期
关键词:可靠性证据建模

王巍巍 杨智荣 冯子昭 李 戈 李 沛 孙 凤

1 主要内容总结

模型一般指基于观测、知识和假设等输入要素进行结局预测的数据模拟。当缺乏支持健康决策的直接证据,或出于伦理原因无法获得特定人群的长期干预效应时,可以使用模型研究的方法来预测疾病的动态变化、不同暴露水平对健康的危害或干预措施的利弊等[1]。目前模型研究用于决策分析模型[2,3]、药理与毒理学模型和环境模型[4,5]等方面。近年来,GRADE的应用范围不断拓宽,如今也可用于评估模型证据的可靠性。

相比其他研究类型,模型研究对于很多临床研究者来说比较陌生,同时该领域也缺乏标准化的术语,容易产生概念混淆,阻碍了建模者及模型使用者的有效交流与合作。因此,首先要对各领域的惯用术语进行解释,统一模型术语及其替代术语。见表1。

根据指南的建议,研究者使用模型研究的证据开展循证决策时,首先需要根据PICO原则明确决策相关的问题[15],然后根据所确定的决策问题,查找或建立相关模型。在卫生决策中构建模型证据的方法有3种:①建立最优模型,即针对当前决策问题开发设计全新模型。②利用已有的最相关的单个模型,即系统检索与决策问题相同或极相似的单个模型,并直接套用或适当调整来回答当前问题。③利用已有的多个模型,即在文献中系统检索现有多个模型,并以其所有模型的综合结果作为决策依据[16]。

通过系统检索发现一个或多个满足合格标准的模型,则需要进一步评估每个模型的证据可靠性。研究者可以直接使用偏倚风险最低的单一模型的结果,也可以调整后加以应用。如果无法找到相关且偏倚风险较低的既有模型,则需要开发全新的模型。

基于此,GRADE制定了模型研究的证据分级系统,根据影响模型证据可靠性的主要因素,包括偏倚风险、不直接性、不一致性、不精确性和发表偏倚5 个降级因素,以及大效应量、量效关系和相关混杂3 个升级因素,将证据可靠性分为高、中、低和极低 4个等级。

2 GRADE升降级因素解读

2.1 模型偏倚风险 模型证据的偏倚风险取决于模型本身的可靠性和每个模型输入证据的可靠性。

模型可靠性也称为模型质量,受其概念、结构、校准、验证和其他因素影响,不同模型领域其可靠性的决定因素也不尽相同。目前还没有适用于不同建模领域或不同模型的通用评估工具,但有一些针对特定领域的评价指南或清单可以参考,例如,决策分析建模中评估遵循最佳实践指南情况的框架[17]等。

模型输入证据的可靠性是另一个会造成模型偏倚风险的重要因素。当开发全新模型时,为使偏倚风险最小化,研究人员需要指定对模型输出最敏感的输入参数。模型输入应包含满足预定标准的全部相关证据,而不是用非系统方法挑选的任意证据。选择何种方法取决于数据的类型,必要时需要对每个关键输入变量的证据进行系统综述[18-20]。不同类型的输入证据有相应的GRADE方法对其进行可靠性评估[7,21-23],原则上,模型输入证据的整体可靠性不高于任一关键证据体的最低可靠性[24]。

2.2 模型不直接性 与目标模型比较,可以评估一个模型的直接性,即模型证据对所建模现象的直接代表程度。当模型的直接性难以评估时,会降低模型证据的可靠性。

表1 模型研究的相关术语及其解释

图1 卫生领域采用模型证据并评估其可靠性的方法

模型证据直接性受到目标人群、干预与对照、时间跨度、分析角度以及模型结局与研究问题的匹配程度等因素影响。例如,研究问题是长期暴露于特定物质的母亲所生孩子的出生缺陷风险,而既有模型假设的是短期暴露,或者暴露方式、暴露影响的测量不相同,都将影响证据的直接性。

针对单一模型,应对其2种不同来源的间接性分别进行评估:①现实数据与理想目标模型输入数据的间接性;②实际决策问题与模型证据的间接性。由于模型输入与待决策问题输入间的间接性,在使用既有模型时要充分考虑其局限性。可以采用敏感性分析评估模型证据对于数据输入变化或模型基本假定变化的稳健程度。针对多模型的间接性,首先需要评估每个模型证据的间接性,然后综合多个模型的情况进行判断。研究者应在开展检索前预先确定间接性的排除标准。

2.3 模型不一致性 由于不同研究结果间存在无法解释的变异,导致单一模型会产生不一致的证据。例如,开发一个卫生经济学模型时,同一系统综述可能会产生数个可信但不一致的效用估计。如果无法解释此差异,基于这些输入的模型证据也可能存在不一致性。在这种情况下,应用敏感性分析有助于判断模型输入不一致对模型输出有多大的影响。对多模型不一致性的评估而言,应侧重于给定结果的模型输出之间无法解释的差异。针对同一问题,多个模型得出的结果差异很大或完全相反,那么通过对比这些模型的异同将有助于理解影响因素。

模型间的差异无法避免,研究者需要对差异的重要性进行判断,从而明确这些差异是否会导致不同的结论。假如模型结构、模型输入、输入证据可靠性或其他因素能够解释重要差异,则可以选择呈现亚组证据。反之,则模型证据的可靠性会降低。

2.4 模型不精确性 敏感性分析可以描述模型证据对参数变化的反应特征,有助于确定模型定性结论的稳健性[25,26]。当证据的估计不精确时,模型证据的整体可靠性会降低。对于定量证据,应当检查点估计值及其变异性。在某些领域,模型输入通常是定性变量,此时可评估数据的充分性,即支持模型特定证据的丰富程度和数据数量。

对于多个模型,当模型证据的估计不精确时,模型证据的整体可靠性同样会降低。当对多个模型证据进行定量综合分析时,应该报告估计的范围和变异性。如果只对多个模型的结果做定性总结,则需要报告单个模型证据的变异估计和变异程度。

2.5 发表偏倚风险 发表偏倚风险指已构建的模型未发表或以其他方式公开的可能性。在套用既有模型时,明确知道或强烈怀疑已有相似模型却无法获得时,应该考虑模型证据与可用模型间可能存在系统性差异。如果不能合理解释无法获取其他模型的原因,那么需要降低模型证据的可靠性。

2.6 模型输出证据可靠性的升级因素 量效关系和大效应量提高模型证据可靠性的关键在于是否适用于特定的建模领域,例如量效关系在环境卫生学领域的建模中较为常见。理论上,具有相反效应的混杂因素同样适用于评估模型证据可靠性,例如保守模型不包含有利于干预的输入数据参数,但模型输出结果显示干预有效。以上考量因素同时适用于单个或多个模型证据可靠性的评估。

3 实例分析

为了更好的理解GRADE模型证据分级标准,以美国乳腺癌筛查策略利弊的协同建模研究[2]为例,介绍评估模型证据可靠性的过程。①概念化研究问题:目标人群是乳腺癌平均风险人群(≥40岁),健康干预措施是乳腺X线摄像筛查,结局是降低乳腺癌死亡率。②通过检索发现已有与研究问题直接相关的模型,因此对该模型证据可靠性进行评估。

在降级因素方面,模型的偏倚风险主要关注研究的局限性以及研究是否高估或低估结局事件的发生率,实例中假设队列人群100%完成筛查计划,采用最有效治疗方法,有可能高估收益,导致在偏倚风险方面进行降级。对于模型的间接性,研究人群是1970年出生的女性,从25岁开始随访,干预是不同的乳腺X线摄像筛查策略,对照是无筛查,时间跨度未进行限定,模型结局有降低乳腺癌死亡率、降低乳腺癌死亡数量、避免或延迟乳腺癌死亡而获得的生命年和质量调整生命年,既有模型的研究要素与研究问题的匹配程度较高,因此不进行降级。对于模型的不一致性,实例中采用了3种方法进行模型验证,显示模型结果与美国乳腺癌发病率和死亡率总体形态吻合,因此,考虑不进行降级。关于模型的不精确性方面,实例改变日常健康、筛查、诊断和治疗带来的负效用未影响筛查策略的排名,并且从风险水平、乳腺密度、合并症3个角度进行了敏感性分析,详细报告了结果,因此不进行降级。对于模型的发表偏倚,没有其他线索提示有类似的模型发表,因此不进行降级。

在升级因素方面,该研究未发现大的效应值、量效关系以及具有相反效应的混杂因素,因此不进行升级。

4 总结

按照GRADE指南的要求,不管是开发新模型还是评估既有模型的适用性,①应当明确需要决策的问题;②通过系统综述寻找相关的模型研究,根据不同情况,选择适宜的建模策略;③在进行证据可靠性评估时,建议使用GRADE提供的方法学指南,有利于将最直接证据作为模型输入,也有利于将不同的证据流作为模型输入,从而减少建模的复杂性和工作量。

猜你喜欢

可靠性证据建模
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
可靠性管理体系创建与实践
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
5G通信中数据传输的可靠性分析
对于家庭暴力应当如何搜集证据
手上的证据
“大禹治水”有了新证据
手上的证据
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究