患者报告结局测量工具质量评价标准的研究进展

2020-10-26张雯黄青梅黄跃师杨瑒臧娴袁长蓉

护士进修杂志 2020年20期

张雯黄青梅黄跃师杨瑒,2 臧娴袁长蓉

(1.复旦大学护理学院，上海 200032；2.复旦大学附属肿瘤医院，上海 200032)

近年来，将患者声音融入医疗卫生领域以辅助临床决策、科学研究及政策制定日益成为共识。患者报告结局(Patient-reported outcomes，PROs)，即“直接来自患者的任何关于其健康状况的报告，不经过临床医生或其他任何人的解释”的结局[1]，也逐渐成为重要的临床结局指标之一。PROs一般通过自我报告问卷或量表来评估，因此，患者报告结局测量工具(Patient-reported outcome measures,PROMs)的质量至关重要。目前，PROMs工具种类繁杂，且质量参差不齐。如何对PROMs工具进行科学系统的质量评价，以帮助使用者选择最佳工具，或开发者科学严谨构建工具，成为当前迫切需要解决的问题。本文将综述PROMs工具质量评价标准的发展背景，重点介绍目前国际上应用较为广泛且具代表性的四种PROMs评价标准，并比较其内容、特点和应用，以期为我国PROs领域研究者提供PROMs工具评价、选择或开发过程的参考。

1 PROMs工具质量评价标准发展背景概述

随着将患者感受纳入到健康决策的需求愈发强烈，为弥补早期健康结局测量中“患者声音”的缺失，PROMs工具数量及相关研究飞速增加[2-3]，也带来了如何对PROMs工具质量进行评价这一严峻问题。研究者从20世纪90年代开始逐步对PROMs工具的质量评价标准进行了系列探索。McDowell和Newell[4]在其1996年发布的著作中初步提出信度和效度是评价PROMs工具的核心内容，并提出了常用PROMs工具信效度评价的内容和方法。受到该研究启发，越来越多的研究者或机构致力于开发更为系统全面的评价标准，同时期最具代表性的即医疗结局信托(Medical outcomes trust,MOT)组织下属科学咨询委员会(Scientific advisory committee,SAC)于1996年发布的“针对生活质量及健康状态相关测量工具的质量评价标准”[5]，也是迄今为止应用最为广泛的PROMs工具评价标准之一。最近20年是PROMs工具质量评价标准发展较为迅速的时间段，这一时期各类PROMs工具评价标准愈发全面和系统化，且更具权威性。另外，随着量表工具开发技术的不断进步，运用现代测量学理论开发的工具逐渐获得广泛运用，因此，与上世纪多数面向基于传统测量学理论开发的工具的评价标准相比，近年来研究者在开发评价标准时更注重其对基于现代测量学理论工具的适用性。同时，为了使评价标准更易于推广，实现标准化评价，PROMs工具质量评价标准也逐渐从对工具的主观评价向量化评价过渡。近年来较具代表性的评价标准有：美国食品和药品监督管理局(Food and drug administration,FDA)在2006年发布的“PROMs工具开发和支持指南”[1](2006年发布草案，2009年发布正式版)，以指导PROMs工具的开发、审查评估以及应用；西班牙卫生及卫生服务结局研究合协作网(The spanish cooperative investigation network for health and health service outcomes research,Red- IRYSS) 于2008年研发的EMPRO(Evaluating the measurement of patient-reported outcomes)[6]；以及由健康测量工具选择标准共识指导委员会(The consensus-based standards for the selection of health measurement instruments,COSMIN)在2010年发布的COSMIN清单[7]和在2018年形成的COSMIN指南[8]。本文主要以上述四种常用的代表性PROMs质量评价标准为例进行概述。

2 常用PROMs质量评价标准介绍

2.1医疗结局信托科学咨询委员会标准(MOT-SAC) MOT-SAC是面向普适生活质量及健康状态相关量表或问卷的评价建议，也适用于PROMs工具评价。1996年MOT-SAC基于专家经验发布了第1版评价标准[5]。之后鉴于第1版标准对基于现代测量学理论发展的工具适用性不强，评价标准不够清晰的问题，于2002年形成了目前使用的第2版[9]。MOT-SAC标准第2版要求对目标工具的8个关键属性进行评价，包括：概念和测量模型、信度、效度、反应性、可解释性、应答和管理负担、可选择的模式及文化和语言适应性。MOT-SAC标准对这8个关键属性分别进行了较为明确的概念定义，并对每一个关键属性采用语言描述的方式列出了主要的评价标准，以具体指导实践及研究者对各个关键属性的质量开展评价。MOT-SAC标准是目前PROMs工具质量评价领域出现较早且较为系统全面的标准。该标准的出现极大增强了人们对使用这类基于患者主观报告数据工具的信心。但该标准对关键属性的评价仍是定性的、主观的，无法实现标准化评估，这可能会造成不同领域或不同水平的使用者对测量工具的评价结果有较大的主观不一致性。

2.2美国食品和药品监督管理局(FDA)指南 FDA指南[1]涵盖了更广泛的评价内容，包括对PROMs工具的开发流程、工具特点、选择标准、工具修改、工具应用于特殊人群时的注意事项，以及对其应用于相关临床研究的设计、数据分析等。以下主要对其中PROMs工具的评估和选择部分进行概述。

FDA指南提出，PROMs工具性能主要取决于工具特征、概念框架、内容效度和其他测量属性。评估顺序和重点包括：(1)评估PROMs工具的内容效度：包括工具条目生成的来源及过程，数据采集方法和工具的实施模式，应答回忆期，应答的选项，工具的格式、说明和培训，患者的理解，条目及维度得分，应答和实施负担。(2)对工具的概念框架进行评价：主要评估内容为工具的条目和维度产生的过程是否符合其开发时基于的概念框架？条目之间、条目和维度之间、维度之间的关系，以及总体概念是否一致等。(3)其他测量属性：主要包括信度、效度和测量到变化的能力，即反应性。其中，信度主要的评估属性包括重测信度和研究者内部一致性信度；效度主要是建构效度和校标效度。FDA指南亦采用定性描述的方法分别就每个属性需要评估的内容、标准和推荐的评估方法等提出建议。

FDA指南已经形成了更为科学全面的大型评价标准系统，其特点在于主要面向的是PROMs工具开发者，评估已有工具的相关内容是混合在开发过程中进行描述的，脉络稍欠清晰。且FDA指南对PROMs工具的评价标准也是定性描述的，在标准化评价方面尚有不足。

2.3患者报告结局测量评估(EMPRO) EMPRO[6]是基于第2版MOT-SAC标准形成的，融入了测量工具研发的最新进展，同时将MOT-SAC标准提炼为独立清晰的、可量化的评价条目[10]，并基于AGREE工具形成了EMPRO工具的标准化格式[11]。与MOT-SAC标准相同，EMPRO对测量工具的8个关键属性进行评价，但形成了更具操作性的质量评价条目。EMPRO共包括39个条目，评价内容包括：概念和测量模型(7条目)、信度(8条目)、效度(6条目)、反应性(3条目)、可解释性(3条目)、实施负担(7条目)、可选择的实施模式(2条目)、跨文化和语言适应(3条目)。每个条目还包括了一个简短的说明文本，以帮助评价者对条目目的和内容的理解和应用。EMPRO采用Likert 4级评分，包括“非常同意”(4分)、“同意”(3分)、“不同意”(2分)和“非常不同意”(1分)。除针对关键属性的评价条目进行评分，EMPRO还额外包括了一个总评的条目，即要求评价者为所评价的PROMs工具提供一个综合的建议，并注明原因。总评结论包括“强烈推荐”“带有条件的推荐或修改后推荐”“不推荐”以及“不确定”。因此，使用EMPRO评价一个PROMs工具最终的结果应包括8个关键属性的分维度得分，通过计算各条目的平均分值获得，并同时附上评价者的综合评价意见。且针对关键属性的评价和针对工具总体的评价是两个独立的体系，必须分开解读，两者也不能互相替代。

EMPRO基于MOT-SAC发展而来，但在标准化和实操性等方面实现了极大的改进。另外，在完成开发的同时，研究者还证明了这一评价标准本身具有良好的信效度。专家小组成员使用EMPRO对5个PROMs工具进行了质量评价，提示EMPRO内部一致性 (Cronbach′s α=0.95)和评价者间信度(ICC:0.87～0.94)均较高，机构外专家评价内容效度良好，假设检验证实其建构效度良好[6]。但研究者也指出，目前针对EMPRO建构效度的假设检验方法仍有待探讨，另外由于EMPRO发展时限尚短，因此其随时间推移的反应度尚不明确。

2.4基于共识的健康测量工具选择标准(COSMIN) COSMIN指南[8]聚焦于对PROMs工具系统评价的指导以及形成对PROMs工具的最终推荐意见。指南提出PROMs工具系统评价过程包括三大阶段：文献检索及纳入、评价PROMs工具的测量属性、选择PROMs工具，共10个步骤。以下主要对第2、3阶段测量属性评价和工具选择部分进行阐述。

2.4.1第二阶段测量属性评价包括3个步骤：(1)首先使用COSMIN风险偏倚评估清单(COSMIN Risk of Bias checklist)[12-13]对纳入的关于某PROMs工具测量属性的相关文献的偏倚风险进行评估。评估清单要求按照顺序对其内容效度、内部结构和其他测量属性共10个框目进行评价。内容效度包括PROM开发、内容效度2框目，内部结构包含结构效度、内部一致性、跨文化效度/测量不变性3框目，其他属性包括信度、测量误差、校标效度、建构效度的假设检验、反应性5框目，每个框目下包含3～35个条目不等，条目采用“非常好”“充分”“不确定”“不充分”“不适用”五级评价，每个框目最终的综合评价采用“最低评价法”，即以所有条目中最低的评价为准。(2)使用COSMIN的“测量属性良好标准(Updated criteria for good measurement properties)”[8]对PROMs工具每种测量属性的证据质量进行评价。即在第一步对文献进行风险评估之后进一步提取文献信息，根据“测量属性良好标准”提供的指标参考值，对各测量属性进行“充分(+)”“不充分(-)”和“不确定(？)”的评价。(3)汇总每种测量属性的评价结果，并基于GRADE 系统[14]形成证据质量的推荐等级。由于目前PROMs研究注册缺失，很难对GRADE中的发表偏倚进行评估，因此COSMIN指南推荐依据GRADE系统中的其余四个因素，即偏倚风险、不一致性、不精确性和间接性进行证据质量评级，开始评价时均假设为高质量，根据以上四个因素的评价结果逐步降级，最后对测量属性的证据质量形成“高”“中”“低”和“极低”的推荐意见[15]。

2.4.2第三阶段工具选择要求进一步评价PROMs工具总体的可解释性和适用性，即对工具评分或最终输出结果的意义解释，以及其自身属性外的应用特征(如完成时间、难易程度等)的评价。最终针对研究领域将PROMs工具进行推荐等级的分类，A类：推荐使用；B类：有应用潜力，仍需进一步评估；C类：不推荐使用。

COSMIN指南主要用于指导研究者对目标领域PROMs工具进行基于证据的系统评价。但研制者也指出，指南在开发时仅在内容效度和结构效度的评价中使用了德尔菲法等结构化研制方法，未能实现更高的科学性。另外，证据质量评价中样本量的要求仍是基于经验的，对不同文献呈现的工具测量属性评价结果的汇总方法不足，基于GRADE的升级标准尚不能定义，未能对新的COSMIN指南中的评价标准进行信效度检验等问题亦有待进一步探索。

2.5其他评价标准除以上几种应用较为广泛且较具代表性的评价标准之外，还有很多其他机构或个人发布的标准也较为常用。比如美国的国家质量论坛(Nation quality forum,NQF)的患者报告结局(PROs)应用测量指导文件[16]、欧洲药品管理局(European medicines agency,EMA)的药品评价中使用健康相关生活质量(HRQL)测量的指导白皮书[17]、患者报告结局测量信息系统(PROMIS)测量工具研制和心理测量学评价的科学基本标准[18]、国际生存质量协会(ISOQOL)的 “PRO 基本推荐标准”[19]等。多数在内容和形式与以上四种标准较为相似，但亦有其独特的适应范围和特点。比如NQF指导文件则基于目前移动健康发展大趋势，特别提出了对电子健康记录的评价要求[16]。

3 PROMs工具质量评价标准的比较及应用现状

3.1四种PROMs工具质量评价标准比较以上四种常用的评价标准虽然在研究领域和研究目的等方面存在不同，但均对PROMs工具质量评价环节提供了科学系统的标准，且均契合当下基于现代测量学理论发展测量工具的大势，对传统工具和此类工具的评价具有极强的兼容性。另外，MOT-SAC标准和FDA指南采用定性评价的方式，EMPRO和COSMIN采用定量评价为主，与定性评价结合的方式。

评价内容是对PROMs工具进行质量评价的核心，基于以上四种评价标准涉及的评价内容可以发现，概念框架和以信效度为主的测量学属性是所有评价标准必涉及的重要内容，基于四种标准主要涉及的评价项目对其评价内容进行总结和比较，见表1。另外，FDA和COSMIN指南均对评价的顺序做出了具体的规定，指出内容效度的评价必须是第一位的。但对于评价标准的选择绝非简单的由评价方式或内容的数量等决定。我国研究者于长禾等[20]指出，各标准在评价内容、方法、形式和应用等方面有其不同的侧重点，选择评价标准时需要综合考虑研究者本人的研究目的、纳入研究的类型、待评价的量表分类、量表的实施模式等，从而选择一个或多个合适的评价标准，才能实现对PROMs工具的科学评价。

表1 四种PROMs工具质量评价标准评价的主要内容

3.2PROMs工具质量评价标准的使用特点及应用现状

3.2.1MOT-SAC是该领域较早形成的系统化标准其质量评价8个关键属性的提出为此类质量评价标准的构建奠定了基础，为后续很多其他评价标准提供了参考，比如EMPRO[6]、Terwee等[21]研制的健康相关问卷的测量属性质量标准等。目前仍有很多研究者在使用该标准评价相关工具的质量及筛选工具，且许多研究者也倾向于将MOT-SAC和其他工具结合共同使用，以评价PROMs工具质量，比如Barone等[22]即共同使用了FDA指南和MOT-SAC标准评价现有的基于PROs的变性术后满意度的测量工具，综合评价后认为该领域需要新的高质量PROMs工具。

3.2.2FDA指南更为偏重对工具开发者的指导 FDA指南致力于指导研发新的PROMs工具时保障开发过程和工具属性的高质量，因此目前很多研究者在开发PROMs新工具时会主要参考FDA指南，比如Taher等[23]在2018年发布的非输血依赖型地中海贫血患者自我报告结局症状测量(NTDT-PRO)工具即严格依据FDA指南对开发PROMs工具的流程和属性要求完成开发。

3.2.3EMPRO和COSMIN是近年来新发展的评价标准，二者都在评价标准的量化上做出了根本性的改进自EMPRO和COSMIN发布以来，国外研究者大量采用其进行PROMs相关工具的系统评价和工具选择，同时其也是目前国内研究者较为认可的评价标准。已有部分国内研究开始使用COSMIN标准进行PROMs工具质量评价，比如使用COSMIN清单筛选高质量的湿疹患者生活质量相关测量量表[24]，根据COSMIN指南对中医生活质量量表[25]、中老年人综合评估工具[26]、儿童青少年身体活动问卷[27]等多种领域的测量工具进行系统评价的研究。对EMPRO的认识和使用相对较少，国内有研究者对其进行过简单综述[28]，但尚未有发表的应用研究。

4 小结

在国内外PROs领域研究蓬勃发展的大趋势下，PROMs工具的开发、评价和选择成为热点。近年也涌现了越来越多关于PROMs工具质量评价的标准或指南，以指导研究者研制或选择最佳的PROs工具进行高质量的研究和实践。而我国PROs研究发展起步相对较晚，且目前研究者尚缺乏对使用PROMs工具前进行系统评价和选择高质量工具的意识，开发新的PROMs工具更是缺乏科学性和规范性。因此迫切需要我国研究者了解各种PROMs工具质量评价标准，并根据实际研究需求选择合适的标准，以确定研究目标领域最为合适的PROMs工具，或依据标准或指南要求科学严谨地开发PROMs新工具。