患者报告结局测量工具选择路径：以中国腰痛患者日常生活活动能力量表的选择为例

2021-11-15陈千吉陈红张英万颖周彦吉安易孙亚男于长禾

中国全科医学 2021年36期

陈千吉，陈红，张英，万颖，周彦吉，安易，孙亚男，于长禾*

随着“生理-心理-社会”医学模式发展，近年来患者价值观受到越来越多的关注。患者报告结局（patient-reported outcome，PRO）从患者视角出发，是根据患者对自身健康状况的主观感受来评估疾病及后果的结局指标［1］，也是评价临床疗效或结局指标的重要组成部分。患者报告结局测量工具（Patient-Reported Outcome Measures，PROMs）是评价与量化PRO 的工具，在国内应用广泛。根据PROMs 来源，大致可将其分为译制工具和研制工具两类，其中译制工具因发展较成熟、使用时间较长、经济成本较低等原因而占比较大，但不论是译制工具还是研制工具，均存在性能评价欠规范（样本量小、地区局限）、不全面等问题［2］，会影响临床研究数据的可靠性。此外，PROMs 数量众多，同一PRO 可对应几种甚至几十种PROMs，阻碍了研究结果的合并分析与医疗经验的共建共享。因此，如何选择符合研究目的和实际情况的PROMs 成为临床研究中亟待解决的问题之一。

2005 年，来自全球21 个国家的158 名流行病学、心理测量学、定性研究和卫生保健学等学科或领域专家成立了基于共识健康测量工具的选择标准（COnsensus-based Standards for the selection of health Measurement INstruments，COSMIN）工作组以帮助临床研究人员和医务工作者选择最合适的结局指标测量工具［3］。COSMIN 工作组定义并分类了测量性能、规范测量性能临床测定研究设计、研发测量性能系统评价指南，为结局指标测量工具的选择提供了参考标准与依据，有助于提高临床研究和实践的证据级别。

鉴于PRO 主观性较强、PROMs 的质量对于PRO 客观化意义非凡、良好的测量性能是PROMs 应用的基本前提条件，本研究参考COSMIN 并以中国腰痛患者日常生活活动能力量表（Activity of Daily Living Scale，ADLS）的选择为例，探讨PROMs 选择路径，以期为提高临床研究数据的客观性、真实性及科学性提供参考。

1 PROMs 测量性能

2006—2007 年进行的第1 次COSMIN 工作组德尔菲会议就PROMs 测量性能的术语和定义达成了共识［4］，并将PROMs 测量性能分为信度（reliability）、效度（validity）、反应度（responsiveness）3 大类，且每类包含1 个或多个子性能。信度包含内部一致性（internal consistency）、信度、测量误差（measurement error）3 个子性能，其中信度主要包含复测信度（test-retest reliability）、评分者间信度（interrater reliability）、评分者内部信度（intra-rater reliability）。效度包含内容效度（content validity）、构建效度（construct validity）、效标效度（criterion validity）3 个子性能，其中内容效度主要包含表面效度（face validity），构建效度主要包含结构效度（structural validity）、假设检验（hypotheses testing）、跨文化效度（cross-cultural validity）。反应度只包含反应度本身这一测量特性。此外，可解释性（interpretability）虽不属于测量性能，但也是应用PROMs 时需考评的重要内容。

2 PROMs 选择路径

PROMs 选择路径主要包含以下5 项主要内容：全面检索判断是否已有工具、研制/译制工具、工具测量性能研究、系统评价、改编工具（图1）。日常生活活动能力是临床常用的腰痛患者结局指标之一，主要反映腰痛对患者弯腰、站立、平躺、坐、步行能力、长时间单一体位等的影响。本研究以中国腰痛患者ADLS 的选择为例阐述PROMs 选择路径（图2）。

图1 PROMs 选择路径Figure 1 Selection path of PROMs

图2 中国腰痛患者ADLS 的选择路径Figure 2 Selection path of ADLS for Chinese patients with low back pain

2.1 全面检索判断是否已有工具针对目标人群进行全面检索、获取工具并判断是否已有工具可以测量感兴趣的待测结构。全面获取现有PROMs 的方式主要包括系统评价与文献检索，其中系统评价方式可使研究者通过时间较新、质量较高的系统评价查找PROMs，而文献检索方式可使研究者根据待测结构、目标人群、工具类型、测量性能检索相应文献，因此两种方式可以互相补充。此外，COSMIN 工作组已建立了COSMIN 结局指标测量工具系统评价数据库（http：//database.cosmin.nl）以收集相关文献。

限定疾病为腰痛、目标人群为中国人、研究内容为量表测量性能、检索时间为建库至2020-07-02，分别检索中国知网、万方数据知识服务平台、中国生物医学文献服务系统（SinoMed）、PubMed、EMBase、Web of Science 共发现123篇文献，之后手工筛选出关于日常生活活动能力测量工具的文献1 篇［5］，确定目标工具为日常生活活动能力恢复（Recovery of Activities of Daily Living，RADL）量表。RADL 量表由加拿大学者WILLIAMS 和MYERS 针对急性腰痛受伤工人日常生活活动能力而制订，主要包括以下12 个条目：睡眠、性活动、自我照顾、轻松家务活、繁重家务活、购物、家中社交活动、家外社交活动、<30 min 的旅行、>1 h 的旅行、娱乐活动、职业活动［5］。

限定工具为ADLS、疾病为肌肉骨骼系统和结缔组织疾病及相关症状、检索时间为建库至2020-07-02，通过在COSMIN 结局指标测量工具系统评价数据库中进行检索共发现29 项系统评价，排除目标人群非中国人、疾病或相关症状非腰痛的系统评价并进行手工筛选后，最终未发现符合条件的系统评价。

2.2 译制工具如检索到目标工具在非中国地区已有临床试验证明其具有优良的测量性能但尚无规范中文译制版本，则研究人员可以引进该工具并译制。译制工具前应获得原作者书面授权，且译制过程不是简单的翻译工作，而是需要多学科研究人员的合作。徐军等［5］对原外文RADL量表进行了汉化，但未描述具体过程，而COSMIN 仅对跨文化调适研究设计提供了建议，暂无译制指南。因此，本研究参考COSMIN 及针对跨文化改编工具的国际指南［6］对原外文RADL 量表的译制过程进行简单总结如下。

2.2.1 正向翻译针对跨文化改编工具的国际指南［6］建议由2 名翻译人员独立完成正向翻译，其中1 名翻译人员（以汉语为母语的研究人员）最好事先了解整个目标工具译制情况、具备一定医学背景，以确保准确地表达出语言的真实含义；另1 名翻译人员应当不被告知整个译制计划且不具备医学背景，主要从语言、文字角度进行翻译。因此，正向翻译环节会形成2 份正译版本。

2.2.2 第1 次比较讨论 2 名正向翻译人员分别与具备多年临床经验并熟练掌握原外文RADL 量表语言的临床医生讨论原版本与2 份正译版本，商榷2 份正译版本的不确定之处并从医学和语言学两个角度进行权衡，得出最合理的翻译版本，即综合正译版本。

2.2.3 逆向翻译逆向翻译由2 名母语是原外文RADL 量表语言的翻译人员独立完成，要求这2 名翻译人员此前未见过原外文RADL 量表且对译制计划不知情、不具备医学背景，以确保之前的正译版本没有违背原版本的真实含义。因此，逆向翻译环节也会形成两份回译版本。

2.2.4 第2 次比较讨论 2 名逆向翻译人员分别与具备多年临床经验并熟练掌握原外文RADL 量表语言的临床医生讨论原版本与2 份回译版本，商榷2 份回译版本的不确定之处并从医学和语言学两个角度进行权衡，得出最合理的翻译版本，即综合回译版本。

2.2.5 最终讨论由所有参加译制计划的翻译人员、临床医生、专家组（最好能邀请原外文RADL 量表作者）一起对综合正译版本、综合回译版本同原版本进行逐句逐词的比较、讨论，形成最终版本。

2.2.6 初步研究初步研究指进行认知访谈和等价性考验，其中认知访谈的目的是评定每个条目与患者对病情体验的相关性、全面性和可理解性，以及译制工具的说明、条目、应答选项和回忆期的合理性；等价性考验指在目标人群中进行测量性能验证，并判断译制工具与原外文RADL 量表相比是否出现不可接受的变化。刘保延［7］研究认为，等价性考验应包含概念、应答尺度、条目、语义、语言、操作、测量及功能的等价性。

2.3 工具测量性能研究工具译制完成后，需判断是否有相关工具测量性能研究及测量性能研究是否全面，如答案为否，则应开展工具测量性能研究。为收集高质量临床数据，可参考COSMIN 偏倚风险清单［7］中的相关条目开展工具测量性能研究，如在分析某译制工具重测信度时，在研究设计层面，患者待测结构在两次测量时间内应保持稳定、2 次测量间隔时间应长短合适、两次测量条件（环境、人员）应相似等；在数据处理方面，不同类型的变量应选择合适的统计分析方法并明确说明脱落样本的处理方式等。徐军［5］分析了RADL 量表的重测信度、内部一致性、聚合效度，但未分析其内容效度、构建效度、反应度，因此RADL 量表测量性能研究尚不全面。

2.4 系统评价对于已有测量性能研究的译制工具，需判断是否有系统评价，若有系统评价，则进一步判断该系统评价结果是否可以直接参考：如该系统评价发表日期较近或暂无新的研究证据出现，则可以直接参考；如该系统评价发表日期较久远或发表日期较近但研究质量不高、结果可靠性低或有新的研究证据出现，则应采用目前较为公认的研究方法、纳入新的研究证据更新系统评价。若无相关系统评价，则建议根据COSMIN 系统评价指南开展系统评价以判断该工具是否可以推荐应用于临床。

COSMIN 系统评价指南共包括3 个部分10 个步骤，其中第1 部分包括描述研究目的、制定纳入与排除标准、文献检索、文献筛选4 个步骤；第2 部分为测量性能评价，包括评价内容效度、内部结构、其余测量性能3 个步骤；第3 部分包括评价可解释性与可行性、对测量工具的使用做出建议、撰写研究报告3 个步骤。需要指出的是，在文献检索、文献筛选步骤，COSMIN 系统评价指南还针对常用数据库（PsycInfo、EMBase、CINAHL、Medline）开发了工具测量性能研究过滤器，研究人员可利用该过滤器高效、全面地检索相关文献。

COSMIN 系统评价指南建议每种测量性能评价均可以分为研究方法学质量评价、测量性能评价、证据综合与证据质量分级3 个方面，因此本研究重点介绍COSMIN 系统评价指南的第2 部分。

2.4.1 研究方法学质量评价研究方法学质量评价主要从研究设计和统计学方法两个方面进行评价。参考“COSMIN 偏倚风险检查表”［8］中的条目，可以对每项研究的方法学质量进行评价，且每种测量性能研究对应偏倚风险均可以被评为“非常好”“足够”“不确定”或“不足”，每项研究方法学质量的总体评分是根据条目最低评分确定的，即“最低评级”原则。需要注意的是，如一项研究同时评价了几种测量性能，则应把每种测量性能研究看作一项单独的研究并多次填写“COSMIN 偏倚风险检查表”。依据“COSMIN 偏倚风险检查表”，徐军等［5］进行的RADL 量表重测信度研究的方法学质量评级为“不足”，内部一致性研究的方法学质量评级为“非常好”，聚合效度（对比工具为Roland-Morris 失能问卷）的方法学质量评级为“不确定”。

2.4.2 测量性能评价首先，根据“良好内容效度的10 条评价标准”［9］对每项研究内容效度进行评价，其中标准1～5 是对相关性的评价，标准6 是对全面性的评价，标准7～10 是对内容可理解性的评价，每条标准评价结果分为充分（+）、不足（-）或不确定的（？）。其次，根据“单个研究内容效度相关性、全面性、可理解性的评级指南”［10］将相关性、全面性、可理解性评为充分（+）、不足（-）、不一致（±）或不确定的（？）。再次，根据“单个研究内容效度评定指南”［10］对内容效度进行总体评价，评价结果分为充分（+）、不足（-）、不一致（±）或不确定的（？）。其他测量性能的评价参照“更新测量性能优劣评价标准”［11-12］，评价结果分为充分（+）、不足（-）或不确定的（？）。参照上述标准，徐军［5］进行的RADL 量表重测信度研究评价结果为“充分”，内部一致性研究评价结果也为“充分”，聚合效度（对比工具为Roland-Morris 失能问卷）研究评价结果为“不确定的”。

2.4.3 证据综合与证据质量分级

2.4.3.1 证据综合判断每个测量性能研究的所有可用研究结果是否一致，如结果一致，则研究结果可定量汇总或定性总结，并与良好测量性能的标准进行比较以确定测量工具的测量性能在总体上是充分的（+）、不足的（-）、不一致的（±）还是不确定的（？）；如结果不一致，则可进行亚组分析或根据大多数一致的研究结果得出结论，并因不一致性而降低证据质量分级。由于关于RADL 量表测量性能的临床研究仅有1 项［5］，因此本研究未进行证据综合。

2.4.3.2 证据质量分级证据质量分为高质量、中等质量、低质量、极低质量4 级。根据“改进GRADE 证据质量评级标准”［13］，假设证据质量分级为“高质量”，则应考虑偏倚风险、不一致性、不准确性、间接性并对证据质量进行降级处理，具体如下。

2.4.3.2.1 偏倚风险（1）至少有多项中等质量研究，或有1项高质量研究时考虑无偏倚风险，不需进行降级；（2）多项研究证据质量分级为低质量或仅有1 项为中等质量时，考虑存在严重偏倚风险，应将证据质量分级降1 级；（3）多项研究证据质量分级为极低质量或仅有1 项低质量研究时，视为存在非常严重偏倚风险，应将证据质量分级降2 级；（4）仅有1 项极低质量研究时，视为存在极其严重偏倚风险，应将证据质量分级降3 级。考虑徐军［5］进行的RADL 量表重测信度研究存在极其严重偏倚风险，内部一致性研究无偏倚风险，聚合效度（对比工具为Roland-Morris 失能问卷）研究存在非常严重偏倚风险，因此其证据质量分级分别降3、0、2 级。

2.4.3.2.2 不一致性（1）各项研究结果的不一致性如可以通过亚组进行分析，则不需进行降级；（2）如发现不一致性无法解释、决定不汇总研究结果并将研究结果评定为“不一致”，那么就不会给出证据质量分级，也就不存在降级处理；（3）如不一致性无法解释并将汇总的研究结果（如基于大多数结果）评为中等质量或低质量时，则需将证据质量分级降1或2 级。由于关于RADL 量表测量性能的临床研究仅有1 项［5］，因此未因不一致性降低证据质量分级。

2.4.3.2.3 不准确性不准确性主要考虑汇总研究总样本量是否合适，当汇总研究总样本量低于100 时，证据质量分级降1级；当汇总研究总样本量低于50 时，证据质量分级降2 级。对于有样本量要求的测量性能（即内容效度、结构效度和跨文化效度）研究的偏倚风险，不考虑不准确性。徐军［5］进行的RADL 量表重测信度研究总样本量低于50，因此证据质量分级降2 级；内部一致性和聚合效度（对比工具为Roland-Morris 失能问卷）研究总样本量均低于100，因此证据质量分级均降1 级。

2.4.3.2.4 间接性纳入研究（部分）若在非目标人群或其他使用环境中进行，则可能出现间接性。如样本中仅有部分患者患有限定疾病，则间接性为严重或非常严重，证据质量分级降1 或2 级。因此，徐军［5］进行的RADL 量表重测信度、内部一致性、聚合效度（对比工具为Roland-Morris 失能问卷）研究无间接性。

综合考虑偏倚风险、不一致性、不准确性、间接性，则徐军［5］进行的RADL 量表重测信度、内部一致性、聚合效度（对比工具为Roland-Morris 失能问卷）研究证据质量分级分别为极低质量、中等质量、极低质量（表1）。因此，RADL 量表对中国腰痛患者总体测量性能的系统评价结果为：有极低质量证据证明RADL 量表重测信度是充分的，中等质量证据证明其内部一致性是充分的，极低质量证据证明其聚合效度是不确定的。

表1 RADL 量表系统评价［5］的改进GRADE 证据质量评级Table 1 Evidence quality of systematic reviews of RADL Scale based on modified GRADE approach

2.4.4 依据系统评价结果形成推荐意见 COSMIN 系统评价指南建议针对目标人群和待测结构将PROMs 分为A 类、B 类、C 类，其中A 类指有充分的内容效度证据（任何级别）和至少有充分的内部一致性低质量证据的项目管理，可以被推荐应用，且获得的测量结果具有较高的可信度；C 类指有高质量证据证明测量性能不足，不建议应用；不属于A 类或C 类则归为B 类，有可能被推荐应用，但需要进一步研究来评估其测量性能。如在系统评价中仅发现被归为B 类的PROMs，那么在提供进一步证据之前，应暂时推荐内容效度最好的PROMs。RADL 量表系统评价［5］证实其暂不能被推荐使用，因此根据PROMs 选择路径，下一步应改编工具或研制工具。

2.5 改编工具对于COSMIN 系统评价结果未推荐使用的PROMs，可进行调适、改编，且通常情况下这比研制新工具节约成本。美国食品药品监督管理局（Food and Drug Administration，FDA）指出，PROMs 研发和性能测试充分性的关键在于其研发时所预设的条件，如目标人群、填写条件等，而改编PROMs 后，通常还需提供研究证据以证明新PROMs的质量，但这不代表实际应用或格式的每次细微调整均需要进行大量研究，如将PROMs 从纸质版更改为电子版，在就诊期间更改PROMs 的时间安排或应用程序，更改条目顺序、措辞、应答选项，更改PROMs 召回期限或删除调查表的某些内容，更改PROMs 填写指示或其放置位置等；此外，根据所做改编类型，开展相关定性工作也许就已足够［1］。

2.6 研制工具如未检索到目标工具，则应进入研制工具环节，但COSMIN 工作组暂未形成PROMs 研制指南。2009 年FDA 发布的《行业指导患者报告的结果：用于支持标签声明的医疗产品开发患者报告结局的指导》是目前临床研究人员最常参考的PROMs 研制指南［1］，该指南中将研制工具分为5 个步骤：（1）预设概念框架；（2）调整概念框架和起草初版工具；（3）确定概念框架和评价测量性能；（4）收集、分析及解释数据；（5）修订工具。同时，FDA 将研制工具过程视为循环向前的过程，需不断地根据实际情况修改、更新以适应新的变化，改编或新研制的工具需进一步完善质量评价、收集证据，并通过系统评价判断其是否能被推荐应用。

2.6.1 预设概念框架预设概念框架即将抽象概念转化可测量的具体指标的过程，包括确定目标人群、确立预期应用类型和特点（如评分形式、使用频率及管理模式）、开展专家访谈、发展预设概念框架、记录初始量表研发过程等步骤。

2.6.2 调整概念框架和起草初版工具调整概念框架和起草初版工具包括获取患者信息、生成新条目、选择回忆时间和应答选项及格式、选择管理和信息收集模式、开展患者认知访谈、对初步形成的工具进行试点检测、记录内容效度等。

2.6.3 确定概念框架和评价测量学性能确定概念框架和评价测量学性能指确定附有评分规则的概念框架并评估分数的信度、结构效度、检测变化能力，最后再确定工具的内容、形式、评分、程序、培训材料并记录工具的研发过程。

2.6.4 收集、分析及解释数据收集、分析及解释数据包括起草方案和统计分析，收集和分析数据，评估治疗反应、累积分布和响应者定义，记录相关声明的治疗益处。

2.6.5 修订工具修订工具包括更改条目的语言表达、目标人群、应答选项、回忆时间或管理模型或数据收集方法，翻译和进行其他语言的文化调试，评估更改是否恰当并记录所有更改。

3 小结与展望

本研究参考COSMIN 并以中国腰痛患者ADLS 的选择为例，探讨PROMs 选择路径，发现PROMs 选择路径主要包含5项主要内容，即全面检索判断是否已有工具、研制/译制工具、工具测量性能研究、系统评价、改编工具，其中系统评价是PROMs 选择路径中的关键；同时，PROMs 的选择并非“一蹴而就”，而是一个循环向前的过程。

对于PROMs 选择路径的推广，笔者考虑其难点主要有以下3 个方面：（1）PROMs 选择路径内容、步骤繁多，临床研究人员参照该路径选择合适的PROMs 时操作负担较大；（2）COSMIN 中的系统评价是PROMs 选择路径的关键步骤，国内虽已有研究团队对其进行介绍、引进［14-16］，但现阶段其应用尚不广泛；（3）PROMs 的改编、译制及研制均需多学科研究人员参与、成本高。因此，临床研究人员未来应重点推广PROMs 系统评价技术并广泛开展针对不同目标人群、病种的PROMs 系统评价；PROMs 改编、译制及研制应让更多的多学科科研人员参与以帮助一线PROMs 使用人员高效、便捷地选择出合适的PROMs；注重提高PROMs 相关研究质量以更好地提高临床研究数据的客观性、真实性及科学性。

作者贡献：陈千吉进行文献/资料收集、整理，撰写论文；陈红、孙亚男、于长禾进行文章的构思、研究的设计与可行性分析；张英、万颖进行论文及英文的修订；周彦吉、安易进行文章的质量控制及审校；于长禾对文章整体负责，监督管理。

本文无利益冲突。