COSMIN-RoB清单中测量工具内容效度研究的偏倚风险清单解读

2021-11-23沈蓝君彭健陈祎婷胡雁程云

护士进修杂志 2021年22期

沈蓝君彭健陈祎婷胡雁程云

(1.复旦大学附属华东医院，上海 200040；2.复旦大学护理学院，上海 200032；3.复旦大学循证护理中心，上海 200032)

患者报告结局测量工具(Patient-reported outcome measures，PROMs)允许患者通过认知与判断直接报告自己的健康结果，在医学研究中具有重要意义[1]。然而，现有PROMs的质量参差不齐，研究者难以判断出最合适的PROMs[2]。由荷兰、美国、西班牙等研究机构的心理测量学专家组成的COSMIN指导委员会提出了基于共识选择健康测量工具的标准(Consensus-based standards for the selection of health measurement Instruments，COSMIN)，详细介绍了规范制作PROMs系统评价的COSMIN方法，以指导研究者与临床实践者选择最合适的PROMs，其中，评价PROMs测量属性研究的偏倚风险(指研究在设计、实施、分析或报告等研究环节中出现的缺陷[3])是制作PROMs系统评价的基础[4]。因此，COSMIN开发了评价PROMs测量属性研究偏倚风险的COSMIN-RoB清单(COSMIN risk of bias checklist)[5]，其包括内容效度，内部结构，其它测量属性这3个部分，共10个框目。其中第一部分(框目1，框目2)主要是评价PROMs开发过程和内容效度研究的偏倚风险。为了使国内研究者与临床实践者深入理解和正确应用该工具来评价PROMs开发过程和内容效度研究的偏倚风险，本文将结合多篇文章进行实例解读。

1 PROMs开发过程的偏倚风险评价清单解读

PROMs开发过程指的是为开发PROMs而进行的所有质性或量性研究，包括条目生成和测试新开发的PROMs。尽管PROMs的开发不是测量属性，但PROMs开发过程中采用设计良好的定性方法有助于提高内容效度的质量[6]。因此，在评价PROMs的内容效度时，需要首先使用框目1评价PROMs开发过程的偏倚风险。若PROMs开发过程的偏倚风险已被评价并发表在了COSMIN网站上[7]，建议研究者考虑使用此评分而不是再次评价。框目1由1a、1b两部分组成，其中，1a部分(条目1～13)评价“PROM设计”(条目生成)的偏倚风险；1b部分(条目14～35)评价认知访谈或其他预实验(Pilot test)的偏倚风险。框目1采用了四分制评分法(即很好，良好，模糊，不良)对PROMs开发过程的偏倚风险进行评价，“很好”代表偏倚风险低，“不良”代表偏倚风险高，整体偏倚风险评分是由所有条目的最低评分决定，评价者可以报告框目1的偏倚风险评分，也可以报告某一部分(如1b部分)的偏倚风险评分。PROMs开发过程的偏倚风险评估清单,见图1。PROMs内容效度研究的偏倚风险评估清单,见图2。

图1 PROMs开发过程的偏倚风险评估清单

图2 PROMs内容效度研究的偏倚风险评估清单

1.1评价“PROM设计”的偏倚风险(1a) 1a部分主要是评价“PROM设计”的偏倚风险，以确定PROM的相关条目。它包括PROM开发的总体设计要求(条目1～5)和概念引出(条目6～13)。

条目1：指出研究者应清楚地描述所测构念(Construct)，以判断PROM的条目是否与构念相关，以及是否全面覆盖了构念。“Construct”可以译为“概念”或“构念”，但相比“概念(Concepts)”，“构念”更强调构造、建造的涵义，在心理测量学应用更为广泛[8]。例如，在开发Oswestry功能障碍指数(ODI)中，Fairbank等[9]指出功能障碍的定义是与健康人相比，患者的功能受到限制，但并没有清楚定义“患者功能”或“健康人”这两个概念，因此，该条目应评为“不良”。

条目2：强调应清楚PROM所测构念的来源，如理论、概念框架等。若构念没有理论来源等，那么需提供明确的理由以及与其他现有构念的相关性。例如，在开发绝经期生存质量量表(MENQOL)中，Hilditch等[10]将生存质量定义为个人的生理、情感和社会方面完好无损，不受这种条件或治疗的不利影响的程度，并将其分为心血管舒缩症状、心理社会状态等5个维度，但并没有描述清楚选择这五个维度的原因以及它们与个人的生理、情感和社会方面的相关性，因此，该条目应评为“模糊”。

条目3：指出PROM开发人员应清楚描述PROM的目标人群，以确定PROM对于这一人群的相关性和全面性，并确定PROM在其他人群中的适用性。因此，需要提供有关目标人群的资料，包括疾病类型(如乳腺癌)、重要疾病特征(如疾病的阶段)、人口特征(如年龄)等。例如，髋关节和腹股沟结果评分(HAGOS)清楚描述了目标人群是长期存在髋部和腹股沟疼痛的中青年体力活动患者[11]，因此，该条目应评为“很好”。

条目4：指出PROM开发人员需要清楚描述PROM的使用情境。使用情境可以指PROM测量的目的(如用于诊断、评价或预测)，也可以指一个特定的环境(如在医院或家中使用)或一个特定的使用方法(如纸张或计算机)。例如，Haemo-QoL指数旨在评估血友病儿童和青少年健康相关生活质量，可用作临床上的筛查工具，也可应用于大型临床研究等[12]，因此，该条目应评为“很好”。

条目5：强调样本应具有代表性。为了使样本能代表目标人群，样本应具有足够的差异性，如具有不同的构念表现(如抑郁水平的高低)、疾病特征(如疾病的严重程度)以及社会人口特征(如年龄)等。目的抽样可以获得多样化的样本，但其他抽样方法也可以考虑。例如，为了确定甲状腺疾病如何影响患者的生活，并为甲状腺特异性问卷选择最相关的生活质量问题，研究者采用非随机抽样选择患者，旨在最大限度地扩大患者在诊断、治疗、病程和年龄等方面的差异[13]，因此，该条目应评为“很好”。

条目6：指出研究者应使用合适的定性数据收集方法，以确定新PROM的相关条目。广泛认可的定性方法有访谈、焦点小组访谈和概念构图(Concept mapping)等。如果研究中使用了其他方法(如观察)，则应提供相应的理由。但需要注意的是这些方法应适合所测构念(如考虑主题的敏感性)和研究人群(如考虑年龄、认知、沟通能力等因素)。例如，流感强度和影响问卷(FluiiQTM)用于衡量流感对流感样疾病(ILI)患者和实验室确诊流感患者的症状和影响，其在开发过程中，使用了概念构图法，患者和专家访谈法，以及对患者的焦点小组访谈进行数据收集，以指导和生成条目[14]，因此，该条目应评为“很好”。

条目7：强调焦点小组和访谈需要有经验丰富的主持人/访谈者，其需要熟悉定性方法的使用以及对受试者的体验有充分的了解，以确保所获信息与PROM的相关性。如，Wilburn等[15]在开发肠外营养影响问卷(PNIQ)时，明确提到PNIQ的条目是由经验丰富的研究人员进行半结构式的定性访谈产生的，因此，该条目应评为“很好”。

条目8：强调小组会议或访谈需要有合适的提纲。提纲需包括哪些指示，哪些问题，如何提出问题等，并可以在访谈过程中随时调整。值得注意的是，对于非常开放的方法，如扎根理论方法，可能不使用提纲也会产生非常有价值的结果，因此，若有不使用访谈提纲的充足理由，就可以认为这一条目“不适用”。例如，在慢性下肢静脉功能不全生活质量调查问卷(CIVIQ)的开发中，只描述了访谈提纲是根据文献回顾和对4名医学专家和3名全科医生的访谈资料编写的，但提纲的具体内容描述不清楚[16]，因此，该条目应评为“良好”。

条目9：指出小组会议或访谈应进行录音并逐字转录。若有充分的理由说明录音不合适，如对于一些敏感的问题，或当患者拒绝，又或存在道德问题时，那么建议研究者做笔记，并可以给予一个“很好”或“良好”的评分。需要注意的是，在使用概念构图方法时不需要录音或转录。例如，在对流感强度和影响问卷的开发过程中，对专家的访谈只提到由1名访谈者和2名观察员进行记录，但没有录音也并未进行逐字记录，且未提供充分的理由[14]，因此，该条目应评为“模糊”。

条目10：强调需要使用合适的方法分析数据。合适的方法取决于研究目的，通常可以使用多种方法，例如内容分析，演绎分析(探索数据中已知的理论/现象/概念，与验证假设有关)，框架分析(一种根据关键主题、概念和新兴类别对数据进行分类和组织的方法)，扎根理论，以及计算机辅助定性数据分析软件等，但所有方法都强调受访者的讨论情境。例如，在青少年哮喘生活质量问卷(AAQOL)的开发中，焦点小组访谈和三次单独访谈都以开放式问题开始，随后是半结构式访谈，直至没有发现新条目，然后将选定的条目合并以形成初步问卷[17]，然而此问卷并没有使用合适的定性方法分析数据，因此，该条目应评为“不良”。

条目11：强调至少有部分数据应独立编码。定性数据的分析可能因人而异，因此，在进行数据编码时要涉及两名及以上经过培训的研究者。每个研究者需独立完成转录文本和编码，并与其他研究者进行讨论、比较和修改，最后达成共识。例如，Khadra等[18]在开发青少年癌症痛苦量表时使用定性数据分析软件MAXQDA 10 Plus进行了逐行分析，并进行编码、分类等，然而并不清楚是否有两名研究者独立编码，因此，该条目应评为“模糊”。

条目12：要求数据收集达到饱和，以加强PROM的可理解性和广泛适用性[19]。饱和对于基于“形成模型”的工具(例如症状量表)来说尤为重要，因为此类工具要求没有遗漏构念的重要方面。研究者应提供证据表明数据饱和，常用方法可以使用由概念编码组成的饱和表(Saturation grid)[20]进行记录和比较。若无证据，且研究者在不同的人群中进行了大量的焦点小组或访谈，也可以认为数据可能已饱和。例如，在开发再生障碍性贫血(Aplastic anemia,AA)和阵发性夜间血红蛋白尿(Paroxysmal nocturnal hemoglobinuria,PNH)专用的疾病特异性生活质量问卷(QLQ-AA/PNH)的过程中，研究者对超过25个城市的患者进行了面对面访谈，在第1阶段，对19例患者和8名AA/PNH医生进行访谈，并将得出的649个生活质量问题汇总成175个，然后由30例患者和14名医生根据其重要性进行分级(第2阶段)[21]，鉴于这种方法，可以认为可能已饱和，因此，该条目应评为“良好”。

条目13：指出量性研究(调查)需要有合适的样本量。若使用量性研究来确定PROM的相关内容，那么研究的样本量应足够大。例如，在开发Haemo-QoL指数时，Pollak等[12]在六个欧洲国家的20个血友病治疗中心调查了总共339名血友病儿童及其父母，样本量大于100，因此，该条目应评为“很好”。

1.2评价认知访谈或其他预实验的偏倚风险(1b) 1b部分主要是评价认知访谈或其他预实验的偏倚风险，以评估PROM的可理解性和全面性，包括总体设计要求(条目15)、可理解性(16～25)、全面性(26～35)。

条目14：强调开发PROM应进行认知访谈或预试验，以测试PROM的可理解性和全面性。若没有进行认知访谈或预试验，框目1的其余部分都可以跳过，那么PROM开发过程的偏倚风险将被评为“不良”。例如，在流感强度和影响问卷的开发过程中，研究者对患有ILI或确诊的流感患者进行了认知访谈，考察每个条目和问卷格式的适当性、可理解性等[14]，因此，该条目应评为“很好”。

条目15：参见条目5。

条目16：指出研究者需要询问受试者PROM的可理解性，包括PROM的指导语、条目、对应选项和回忆期。回忆期是指受试者体验(或事件)与评估之间的时间间隔，回忆期可能是即时的(如您“现在”感觉如何)，可能是2周(如胃轻瘫的主要症状指数是评估患者在过去2周的症状情况)[22]。若不清楚是否询问或没有询问受试者PROM的可理解性，该条目将被评为“模糊”或“不良”，那么可以跳过条目17～25。例如，在流感强度和影响问卷开发过程中，研究者对患有ILI或确诊的流感患者进行了认知访谈，询问患者对问卷内容的理解性，并对指导语、问卷完成的难易程度以及答案选项的适当性进行评价[14]，因此，该条目应评为“很好”。

条目17：强调PROM的条目应以最终形式(最终的措辞，对应选项等)进行测试，以确保条目的可理解性。基于认知访谈或其它预实验的轻微调整是允许的，但若对一个条目、对应选项或回忆期做出了重大调整，那么调整后的条目需要以最终形式进行重测。例如，在胃肠道症状评定量表(GSRQ)的开发过程中，研究者对10例胃肠道疾病患者进行调查，要求患者完成问卷和4个补充问题(如你觉得有什么问题难以理解吗)[23]，但文章中没有描述预实验的结果，因此不清楚是否发现任何问题，以及是否对条目进行了调整和重测，因此，该条目应评为“模糊”。

条目18：指出评价PROM指导语，对应选项和回忆期的可理解性应使用合适的定性方法，如认知访谈等[24]。例如，DyNaChron慢性鼻功能障碍问卷[25]的开发过程提到1名心理学家对10例患者进行了问卷的预调查并随后进行了半结构式访谈，尽管并没有清楚描述提出的问题，但可以认为进行半结构式访谈是一种系统的方法，且访谈是由1名心理学家进行的，他可能对认知访谈有一定的了解，因此，该条目应评为“良好”。

条目19：指出测试每个条目的受试者数量应是合适的。在质性研究中，所需访谈次数与所测构念的复杂程度、PROM指导语和条目的复杂性以及目标人群的特征和多样性有关，而相比受访者的数量，数据饱和更重要。在量性研究中，患者的样本量则至少需要50例才可以评为“很好”(可以认为通过对50例患者的调查就可以达到饱和状态)。例如，Khadra等[18]在开发青少年癌症痛苦量表时访谈了19例患者和16名医疗保健专家，并将收集到的访谈资料用定性数据分析软件进行分析，因此，该条目应评为“很好”。

条目20：参见条目7。

条目21：参见条目8。

条目22：参见条目9。

条目23：参见条目10。

条目24：强调至少需要两名研究者参与分析，以确保分析严密以及防止偏倚。然而，这在认知访谈阶段并不像在条目开发阶段那么重要。因此，若不清楚是否有两名研究者参与分析或只有一名研究者参与分析，可以给出“模糊”的评分。例如，在DyNaChron慢性鼻功能障碍问卷[25]的开发过程中，研究者仅仅简单描述了认知访谈和预实验的过程，并未描述有几名研究者进行分析，因此，该条目应评为“模糊”。

条目25：指出通过调整PROM后需要妥善解决PROM指导语，条目，对应选项和回忆期的可理解性问题。若问题没有得到妥善处理，或PROM在实质性调整后没有进行重测，那么建议给出“不良”的评分。例如，在胃肠道症状评定量表的开发过程中，研究者对10例胃肠道疾病患者进行了抽样调查，要求患者完成问卷和四个补充问题[23]，但并没有描述预实验的结果，因此不清楚是否对这些条目进行了调整和重测以及问题是否得到妥善解决，因此，该条目应评为“模糊”。

条目26：强调应明确询问受试者PROM的全面性，即这些条目是否全面涵盖了PROM的所测构念。在认知访谈或预实验这一阶段，受试者可能对概念引出阶段访谈中被遗漏的重要内容有不同的想法，如果概念引出阶段进行得很好，那么重要概念被遗漏的风险就相对比较低，因此，除了条目35之外，本部分关于全面性条目(26～34)的评分均不低于“模糊”。例如，在胃肠道症状评定量表的开发过程中，研究者在预实验和认知访谈阶段询问了患者问卷上的这些条目是否涵盖了肠道状况的某些特定方面[23]，因此，该条目应评为“很好”。

条目27：指出PROM条目的最终形式需要进行测试，以评价PROM或子量表的全面性。如果条目在预实验后被删除或增加，应进行新的预实验。例如，Rutishauser等[17]在开发青少年哮喘生活质量问卷时，使用了初步的调查问卷对66名青少年进行了预实验，并在删除部分条目后，形成了最终形式的AAQOL，然而并未再进行预实验评价其全面性，仅仅只是验证了最终版本AAQOL的构念效度和重测信度，因此，该条目应评为“模糊”。

条目28：强调需要使用合适的方法评价PROM的全面性。合适的方法可以是质性研究，如认知访谈。若只使用书面信息(调查)，那么可以评为“良好”。例如，在膝骨关节炎预筛查问卷(KOPS)的开发过程中，研究者通过对15名受试者进行预实验并咨询专家小组，以确保问卷正确包含所有基本概念以及所有条目合适且容易理解[26]，尽管访谈没有描述清楚，但在文章的结果部分提到在预实验的基础上增加了一个新的风险因素，因此，该条目应评为“良好”。参见条目18。

条目29：参见条目19。

条目30：参见条目7。

条目31：参见条目8。

条目32：参见条目9。

条目33：参见条目10。

条目34：参见条目24。

条目35：指出通过调整PROM后需要妥善解决PROM全面性的问题。若发现重要问题未能妥善处理，建议给予“不良”的评分。参见条目25。

2 PROMs内容效度研究的偏倚风险评价清单解读

内容效度研究是指对已有PROMs的相关性、全面性或可理解性的研究，其应当在最终版本的PROMs确定后进行。在评价完PROM开发过程的偏倚风险后，需要用框目2评价PROM内容效度研究的偏倚风险，其评分方式与框目1相同。框目2包括以下五部分：2a部分(条目1～7)询问受试者PROM条目的相关性；2b部分(条目8～14)询问受试者PROM的全面性；2c部分(条目15～21)询问受试者PROM的可理解性；2d部分(条目22～26)询问专家PROM条目的相关性；2e部分(条目27～31)询问专家PROM的全面性。

2.1询问受试者PROM条目的相关性(2a) 条目1指出应使用合适的方法询问受试者每个条目与他们经验的相关性。在内容效度研究中收集数据最合适的方法是质性研究，如访谈、焦点小组访谈等。若使用调查方法，建议评为“良好”。例如，土耳其版的强直性脊柱炎生活质量问卷(ASQOL)[27]的内容效度通过“认知访谈(Cognitive debriefing)”的方法进行评估，结果表明土耳其版ASQOL清晰、相关和全面，然而并没有对这些方法进行详细说明，因此不清楚这些条目的相关性是如何被评估的，因此，该条目应评为“模糊”。

条目2：参见条目19，框目1。

条目3：参见条目7，框目1。

条目4：参见条目8，框目1。

条目5：参见条目9，框目1。

条目6：参见条目10，框目1。

条目7：参见条目24，框目1。

2.2询问受试者PROM的全面性(2b) 条目8指出需要使用合适的方法评价PROM的全面性。研究者应明确询问受试者这些条目是否全面涵盖了PROM的所测构念。例如，青少年癌症痛苦量表[18]的内容效度由患者和医疗保健专业人员组成的小组进行评估，其小组审查了量表的所有条目，并修改、添加或删除任何不相关或不清楚的条目。在文章中“添加”这个词意味着量表的全面性得到了评估。因此，该条目应评为“良好”。参见条目28和框目1。

条目9：参见条目19，框目1。

条目10：参见条目20，框目1。

条目11：参见条目21，框目1。

条目12：参见条目22，框目1。

条目13：参见条目23，框目1。

条目14：参见条目24，框目1。

2.3询问受试者PROM的可理解性(2c) 条目15强调需要使用合适的定性方法评价PROM指导语，条目，对应选项和回忆期的可理解性。如果可理解性没有得到系统的评估，只是根据受访者自发的评论(或没有评论)，或患者填写的调查问卷，那么建议对可理解性给予“不良”的评分。例如，胃轻瘫主要症状指数(GCSI)是一种患者报告胃轻瘫预后的一种工具，其回忆期为2周，为了尽量减少患者的回忆偏倚，研究者开发了每日日记版本的GCSI(GCSI-DD)[28]，并进行了面对面的认知访谈，旨在获取相关信息，包括参与者如何描述其症状经历，用什么语言描述他们的情况和症状，以及他们如何理解GCSI-DD上的指导语，单个条目和对应选项，尽管没有提到回忆期，但每日日记版本的GCSI-DD通常被认为与之不相关，因此，该条目应评为“很好”。参见条目18，框目1。

条目16：参见条目19，框目1。

条目17：参见条目20，框目1。

条目18：参见条目21，框目1。

条目19：参见条目22，框目1。

条目20：参见条目23，框目1。

条目21：参见条目24，框目1。

2.4询问专家PROM条目的相关性(2d) 条目22指出需要使用合适的方法询问专家每个条目与所测构念的相关性。询问PROM条目相关性的一种典型方法是召集一组专家，针对特定的构念和所关注的人群，向他们提供目标列表和PROM条目，并以标准化的方式收集他们的反馈。例如：研究者通过征求10名专家(5名肿瘤学专家和5名肿瘤护理专家)对HCFS(一种癌症疲乏量表)[29]初稿的意见来评估内容效度，要求这些专家从3个方面评估初稿的49个条目，然后将一些意见有分歧或不合适的条目进行删除，因此，该条目应评为“很好”。参见条目1，框目2。

条目23：强调应纳入所有相关学科的专家，包括研究人员、临床医生和其他在所测构念和目标人群上具有专业知识的医疗保健工作者。COSMIN还建议在评审团队中纳入对目标人群有一定经验的人。例如，ABILOCO-Kids问卷是一种用于6至15岁脑瘫儿童运动能力的测量工具，Diwan等[30]在验证该问卷，确保古吉拉特语版的表面效度和内容效度时，采用群体一致性方法，由在儿科、儿科神经学、儿科整形外科学和儿科理疗领域具有平均24.62年经验的专家组(n=8)对每个条目进行评价，并分析其内容、意义、措辞、格式、评分等，因此，该条目应评为“很好”。

条目24：指出测试每个条目的专家数量应合适。尽管认为纳入所有相关学科的专家比专家人数达到饱和更为重要，但应包括最低限度人数的专家。有研究者建议大约5名在所测构念方面具有专业知识的专家对工具进行审查[31]，或者在焦点小组中建议15～20名在该领域有一定知识的专家进行评价[32]。COSMIN则建议在专家的数量与患者数量方面使用相同的标准。参见条目19，框目1。

条目25：指出需要使用合适的方法分析数据。COSMIN认为对每个条目的相关性进行分别评分是一种合适的方法，其可以计算出专家的平均分或内容效度指数或变异。例如，Khadra等[18]在对青少年癌症痛苦量表的制定过程中，邀请了5名不同专业的医疗卫生保健专家对每个条目的内容以及整个量表进行评价和反馈，并修改、添加或删除无关的条目，然后计算每个条目的内容效度指数(CVI)，结果发现只有5项的CVI为0.80，其余的CVI为1，量表的平均CVI为0.98。可见，该研究使用了合适的方法，因此，该条目应评为“很好”。

条目26：参见条目24，框目1。

2.5询问专家关于PROM的全面性(2e) 条目27指出需要使用合适的方法评价PROM的全面性。例如，Korakakis等[33]在对运动诱发的腿痛问卷进行跨文化调试和验证时，对于内容效度，其提到将调试好的问卷分发给5名不同学科的专家，并以5分制的评分标准对每个条目进行了评分(1分=差；2分=一般；3分=好；4分=非常好；5分=优秀匹配)，然而并不清楚究竟要求专家们在全面性方面给出什么样的评分，而且评分似乎更多的是指相关性(优秀匹配)，而不是条目的全面性，因此，该条目应评为“模糊”。参见条目28，框目1。

条目28：参见条目23，框目2。

条目29：参见条目24，框目2。

条目30：参见条目25，框目2。

条目31：参见条目26，框目2。

3 小结

COSMIN-RoB清单中PROMs开发过程和内容效度研究的偏倚风险评估条目非常具体清晰。该清单不仅可以详细地指导研究者对PROMs开发过程和内容效度研究的偏倚风险进行评价，而且也可以帮助研究者在研究设计、实施等阶段参考该工具以减少偏倚风险，增加研究结果的可信度。但是，PROMs开发过程和内容效度研究的偏倚风险清单仍然存在一些不足。比如，清单条目较多，总共有2个框目共66个条目，评价过程比较费时费力；再比如，清单里的一些条目比较主观，特别是质性研究的设计与分析方面，需要研究者自己判断，这可能会影响评价结果。因此，COSMIN-RoB清单仍然需要不断完善和更新。