COSMIN方法介绍：评价患者报告结局测量工具内容效度的评分系统

2021-05-28

循证护理 2021年5期

1.复旦大学护理学院，上海200032；2.复旦大学附属华东医院；3.复旦大学循证护理中心

由荷兰、美国、西班牙等研究机构的心理测量学专家组成的COSMIN(Consensus-Based Standards For The Selection of Health Measurement Instruments)指导委员会提出了规范制作患者报告结局测量工具(Patient-Reported Outcome Measures，PROMs)系统评价的COSMIN方法，以指导研究者和使用者选择最合适的PROMs[1]。其中，评价PROMs的内容效度是COSMIN方法中非常重要的一部分，其包括3个步骤：第1步是使用COSMIN偏倚风险评价清单中的框目1评价PROMs开发过程的偏倚风险；第2步是使用COSMIN偏倚风险评价清单中的框目2评价PROMs内容效度研究的偏倚风险；第3步是综合PROMs开发过程及内容效度研究的所有证据，以及评价者对PROMs本身内容效度的评分，使用COSMIN提出的评分系统评价PROMs的内容效度。由于第3步中如何应用评分系统评价PROMs的内容效度比较复杂，因此，将对此进行单独介绍，以便于研究者和使用者更好地理解和应用该工具。

1 方法

PROMs内容效度的评分系统主要包括3个子步骤：①根据PROMs内容效度的10项质量准则对每项研究中PROMs的内容效度进行评价，同时也考虑评价者对PROMs本身内容效度的评分(3a)；②对PROMs开发过程、所有内容效度研究以及评价者的评分进行定性总结，以评价PROMs的内容效度(3b)；③使用改良的GRADE方法评价证据质量等级，以确定对内容效度评价结果的确信程度(3c)。对于PROMs的每个量表或子量表，评价者都应根据内容效度的评分系统填写表1。

表1 评价PROM内容效度的COSMIN质量准则和评分系统

1.1 评价每项研究中PROM的内容效度(3a)

根据COSMIN开发的PROM内容效度的10项质量准则(相关性准则1～5项，全面性准则6项，可理解性准则7～10项)对每项研究中PROM的内容效度进行评价，并考虑评价者的判断。每项准则均可以评为“+”“-”“?”，其一般评价规则如下：“+”指PROM(或子量表)中≥85%的条目符合准则；“-”指PROM(或子量表)中<85%的条目符合准则；“?”指没有足够的信息或研究的偏倚风险被评为“不良”。其具体步骤分为以下3步：第1步，需要根据质量准则(相关性准则1～5项，全面性准则6项，可理解性准则7～8项)对PROM开发过程及每项内容效度研究的结果进行评价，并应考虑每项研究的偏倚风险。此外，评价者还需要对PROM本身的内容效度做出判断，并对相关性(准则1～5项)、全面性(准则6项)、可理解性(准则9～10项)进行评分。需要注意，评价者的判断在PROM的内容效度评价中所占权重较小。每项质量准则评为“+”的标准见表2。如果不清楚研究具体做了什么，或者研究的偏倚风险被评为“不良”，或者没有报告结果，建议将对应的质量准则评为“?”，其他情况则评为“-”。经过这一步骤，可以得出PROM开发过程、每项内容效度研究以及评价者的评分，评价者需要填在表1每列中每项准则对应的白色区域。第2步，汇总每项准则的评分，可以获得每项研究和评价者对PROM的相关性、全面性和可理解性评分，其可以评为“+”“-”“?”和“±”。评价者需要将评分填在表1每列中相关性、全面性和可理解性对应的蓝色区域。具体指导见表3。第3步，总结每项研究和评价者对PROM的相关性、全面性和可理解性评分，确定每项研究中PROM的内容效度评分及评价者对PROM内容效度的评分，并填在表1最后一行蓝色区域。具体指导见表4。

表2 根据内容效度的10项质量准则给予“+”评分的指南

表3 每项研究中PROM相关性、全面性和可理解性的评分指导

表4 评价每项研究中PROM内容效度的指导

1.2 评价PROM的内容效度(3b)

在这一步骤中，需要综合考虑步骤3a中所有PROM开发过程和内容效度研究中PROM内容效度(包括相关性、全面性、可理解性)的评分结果，以及评价者的评分，并对其进行定性总结，以确定PROM的内容效度，其评分应在表1倒数第二列绿色区域中填写。PROM的内容效度可以被评为“+”或“-”或“±”。“?”的评分是不可能的，因为评价者的评分总是可用的(+/-/±)。如果每项研究中PROM内容效度评分为“+”或“-”，那么PROM的内容效度也为“+”或“-”。如果没有内容效度研究，或内容效度研究的偏倚风险被评为“不良”，以及PROM开发过程的偏倚风险被评为“不良”，那么评价者的评分将决定PROM的内容效度。此外，如果PROM开发过程或内容效度研究中PROM内容效度的评分为“?”，那么该评价结果也可以忽略。注意：COSMIN建议对每个(多维)PROM的子量表的内容效度分别进行评分。然而，对于多维PROMs，如果其需要将子量表的分数相加作为总分，则可以通过结合各子量表的证据对多维PROMs的相关性、全面性、可理解性和内容效度进行评分。如果所有子量表的内容效度评分为“+”或“-”，那么多维PROMs的内容效度评分也是“+”或“-”。如果各子量表的内容效度评分不一致，那么多维PROMs的内容效度的评分将为“±”。

如果PROM开发过程的评分、内容效度研究的评分和评价者的评分不一致，应探讨不一致的原因。如无任何原因，则PROM内容效度的评分将为不一致。引起不一致的原因可能是人群(例如疾病严重程度不同的人群)、PROM的语言版本、PROM的开发年份等。如果可以找到不一致的原因，评价者可以考虑进行分组，并对亚组内结果一致的研究进行评价，以确定PROM的内容效度。例如，如果PROM内容效度的研究分别在急性病病人和慢性病病人中进行，并且其内容效度的评分不同，那么可以考虑分别评价两类人群中的PROM内容效度(如在急性病病人中内容效度的总体评分可能为“+”，但在慢性病病人中为“-”)。在评分不一致的情况下，某些研究可能提供了更多的证据，从而决定了PROM的内容效度。例如：①内容效度研究比PROM开发过程提供了更多的证据(因为在内容效度研究中询问了受试者PROM的相关性、全面性和可理解性，但PROM开发过程则不包括此项内容)；②内容效度研究和PROM开发过程比评价者的评分提供更多的证据(因为来自研究的证据应该比评价者的主观意见更有分量，即使评价者是专家)；③偏倚风险低的研究比偏倚风险高的研究提供了更多的证据。例如：可以考虑只根据偏倚风险评分为“很好”或“良好”的研究来确定PROM的相关性评分，而忽略评分为“模糊”的研究结果。此外，在某些情况下，更新的证据可以认为比旧的证据更重要。

1.3 使用改良的GRADE(Grade of Recommendation Assessment Development and Evaluation)方法对证据质量进行评级(3c)

在这一步骤中，需要使用改良的GRADE方法对PROM内容效度的全部证据(即证据体)进行质量评级，以反映对步骤3b中PROM的内容效度(包括相关性、全面性和可理解性)评价结果的确信程度。COSMIN在原先的GRADE方法基础上[2]，专门针对PROMs的系统评价，开发了一个改良的GRADE方法，将证据质量分为高、中、低和极低。其中，对于PROM的内容效度，其证据质量只根据偏倚风险、不一致性和间接性这3个因素进行分级(没有考虑不精确性和发表偏倚)。需要注意，如果在步骤3b中忽略了某些研究的结果，那么在确定证据质量时也应该忽略这些研究。例如，如果在确定PROM的内容效度时只考虑高质量研究的结果，那么确定证据质量时也只需要考虑高质量的研究。所有的质量评级结果都将在表1的最后一列绿色区域中填写。

1.3.1 偏倚风险

COSMIN根据改良的GRADE方法将PROM内容效度的全部研究初定为高质量证据。当研究的偏倚风险是“模糊”或“不良”时，或存在(无法解释的)不一致或间接结果时，应考虑将证据质量按因素降低等级。如果内容效度研究的偏倚风险评分为“模糊”，建议降低证据质量等级1级。如果没有内容效度研究(或仅有偏倚风险“不良”的研究)以及PROM开发过程的偏倚风险评分为“模糊”，建议降低2级。如果没有内容效度研究(或仅有偏倚风险“不良”的研究)以及PROM开发过程的偏倚风险评分为“不良”，建议降低3级(证据质量极低)。在最后一种情况下，内容效度将只基于评价者的评分。

1.3.2 不一致性

不一致性是指PROM开发过程和其他内容效度研究中PROM内容效度评分不一致，或者这些研究的评分与评价者对PROM的评分不一致。对于解决不一致性的问题，一种方法是步骤3b中提到的将结果类似的研究进行分组评价；另一种方法则是对PROM的内容效度进行评价，包括所有研究，如果每项研究的评分不一致，那么降低不一致证据的质量。

1.3.3 间接性

如果系统评价中关注的人群、构念或使用情境与PROM开发过程或内容效度研究中关注的不一致，那么就会出现间接性。这样的研究尽管可以提供PROM可理解性的证据，但由于关注的构念和人群不同，其相关性和全面性的证据可能是间接的。在这种情况下，可能要考虑降低证据质量的等级(请注意，间接证据的权重要小于直接证据)。例如，在关于手骨关节炎病人PROMs的系统评价中，上肢功能障碍评定量表(DASH)是针对更广泛的目标人群开发的(上肢肌肉骨骼疾病病人)，而不仅仅限于系统评价中所关注的人群(手骨关节炎病人)。如果只有少数手骨关节炎病人参与了DASH量表的开发，那么评价者可能无法确定DASH量表的条目对于手骨关节炎病人是否具有相关性和全面性。在这种情况下，评价者也可能会因间接性考虑降低PROM开发过程中证据的质量。

2 讨论

2.1 COSMIN评分系统使用过程中的注意事项

由于目前一些PROMs的内容效度不够好，且缺乏标准化的方法评价内容效度，导致相关研究者和使用者很难判断使用的PROMs是否合适，因此，COSMIN制定了评价PROMs内容效度的方法，以指导其选择高质量的PROMs[3]。该评价方法分为3个步骤，本文详细介绍了第3个步骤中如何应用COSMIN评分系统来评价PROMs的内容效度，并对其证据质量进行评级。在使用评分系统时，前两个步骤中PROMs开发过程和内容效度研究的偏倚风险评价结果应考虑在内。应当注意，在系统评价中对PROMs的内容效度进行评分时，评价者应考虑系统评价中关注的构念、人群和使用情境，因为有些PROMs在广泛应用时，内容效度可能会有所变化，如在最初开发时PROMs在目标人群中的内容效度可能很好，但在另一个受试者人群中使用时不一定好。另外，在报告PROMs内容效度的结论时，应同时提到PROMs的内容效度(包括相关性、全面性和可理解性)的质量和证据的质量等级。若是PROMs相关性、全面性和可理解性的评分差异很大，COSMIN建议不要报告内容效度评分，而是分别报告相关性、全面性和可理解性的评分。例如，有中等质量的证据表明某PROM具有“+”的相关性和可理解性，但有极低质量的证据表明该PROM具有“不足”的全面性。

2.2 COSMIN评分系统存在的局限性

COSMIN提出的评分系统非常具体清晰，能够规范地指导研究者和使用者如何对PROMs的内容效度进行评价，然而也存在一些不足。例如，在步骤3a中根据内容效度的10项质量准则给予评分时，“不确定”和“不足”的评分标准并不十分具体；又例如，在对由多个子量表组成的PROMs进行内容效度的评价时，其评价方法也可能不是很清晰；此外，此评分系统评价PROMs的过程比较复杂，步骤较多，需要耗费较多的时间。COSMIN建议评分系统需要在对PROMs的多个系统评价中进一步测试，以评价其适用性。因此，未来仍然需要不断地对此评分系统进行完善，其他更多信息可以见COSMIN网站[4]。