COSMIN方法介绍:评价患者报告结局测量工具内容效度的评分系统
2021-05-28
1.复旦大学护理学院,上海200032;2.复旦大学附属华东医院;3.复旦大学循证护理中心
由荷兰、美国、西班牙等研究机构的心理测量学专家组成的COSMIN(Consensus-Based Standards For The Selection of Health Measurement Instruments)指导委员会提出了规范制作患者报告结局测量工具(Patient-Reported Outcome Measures,PROMs)系统评价的COSMIN方法,以指导研究者和使用者选择最合适的PROMs[1]。其中,评价PROMs的内容效度是COSMIN方法中非常重要的一部分,其包括3个步骤:第1步是使用COSMIN偏倚风险评价清单中的框目1评价PROMs开发过程的偏倚风险;第2步是使用COSMIN偏倚风险评价清单中的框目2评价PROMs内容效度研究的偏倚风险;第3步是综合PROMs开发过程及内容效度研究的所有证据,以及评价者对PROMs本身内容效度的评分,使用COSMIN提出的评分系统评价PROMs的内容效度。由于第3步中如何应用评分系统评价PROMs的内容效度比较复杂,因此,将对此进行单独介绍,以便于研究者和使用者更好地理解和应用该工具。
1 方法
PROMs内容效度的评分系统主要包括3个子步骤:①根据PROMs内容效度的10项质量准则对每项研究中PROMs的内容效度进行评价,同时也考虑评价者对PROMs本身内容效度的评分(3a);②对PROMs开发过程、所有内容效度研究以及评价者的评分进行定性总结,以评价PROMs的内容效度(3b);③使用改良的GRADE方法评价证据质量等级,以确定对内容效度评价结果的确信程度(3c)。对于PROMs的每个量表或子量表,评价者都应根据内容效度的评分系统填写表1。
表1 评价PROM内容效度的COSMIN质量准则和评分系统
1.1 评价每项研究中PROM的内容效度(3a)
根据COSMIN开发的PROM内容效度的10项质量准则(相关性准则1~5项,全面性准则6项,可理解性准则7~10项)对每项研究中PROM的内容效度进行评价,并考虑评价者的判断。每项准则均可以评为“+”“-”“?”,其一般评价规则如下:“+”指PROM(或子量表)中≥85%的条目符合准则;“-”指PROM(或子量表)中<85%的条目符合准则;“?”指没有足够的信息或研究的偏倚风险被评为“不良”。其具体步骤分为以下3步:第1步,需要根据质量准则(相关性准则1~5项,全面性准则6项,可理解性准则7~8项)对PROM开发过程及每项内容效度研究的结果进行评价,并应考虑每项研究的偏倚风险。此外,评价者还需要对PROM本身的内容效度做出判断,并对相关性(准则1~5项)、全面性(准则6项)、可理解性(准则9~10项)进行评分。需要注意,评价者的判断在PROM的内容效度评价中所占权重较小。每项质量准则评为“+”的标准见表2。如果不清楚研究具体做了什么,或者研究的偏倚风险被评为“不良”,或者没有报告结果,建议将对应的质量准则评为“?”,其他情况则评为“-”。经过这一步骤,可以得出PROM开发过程、每项内容效度研究以及评价者的评分,评价者需要填在表1每列中每项准则对应的白色区域。第2步,汇总每项准则的评分,可以获得每项研究和评价者对PROM的相关性、全面性和可理解性评分,其可以评为“+”“-”“?”和“±”。评价者需要将评分填在表1每列中相关性、全面性和可理解性对应的蓝色区域。具体指导见表3。第3步,总结每项研究和评价者对PROM的相关性、全面性和可理解性评分,确定每项研究中PROM的内容效度评分及评价者对PROM内容效度的评分,并填在表1最后一行蓝色区域。具体指导见表4。
表2 根据内容效度的10项质量准则给予“+”评分的指南
表3 每项研究中PROM相关性、全面性和可理解性的评分指导
表4 评价每项研究中PROM内容效度的指导
1.2 评价PROM的内容效度(3b)
在这一步骤中,需要综合考虑步骤3a中所有PROM开发过程和内容效度研究中PROM内容效度(包括相关性、全面性、可理解性)的评分结果,以及评价者的评分,并对其进行定性总结,以确定PROM的内容效度,其评分应在表1倒数第二列绿色区域中填写。PROM的内容效度可以被评为“+”或“-”或“±”。“?”的评分是不可能的,因为评价者的评分总是可用的(+/-/±)。如果每项研究中PROM内容效度评分为“+”或“-”,那么PROM的内容效度也为“+”或“-”。如果没有内容效度研究,或内容效度研究的偏倚风险被评为“不良”,以及PROM开发过程的偏倚风险被评为“不良”,那么评价者的评分将决定PROM的内容效度。此外,如果PROM开发过程或内容效度研究中PROM内容效度的评分为“?”,那么该评价结果也可以忽略。注意:COSMIN建议对每个(多维)PROM的子量表的内容效度分别进行评分。然而,对于多维PROMs,如果其需要将子量表的分数相加作为总分,则可以通过结合各子量表的证据对多维PROMs的相关性、全面性、可理解性和内容效度进行评分。如果所有子量表的内容效度评分为“+”或“-”,那么多维PROMs的内容效度评分也是“+”或“-”。如果各子量表的内容效度评分不一致,那么多维PROMs的内容效度的评分将为“±”。
如果PROM开发过程的评分、内容效度研究的评分和评价者的评分不一致,应探讨不一致的原因。如无任何原因,则PROM内容效度的评分将为不一致。引起不一致的原因可能是人群(例如疾病严重程度不同的人群)、PROM的语言版本、PROM的开发年份等。如果可以找到不一致的原因,评价者可以考虑进行分组,并对亚组内结果一致的研究进行评价,以确定PROM的内容效度。例如,如果PROM内容效度的研究分别在急性病病人和慢性病病人中进行,并且其内容效度的评分不同,那么可以考虑分别评价两类人群中的PROM内容效度(如在急性病病人中内容效度的总体评分可能为“+”,但在慢性病病人中为“-”)。在评分不一致的情况下,某些研究可能提供了更多的证据,从而决定了PROM的内容效度。例如:①内容效度研究比PROM开发过程提供了更多的证据(因为在内容效度研究中询问了受试者PROM的相关性、全面性和可理解性,但PROM开发过程则不包括此项内容);②内容效度研究和PROM开发过程比评价者的评分提供更多的证据(因为来自研究的证据应该比评价者的主观意见更有分量,即使评价者是专家);③偏倚风险低的研究比偏倚风险高的研究提供了更多的证据。例如:可以考虑只根据偏倚风险评分为“很好”或“良好”的研究来确定PROM的相关性评分,而忽略评分为“模糊”的研究结果。此外,在某些情况下,更新的证据可以认为比旧的证据更重要。
1.3 使用改良的GRADE(Grade of Recommendation Assessment Development and Evaluation)方法对证据质量进行评级(3c)
在这一步骤中,需要使用改良的GRADE方法对PROM内容效度的全部证据(即证据体)进行质量评级,以反映对步骤3b中PROM的内容效度(包括相关性、全面性和可理解性)评价结果的确信程度。COSMIN在原先的GRADE方法基础上[2],专门针对PROMs的系统评价,开发了一个改良的GRADE方法,将证据质量分为高、中、低和极低。其中,对于PROM的内容效度,其证据质量只根据偏倚风险、不一致性和间接性这3个因素进行分级(没有考虑不精确性和发表偏倚)。需要注意,如果在步骤3b中忽略了某些研究的结果,那么在确定证据质量时也应该忽略这些研究。例如,如果在确定PROM的内容效度时只考虑高质量研究的结果,那么确定证据质量时也只需要考虑高质量的研究。所有的质量评级结果都将在表1的最后一列绿色区域中填写。
1.3.1 偏倚风险
COSMIN根据改良的GRADE方法将PROM内容效度的全部研究初定为高质量证据。当研究的偏倚风险是“模糊”或“不良”时,或存在(无法解释的)不一致或间接结果时,应考虑将证据质量按因素降低等级。如果内容效度研究的偏倚风险评分为“模糊”,建议降低证据质量等级1级。如果没有内容效度研究(或仅有偏倚风险“不良”的研究)以及PROM开发过程的偏倚风险评分为“模糊”,建议降低2级。如果没有内容效度研究(或仅有偏倚风险“不良”的研究)以及PROM开发过程的偏倚风险评分为“不良”,建议降低3级(证据质量极低)。在最后一种情况下,内容效度将只基于评价者的评分。
1.3.2 不一致性
不一致性是指PROM开发过程和其他内容效度研究中PROM内容效度评分不一致,或者这些研究的评分与评价者对PROM的评分不一致。对于解决不一致性的问题,一种方法是步骤3b中提到的将结果类似的研究进行分组评价;另一种方法则是对PROM的内容效度进行评价,包括所有研究,如果每项研究的评分不一致,那么降低不一致证据的质量。
1.3.3 间接性
如果系统评价中关注的人群、构念或使用情境与PROM开发过程或内容效度研究中关注的不一致,那么就会出现间接性。这样的研究尽管可以提供PROM可理解性的证据,但由于关注的构念和人群不同,其相关性和全面性的证据可能是间接的。在这种情况下,可能要考虑降低证据质量的等级(请注意,间接证据的权重要小于直接证据)。例如,在关于手骨关节炎病人PROMs的系统评价中,上肢功能障碍评定量表(DASH)是针对更广泛的目标人群开发的(上肢肌肉骨骼疾病病人),而不仅仅限于系统评价中所关注的人群(手骨关节炎病人)。如果只有少数手骨关节炎病人参与了DASH量表的开发,那么评价者可能无法确定DASH量表的条目对于手骨关节炎病人是否具有相关性和全面性。在这种情况下,评价者也可能会因间接性考虑降低PROM开发过程中证据的质量。
2 讨论
2.1 COSMIN评分系统使用过程中的注意事项
由于目前一些PROMs的内容效度不够好,且缺乏标准化的方法评价内容效度,导致相关研究者和使用者很难判断使用的PROMs是否合适,因此,COSMIN制定了评价PROMs内容效度的方法,以指导其选择高质量的PROMs[3]。该评价方法分为3个步骤,本文详细介绍了第3个步骤中如何应用COSMIN评分系统来评价PROMs的内容效度,并对其证据质量进行评级。在使用评分系统时,前两个步骤中PROMs开发过程和内容效度研究的偏倚风险评价结果应考虑在内。应当注意,在系统评价中对PROMs的内容效度进行评分时,评价者应考虑系统评价中关注的构念、人群和使用情境,因为有些PROMs在广泛应用时,内容效度可能会有所变化,如在最初开发时PROMs在目标人群中的内容效度可能很好,但在另一个受试者人群中使用时不一定好。另外,在报告PROMs内容效度的结论时,应同时提到PROMs的内容效度(包括相关性、全面性和可理解性)的质量和证据的质量等级。若是PROMs相关性、全面性和可理解性的评分差异很大,COSMIN建议不要报告内容效度评分,而是分别报告相关性、全面性和可理解性的评分。例如,有中等质量的证据表明某PROM具有“+”的相关性和可理解性,但有极低质量的证据表明该PROM具有“不足”的全面性。
2.2 COSMIN评分系统存在的局限性
COSMIN提出的评分系统非常具体清晰,能够规范地指导研究者和使用者如何对PROMs的内容效度进行评价,然而也存在一些不足。例如,在步骤3a中根据内容效度的10项质量准则给予评分时,“不确定”和“不足”的评分标准并不十分具体;又例如,在对由多个子量表组成的PROMs进行内容效度的评价时,其评价方法也可能不是很清晰;此外,此评分系统评价PROMs的过程比较复杂,步骤较多,需要耗费较多的时间。COSMIN建议评分系统需要在对PROMs的多个系统评价中进一步测试,以评价其适用性。因此,未来仍然需要不断地对此评分系统进行完善,其他更多信息可以见COSMIN网站[4]。