基于证据强度的测量工具分级框架简介
2023-08-29刘雨今华雨婷黄维肖沈建通
刘雨今,华雨婷,黄维肖,沈建通*
1.金华市第二医院,浙江321200;2.湖州师范学院医学院
近年来,国内出现了大量测量工具,但对于这些工具的使用缺乏规范,导致工具的信效度难以得到准确评估。针对这一问题,澳大利亚学者Kat Leung于2012年制定并发表了心理测验分级框架(the psychometric grading framework,PGF)[1],该框架基于信度和效度对各种测量工具进行定量分级,帮助临床决策人员选择有效的测量工具,用于指导临床实践。与以往的工具评估方法相比,PGF直接对证据强度进行分级,使得评估过程更加简便、便利、客观和透明,减少了评估结果的主观性。现将详细介绍PGF的结构与分级方法,并以循证实践问卷(the Evidence-Based Practice Questionnaire,EBPQ)[2]为例对其使用进行分步解读,以期促进临床实践者的理解与正确使用。
1 PGF的产生背景
目前,国内测量工具种类繁多,但对于测量工具的使用缺乏规范,最初的工具管理中也没有明确的定义对各项指标进行量化,缺少大样本数据验证其信效度[2]。因此,急需开发或引进更加科学、灵敏的评估工具,用于验证测量工具的信效度强度,满足研究者的决策需要。2012年,澳大利亚学者Kat Leung制定并发表的PGF[1],基于信度和效度可对各种问卷、量表、清单、循证实践自我报告等测量工具的测量证据强度进行定量分级,针对有效性证据的强度进行排序,给出整体证据使用户可以定量地得出工具的有效性,帮助临床决策人员选择有效的测量工具,用于指导临床实践[4]。
以往测量工具大多数包含关于测量和使用方法的“是-否”清单,不能用于评估测量属性的强度,评估结果也不直接使用分数或信效度的等级作结论,使得评估结果无法被直接比较。PGF借鉴了GRADE和AGREE Ⅱ等分级系统的相关经验,将现有的最佳证据与工具强度的整体分级相结合,使用评分系统来评估证据的强度,将评估结果分为4个等级,直接比较和反映各种测量工具的有效性,以确定某一测量工具是否值得推荐或应用[5],有助于临床护理人员更科学合理地进行决策。此外,PGF直接对证据强度进行分级,在快节奏的临床工作环境中,使得评估过程更加简便,便利性更高,评价结果更加客观、透明,减少了研究人员对评估结果的主观性,更易使用。
本研究将详细介绍PGF的结构与分级方法,并以EBPQ[2]为例,对PGF的使用进行分步解读,旨在促进临床实践者的理解与正确使用。
2 PGF的结构
PGF包括测量水平量表(Measurement Level Scale)和证据强度分级量表(Evidence Strength Grading Scale)。
1)测量水平量表是一个分级矩阵[6],包含6个心理测量特性(内部一致性、重测信度、评分者间信度、内容效度、结构效度、效标效度)。心理测量特性是指用于评价研究工具信效度、最大允许误差、测量不确定度、稳定性、重复性、再现性等的评价指标。每个测量特性都是一个独立的模块,包含不同的子特性,将被分配一个等级,从高到低依次分为A级、B级、C级、D级4个等级,A级代表等级的顶端,D级代表等级的底部,更高的等级代表这一测量特性更可靠。各等级层次强度根据国际通用的统计检验阈值指南建议,纳入相对客观、量化的统计学检验方法和效应值范围,作为评判依据[7]。2)证据强度分级量表采用李克特4点评分法将证据强度分为 “好”“适当”“弱”“非常弱”4个等级[8],“好”提示证据强度等级为高级,是值得推荐或应用于临床实践的测量工具,表明该工具有效性很好;“适当”表示测量工具的有效性较好,可以推荐或应用;“弱”表示测量工具的有效性一般,推荐优先使用其他有效性更高的测量工具;“非常弱”则表示测量工具的有效性很差,不值得推荐或应用。任何与心理测量特性相匹配的变量证据都包含在心理测量特性分级中,根据每个测量特性的质量不仅能够确定测量工具的信度和效度[9];将最后的等级数量及高低水平,通过组合还可以帮助研究人员确定该测量工具的总体证据强度,实现任何测量工具证据强度等级的可视化[10]。测量水平量表见表1,证据强度分级量表见表2。
表1 测量水平量表
表2 证据强度分级量表
3 PGF量表解读
3.1 测量水平量表
PGF基于效度和信度2个维度对测量工具进行评测,其中效度反映测量工具或手段的有效性和准确性,包括内容效度、结构效度和效标效度3个指标;信度反映在不同情况下进行反复测量后结果的一致性与稳定性,包括内部一致性、重测信度和评分者信度3个指标。
3.1.1 内容效度
内容效度反映量表中的条目是否能够准确表达希望调查的内容,体现测量工具内容的全面性与恰当性,作为最重要的测量特征,通常作优先评估。通过文献综述、专家委员会评议(专家小组成员要求具有心理测量学、评估和测量方面的专业知识)[20]与病人观点和内容验证调查确定。
3.1.2 结构效度
结构效度包含聚合效度和区别效度2个子特性,反映了量表的内在结构与预期领域结构间的一致性,用来衡量研究工具与理论模型的预测值之间的相符合程度。一般需要先建立模型与理论结构假设,然后将实际测量结果进行探索性因子分析,比较实际与理论结果的吻合程度。用于假设检验的最常见统计检验及其对应的相关系数:为方差分析(f)、t检验(d)、皮尔逊相关(r)、斯皮尔曼等级顺序相关(ρ)。除此之外,因子分析常用相关系数为KMO,范围一般在0~1。KMO>0.9,提示变量间的相关性强,非常适合作因子分析;KMO越趋近于0则提示相关性越弱,不适合作因子分析。在确定因素结构后,还可以采用Cronbach′s α进一步检验各因素结构效度,计算各因素间的相关性。
3.1.3 效标效度
效标效度包含预测效度和同时效度子特性,反映研究工具与“金标准”或现有的真实指标之间的相关关系。相关系数的值越高,提示效标效度越好。除常用的系数外,还采用AUC和似然比,用于诊断试验或筛查测量工具。AUC根据灵敏度与特异度绘制,在0.5~1.0范围内,比较不同测量工具的有效性。一般AUC的值越大提示诊断价值越高,反之,AUC<0.5,提示诊断价值低或不具有判别能力。另外,似然比反映了诊断试验的敏感度和特异度,从而全面反映是否存在诊断价值。
3.1.4 内部一致性
内部一致性反映研究工具各项目之间的内在相关性与一致性程度,常用指标有折半信度、Cronbach′s α系数、KR-20。其中Cronbach′s α为最常用系数,范围一般在0~1。Cronbach′s α系数≥0.9则提示信度很好;若Cronbach′s α系数<0.7,则提示信度较差。
3.1.5 重测信度
即使用同一测量方法,对同一组被试者先后2次进行测量,2次所得结果的相关系数称为重测信度,反映测量工具结构的稳定性和一致性,不会随着时间的推移而改变。相关性系数介于0~1,相关系数越趋近于1,提示测量标准误差愈小,说明一致性程度越高。通常使用Kappa系数、加权Kappa系数、皮尔逊相关系数或组内相关系数等。一般Kappa相关系数或组内相关系数>0.7都提示重测信度好。
3.1.6 评分者间信度
指针对相同测量对象、相同测量工具,不同评估者所得评估结果之间的一致程度。常用是Kappa系数,Cohen′s к适用于仅有2个评分者的情况,而Fleiss′s к和Landis′s к用于衡量2个以上评估者间的一致性,其他统计指标大致与重测信度相同。
3.2 证据强度分级量表
证据强度分级量表的评测结果中,A级和B级代表强测量指标,C级和D级代表弱测量指标。A级和B级的数量对于确定测量工具证据的强度具有决定性作用,同时也允许最终结果指标中没有A级和(或)B级的情况存在,此时C级和D级的数量对强度分级同样存在影响,但影响相对较小。此外,如果某一心理测量特性因包含多个子特性而获得多个等级,那么最终等级结果将不是通过相加获得,而是由研究人员通过四舍五入或被取平均值的方法确定。
表2中展示了多种组合形式,具体如下:若各测量特性根据表1获得的等级指标结果为3个或以上的强测量指标,而其余指标均为弱测量指标,则该测量工具的评测等级即为“好”;若某一测量工具包含2个强测量指标,其余指标均为弱,则该测量工具的评测等级即为“适当”;若某一测量工具仅有1个强测量指标(A级或B级),其余指标均为弱测量指标(C级或D级),说明证据强度等级为“弱”,提示该测量工具有效性一般,是否值得推荐则有待考量,优先推荐其他有效性较好的测量工具;若某一测量工具的评测结果仅包含1个或多个弱性指标,说明证据强度“非常弱”,则提示该测量工具的有效性很差,不推荐使用或需要从其他途径获得更多相关证据进行补充以进一步确定该测量工具的强度等级。但是需要注意的是,等级结果反映测量工具的有效性程度,可用于决定某一测量工具是否值得推荐或采用,不能用于判断一个测量工具的好坏。
4 PGF的操作步骤
开发PGF的目的是形成一个系统的框架,通过描述测量工具的心理测量特性,根据其综合证据强度推荐最佳工具用于不同场景、不同人群的互动过程中,或在测量工具选择困难或不协调的情况下,为研究决策人员提供一个一致性相对较高的用于提高选择结果效率的分级框架[23],并提供科学的决策依据。PGF的具体使用方法为提取测量工具所体现的所有分级证据以及质量评估数据,对工具包含的测量特性进行定量评估[24],为每一测量特性赋予1个等级,通过组合,依据等级的高低以确定所评估对象的最终有效性。
以EBPQ[1]为例,对PGF的使用方法进行分步解读,使用过程将分为以下3个步骤。
第1步:阅读相关文献或清单简便,了解评估工具的内部结构与统计学检验方法,从中提取出针对该工具或影响结果的所有测量证据指标与统计学依据。EBPQ共24个条目,分为3个分量表,旨在对护士的循证实践技能、态度和知识能力进行衡量。该工具包含的所有测量特性为内容效度、内部一致性、结构效度、区别效度,因此,将从以上4个特性提取相关证据进行证据强度分级,得到的所有测量特性与其对应的测量证据指标。内容效度通过1个由卫生保健专业人员组成的指导小组进行审核。内部一致性为Cronbach′s α系数为0.87,结构效度:r或ρ值为0.3~0.4(P<0.001),区别效度:η2=0.02(P≤0.01)。
第2步:由研究人员使用表1将所得的测量指标和统计学依据匹配到最接近的等级范围(A级~D级)[6],每个证据指标对应1个等级。EBPQ根据测量水平量表所得的等级情况。EBPQ的内容效度通过专家小组进行审核,并由经验丰富的与医疗相关的专业人员进行完善,与表1对应等级为C级。整个调查问卷的内部一致性采用总相关性与Cronbach′s α进行评估,Cronbach′s α范围通常为0~1,Cronbach′s α的值越大,则提示信度越高。各分量表的内部一致性均较好,最终得出为Cronbach′s α系数为0.87,说明量表的内部一致性非常好,即量表的信度非常好,与表1对应等级为B级。结构效度使用皮尔逊相关系数(r或ρ值)进行评估,评估确定r或ρ值为0.3~0.4(P<0.001),说明存在适度的相关性,与表1对应等级为B级。区别效度采用独立样本t检验来评估,得出η2=0.02,说明该问卷具有较好的区别效度。与表1对应等级为C级。
第3步:通过以上步骤,EBPQ的测量指标结果为C级+B级+B级+C级。区别效度获得C级等级,但是作为结构效度的一个子特性,通过四舍五入,与结构效度综合后获得等级结果为1个B级,如表2所示,EBPQ最终获得2个B级,通过PGF定量评价后,获得“适当”整体证据强度,说明该自我报告工具具有足够的信度和效度。
5 讨论
5.1 PGF的适用范围
PGF框架使用简单的分级矩阵,将测量特性结果与证据强度分级相结合,根据测量特性等级的高低和数量来定义工具的强度,旨在识别和客观性评价测量工具的有效性程度,以确定测量工具的易用性和潜在的可行性。以等级代替文字描述,定量的方法减少了评估者主观判断对结果产生的偏倚。就框架的适应性而言,每一测量工具证据强度或方法学质量都可用PGF进行评价,适合临床医学、护理学或其他卫生学科的实践中,也可以用来评估其他类型工具的证据强度,满足研究人员筛选符合研究目的的高有效性评估工具[25]的目的。此外,PGF还适用于横断面研究的相关设计,可以通过相关因子分析,探讨某些因素之间的相关关系。但PGF不适用于评价研究方法和评估工具的研发策略。
5.2 证据强度分级注意事项
PGF减少了对测量证据质量和结果的主观判断,对测量特性的数量和强度没有限制,只需同时包含两个维度的测量特性即可,使用时考虑的因素较少。因此,无论测量特性数量多少,只需依次为每一测量特性分配A级、B级、C级、D级等级,再将评测结果进行组合即可确定证据强度分级。此外,PGF还允许最终评测结果中仅包含强测量指标或弱测量指标的情况存在,此时仍能反映测量工具证据强度的整体分级。但是也存在测量工具仅包含信度或效度单一维度的指标的情况,若评测等级能达到“好”,此时却不能将该工具的等级评定为“好”,相反该工具的有效性等级可能会下降,除非研究人员继续获取其他维度证据进行补充后再次评定以确定最终等级。在评估过程中,还需注意,应当优先评估测量工具的内容效度,若内容效度不满足,则不作继续评估。
5.3 PGF的创新与局限
PGF系统全面地包含了各类工具可能存在的测量特性[26],且每一特性都由最常用的统计测量指标和指南推荐的阈值准则所构成,为评估测量工具的有效性提供了更广泛的统计检验测量方法。PGF旨在使用定量方法对研究证据进行测量,确定有效性证据强度等级,从而使研究决策人员更直观地了解测量工具的有效性。框架所包含的每一特性虽基于国际共识,但仍可采取更严格的方法对各项指标进行改进。如内容效度的测量欠规范[25],除了定量方法少有报道,不能对方法学质量进行评价之外,还存在评估结果受经验性与主观性的影响较大的问题,可使用德尔菲法获得心理测量学家和专家的集体共识与确认;或增加内容效度指数作为评估依据[27],直观地对内容效度进行检验,以提高评估内容的相关性、代表性、特异度[28]。再比如,评估重测信度时,2次评估的间隔时间应控制在合理范围,一般在2周左右,以减少回忆偏倚。再比如,进行内部一致性检验前应先明确量表的结构效度,以更好的测量方法学质量。
随着循证理念的普及和循证实践大环境的改变[29],研究与决策人员越来越倾向于使用真实、客观的临床证据做出科学合理的决策。在临床工作中,问卷、量表、调查清单等的使用越来越普遍,使得对这类测量工具的质量要求也越来越高,然而在面对不同的临床实践问题时,研究决策者尚且缺乏相关质量的评估工具以帮助判断并选择合适的工具用于临床实践。加之,面对种类繁多、功能复杂的测量工具,很难找到一个系统的模式对各种测量证据的质量和强度进行评估。现有的证据评估工具多为随机对照试验等干预性研究证据开发,并不适用于量表等测量工具的质量评估。因此,制定一个用于确定各种测量工具有效性的定量框架将非常受用。
PGF作为一个基于证据强度的测量工具分级框架,以等级作为结论将测量水平的结果整合成测量工具的整体评分,不仅定量确定了证据的强度和分级[30],还能测量研究特征与方法学质量,减少了对证据质量和建议强度的主观判断[31],解决了以往评定结果不统一、无法直接反映或比较评估结果的问题。目前,这一框架已被应用于护理学、心理学等领域的测量工具分级,但仍处于探索阶段,需进一步研究与实践。同时评估者在使用过程中可能面临研究报告规范化问题,许多研究的测量统计数据不完整导致框架信息不足,此时可能需要从开发人员那里获得更多关于测试统计数据的信息作为补充证据,才能最终确定该测量工具的等级。
6 小结
综上所述,针对临床测量工具缺乏统一评价工具的现状,PGF作为一个能对各类测量工具进行定量分级的系统框架,改进评价体系的同时,为研究决策人员提供了一种创新的思路和较为灵活易用的工具,将有潜力为未来的临床实践工作提供信息和证据。本研究选取一个自我报告式量表作为案例也显示了该框架具有较为可靠的信度、效度和实用价值。