COSMIN内容效度评价指南解读
——以移动健康信息搜索行为问卷为例
2020-04-16高云赵俊峰李豪张嘉琪徐丽丽蒋俊玲
高云 赵俊峰 李豪 张嘉琪 徐丽丽 蒋俊玲
(1广州医科大学护理学院,广东 广州 510515;2河南省中医院)
健康测量工具遴选标准(COSMIN)是通过对来自21个国家的158名专家进行专家咨询而达成共识的健康相关测量工具的遴选指南,指导评价者通过评价量表研究的方法学质量及测量指标的优劣性对量表进行评价,从而筛选出符合研究目的高质量的量表〔1〕。在COSMIN指南中,内容效度被认为是最重要的测量特征〔2〕。只有内容效度充分并且内部一致性证据等级不低于“低”的量表才可以被推荐〔3〕。因此,考量量表的内容效度是评价量表的重要环节。在网络信息迅速发展的今天,越来越多的人可以通过网络、手机APP、社交媒体搜索与健康有关的信息,进行自我健康管理〔4〕。在获取健康信息的过程中,网络用户需要对信息进行浏览、查找、选择和评价等一系列行为活动,这些行为活动称为健康信息搜索行为〔5〕。它是电子健康素养的重要组成部分,能反映使用者能否正确获取网络健康信息〔4〕。因此,评估使用者的健康信息搜索行为,是构建网络健康资源,开展电子健康素养教育,指导用户正确、合理获取、使用网络健康信息的重要保障。选择合适的评估工具是评估健康信息搜索行为的前提。胡文奕〔5〕于2018年研发了移动健康信息搜索行为问卷,用于评估癌症患者的健康信息搜索行为。而该研究的方法学质量和内容效度指标如何,该量表适用于哪些人群目前尚无定论。本文采用COSMIN内容效度评价手册对健康信息搜索行为问卷进行内容效度的评价。
1 资料和方法
1.1评价方法 采用2018版的COSMIN内容评价手册〔2〕对健康信息搜索行为问卷进行评价。
1.1.1COSMIN量表研发的研究质量评价标准〔2〕包括两部分共35个条目。条目1~13为“量表设计质量评价标准(条目的产生)”,描述了量表总的设计要求和概念引出(即条目相关性和全面性)的评价标准;条目14~35为“认知访谈研究质量评价标准或测试新量表理解性和全面性的其他预试验(如调查)的评价标准”,描述了总的设计要求和条目理解性、全面性的评价指标。评价结果分为非常好、充分、不确定、不充分4个等级。
1.1.2COSMIN量表内容效度研究的质量评价标准〔2〕包括5部分共31个条目,评价研究方法学质量。第1部分至第2部分为询问病人条目相关性(条目1~7)、全面性(条目8~14)和理解性(条目15~21)的研究质量评价标准;第4、第5部分为询问专家条目相关性(条目22~26)及全面性(条目27~31)的研究质量评价标准。每一部分分别从研究设计(如采用质性研究还是量性研究、样本量、访谈者是否有经验、访谈话题或提纲是否恰当、访谈是否录音和转录)及数据分析过程(如分析数据的方法是否恰当、是否有至少2名研究员参与分析)两方面进行评价。评价结果分为非常好、充分、不确定、不充分4个等级。
1.1.3COSMIN量表研发及内容效度标准〔2〕分为量表研发标准及内容效度标准,每个标准各8条。其中内容效度标准中有5条需评价者完成。其中,标准1~5为量表条目与待测结构“相关性”的标准,标准6为“全面性”标准,标准7~8为量表条目“理解性”的标准。
1.1.4COSMIN量表内容效度评定指引〔2〕COSMIN给出了针对“优秀量表研发及内容效度标准”的方法指引,见表1、表2。指引描述了如何使用“优秀量表研发及内容效度标准”将每个研究中量表从相关性、理解性及全面性三方面进行评价,结果分为+(充分)、-(不充分)、?(不确定)、±(不一致)。
1.1.5修订版GRADE方法〔6〕该方法根据研究的偏倚风险、量表研发或内容效度评定结果的不一致、间接性(量表使用的群体是否与研发时的群体一致)对内容效度的评定结果进行证据等级的评定。首先考虑是否需要根据研究的偏倚风险对证据等级进行降级。根据基于偏倚风险的质量等级分级流程图〔2〕,当至少有一项内容效度研究,且研究质量为非常好或充分时,证据等级为高级;若至少有一项内容效度研究,且研究质量为不确定,则证据等级为中级(降1级);若仅有研究质量为不充分的效度研究或无效度研究,但量表研发质量评为非常好或充分,证据等级亦为中级(降1级);若仅有研究质量为不充分的效度研究或无效度研究,且量表研发质量评为不确定,则证据等级为低级(降2级);若仅有研究质量为不充分的效度研究或无效度研究,且量表研发质量评为不充分,则证据等级为非常低(降3级)。其次考虑量表研究及内容效度的评定结果是否一致考虑降级,最后考虑量表研究与使用人群是否一致,若不一致则考虑降级。
表1 量表内容效度评定指引〔2〕
该表中的评价标准指“COSMIN优秀量表研发及内容效度标准”
表2 内容效度总评指引〔2〕
1.2评价步骤〔2〕分三步。第一步,评价量表研发过程的方法学质量。根据“量表研发的研究质量评价标准”,见表3,将量表研发研究的方法学质量评为非常好、充分、不确定或不充分。方法学质量评价中总评结果根据“最低分原则”,将条目的最低分作为最终的总评价结果〔7〕。第二步,评价量表内容效度的方法学质量。根据“内容效度研究的质量评价标准”,见表4,评价量表的内容效度研究的方法学质量。第三步,评价量表的内容效度优劣。首先,对照COSMIN“优秀量表研发及内容效度标准”,见表5,对量表研发及内容效度的相关性、理解性及全面性逐条进行评定,每个条目分为+(充分)、-(不充分)、?(不确定)、±(不一致),然后根据表1对量表研发或内容效度的评定结果按照相关性、理解性、全面性进行综合,形成相关性评分、理解性评分及全面性评分;接着根据表2将相关性评分、理解性评分及全面性评分进行汇总,形成总的内容效度评分;最后,根据Grade 标准〔6〕对内容效度评价结果给出证据等级。由2名评价者根据COSMIN的数据提取表分别对测量特征逐一提取,并分别进行评价,结果不一致时请第3名评价者进行讨论。
1.3数据提取 根据COSMIN提供的“质量评分表”(包括“量表研发质量评分表”及“内容效度质量评分表”)由2名评价员分别独立对数据进行提取及核对。
2 结 果
2.1量表研发研究及内容效度研究的方法学质量评价结果 表3显示,量表设计质量评分为“不确定”;量表理解性及全面性评分均为“不确定”,因此,量表研发研究的方法学质量评为“不确定”。 由于量表的内容效度研究仅涉及了专家效度,因此,根据专家效度评价指标进行评价。表4 显示,专家对量表条目的相关性及全面性评分均为“不确定”。
表3 移动信息搜索行为问卷研发研究质量评价
2.2量表研发及内容效度指标评价结果及证据等级 表5列出了量表研发研究及内容效度研究的每条评价标准的评价结果,表6为内容效度总的评价结果及证据等级。由于量表内容效度研究的方法学质量评为不确定,内容效度中相关性方面的评价结果未不一致,按照GRADE标准〔6〕,对证据等级降2级,因此量表内容效度的评定结果的证据等级为低。
表4 量表内容效度研究质量评价
表5 COSMIN量表研发及内容效度标准
表6 内容效度评价总结果及评价结果的证据等级
3 讨 论
3.1量表研发的方法学质量评价 本研究显示,根据COSMIN指南中量表研究总设计要求,待测的量表结构要清晰。COSMIN指南指出,对量表内容效度威胁最大的一个因素是量表的结构与待测的目的或概念不匹配〔2〕。因此,要清楚描述量表的结构,让读者判断量表的结构是否与测量目的相关。例如,对于疼痛评估量表,要清楚描述评估疼痛的哪些方面,如疼痛的严重程度、频率及疼痛的困扰。这些结构与评估疼痛的目的是密切相关的。本研究中“移动信息搜索行为问卷”满足了上述要求。该问卷清楚描述了移动信息搜索行为包括信息搜索频率、搜索意愿、搜索自我效能、信息评价四个维度〔4〕,可以看出这4个维度与“移动信息搜索行为”是密切相关的。此外,量表的结构起源要求基于理论模型、概念框架或疾病模型等;要求量表的使用情境及目的人群均要清晰描述。本研究中“移动信息搜索行为问卷”的结构是基于“威尔逊信息行为模型”〔4〕。使用情境是指该量表是用于诊断、评价还是区分;也可以指某个具体的环境,如社区、医院等〔2〕。本研究中,作者描述了问卷是用于评价“移动信息搜索行为”,使用环境包括肿瘤医院、院外患教会(患者健康教育组织)及网络,目标人群为“癌症患者”〔4〕。因此,量表研发总设计要求评为“非常好”。在概念引出方面,本研究中移动信息搜索行为问卷确定条目时采用“半结构访谈”,并对访谈进行录音和转录,采用“内容分析法”进行数据分析,并采用预调查对问卷进行修订,符合COSMIN指南的标准。但在访谈实施和数据分析细节仍有欠缺,如未阐述访谈人员是否有经验。对于质性研究,访谈人员的知识、背景对数据收集乃至数据分析影响很大〔8〕。如长期从事家庭暴力的质性研究人员,对质性研究经验丰富,在数据收集方面优势丰富,并且很容易理解家暴受害者的经历,但另一方面,也会对数据分析产生一定的偏倚,如将家暴受害者的“叹气”理解为绝望。因此清晰交代访谈人员的资历及背景有利于读者了解研究者本身对研究产生的偏倚。此外,在研究中应列出访谈提纲,让读者了解访谈内容是否与研究问题相关。在数据分析阶段,应由两名研究员分别进行独立编码,以减少数据分析的偏倚〔9~11〕。在数据是否饱和的问题上,本研究的样本仅提到数据饱和,但未给出数据饱和的证据。COSMIN指南推荐给出编码表〔2〕,列出每个访谈的主题,通过编码表一方面可体现无新主题出现的数据饱和的证据,还可以显示质性研究的整个“反复分析、对比”的过程。
在量表设计质量方面,COSMIN推荐应询问量表使用人群是否能正确理解量表的条目、指令及选项,该过程成为认知访谈。本研究中“移动信息搜索行为问卷”进行了癌症病人的认知访谈,但未充分描述访谈的过程及数据分析的细节,因此研究质量评为“不确定”,根据COSMIN的“最低分”原则〔2〕,量表研发方法学总体质量评为“不确定”。在今后的研究中,应在研究设计及论文中对以上问题加以考虑及阐述。
3.2内容效度的方法学质量评价 量表研发完成后,要进行内容效度的测量。COSMIN指南中,内容效度可以通过问被试对象量表条目的相关性、理解性、全面性及问专家量表条目的相关性、全面性的两种方法实现〔2〕。COSMIN指南推荐至少采用一种方法进行内容效度的评定。本研究中的“移动信息搜索行为问卷”采用的专家效度评判方法。本研究样本采用了Delphi法对专家进行调查,而未采用质性研究方法,专家数量不足30名,专家的选取仅选取了护理专家,未阐述是否由2名研究者共同分析数据等问题,内容效度的方法学只联系评为“不确定”。在今后的研究中,应借鉴COSMIN方法学质量标准对研究进行完善设计,论文撰写中也应体现以上细节,提高量表设计的方法学质量。
3.3量表研究和内容效度指标的质量 根据COSMIN指南,一个优秀的量表,应全面涵盖待测的概念,无关键内容的缺失〔2〕。本研究显示,“移动信息搜索行为问卷”在研发过程中仅体现了被试对象对条目的理解性和相关性,对条目是否能反映待测概念的“全面性”证据不足。因此,将“全面性”评为不确定。而内容效度研究中,专家对相关维度及条目予以补充,根据COSMIN指南,可以视为反映量表条目“全面性”的证据,因此,内容效度评为充分;此外,该量表未设置“回忆时间”,在质性研究中未体现对量表指令及应答选项的理解。在今后的研究中,除了对量表条目的理解性描述外,还要注意对量表指令与应答选项的理解,设置“回忆时间”;在质性研究中体现量表内容全面性描述。
3.4内容效度评价结果的合成及质量证据等级 虽然“移动信息搜索行为问卷”研发研究的相关性评为充分,但由于其未在受试对象中进行内容效度的研究,并且未设置回忆时间,因此,内容效度的“相关性”最终结果评为不一致;全面性方面,虽然研发研究中为体现全面性的充足证据,但内容效度研究中给出了充分体现“全面性”的证据,结合评价小组意见,量表全面性的最终评价结果为充分;理解性方面,量表研发研究及内容效度研究均评为充分,因此,量表理解性的最终结果评为充分。本研究显示,“移动信息搜索行为问卷”的证据等级为低。原因主要包括:①内容效度研究的方法学质量使证据等级降级。根据COSMIN指南〔6〕,内容效度方法学质量为非常好或充分时,证据等级为高,而有一项方法学质量为“不确定”的内容效度研究,证据等级应降一级〔6〕;②内容效度结果的不一致,“移动信息搜索行为问卷”仅在量表研发研究中进行了被试对象的“认知访谈”,而未在内容效度阶段问被试对象关于量表相关性的问题,因此内容效度评为不一致。因此,证据质量从高级降为低级〔6〕。在今后的研究中应注重对被试对象访谈的内容效度研究方法,访谈提纲应充分体现被试对象对量表条目、指令及选项相关性、理解性和全面性的评估。设计问卷时,应注意设置回忆时间;参照COSMIN指南,提高问卷研发及设计研究的质量。
综上所述,“移动信息搜索行为问卷”内容效度的相关性为不一致,理解性和全面性为充分,证据等级低,该结论适用于癌症患者。COSMIN从量表内容的相关性、理解性、全面性评价量表研发及内容效度。量表的结构应基于理论模型,采用质性研究引出条目,在目标人群中进行认知访谈,明确目标人群对量表指令、条目、选项及回忆时间的理解性、全面性和相关性;推荐分别在目标人群及专家中采用质性研究的方法测试内容效度。