中文版EQ-5D-3L量表应用于慢性病人群测量特性的Rasch模型分析*
2018-11-05姚金江徐勇勇虢玲霞杨丽平赵倩否谭志军
姚金江 梁 英 徐勇勇 虢玲霞 杨丽平 潘 静 赵倩否 谭志军△
【提 要】 目的 应用Rasch项目反应理论评价中文版EQ-5D-3L量表在慢性病人群中的适用性。方法 应用基于Rasch模型的RUMM2030软件,从总体拟合效果、内部一致性、标的性和单维性等方面,对量表在非慢性病和常见慢性病人群中的测量效果进行评价。结果 除贫血组外,其他人群的项目残差和个体残差的均值都小于0,说明模型属于过度拟合;15个人群中有2个拟合效能水平为“好”,11个为“可接受”,2个为“低”,说明量表内部一致性在中等水平;个体位置均数均为正且偏度系数均为负,表明各人群都出现了程度不一的天花板效应;主成分分析的残差中约40%的信息来自HRQoL之外的其他潜在特质。结论 中文版EQ-5D-3L量表在慢性病人群中的测量效果好于非慢性病人群。本研究的结果验证了EQ-5D-3L量表存在的两个不足;一是量表的单向性不足;二是项目的敏感度不够,尤其对健康状况较好者不够敏感。
欧洲五维健康量表(EQ-5D)因其简单易用、可信度高等特点在国内外得到了广泛应用[1],包括我国的国家卫生服务调查[2-3]。EQ-5D量表在开发过程中经过了经典测量学理论(信度和效度)评估[4-7]。然而,经典测验理论受样本数据特征影响较大,且没有在项目以及项目选项水平的应答模式进行评价,因此,在项目及项目选项水平进行测量学特性分析,将是对EQ-5D量表评价的重要补充。
Rasch模型是瑞典数学家Georg Rasch于1960年提出的一个潜在特质模型,属于项目反应理论中的单参数模型。Pickard[8]等人应用Rasch评价了EQ-5D-3L和EQ-5D-5L的等同性。David[9]等人评价了EQ-5D在中风病人中的地域DIF和自己回答与他人回答之间的DIF。Gu[10]等人比较全面地评估了EQ-5D与Rasch的模型拟合状况,发现抑郁/沮丧维度拟合效果较差。目前,还没有中文版EQ-5D量表Rasch分析的研究报道。在健康评价方面,刘娜等应用Rasch模型评价了妊娠早期疾病易感性潜在特质特质[11]。
本研究采用Rasch模型对EQ-5D-3L中文版在健康人群和各类常见慢性病人群中的使用效果进行测量学特性评价,为中文版EQ-5D-3L在慢性病人群中的进一步应用提供依据。
资料与方法
1.数据来源
数据来自陕西省第五次国家卫生服务调查《家庭成员个人情况调查表》,纳入分析的变量内容包括城乡标识、性别、慢性病分类标识以及EQ-5D量表的调查结果。
2.方法
(1)Rasch模型
假设Rasch模型中的潜在特质为EQ-5D测量的健康相关生命质量(health related quality of life,HRQoL),则模型可表达为:
上式中,Xni为第n个调查对象对第i个维度的回答(i=1,…,5),x表示第x个选项(x=1,…,3),βn为第n个调查对象的HRQoL,δix为第i个维度第x个选项对HRQoL所造成的损失,Pr{Xni=x|βn,δix}为第n个应答者的HRQoL为βn且在第i个维度选择第x个选项的概率。
(2)测量学属性评价主要指标及意义
测量学属性评价采用Rasch分析工具RUMM2030软件进行[12],该软件分析结果中的主要指标及其意义解释如下:
总体拟合效果 理想情况下,项目和个体拟合残差的均数为0,标准差为1。标准差为1.5是可接受的良好拟合标准[13],本研究将残差统计量作为总体拟合效果的优先评价指标。
内部一致性 个体离散指数(person separation index,PSI)是基于潜变量值计算的量表内部一致性指标,衡量量表区分不同潜在特质水平的观察对象的能力。当PSI很小(接近于0)时,所有人HRQoL的位置趋近于相同,量表无法区分出HRQoL的高低,表明拟合的效能就低。RUMM 2030中,模型拟合效能由低到高分为五级,分别是太低、低、可接受、好和优。RUMM 2030将PSI和克朗巴赫指数一起使用。一般认为,克朗巴赫系数小于0.6表示内部一致性信度不足,大于0.7表示有相当信度。一般地,PSI小于克朗巴赫系数。
标的性(targeting) 在实际应用中,量表的标的性衡量量表是否适用于被测人群的绝大多数个体。标的性良好表明量表不是太容易也不是太难。RUMM 2030产生的个体位置(location)估计值的均数为0且所有个体位置估计值分布在0的两边,则表明标的性较好。如果均值为负数,暗示了测量的地板效应,反之,暗示了天花板效应。
单维性(unidimensionality) RUMM 2030提供的残差主成分分析可进行单维性检测。有模拟研究结果表明,特征值小于1.4的主成分方差比例越高越能证明单维特征,因此建议将特征值界值设为1.4,即小于1.4的方差属于无结构的随机噪音,大于1.4则表示测量的可能是其他潜变量[13]。
(3)人群及慢性病分类
本研究根据第五次国家卫生服务调查的《疾病代码表》,将人群划分为全体人群、非慢性病人群、13类慢性病人群(传染病、肿瘤、糖尿病、贫血、精神类疾病、心脏病、高血压病、脑血管病、呼吸系统疾病、消化系统疾病、泌尿生殖系统疾病、肌肉运动系统疾病)。
结 果
1.总体拟合效果
EQ-5D量表整体的模型拟合效果见表1。残差均数显示,除贫血组外,其他人群的项目残差和个体残差的均值都小于0,说明模型属于过度拟合。不同人群的项目残差变异较大,范围在-0.04和-6.07之间;不同人群个体残差均数的变异相对较小,范围在-0.3和-0.5之间。残差的标准差显示,项目的标准差绝大多数超过了1.5,而个体的标准差在1左右。以上两点表明,个体的拟合效果比项目的拟合效果好,可能与个体人数较多而EQ-5D量表的项目数量以及项目内选项的数量较少有关。
表1 总体拟合效果
2.个体离散指数
表2显示,15个人群中有2个拟合效能水平为“好”,11个为“可接受”,2个为“低”,表明量表在各类人群中的区分能力不差,但也不是很好。从克朗巴赫系数看,绝大多数人群在0.6以上。综合来看,量表内部一致性在中等水平。
3.标的性
项目和个体位置的汇总情况见表3。各人群的项目位置均数都为0,偏度系数有正有负;个体位置均数都为正且偏度系数都为负,表明每个人群都出现了程度不一的天花板效应。以偏度系数最大的未报告慢性病人群和偏度系数最小的精神类疾病人群为例,列出了个体和项目的位置(也就是logit值)频数分布图,见图1和图2。由图可见,未报告慢性病人群的天花板效应比精神类疾病人群更明显。
表2 个体离散指数
表3 locations的均值
4.残差主成分分析
残差主成分分析的结果见表4。所有人群的第一主成分特征值均大于1.4,且只有第一特征值大于1.4。小于1.4的特征值方差百分比在50%和70%之间,残差中约60%的信息是属于无法解释的随机噪音,尚有约40%的信息测量的是HRQoL之外的其他潜在特质。
图1 未报告慢性病人群个体-项目logit估计值的频数分布图
图2 精神类疾病人群个体-项目logit估计值的频数分布图
人群第一主成分特征值<1.4的特征值数量方差百分比全人群2.00459.91非慢性病人群1.94461.20传染病2.13457.44肿瘤1.65466.03糖尿病2.00460.05贫血2.18456.45精神类疾病2.20456.03心脏病2.03459.07高血压病2.10457.98脑血管病2.36452.81呼吸系统疾病1.91461.87消化系统疾病2.20459.60泌尿生殖系统疾病2.68453.50肌肉运动系统疾病1.98460.45其他慢性病2.11457.87
讨 论
以上测量学评价指标的分析结果表明,总体上中文版EQ-5D-3L量表的测量数据基本拟合了模型,但拟合效果并不十分理想。整体上,量表项目和个体均属于过度拟合(over-fit),其中项目过度拟合最为严重的是全体人群和非慢性病人群。从个体区分能力来看,对肿瘤和脑血管病两类人群的个体区分能力最好,而对全人群和非慢性病人群中的个体区分能力较弱;从天花板和地板效应来看,测量结果有较大的天花板效应,量表整体不能很好地区分健康状况较好的人群。残差主成分分析显示,在各类人群中,测量结果残差约有40%的信息并非随机噪音,即残差中约有40%的信息测量了其他潜在特质,表明量表的单维性不够好。
综上,基本可以认为中文版EQ-5D-3L量表在慢性病人群中的测量效果好于非慢性病人群。本研究的结果验证了EQ-5D-3L量表存在的两个不足:一是项目较少,未能全面覆盖一般健康状态的全部内容,同时量表的单向性不足。二是项目的敏感度不够,尤其对健康状况较好者不够敏感。建议国内研究者尝试采用EQ-5D-5L,该版本各项目的选项由三分类增加为五分类,具备更好的区分能力和敏感性。此外,鉴于非慢性病人群和慢性病人群之间存在量表应答特征差异,建议将非慢性病人群与慢性病人群分开分析。