糖尿病特异性生存质量量表与EQ-5D效用量表的映射研究*
2022-10-12吴瑶瑶程璐瑶郭海健徐金水
吴瑶瑶 程璐瑶 郭海健 徐金水 闵 捷△
【提 要】 目的 构建糖尿病特异性生活质量量表(DSQL)到欧洲五维健康效用量表(EQ-5D)映射模型,将DSQL得分转换为健康效用值。方法 从江苏省糖尿病并发症监测点上按糖尿病4种并发症进行抽样调查,418例患者作为训练集,75例糖尿病患者作为验证集。使用普通最小二乘法(OLS)、Tobit回归法和截尾最小绝对偏差法(CLAD)建立模型,调整R2、平均绝对误差(MAE)和均方误差(MSE)评价每个模型,用训练集进行内部十折交叉验证,用验证集进行外部验证。结果 训练集平均年龄为62.07岁,糖尿病特异性生存质量量表的平均得分为49.15分,EQ-5D效用值平均为0.9435。三种回归方法中,CLAD法的预测效果最好,该模型由生理功能、心理精神、社会关系和治疗影响以及生理功能和心理精神的交互作用组成。结论 当有DSQL得分而无EQ-5D结果时,可以运用本文的映射模型获得效用值,用于卫生经济学评价和临床研究。
糖尿病是由遗传因素和环境因素共同作用导致的,已成为危害人民健康、影响生活质量和加重生活负担的慢性非传染病之一[1]。成本-效用分析是慢性非传染性疾病卫生经济学评价常用方法,该方法既考虑了生存时间又考虑了生存质量。糖尿病特异性生存质量量表(diabetes specific quality of life scale,DSQL)是一种非基于健康偏好的量表,能够全面评价糖尿病患者的生存质量和疾病负担[2],但该量表无法直接获得反映生存质量的健康效用值。而基于偏好的欧洲五维健康效用量表(EuroQol five-dimensional questionnaire,EQ-5D)因其结构简单,容易理解和操作而得到广泛应用。多个国家已结合本国实际,研究出适合本国人群的效用值积分换算体系[3-4],但该量表是普适性的,与疾病的关联性较低。
映射法本质是回归分析,描述两个量表的数量关系。近年来,国内外研究者建立了多种疾病特异性专属量表向EQ-5D转化的映射模型[5-10],但未见有糖尿病特异性生存质量量表的映射研究。
因此,本文利用江苏省糖尿病并发症筛查的部分患者生存质量调查信息,制定一种映射算法,帮助实现糖尿病特异性量表积分生成EQ-5D健康效用指数,以便临床工作者和经济学家在有DSQL而无EQ-5D时仍然能够获得患者的健康状态和疾病负担,为进一步制定有利于患者的政策提供依据。
资料与方法
1.研究对象
本次研究分别从江苏省苏南、苏北地区糖尿病并发症监测点上按病种(无并发症、糖尿病视网膜病变、糖尿病肾病、糖尿病周围神经病变以及糖尿病足)抽取患者,排除因各种原因不能理解量表内容或者交流有问题的研究对象,共抽取9个监测点519例患者,将前7个点444例患者作为训练集,用来建立映射模型;最后调查的2个监测点75例患者作为验证集。所有研究对象知情同意并签署知情同意书。为了保证问卷质量,由接受统一培训的调查员对所有研究对象进行一对一的面对面访谈,完成问卷内容。
2.研究内容
调查问卷由三部分组成,分别为人口学特征、糖尿病特异性生活质量量表和EQ-5D量表。糖尿病特异性生活质量量表由四个维度组成,分别是生理功能、心理精神、社会关系和治疗对患者的影响,共有27个条目,每个条目的分值是1~5分,其中生理功能12~60分,心理精神8~40分,社会关系4~20分,治疗3~15分。总分值是27~135分,27分代表最好的健康状态,135分代表最差的健康状态。
EQ-5D有两种形式,分别是EQ-5D-5L和EQ-5D-3L[11]。本研究使用的EQ-5D-3L由五个问题和VAS得分组成,五个问题分别是活动能力、自我护理、日常活动、疼痛/不适和焦虑/抑郁。每个问题的答案有三个选项,1代表没有问题,2代表轻微问题,3代表严重问题,共包含243种健康状态,不同健康状态对应不同的健康效用值[12]。VAS得分在0~100分之间,100分代表研究对象认为目前的身体状态是想象的最好状态。
3.数据分析
效用值的计算方法:根据2018年基于中国人口的效用值积分换算体系将EQ-5D的内容换算成健康效用值,表达式为:U=1-(0.0766×M2+0.2668×M3+ 0.0441×S2+0.2912×S3+0.0370×U2+0.0538×U3+0.0274×P2+0.0409×P3+0.0359×A2+0.1771×A3),变量M、S、U、P、A分别代表量表中的5个问题。下标i=2,3分别代表第二个选项,第三个选项。最好的健康状态是11111,其健康效用值为1。
模型的选择:本次研究选择3个常用的计量经济学模型,即普通最小二乘法(OLS)模型、Tobit模型和截尾最小绝对偏差模型(CLAD)。
OLS模型[13]是计量经济学中常用的一般线性回归方法,其表达式为:
Yi=Xiβ+εi,εi~(0,σ2)
由于OLS模型预测值可能大于1,而健康效用值的测量存在上限为1的情况,即所谓“天花板效应”,因此提出了Tobit模型,该模型[14]适用于一些存在“天花板效应”的数据,当误差项满足正态性和方差齐性时,模型的拟合效果更好。模型表达式为:
CLAD模型是解决天花板效应的另一种方法,该方法是基于中位数回归,原理是最小化绝对偏差的和,解决了Tobit模型要求误差满足正态性和方差齐性的局限性[13]。
本文在模型拟合过程中考虑不同的自变量内容,建立以下6个模型:
模型1:仅含DSQL总分
模型2:仅含DSQL各维度得分
模型3:DSQL各维度得分和模型2中有统计学意义变量的交互项
模型4:DSQL总分和社会人口学特征变量
模型5:DSQL各维度得分和社会人口学特征变量
模型6:DSQL各维度得分、模型2中有统计学意义变量的交互项和社会人口学特征变量
用三种回归方法分别建立这6个模型,模型的评价指标为调整R2、均方误差(MSE)和平均绝对误差(MAE)。为了实现模型之间的比较,采用OLS模型、Tobit模型和CLAD模型预测值与实际值的相关系数r计算R2[15]。模型初步比较后,选择较优模型进行十折交叉验证(10-fold cross-validation)和外部验证,进一步确定最优模型和验证模型的稳定性。
本研究采用EpiData 3.1软件进行数据双录入,运用Stata 16.0处理数据和构建模型,R 6.4进行十折交叉验证。
结 果
1.一般人口学特征
本研究共收集519份调查问卷,,去除问卷内容填写不完整的26份,最终纳入分析的为训练集418份和验证集75份。训练集中418名参与者的平均年龄为62.07(9.39)岁,以50~70岁人群为主;女性、农村地区、已婚人群、低学历者比例较高。验证集的平均年龄为66.02(10.30)岁,以城市地区人群为主。由两个数据集的一般人口学特征比较可知,年龄、地区和教育水平差异有统计学意义,训练集和验证集的人口学特征不完全一致(表1)。
表1 一般人口学特征
2.效用值
训练集中418名参与者的效用值平均为0.9435(0.11),有180例(43.06%)达到最大的效用值1,糖尿病特异性生存质量量表的平均得分为49.15分,生理功能维度、心理精神维度、社会关系维度和治疗影响维度的平均得分分别为23.10(7.57)、15.35(4.05)、5.92(1.79)和4.78(1.69)。由图1、图2可知,EQ-5D-3L效用值分布呈现左偏态,DSQL量表总分呈现右偏态。
图1 EQ-5D-3L效用值分布
图2 糖尿病生存质量量表得分分布
3.模型的构建
表2为DSQL映射到EQ-5D的三种回归方法的回归系数。应用三种回归方法共拟合18种模型,模型均有统计学意义(P<0.05)。生理功能维度在10个模型中均有统计学意义,心理精神维度在OLS回归模型2、3、5和6有统计学意义,生理功能和心理精神的交互作用除在Tobit法模型中无统计学意义外,其他包含该交互项的模型均有统计学意义,可以认为生理功能和心理精神对效用值的大小有影响。模型4、5、6添加了性别和年龄人口学特征变量,性别在Tobit回归的三个模型中均有统计学意义且回归系数为负,表明男性的效用值高于女性;年龄仅在Tobit模型4和CLAD模型5中有统计学意义。
表2 OLS、Tobit和CLAD三种回归方法各种组合模型的回归系数
4.模型评价指标比较
表3列出了三种回归方法18种模型评价指标结果,总的来看模型3和模型6有较大的调整R2与较小的MSE和MAE。而模型3与模型6又以CLAD法最为理想,有最大的调整R2,MAE和MSE也比较小,因此考虑模型3和模型6的拟合效果较好。为了进一步探讨模型的稳定性,对三种回归方法的模型3和模型6做十折交叉验证。即每次将样本分成10份,9份为训练集,一份为测试集,通过对测试集进行预测计算MAE和MSE,结果CLAD法模型3的MAE为0.0379,MSE为0.0069,模型6的MAE为0.0394,MSE为0.0070(表4)。交叉验证的结果也表明CLAD法的效果较好,包含生理功能、心理精神、社会关系和治疗影响以及生理功能和心理精神的交互作用模型3的拟合效果最好,以较小的MAE(0.0383)和MSE(0.0063)解释了42.96%的变化。
表3 训练集各个模型评价指标比较
表4 交叉验证结果比较
5.外部验证
选择三种回归方法(OLS、Tobit、CLAD)的模型3和模型6进行外部验证的结果见表5。三种回归方法中,CLAD法的MAE和MSE最小且在模型3和模型6中(0.0345 vs 0.0336;0.0038 vs 0.0330)差异均无统计学意义(P=0.8996,P=0.9723);综合外部验证6个模型结果,CLAD模型3、6在预测值的均数、标准差、MAE、MAE都显示较低的偏差。
表5 6个模型外部验证结果
讨 论
本文选择了映射研究常用的三种方法,即OLS、Tobit和CLAD方法,以调整R2与反应总体预测能力的MSE和反映个体预测能力的MAE相结合确定最优模型。结果显示,CLAD法模型3的调整R2仅次于模型6,但模型3的结构更简单。交叉验证与外部验证表明,CLAD法的模型3具有良好的稳定性,说明包含生理功能、心理精神、社会关系和治疗影响以及生理功能和心理精神的交互作用变量的模型3可认为是最佳模型。一份系统评价报告显示,从特定调查表到一般卫生效用测量映射的R2通常在0.4到0.6之间[16],本研究CLAD模型3的调整R2为0.4296,也在这一范围内。虽然R2没有很高,但与其他模型相比,也得出CLAD法的映射效果最好[17]。有研究表明,OLS模型优于Tobit以及CLAD模型[18],但本研究并没有得出这样的结论,可能是由于本研究的天花板效应较高,数据不满足方差齐性,因此得出了CLAD法的模型拟合效果较好的结果。
本文在模型4~模型6中包含人口学特征变量时也曾考虑引入地区、教育水平与婚姻状况,但发现对模型总变异的影响较小,因此最终只考虑了性别与年龄两个基本变量。这与Siani的研究选取的变量一致,因为性别和年龄是临床上重要的预测因子[19]。年龄变量在所有回归模型中,仅有两个模型表明年龄变量在模型中有统计学意义,Abdin的研究中有一部分模型也探索出年龄与效用值的关系[8]。两个较优模型相比,性别和年龄变量会使调整R2增大0.0061,表明该变量对改善模型预测效果的作用不大,这也是选择模型3的另一点考虑。
有研究表明,基于EQ-5D量表的映射会出现天花板效应[20],有的会达到25%。本研究达43%,天花板效应较强。偏高的主要原因是研究对象主要来源于社区人群,社区人群中大多数没有并发症或者并发症处于稳定状态,生活质量较好。相反,针对住院病人的研究,其天花板效应会相对减弱[10]。不同比例“天花板效应”的映射模型可能会有所不同,这也是将来要进行探索的。
本研究的局限性主要是训练集的样本量不够大,所得到的健康状态相对较少,构建的模型虽已进行外部验证,但是用于外部验证的样本量有限,模型的可推广性有待进一步验证。本研究CLAD法构建的包含生理功能、心理精神、社会关系、治疗影响以及生理功能和心理精神的交互作用的模型为较优模型。该模型提供了糖尿病特异性量表转化为EQ-5D效用量表的健康效用值,为临床医生和研究人员研究糖尿病相关疾病负担和成本效益分析提供了依据。