双重差分模型在医学研究中的应用*
2015-01-27沈敏学孙振球
沈敏学 胡 明△ 曾 娜,2 孙振球
·方法介绍·
双重差分模型在医学研究中的应用*
沈敏学1胡 明1△曾 娜1,2孙振球1
双重差分模型(difference-in-differences,DD)由Ashenfelter和Card于1985年对一项干预研究进行评价时提出[1],其后该模型在计量经济学领域得到广泛应用[2-4]。DD模型提出的背景是:一项公共政策的实施无法保障干预组与对照组的随机化,反应变量在基线水平上未必可比,因此如果只通过自身前后对照或两组在横断面上的对比,难以得到政策实施效果的无偏估计。此外,大规模的人群调查难以对个体进行随访,因此二次抽样也限制了统计学方法的选择。DD模型适用于医学研究,尤其是公共卫生研究[5-10]。本文在介绍DD模型基本原理和形式推广的基础上,将其与重复测量的方差分析和混合模型进行比较,并以实例说明几种模型的适用条件与区别。
基本原理
DD的核心是模型构造双重差分估计量(DD estimator)。设分组变量Gi∈{0,1} ,时间变量Ti∈{0,1} ,DD的基本模型可表示如下式:
Yi=β0+β1Gi+β2Ti+β3(Gi·Ti)+ei
其中,分组和时间均为哑变量,Gi·Ti是二者的交互项,ei为残差。
值得注意的是,分组变量并不等同干预,因为在基线水平(即Ti=0时),两组均未接受干预。当Gi=1且Ti=1,即哑变量Gi·Ti=1时才指代干预。不难得出,干预组和对照组在干预实施前后应变量的数学期望(均数)分别如下:
E[Y|G=1,T=0]=β0+β1
E[Y|G=1,T=1]=β0+β1+β2+β3
E[Y|G=0,T=0]=β0
E[Y|G=0,T=1]=β0+β2
一般线性模型须满足Gauss-Markov假设,即残差的均数为零且独立于解释变量,因而无残差项。
双重差分估计量是横向和纵向比较的结合,即干预组前后差异与对照组前后差异之差,实际上是时间和分组交互项的偏回归系数β3。在资料满足线性回归条件的基础上,采用最小二乘法(OLS)即可得到β3的无偏估计[11]。
应用DD模型评估干预效果时,除应符合线性回归的前提外,还应满足3个假设:干预措施对对照组不产生影响;干预之外的因素对干预组和对照组影响相同;干预组和对照组中观察单位的某些特征分布稳定,不随时间变化[12]。
形式推广
1.DDD模型
自然实验中,对照组的选取可能影响效应估计的稳健性。此处以Gruber给出的例子来说明[13]:某地政府强制要求企业雇主为其20~40岁的已婚女性员工购买覆盖生育费用的医疗保险,分析政策对该年龄段已婚女性的工资是否有影响。Gruber选取了3组对照:本地20~40岁未婚男性及40岁以上男性;非政策实施地20~40岁的已婚女性;非政策实施地20~40岁未婚男性及40岁以上男性。该例中,如果仅以非政策实施地的人群为对照,则可能因各地经济发展状况不同而对工资造成不等量的影响,对政策效应的估计是有偏的;如果仅以本地男性为对照,则可能存在其他宏观因素(如国家层面的政策)对男女工资水平有不等量的影响。以T表示时间变量,G表示分组变量(政策实施),S表示性别变量,则回归模型可表示为下式:
Yi=β0+β1Gi+β2Ti+β3(Gi·Ti)+β4Si+β5(Gi·Si)+β6(Ti·Si)+β7(Gi·Ti·Si)+ei
DDD估计量为干预组和对照组DD估计量之差,在满足线性回归条件的基础上,由OLS估计的DDD统计量为各变量交互项的偏回归系数β7,如下式:
-(E[Y|G=0,T=1,S=1]+E[Y|G=0,T=0,S=1])}
-{(E[Y|G=1,T=1,S=0]+E[Y|G=1,T=0,S=0]
+(E[Y|G=0,T=1,S=0]-E[Y|G=0,T=0,S=0])}=(β3+β7)-β3=β7
2.一般化模型
当分组和时间变量的水平数超过2时,基本DD或DDD模型可推广为一般化模型。此外,在自然试验中,干预组和对照组的非随机化分配将导致观察单位特质分布的不均衡,因此在一般化模型中,通常会考虑分组和时间之外的解释变量。下式中,向量λT和αG分别为分组和时间哑变量的偏回归系数,向量γ为观察单位变量(如人口学特征)ZGT的偏回归系数,向量β为交互项的偏回归系数,即DD估计量。
Yi=λΤ·Τ+αG·G+β·XTG+γ·ΖTG+eι
考虑到个体观测值可能存在非独立性[14],一般化模型还可推广为多水平模型,如下式。
Yi=λΤ·Τ+αG·G+β·XTG+γ·ΖTG+vgι+uigt
其中,vgt为群组水平随机误差,uigt为个体水平随机误差。
3.广义线性模型
当应变量不服从正态分布时,则应对其进行数学变换,或采用广义线性模型,如Probit模型、Logit模型等[15]。Ai和Norton指出,有学者误将广义线性模型中交互项的偏回归系数等同于干预效果[16]。实际上,因连接函数的存在,DD估计量已演变为下式(Φ为Probit函数):
Yi=Φ(α·G+β·T+γ·G·T)
含义是:“接受了干预”的干预组和(G=1,T=1,G×T=1)“假定没有接受干预”的干预组(G=1,T=1,G×T=0)在第2个时间点上数学期望的差值。
相关统计学方法的比较
将双重差分模型(此处指线性模型)与医学研究中常用的重复测量方差分析及混合模型进行比较,见表1。
实 例
此处列举两个例子,第一例为重复测量数据,第二例为混合横断面数据(二次抽样),分别用双重差分模型、重复测量资料的方差分析和混合模型进行估计和结果的比较。
例1 将20名高血压病患者随机分为两组,对处理组予以某种治疗,对照组不予处理,在治疗前后分别测定血压。以舒张压为结局变量,试评价治疗的效果(摘自研究生规划教材《医学统计学》第四版第12章[11])。
本例是简单的重复测量设计资料,现用双重差分模型和重复测量方差分析分别对其治疗效果进行估计,结果见表2和表3。经Mauchly检验,该资料满足“球对称”假设,即重复测量误差的协方差矩阵为球对称结构,因此两个模型的估计都是有效的。重复测量资料的方差分析显示,分组和时间存在交互作用,处理组的降压效果优于对照组,两组血压的前后差值分别为-16.0和-4.2,二者之差也刚好等于DD估计量-11.8,因此两个模型的结论一致。二者的区别在于:重复测量方差分析中,时间和分组变量的统计学检验是对其主效应的检验(尽管当交互作用存在时,分析主效应意义不大);而在DD模型中,“分组”并不等同于“处理”,因为在基线上两组都未接受治疗,其偏回归系数是基线时两组舒张压均数之差。
需注意的是,在实际研究中,干预组和对照组并不总是均衡可比的;重复测量值之间往往具有相关性,拟合线性模型可能虚增检验效能,增加I类错误的概率;随机误差可能与协变量有相关关系,使用最小二乘法将导致模型的错误估计。因此需要充分考察数据的特征和模型的使用前提,并适时采用加权最小二乘法、广义最小二乘法等进行参数估计。
例2 研究者对西部地区12所小学4~6年级学生进行营养知识的健康教育,以学校为单位进行随机化分组。干预实施前,从干预组和对照组中共抽取了378名学生进行营养知识测试;干预一年后,再次随机抽取了478名学生进行测试[18]。现以测试总分为评价指标,试估计健康教育的效应。
该例没有对样本进行随访,进行了二次抽样,因此无法使用重复测量资料的方差分析。现以双重差分模型和混合模型分别对干预效应进行估计[19-20]。由表4可知,DD模型的双重差分估计量为2.90,混合模型估计的交互项固定效应为4.04,高于DD模型的估计值。实际上,引入交互项后,混合模型是多水平的DD模型。由随机效应可知,该数据具有层次结构,测试分数在学校水平上存在一定聚集性。尽管两种方法估计所得的干预效果较接近,但由于学校水平残差不为零,因此个体水平残差的分布不再满足OLS估计的前提,单水平DD模型可能导致错误的推论。
小 结
在医学研究尤其是公共卫生研究中,未必总能通过随机化分配或匹配来保证干预组和对照组的可比性。双重差分模型通过构造双重差分估计量来控制和消除其他协变量对干预效果的影响,且不要求个体水平的重复测量,简单易行,是评价自然实验的良好方法。实际应用时,应充分考虑模型协变量的选取,消除不匹配的因素,以保证效应的正确估计;应考察模型估计方法的前提条件和适用性,选取适当的参数、半参数或非参数估计;当资料存在层次结构时,应考虑误差在不同水平上的分布以及变量之间的协方差和相关关系,并可将双重差分模型与多水平模型结合应用;当应变量不满足正态分布时,还应进行数学转换,或采用广义线性模型来拟合资料。
[1]Ashenfelter O,Card D.Using the longitudinal structure of earnings to estimate the effect of training programs.The Review of Economics and Statistics,1985,67(4):648-660.
[2]Meyer BD.Natural and quasi-experiments in economics.Journal of Business and Economic Statistics,1995,13(2):151-161.
[3]Bertrand M,Duflo E,Mullainathan S.How much should we trust differences-in-differences estimates.The Quarterly Journal of Economics,2004,119(1):249-275.
[4]Athey S,Imbens GW.Identification and inference in nonlinear difference-in-differences models.Econometrica,2006,74(2):431-497.
[5]Stuart EA,Huskamp HA,Duckworth K,et al.Using propensity scores in difference-in-differences models to estimate the effects of a policy change.Health Serv Outcomes Res Methodol,2014,114(4):166-182.
[6]Zhang X,Wu Q,Liu G,et al.The effect of the National Essential Medicines Policy on health expenditures and service delivery in Chinese township health centres:evidence from a longitudinal study.BMJ Open,2014,4(12):e006471.
[7]Morris S,Hunter RM,Ramsay AI,et al.Impact of centralising acute stroke services in English metropolitan areas on mortality and length of hospital stay:difference-in-differences analysis.BMJ,2014,349:g4757.
[8]Fillmore H,DuBard CA,Ritter GA,et al.Health care savings with the patient-centered medical home:Community Care of North Carolina′s experience.Popul Health Manag,2014,17(3):141-148.
[9]Nolan A.An extension in eligibility for free primary care and avoidable hospitalisations:a natural experiment.Soc Sci Med,2011,73(7):978-985.
[10]Alderman H,Ndiaye B,Linnemayr S,et al.Effectiveness of a community-based intervention to improve nutrition in young children in Senegal:a difference in difference analysis.Public Health Nutr,2009,12(5):667-673.
[11]孙振球,徐勇勇.医学统计学.第4版.北京:人民卫生出版社,2014.
[12]叶芳,王燕.双重差分模型介绍及其应用.中国卫生统计,2013,30(1):131-134.
[13]Gruber J.The incidence of mandated maternity benefits.Am Econ Rev,1994,84(3):622-641.
[14]Hansen LP,Sargent TJ.Recursive robust estimation and control without commitment.Journal of Economic Theory,2007,136(1):1-27.
[15]Karaca-Mandic P,Norton EC,Dowd B.Interaction terms in nonlinear models.Health Serv Res,2012,47(1 Pt 1):255-274.
[16]Ai C,Norton EC.Interaction terms in logit and probit models.Economics Letters,2003,80(1):123-129.
[17]Puhani PA.The treatment effect,the cross difference,and the interaction term in nonlinear “difference-in-differences” models.Economics Letters,2012,115(1):85-87.
[18]沈敏学,彭真,胡婧璇,等.中国西部地区小学生营养与食品安全教育的整群随机试验效果评价.中华流行病学杂志,2013,34(9):879-883.
[19]张岩波,何大卫,刘桂芬,等.重复测量数据的混合模型及其MIXED过程实现——混合线性模型及其SAS软件实现(二).中国卫生统计,2001,18(5):272-275.
[20]高萌,张强,邓红,等.方差分析和混合线性模型在重复测量数据中的应用探讨.现代预防医学,2008,35(7):1221-1223.
(责任编辑:郭海强)
附录:例题SAS程序
例1
/*例1:重复测量方差分析*/
data example1a;input t1 t2 group @@;
cards;/*每例患者一条记录*/
130 114 1
……
134 128 2;
proc glm;class group;model t1 t2=group;repeated time 2
contrast(1)/summary;
run;
/*例1:DD模型*/
data example1b;input BP time group @@;
cards;/*每次测定一条记录,同一患者可有多条记录*/
130 1 1
114 2 1
……
134 1 2
128 2 2;
data example1b;set example1b;interact=time * group;
run;
proc reg;model BP=time group interact/std;
run;
例2
/*例2:混合模型*/
data example2;input school time group score @@;
cards;/*每次测定一条记录*/
1 1 1 14
1 1 1 13
……
12 2 2 18
12 2 2 21;
data example2;set example2;interact=time * group;
run;
proc mixed;class school;model score=time group interact/s;random intercept/sub=school type=vc;
run;
/*例2:DD模型,数据格式同上*/
proc reg;model score=time group interact/std;
run;
国家自然科学基金(81402770)
1.中南大学公共卫生学院流行病与卫生统计学系(410078)
2.中南大学湘雅三医院临床营养科(410013)
△通信作者:胡明,E-mail:huming0129@126.com