APP下载

不同样本量条件下倾向性评分法与logistic回归法估计处理效应的比较研究*

2022-01-19胡美婧李满娣林奕蝶徐铭涵朱彩蓉

中国卫生统计 2021年6期
关键词:调整法倾向性均方

胡美婧 李满娣 林奕蝶 张 露 姚 强 徐铭涵 朱彩蓉△

【提 要】 目的 比较不同倾向性评分方法及logistic回归法在不同样本量的条件下估计处理效应的优劣。方法 采用Monte Carlo模拟方法生成数据集,比较各统计分析方法估计处理效应的优劣。评价指标包括效应点估计值、相对偏倚及均方误差等。结果 当样本量为900时,倾向性评分逆处理概率加权法、分层法、回归调整法的相对偏倚最小。logistic回归法的相对偏倚最大,稳健性最差。当样本量为650时,逆处理概率加权法的相对偏倚最小,均方误差最小。当样本量为400时,逆处理概率加权法的均方误差最小,稳健性最好。当样本量为300时,倾向性评分匹配法的均方误差最大。当样本量为200时,倾向性评分匹配法相对偏倚最小。结论 在处理数据结构较为简单的观察性研究资料时,logistic回归法可能产生较大偏倚,倾向性评分逆处理概率加权法为较优选择。

自1983年Rosenbaum和Rubin提出倾向性评分(propensity score,PS)方法以来[1],使用该方法控制观察性研究中的选择偏倚在公共卫生和临床研究中日益流行[2-6]。但倾向性评分法估计处理效应、控制偏倚的能力是否强于logistic回归法尚存争议。Martens[7]等人认为倾向评分法估计效应真值的能力始终优于logistic回归法,但另一些研究者[8]认为倾向评分法与logistic回归法或Cox比例风险模型相比,估计处理效应的能力基本一致。

此外,倾向性评分法具有匹配、分层、加权、回归调整等多种应用形式,国内外研究者对不同倾向性评分法进行了模拟研究[9-11]。Austin[12]等人对不同倾向性评分方法估计相对危险度的优劣进行比较时,模拟数据集样本量设置为10000。国内研究者孙婷[13]等人在探讨不同倾向性评分方法估计处理效应的优劣时,分别生成样本量为500或2000的数据集。由于以上研究均未设置样本量较小的模拟场景,本研究模拟数据集样本量变化范围为200至900,比较logistic回归法及不同倾向性评分利用方式间的处理效应估计差异,为选择适宜的统计分析方法处理不同样本量尤其是样本量较小条件下的观察性研究资料提供建议。

倾向性评分法

倾向性评分法的基本原理是用倾向性评分值代替多个组间协变量,使组间混杂因素的分布得以均衡,从而减少偏倚。倾向性评分值是指在给定一组协变量(如x1,x2…xn)的情况下,任一研究对象被分到处理组或对照组的条件概率。第n个研究对象被划分到处理组(T=1)的条件概率如下式:

e(xn)=P(Tn=1|xn)

(1)

e(xn)与P的意义相同,即为第n个研究对象的倾向性评分值[1]。若某两个个体来自不同组别,其倾向性评分值相等,则可以认为这两个个体的协变量是均衡分布的。倾向性评分法主要通过以下两个步骤来实现:①通过logistic回归、probit回归等方法估计倾向性评分值[14]。②选择适宜的倾向性评分法应用模式,如匹配、分层、加权及回归调整法[15-18]等均衡协变量,最后根据研究资料的实际情况选择统计模型进行分析。

模拟过程

1.协变量的生成

本研究共生成三个独立的随机二分类变量,x1-x3~Bernoulli(P=0.5)。三个协变量分别代表:仅与处理因素相关的协变量,与处理因素及结局变量均相关的协变量,仅与结局变量相关的协变量。

2.处理变量的生成

本研究模拟处理变量与结局变量均为二分类变量,先采用logistic回归模型估计倾向性得分值,再根据协变量与处理因素的关系生成处理变量,如下式:

(2)

c0,t为常数项,通过预模拟调节该值以控制处理组与对照组的比例;ai为回归系数。T为二分类处理因素,根据伯努利分布,rand(‘Bernoulli’,Pt),即生成模拟个体的分组变量。当T为0时,该个体归为对照组;反之归为处理组。设置回归系数ai,ORi=exp (ai),回归系数由unif(-1,1)随机产生,OR1=1.8,OR2=2;使处理组与对照组间的比例约为2∶3,常数项c0,t调节为1.3。

3.结局变量的生成

根据结局变量与协变量及处理因素的关系生成结局变量,如下式:

(3)

c0,y为常数项,调节该值以控制阳性结果发生的比例。bi为回归系数,b0为处理效应。Y为二分类结局变量,根据伯努利分布,rand(‘Bernoulli’,Py),生成模拟个体的结局变量,数据集模拟完成。当Y为0时,个体结局事件未发生;反之该个体结局事件发生。设置回归系数bi(i=2,3),OR2=2,OR3=1.8;真实处理效应b0=-0.53。使对照组阳性结果发生率约20%,常数项c0,y调节为2.1。

本研究使用SAS 9.4软件模拟数据,分别生成1000个样本量为900、650、400、300及200的数据集,并应用logistic回归法、倾向性评分卡钳值为0.02的1∶1最近邻匹配法、逆处理概率加权法、分层法(5层)和回归调整法进行分析。选用以下指标报告结果:处理效应点估计值(Average(b0))、标准误(SE)及95%置信区间(CI),绝对偏倚(AB)、相对偏倚(RB),均方误差(MSE)。最终的处理效应估计值为各样本量对应1000个数据集结果的均值。

4.模拟结果

如表1可见,样本量为900时,logistic回归法的处理效应点估计值为-0.41,相对偏倚与均方误差均大于四种倾向性评分方法。倾向性评分方法中,匹配法的相对偏倚为3.77%,逆处理概率加权法、分层法与回归调整法均实现无偏估计。5种方法的95%置信区间都包含真值,且具有统计学意义。样本量为650时,logistic回归法的相对偏倚最大,95%置信区间包含真值却不具有统计学意义。倾向性评分加权法实现了无偏估计,其他的倾向性评分方法得到的处理效应估计值与加权法接近。样本量为400时,logistic回归法的相对偏倚最大。倾向性评分逆处理概率加权法的均方误差最小,稳定性最好。5种方法的95%置信区间虽然包含真值,却都不具有统计学意义。样本量为300时,倾向性评分方法中,匹配法的相对偏倚与均方误差最大。倾向性评分逆处理概率加权法与分层法表现较优。样本量为200时,倾向性评分方法中匹配法相对偏倚最小,但均方误差仍最大。

表1 不同统计分析方法的效应估计结果

讨 论

在本研究设置的不同样本量条件下,logistic回归法的相对偏倚始终高于四种倾向性评分方法,估计处理效应的能力相对较差。本研究的结果与Martens[7]等人的研究一致。logistic回归法并不适用于混杂因素较多或结局变量发生率较低的研究资料[19]。虽然本研究仅模拟了三个协变量,其中只有一个变量与处理因素及结局变量均相关,但设置的对照组阳性结局发生率仅为20%,阳性结果发生率不高导致logistic回归法的处理效应估计值的相对偏倚较大。而Shah[20]等人的研究结论与本研究存在差异,认为两种方法的效应估计结果基本一致。Shah等人纳入了43篇同时使用logistic回归法以及倾向性评分法的研究,其中有8篇文献,两种方法得到的比值比或相对危险度的统计学意义有差别,均为倾向性评分方法无统计学意义且大部分研究的统计学显著性处于临界点,这种有方向性的差异可能会导致两种方法的真实差异被掩盖[7];此外,在使用匹配法的研究中,暴露组甚至可能超过40%的患者未成功匹配[20],因此研究者未结合自身数据特点选择合适的统计分析方法,反而会使得倾向性评分法的统计效能降低。发表偏倚[21]也可能对综述结果产生一定影响。研究者若同时使用两种方法进行分析,当方法间的结果发生分歧时,如果研究者仅报告其中一种方法,会导致综述的结果倾向于两种研究方法的结果一致。

在不同样本量条件下,倾向性评分逆处理概率加权法为分析混杂结构简单的观察性研究资料的最优选择,倾向性评分分层法与回归调整法次之。Austin在比较倾向性评分回归调整法、匹配法和分层法估计相对危险度的能力时,倾向性评分回归调整法占据优势,而分层法的均方误差可能小于匹配法[12]。本研究的模拟结果与Austin的研究较为一致,倾向性评分逆概率加权法、分层法、回归调整法相对占据优势,且倾向性评分回归法的表现仅次于加权法。相对于Austin的研究,本研究协变量类型、混杂结构等参数设置得较为简单,处理变量与结局变量模型均只含有线性关系。有研究表明,当处理与结局变量模型均只含有线性关系或只有结局变量模型中含有非线性关系时,倾向性评分加权法估计效果比在其他复杂混杂结构下更好[13]。在混杂结构简单时,使用倾向性评分逆处理概率加权法或可得到风险差的相合估计[22]。

当样本量为200时,倾向性评分匹配法的相对偏倚最小,但尚不能认为倾向性评分匹配法适用于样本量较小的观察性研究资料。在研究设置的不同样本量中,倾向性评分匹配法并未随着样本量减少而估计处理效应的能力增强。且倾向性评分匹配法始终未能实现无偏估计,可能因为匹配法导致一定样本信息的损失或存在处理组个体未成功匹配的情况,因此影响估计的准确性。有研究者认为在分析过程中应当尽可能避免损失信息,并不推荐倾向性匹配法[23]。

样本量的大小会对统计分析的准确性和稳健性造成影响,研究者在进行小样本研究分析时,需要更谨慎的解释结果。随着样本量的减少,实现无偏估计的倾向性评分分析方法也逐渐减少,统计分析的准确性降低;各统计分析方法的标准误差均增大,均方误差增加,统计分析稳健性也随之降低。

本研究也存在一定的局限性:①研究的模拟场景较为简单,后续研究可以构建更加复杂的模拟场景、更多结局变量类型以提高模拟真实性。②倾向性评分方法与logistic回归法均只能纳入所有被观察到的协变量[24],未被观察到的混杂因素必然会对结果造成影响,需进一步探究未包含重要的混杂因素可能对此类统计分析方法的准确性带来的影响。③其他更加复杂的统计分析方法,如工具变量、贝叶斯[25]等并未纳入比较,因为此类方法需要进行的假设较多,应用和验证均相对复杂,对统计软件以及使用者的专业能力要求也十分高,仍待进一步的探索和优化,以满足普通研究者的需要。

结 论

在不同样本量条件下,倾向性评分法得到的处理效应估计值始终比logistic回归法更接近真值。四种倾向性评分方法估计处理效应的能力存在差异,在分析简单混杂结构的观察性研究资料时,倾向性评分逆概率加权法是较优选择。不同倾向性评分法的统计分析准确性与稳健性均随着样本量的增大而提高,研究者分析小型观察性研究资料时需更加谨慎。倾向性评分法是科学研究发展过程中提出的有力工具之一,用以处理真实世界中混杂因素众多造成的组间不可比问题,在大数据时代具有重要的现实意义。规范其使用条件,从方法学角度对其进行完善,进一步探索可弥补其劣势的新方法必然成为研究新趋势。

猜你喜欢

调整法倾向性均方
一类随机积分微分方程的均方渐近概周期解
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
论局部调整法的妙用
Beidou, le système de navigation par satellite compatible et interopérable
逐步调整法在数学竞赛中的应用
用“逐步调整法”证明数列前n项和不等式
公式调整法和基准比价法结合的PPP项目调价研究
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异
基于抗差最小均方估计的输电线路参数辨识