线性回归中回归稀释偏倚校正的模拟研究*
2021-10-09中国医学科学院北京协和医学院国家心血管病中心阜外医院医学统计部102300白银晓王子悦赵延延范肖雪
中国医学科学院 北京协和医学院 国家心血管病中心 阜外医院 医学统计部(102300)白银晓 王子悦 柴 昊 赵延延 范肖雪 李 卫 王 杨
【提 要】 目的 比较Peto-MacMahon非参数法(PM)和Rosner回归校准法(RC)对线性回归中回归稀释偏倚的校正效果,同时讨论不同情况下得到回归系数最佳校正效果时所需要的最小样本量。方法 用Matlab软件随机模拟产生重复测量数据,建立线性回归模型,用PM法和RC法进行校正,比较设定的真实系数与校正前、后回归系数,评价校正效果。结果 总体样本量很大时(大于10000),无论测量误差的大小,当重复测量样本量达到总体样本量的10%~30%,回归系数能达到最佳校正效果;两种方法稳定性差异无统计学意义,但PM法在计算上有更大的优势。总体样本量较小时(小于300),无论测量误差的大小,当重复测量样本量达到总体样本量的15%~30%,回归系数能达到最佳校正效果;但当测量误差很大,样本量小于50时,RC法更稳定。结论 无论测量误差的大小,当重复测量数据达到一定样本量时,两种方法对回归系数的校正均有很好效果。在测量误差很大,且重复测量数据很少时,建议采用RC法进行校正;在其他情况下,建议采用PM法。
统计分析过程中,在收集数据时,经常由于测量工具的不精确或个体差异等原因,导致测量误差的产生。MacMahon发现[1],当利用自变量的单一测量值进行回归分析时,由于随机测量误差的存在会导致回归系数的估计值比真值偏小,这种现象被称为回归稀释偏倚[2-3]。如何消除上述偏倚,获得真实的关联程度估计是流行病和临床研究中的一个普遍问题。
在大型的流行病学或前瞻性临床研究中,研究者会在不同的随访时点对被观察对象某些生理指标(例如心率、血压等)进行重复测量,利用这些重复测量数据(同分布),可以计算回归系数偏倚的程度、并获得校正因子(回归稀释系数)值,通过该校正因子、可对基于由单一基线观测值得到的回归系数估计值进行调整,从而获得更接近“真实”关联程度的估计结果。
本文将对文献报道中常用的Peto-MacMahon非参数法和Rosner回归法进行对比分析,通过随机模拟比较,探讨两种方法在不同样本量、不同测量误差的前提下对回归稀释偏倚的校正效果。
模型建立与方法
1.重复测量数据与“回归稀释偏倚”校正
考虑在进行关联分析时普遍使用的线性模型:
Y=α+β·X+ε
(1)
当协变量X为重复测量数据时,设首次测量值为W,重复测量值为T。有
(2)
将首次测量值W作为真实值X代入(1)式,有
Y=α*+β*·W+δ
(3)
(4)
2.Peto-MacMahon 非参数估计法
(5)
3.Rosner回归估计法
对于由(2)式定义的重复测量数据,可在首次测量值W和重复测量值T间建立线性回归模型[9]
T=αT|W+βT|W·W+τ
(6)
(7)
模拟分析
1.模拟设计
假设预进行一真实的临床关联性研究,评价血压水平与某特定定量结局指标间的关联。首先假定存在N=10000的真实总体,设定预后因素收缩压X~N(110,102),测量误差U1,U2~N(0,22)。设定回归系数的真实值β=-4,-2,-1,-0.5,0.5,1,2,4,分别建立线性回归模型Y=β·X,产生因变量Y的真值。由(2)式可产生首次测量值W和重复测量值T。
其余假设不变,设测量误差U1,U2~N(0,102),重复上述模拟步骤,讨论测量误差的变化对回归系数产生的影响。
再考虑样本量较小的情况。设总体样本量N=300,重复测量样本量不少于总体样本量的10%[10],取n=30,50,80,100,150,200,测量误差分别为U1,U2~N(0,22)和U1,U2~N(0,102),重复上述模拟步骤。
考虑U1,U2不同分布的情况。其余假设不变,测量误差U1~N(0,22),U2~N(0,102),重复上述模拟步骤。尽管MacMahon法不适用于测量误差不同分布的情况,但将两种方法得到的结果进行秩和检验,若检验结果为两种方法得到的校正因子无显著性差异,由于MacMahon法在计算上的优势,在实际中仍可考虑用MacMahon法。
2.模型效果评价标准
评价模型校正效果的标准有两个:(1)校正后回归系数与设定真实值之差的绝对值。绝对值越小说明校正效果越好。(2)校正后系数的标准差。标准差越小说明校正效果越稳定。本研究设定校正后的回归系数在[β-0.01β,β+0.01β]区间时,校正效果好[11]。可根据此标准确定两种方法分别达到回归系数最佳校正效果所需要的最小样本量。
3.模拟结果
表1 MacMahon法和Rosner法对回归系数调整的效果(N=10000)
稳定性分析:在任何β取值下,P>0.05,两种方法的稳定性差异无统计学意义,可认为估计效果相同。由于MacMahon方法在计算时的巨大优势,故采用MacMahon非参数的方法。
表2 MacMahon法和Rosner法对回归系数调整的效果(N=300)
因此,当总体样本量较小时,重复测量数据样本量达到总体样本量的15%~30%时,调整后的系数估计值就能达到较好的效果。
稳定性分析:(1)当方差s2=22,β=1,2,4,-1,-2,-4条件下,P<0.05,说明两种方法的稳定性差异有统计学意义。由于利用Rosner方法估计出的系数标准差较大,即调整效果不稳定,因此选择MacMahon法更合适。(2)当方差s2=102,在任何β条件下,P>0.05,两种方法的稳定性差异无统计学意义,可认为估计效果相同。由于MacMahon方法在计算时的巨大优势,采用MacMahon非参数的方法。但n=30时,MacMahon方法所得到的系数标准差非常大,说明方法非常不稳定,且此时利用Rosner方法在计算上并不会比MacMahon方法花费时间更多,因此当重复测量数据小于50时,应选择Rosner方法。
(3)两次测量误差方差不同时(表3),可看出,此时计算的校正因子比测量误差的方差相同时得到的校正因子值增大,与实证结果相符。且尽管MacMahon理论上不适用于方差不同的情况,但从模拟的结果可知,在任何β条件下,P>0.05,即由两种方法得到的校正因子间差异无统计学意义。因此在实际中,若样本量较大时,考虑MacMahon法计算上的优势,仍然建议选择MacMahon法对回归系数进行校正。
表3 两次测量误差不同校正因子与统计学P值(U1~N(0,22),U2~N(0,102))
讨 论
上述的模拟分析表明,未校正的回归系数估计值均小于真实回归系数值,与“回归稀释偏倚”现象理论结果相符。在测量误差固定的情况下,只要达到一定样本量,对回归系数值估计的校正均有很好的效果。尤其当测量误差较大时,未经校正的系数估计值非常不准确,对其进行校正显得尤为重要。根据模拟研究结果可知,当测量误差较大(测量误差的方差大于样本分布的方差),样本量小于50时,由于Rosner回归法稳定性更好,应采用Rosner回归法;其余情况,从计算效率和稳定效果上考虑,均可采用Peto-Macmahon法。
在实际研究中,当遇到重复测量数据问题进行回归系数估计或者进一步估计危险率等指标时,需要根据观测数据的分布等性质选择适当的方法对回归系数进行校正。尽管此时我们不知道真实系数值的大小,只要样本量达到一定量的条件,就能有很好的校正的效果。需要注意的是,实际问题中,进行回归稀释偏倚校正时,应首先考虑所关注的预后变量其重复测量数据间是否具有独立性,在回归稀释问题的场景下,重复测量数据间理论上不独立、但应满足条件独立(对应测量误差),条件独立性可考虑通过回归调整后,检验残差是否独立等方法来进行判断。此外,所关注的重复测量来源变量,应符合正态分布,或者将数据进行适当变换(如对数变换)后符合正态分布,在此基础上再选择合适的方法对稀释系数进行校正。在上述条件无法满足时,例如重复测量数据间存在时间趋势,那么在分析重复测量数据与结局指标的关联时,应采用具有针对性且适宜的方法对回归稀释偏倚进行矫正[16]。
在亚太群组协作研究组织(the Asia Pacific Cohort Studies Collaboration,APCSC)研究已发表的文章中,已有很多作者使用了重复测量数据来校正回归稀释偏倚。如Anushka Patel等人[13]利用重复测量的胆固醇含量数据,Koshi Nakamura等人[14]利用重复测量的收缩压数据,Mark Woodward等人[15]利用重复测量的高密度脂蛋白胆固醇数据对回归稀释系数进行校正,进而评估这些因素与结局死亡率间的关系。
本文只探讨了一个危险因素的情况,当有多个危险因素时,仍可以选择Rosner方法对相应的稀释系数进行校正,然而MacMahon法无法对多因素的回归模型进行处理。此外,MacMahon法和Rosner法均是考虑在基线数据的条件下,重复测量数据是真实数据的无偏估计。因此校正因子的取值依赖于首次测量(基线)和重复测量的顺序。若无法判别一批重复测量数据中哪些为基线测量、哪些为重复测量,MacMahon法和Rosner法的校正效果均失效,需要从基线数据和重复测量数据间的方差与相关性角度选择另外方法如积差相关系数法、组内相关系数法、极大似然法和Rosner方差组件法对回归稀释系数进行校正[8]。同样,本文的模拟研究并未覆盖存在多次重复测量的场景,因此在就本文结果做应用或外推时,需考虑上述局限性可能造成的影响。