分式多项式模型在流行病学资料分析中的应用
2011-03-11广东药学院流行病与卫生统计学系510310周舒冬
广东药学院流行病与卫生统计学系(510310) 徐 英 张 敏 周舒冬
在流行病学疾病(结果变量、因变量)与影响因素(自变量)的关系研究中,研究者常倾向利用比值比(OR)大小或相对危险度(RR)大小来衡量两者之间的联系强度。但对于连续型自变量而言,研究其每改变一个单位对疾病的影响实际意义不大。因此,在数据处理时,往往将其离散化,转化成分类变量进行分析。然而,由于不同研究者对同一变量离散化的方法不同,常使得该变量与疾病的关系缺乏稳定性。而分式多项式模型(fractional polynomial model,FP)则可以在保持变量连续性的基础上较好地解决上述问题。
分式多项式模型是由Royston和Altman在1994年提出的,当时主要讨论单个变量对结果的影响,并初步扩展到了多个变量的情形。1999年,Sauerbrei和Royston提出用后退法对多个变量的模型进行筛选。2003年,Royston和Sauerbrei又利用Bootstrap法对多个变量的模型的稳定性和模型的过度拟合问题进行了探讨。
模型介绍
FP基本模型的表达式为:
FPm(X)=β1Xp1+… +βmXpm
这里,p1,…,pm表示幂,常用的取值范围为{-2,-1,-0.5,0,0.5,1,2,3};m 表示模型的阶数,一般而言,二阶模型就足以拟合数据〔1〕。
根据幂的取值范围,一阶模型可以有8种表达式,其中p=0表示对变量取对数变换,p=1则为一般线性回归模型。二阶模型可以有36种表达式,其中,当p1=p2时,模型表示为:FP2(X)=β1Xp1+β2(Xp1)log X。
当需要分析多个变量对结果变量的影响时,该模型可以扩展到多个变量的情形,即在模型等号右边加上类似X变量表达式的其他变量即可。
在实际应用时,往往需要选择合适的模型对数据进行拟合,原则是希望用尽可能少的变量得到拟合较好的模型〔2〕。Royston和Altman建议,在决定用一阶或二阶模型时,似然比越大,模型越好。当两个模型之间存在嵌套关系,可以用似然比检验的方法,两者的Deviance偏差近似服从某自由度卡方分布,如P值<0.05时,则选择相对较复杂的模型,反之,则选用较简单的模型。其中自由度的大小与比较的模型有关。例如,当二阶模型与无效模型比较时,Deviance偏差服从自由度为4的卡方分布;二阶模型与线性模型比较时,Deviance偏差服从自由度为3的卡方分布;二阶模型与一阶模型比较时,Deviance偏差服从自由度为2的卡方分布。
在分析多个变量对结果变量的影响时,Royston和Altman建议可以根据研究的目的选用合适的P值,利用后退法,从较为复杂的二阶模型出发对变量进行筛选。
统计软件stata 8.0及以上版本即可实现对该模型的拟合〔3〕。本文以一个示例说明该模型的应用。
示例分析
本例中的数据来源于Lee(1974年)的文章,记录的是癌症病人的特征和病情是否减轻的数据。共有27个观测,1个结果变量和6个连续型变量,分别是remiss(remiss=1,表示病情减轻,remiss=0,表示病情未减轻,)、cell、smear、infil、li、blast、temp。原文中对于该数据的分析,使用了logistic回归分析的后退法。在此,尝试使用FP模型后退法进行多变量分析。当筛选水准为P=0.05时,可以得到如表1所示的结果。FP模型的表达式为:
LogitP= -2.22×Ili_1-0.34 STATA10.0 程序:
stepwise,pr(0.05):logistic remiss cell smear infil li blast temp
logistic remiss li,coef
mfp logistic remiss cell smear infil li blast temp,sequential select(0.05)
fracplot li
fracpred dr,dresid
twoway scatter dr li
logistic remiss Ili__1
logistic remiss Ili__1,coef
由分析结果可见,两个模型筛选的自变量结果一致,但FP模型对自变量进行了分式变换,使得模型的对数似然函数和Pseudo R2均增大,拟合效果更好。FP模型的拟合曲线及残差图分别见图1、图2。
表1 logistic回归模型与FP模型分析结果的比较
图1 FP模型拟合曲线图
图2 FP模型拟合残差图
由图1可见,研究自变量li对结果变量的影响时,当li<1时,曲线较陡峭,自变量变化时影响较大;而当li>1时,曲线较平缓,自变量变化时影响较小。因此,可以按照表2对自变量进行分段报告结果。例如,li=0.7时病情减轻的可能性是li=0.5时的77.77倍(95%CI:1.63~3721.17)。
表2 基于FP模型的比值比OR的估计结果
讨 论
拟合FP模型,不仅可以得到模型的表达式,方便研究者对结果变量进行预测,还能基于模型估计常用于表达疾病与影响因素之间关联强度的指标,如比值比OR。同时,FP模型不仅可以拟合logistic回归模型,还可以拟合 Cox回归模型、Poisson回归模型、Probit回归模型等。
1.与连续型变量离散化处理方法的比较 研究者往往习惯用一些分界点,将连续型变量离散化。而分界点的选择往往与数据的分布特点有关,如以分位数、平均数等作为划分不同类的标准。一方面,常导致相同目的的不同研究往往得出不同的结论,使该变量与疾病的关系缺乏稳定性。另一方面,从统计学的角度而言,分界点的选择应该在数据分析之前就确定下来,而不是由数据出发来确定。因为研究者为了得出有统计学意义的结论,往往会尝试选择不同的分界点,这样做可能会增加犯第一类错误的概率〔4〕。
2.与其他回归分析方法的比较 不少研究者也直接利用线性回归模型来分析连续型变量和疾病之间的关系,然而,由于线性假定并不是总是能够得到满足。同时,随着计算机技术的发展,非参数的回归模型越来越受到研究者青睐,如广义可加模型等。然而,对于上述模型的选择往往缺乏既定的标准方法,而且其估计过程对于非统计学专业人员而言总是不得而知的,且由于其对数据存在过度依赖,模型往往是过度拟合的。另外,从结果的表达而言,非参数回归模型往往不能写出明确的模型的表达式。
和其他依赖数据建立的模型一样,FP模型的结果从严格的意义上来讲比较难解释,而且,其参数的估计值可能是有偏的,参数估计值的标准误也可能被低估〔1〕。这些问题均有待于进一步探讨。
1.Patrick R,Gareth A,Willi S.The use of fractional polynomials to model continous risk variables in epidemiology.Int.J.Epi,1999,28:964-974.
2.陈峰.医用多元统计分析方法.第2版.北京:中国统计出版社,2007.
3.Sauerbrei W,Meier-Hirmer C,Benner A,et al.Multivariable regression model building by using fractional polynomials:Description of SAS,STATA and R programs.Computational Statistics & Data Analysis,2006,50(12):3464-3485.
4.Altman DG,Lausen B,Saauerbrei W,et al.The dangers of using‘optimal’cutpoints in the evalution of prognostic factors.J Natl Cancer Inst,1994,86:829-835.