基于Wald检验实现Cox回归中自变量影响大小的推断*

2017-01-10畅潘辉陈梓聪张晋昕

中国卫生统计 2016年6期

刘畅潘辉陈梓聪张晋昕△

刘畅1潘辉2陈梓聪1张晋昕1△

目的针对一般研究者在使用Cox回归时，直接比较标准化偏回归系数大小的做法，提出借助Wald检验进行排序，并用小细胞肺癌患者随访研究的实例加以说明。方法借鉴SNK多重比较法的比较策略，以尽可能少的比较次数，使用Wald检验对样本标准化回归系数进行假设检验，从而探讨总体标准化回归系数之间的关系，形成依影响大小排序的若干子集。结果选入模型的4个变量被划分在2个子集内，可认为第1子集中的自变量（实例中的肿瘤大小、年龄）对预后的影响小于第2子集中的自变量（神经元特异性烯醇化酶），自变量癌胚抗原对预后的影响介于两个子集之间。结论基于Wald检验对自变量进行排序，能够克服cox回归模型结果报告中判断自变量影响大小的主观性。

标准化偏回归系数 Wald检验预后影响程度

Cox回归模型分析广泛应用于评估一组自变量对预后的影响［1］。模型分析过程主要有两个阶段，模型选择和预测变量的解释［2］。在模型选择阶段，主要目标是寻找正确的模型。模型选定后，对预测变量的意义进行分析和解释，将自变量按照对生存结局的作用大小进行比较、获得其排序，在公共卫生、生态学、环境学、心理学等领域均有着广泛的需求［3］。目前最常使用的指标为标准化偏回归系数，或对应的风险比（hazard ratio，HR）值。事先通过对变量或偏回归系数进行标准化，可使量纲不同的变量得以相互比较。

研究者在给出分析报告时，通常将标准化偏回归系数直接进行比较，以体现自变量对预后的影响大小，这种做法其实不尽合理。原因是标准化偏回归系数是由样本估计出的一个统计量，存在抽样误差。样本的标准化偏回归系数取值有差别，也无法据此直接判断两个总体标准化偏回归系数是否不同。因此，有必要对其进行假设检验，以判断总体偏回归系数的关系。此外，在考虑自变量对结局的影响程度时，若干个变量间不一定是A大B小的关系，不排除A与B对结局的影响程度同等的情形。本研究旨在针对以上应用问题，提出合理的自变量排序方法。

基本原理

通过对样本标准化回归系数进行假设检验，探讨总体标准化系数的关系，并将自变量按对预后的影响程度划分子集，彼此间差异没有统计学意义的变量放在一个子集内。

1．建立模型根据资料建立Cox比例风险回归模型，采用逐步回归法筛选变量，自变量进入模型的显著性水准为0．05，剔除的显著性水准为0．10。

2．比较策略为了尽可能减少比较次数，本研究探索一种合适的策略对变量进行比较，即借鉴SNK（student-newman-keuls）多重比较法［4－6］的思想，划分相似性子集。在模型建立以后，将标准化偏回归系数按从小到大的顺序进行排列。第一步，将第一个系数与最后一个系数进行比较，若无差异，则两个系数之间的所有系数都被视作没有差异，不必继续比较；若有差异，则进行下一步。第二步，将第二个系数与最后一个系数，第一个系数与倒数第二个系数进行比较，按第一步的逻辑类推。以下举例进行说明。

例如，当模型中存在5个变量时，先将系数按大小进行排序，假设β1＜β2＜β3＜β4＜β5。

第一步，考察间隔3个变量的情况，将β1与β5进行比较。若无差异，则认为其间隔内的所有变量都没有差异，不必做后续比较；若有差异，进行第二步。

第二步，考察间隔2个变量的情况，将β1与β4，β2与β5进行比较。若无差异，则认为其间隔内的所有变量都无差异，不必做接下来的比较；若有差异，进行第三步。

依此类推。当所有系数间都存在差异时，完整的比较流程如图1所示。

图1 假定5个变量的比较流程示意图

3．检验方法目前常用于回归模型中系数比较的检验有：F检验、似然比检验、Wald检验、计分检验等。本文采用Wald检验对系数进行检验，其优点是，只需估计无约束模型。其原理是，测量约束和无约束模型间的距离，从而检验约束条件是否成立。Wald统计量的计算公式如下：

其中，L为线性约束矩阵，β为系数矩阵，Cov（β）为协方差阵。由公式可以看出，该方法在计算过程中使用了系数间的协方差矩阵，因此可以更好地考虑变量间存在相关性的情况。在检验时，通过设置不同的L矩阵，可以考察不同的线性约束是否成立。例如，若要检验H0∶β2＝β3，则令L＝（0 1 －1 0 0），相当于检验Lβ＝β2－β3＝0是否成立。

实例分析

数据来源于本课题组收集的小细胞肺癌患者生存时间的调查数据，共计275名小细胞肺癌患者。其中男性239例，女性36例；年龄最小33岁，最大86岁，平均年龄（62．6±9．3）岁。

自变量包括年龄、性别、吸烟量（包/年）、肿瘤大小、血红蛋白、白细胞计数、中性粒细胞计数、淋巴细胞计数、血小板计数、癌胚抗原（carcino-embryonic antigen，CEA）、神经元特异性烯醇化酶（neuron-specific enolase，NSE）、γ－谷氨酰转肽酶、纤维蛋白酶原和白蛋白共14个可疑的影响因素，除性别外均为连续型变量。结局变量为患者的生存情况。

本研究的全部计算在SAS 9．3软件环境下实现。

1．模型的建立

建立Cox比例风险回归模型，对影响小细胞肺癌患者生存时间的因素进行分析，最终模型中选入4个变量：年龄（Age），肿瘤大小（Size），癌胚抗原（CEA），神经元特异性烯醇化酶（NSE）。模型中变量的偏回归系数及标准化偏回归系数见表1。

表1 Cox回归模型参数估计结果

2．标准化偏回归系数的检验

按照上文提出的比较策略，对4个标准化偏回归系数按照从小到大的顺序进行排序，记为分别对应Size、Age、CEA、NSE4个变量，采用Wald检验，分别对系数进行检验。检验结果如表2所示。

表2 标准化偏回归系数比较结果

3．划分子集情况

根据检验结果，可将自变量划分为2个子集（见表3），按照从小到大的顺序，前3个系数划分在1个子集内，后2个系数划分在1个子集内。可认为肿瘤大小、年龄、癌胚抗原对患者生存时间的影响程度相近，癌胚抗原、神经元特异性烯醇化酶对生存时间的影响程度相近。神经元特异性烯醇化酶对预后的影响大于肿瘤大小、年龄；癌胚抗原对预后的影响介于2个集合之间。

图2 小细胞肺癌Cox回归模型中系数比较流程图

表3 自变量按影响程度划分子集

讨论

标准化偏回归系数的应用历史已久，由于其易于计算，便于解释的特性，使它成为目前使用最为广泛的、描述自变量对结局影响程度的量化指标。然而，标准化偏回归系数在结果报告中的解读往往过于主观。不时见到的情形是，建立回归模型后，直接比较两个变量的标准化回归系数的大小，得出A指标强于B指标的影响因素的结论［7，11］。也有学者在使用标准化偏回归系数时，会报告其置信区间［8－10］。

研究资料的获得通常都是基于随机抽样，计算出的标准化偏回归系数是由样本估计出的一个统计量，势必存在抽样误差。因此，比较不同自变量对结局的影响大小时，应借助统计推断（假设检验或区间估计）方法。为了指导研究人员正确报告自变量影响大小，统计学家对标准化偏回归系数的置信区间估计提供了多种方法和建议，包括非中心性区间估计，Delta法，Bootstrap法等［12］。对标准化系数进行假设检验的研究则未被足够重视。

本文提出采用Wald检验对Cox回归模型的标准化偏回归系数进行假设检验，比较总体标准化回归系数的大小。实际上，该方法并不局限于Cox回归，还可以应用于多重线性回归、logistic回归等线性回归模型中。若变量间比较次数过多，会致假阳性率上升。本研究借鉴SNK方法的思想，提出分级比较的策略，有效地减少了比较次数。例如，针对一个包含5个自变量的模型，若对全部系数进行检验，需要进行C25＝10次。采用本文提供的比较流程，比较次数不会超过10次（所有变量均有差异的情况下）。

线性回归模型建立以后，将自变量对结局变量的影响程度大小进行排序，是医学研究者都关心的问题，因其对后续干预策略的制订具有重要指导意义。本文给出的方法对于把握轻重缓急、抓住主要因素，提供了统计学方法支持。

［1］Chao YE，Zhao Y，Kupper L L，etal．Quantifying the Relative Importance of Predictors in Multiple Linear Regression Analyses for Public Health Studies．Journal of Occupational and Environmental Hygiene，2008，5（8）：519-529．

［2］Krasikova D，LeBreton J，Tonidandel S．Estimating the relative importance of variables in multiple regression models．International Review of Industrial and Organizational Psychology 2011，Volume 26，2011：119-141．

［3］孙红卫，王玖，罗文海．线性回归模型中自变量相对重要性的衡量．中国卫生统计，2012，29（6）：900-902．

［4］Abdi H，W illiams LJ．Newman-Keuls test and Tukey test．Encyclopedia of Research Design．Thousand Oaks，CA：Sage，2010：1-11．

［5］Keuls M．The use of the“studentized range”in connection w ith an analysis of variance．Euphytica，1952，1（2）：112-122．

［6］Curran-Everett D．Multiple comparisons：philosophies and illustrations．Am JPhysiol Regul Integr Comp Physiol，2000，279（1）：R1-R8．

［7］Young TK，Gelskey DE．Is noncentral obesity metabolically benign？Implications for prevention from a population survey．JAMA，1995，274（24）：1939．

［8］Cheng S，Rhee E，Larson M，et al．Metabolite Profiling Identifies Pathways Associated W ith Metabolic Risk in Humans．Circulation，2012，125（18）：2222-2231．

［9］Baccarelli A，W right RO，Bollati V，et al．Rapid DNA methylation changes after exposure to traffic particles．American journal of respiratory and critical caremedicine，2009，179（7）：572-578．

［10］Tanaka K，Ogata S，Tanaka H，et al．The relationship between body mass index and uric acid：a study on Japanese adult twins．Environmental health and preventivemedicine，2015，20（5）：347-353．

［11］Tsai A，Aung T，Yip W，et al．Relationship of Intraocular Pressure with Central Aortic Systolic Pressure．Current Eye Research，2015：1-6．

［12］Jones J，Waller N．Computing confidence intervals for standardized regression coefficients．Psychological Methods，2013，18（4）：435-453．

（责任编辑：邓妍）

Inference of Strengths of Effects between Predictors in Cox Regression Based on W ald Test

Liu Chang，Pan Hui，Chen Zicong，et al
（Departmentof Medical Statistics and Epidemiology，School of Public Health，SunYat-Sen University（510080），Guangzhou）

ObjectiveTo solve the common problem that standardized regression coefficients are compared w ith each other directly by researchers，we propose a rankingmethod based on Wald test，and illustrate it by a example of small cell lung cancer patients．MethodsLearning Strategies from Student-Newman-Keuls test，make hypothesis tests of sample standardized regression coefficients by Wald testw ith comparing times as few as possible，in order to explore the relationship between population standardized regression coefficients and partition subsets of predictors according to theirmagnitude of effects to the dependent variable．ResultsThe four selected predictors are allocated to two subsets，we can consider that predictors in subset 1（size and age）have less effects on prognosis than predictors in subset2（neuron-specific enolase），while the effects of carcino-embryonic antigen stays between the two subsets．ConclusionRanking predictors based on Wald test can overcome subjectivity of effectsmagnitude judgement in result report of regressionmodels．

Standardized regression coefficients；Wald test；Prognosis；Effect

广东省科学技术厅科技计划项目（2014A020212713）

1．中山大学公共卫生学院医学统计与流行病学系（510080）

2．广州医科大学附属第一医院转化医学实验室

△通信作者：张晋昕，E-mail：zhjinx＠mail．sysu．edu．cn