Cox比例风险Frailty模型简介与软件实现*

2014-03-10玉梅杨李杰陈佰锋姚应水

中国卫生统计 2014年3期

朱玉梅杨李杰陈佰锋姚应水△

朱玉1梅杨2李杰1陈佰锋1姚应水1△

目的介绍Cox比例风险Frailty模型的原理及其在SAS 9.3软件中的实现过程。方法利用具体数据的分析过程介绍Cox比例风险Frailty模型在SAS 9.3软件中的实现，并比较Cox比例风险模型与Cox比例风险Frailty模型的分析效果。结果Frailty项对数变换后的方差估计值为0.831，与0比较差异有统计学意义，有必要在Cox比例风险模型中加入Frailty项。结论Cox比例风险Frailty模型能够揭示资料的异质性，准确地分析因素对结局变量的影响，获得更为客观的分析结论。

Frailty模型 Cox比例风险模型 Cox比例风险Frailty模型

以时间到事件（Time-To-Event）为结局变量的生存分析方法众多，其中经典的分析方法是Cox比例风险模型。它的理论假设之一是研究对象间相互独立，即研究对象间具有同质性，这暗示每个研究对象有相同的基线风险。在实际研究中，这种假设不易达到，由于未知因素或设计等原因，导致研究对象个体间或组别间存在异质性，研究对象表现出组内相关的特性，经典的生存分析不再适合分析这类型的数据。这时，需要对经典的生存分析的方法进行改进，引入Frailty项（异质性变量），发展为Frailty模型（异质性模型）。本文介绍加入Frailty项的Cox比例风险模型——Cox比例风险Frailty模型和软件实现。

基本原理

以多中心临床随机化对照试验为例，介绍Cox比例风险Frailty模型。中心i（i＝1，2，…，k），每个中心的研究对象j（j＝1，2，…，ni）。在介绍Cox比例风险Frailty模型之前，先回顾下Cox比例风险模型。

1.Cox比例风险模型

Cox提出比例风险模型［1］如下：

其中h0（t｜X）称为基线风险函数，h（t｜X）表示在协变量为X条件下的风险函数，exp（β）为风险比（hazard ratio，HR）。Cox比例风险模型最突出的优点在于，对参数β的估计并不依赖于基线风险函数的取值。但是，它要求研究对象相互独立，即研究对象具有同质性。

2.Cox比例风险Frailty模型

当分析多中心临床随机化对照试验的数据时，每个中心的基线风险可能不一致，需要对Cox比例风险模型进行如下改进，发展为Cox比例风险Frailty模型［2-7］，如下：

其中γi为中心i（i＝1，2，…，k）的随机效应，其它同Cox比例风险模型。常对γi做如下假设：

上式改写为下式：

其中μi被称为Frailty项（异质性变量），μi是相互独立同分布的，其期望是1，方差为未知参数θ2，通常还假设其与X相互独立，当μi＝1时Cox比例风险Frailty模型蜕变为Cox比例风险模型。此外，Elbers和Ridder［8］证明了在Frailty项的期望为1的条件下，模型是可估的。

当μi＞1时说明中心i内的研究对象倾向于加速失效（事件发生）；当μi＜1时说明中心i内的研究对象倾向于减速失效（事件发生）；当μi＝1时说明中心i内的研究对象的失效风险（事件发生）是正常风险。

为了估计未知参数，需要对Frailty项的分布做出假设。原则上期望为1和具有有限方差的任一正连续分布都可以作为Frailty项的分布。在应用中常采用的分布有伽马分布、逆高斯分布和对数正态分布等。方差θ2的估计方法有限制性最大似然估计（residual maximum likelihood，REML）和最大似然估计（maximum likelihood，ML）。

实例分析与软件实现

下面结合SASPROC PHREG过程和SAS help中提供的数据介绍Cox比例风险Frailty模型的应用和软件实现［7］。

1.数据简介

该数据来源于一项关于糖尿病患者眼睛失明的研究，共包含197例糖尿病患者，他们的眼睛有很高的失明风险，每个研究对象的两只眼睛中随机选择一只眼睛接受激光光凝治疗，研究的目的主要是探索激光光凝治疗有没有延缓眼睛失明的进程。因为青少年和成年糖尿病有不同的发展过程，所以同时检查发病年龄和眼睛失明时间有无关联。每个患者是一个“群（clusters）”，类似于上文提到的“中心”，因为左右眼睛没有生物学差异，我们假设它们有相同的基线风险。变量（id）表示患者编号，变量（time）是患者眼睛失明时间，变量（status）表示眼睛失明状况（是二分类变量，“0”代表没有失明，“1”代表失明），变量（age）表示患者的发病年龄（是二分类变量，“0”代表发病年龄≤20，“1”代表发病年龄＞20），变量（treatment）表示眼睛接受治疗的方法（是二分类变量，“0”代表其他治疗，“1”代表激光光凝治疗）。用数据步建立数据集blind，见表1。

表1 建立数据集和数据分析的程序

2.语句介绍

在SAS 9.3版本的PROC PHREG过程中加入了分析Frailty模型的语句——Random语句。Random语句规定Frailty项服从对数正态分布，即γi～N（0，σ2），其中σ为未知参数，需要估计。Random语句的结构和功能如下：

Vaiable是用来指定“群”，它必须是分类变量，即是class语句中的变量。options有如下：

Abspconv＝r，是规定Frailty项对数变换后方差估计时迭代的收敛准则，如果迭代收敛。

Alpha＝value，是规定随机效应的（1-α）可信区间，默认值是0.05。

Method＝reml｜ml，是规定方差参数估计的方法，默认方法是rem l。

Noclprint，控制在输出时不打印随机效应的分类信息表。

Pconv＝r，是规定Frailty项对数变换后方差估计时迭代的收敛准则，如果迭代收敛。

Solution，规定显示正态分布的随机效应估计值，同时也显示对数正态分布的估计值，即Frailty的估计值。

Initialvariance｜initial＝value，规定Frailty项对数变换后方差估计的初始值，默认为1。

3.分析与结果

首先不考虑Frailty项，建立含有变量treatment、age的主效应和交互效应的Cox比例风险模型，然后模型再加入Frailty项，分析程序见表1。为了方便对比，把主要结果列于表2、3。

表2 Cox比例风险模型与Frailty模型的参数估计

表3 两个模型的激光光凝治疗相对于其他治疗的条件风险比估计

从表2可见，Frailty项对数变换后的方差估计值为0.831，与0的差异有统计学意义，提示分析时需要考虑个体间的异质性，有必要在Cox比例风险模型中加入Frailty项。两个模型的参数估计值相近，Cox比例风险模型比Cox比例风险Frailty模型要保守，在检验水准为0.05的情况下，都提示治疗方法与发病年龄间存在交互作用。表3给出了不同发病年龄下激光光凝治疗相对于其他治疗的风险比，从中可看出激光光凝治疗方法可延缓眼睛失明进程，并且成年组延缓眼睛失明进程的效果要好于青少年组。

讨论

本质上，Frailty模型是在经典的生存分析的基础上加入了一个随机效应，以控制研究对象个体间或组别间存在的异质性。虽然产生异质性的变量也可以通过设置哑变量或用固定效应分析，但固定效应分析方法不是最优的分析方法。按照异质性产生的单位不同，把Frailty模型分为个体Frailty模型、共享Frailty模型两种。个体Frailty模型假设研究对象个体之间具有异质性，基线风险随着个体而改变；共享Frailty模型假设组别间具有异质性，基线风险随着组别而改变，同一组别内的个体享有相同的基线风险。研究对象个体间或组别间存在的异质性是不能忽略，有文章也指出［9-10］：如果有异质性存在，而没有考虑，会导致效应低估，这点在本文中也有体现——Cox比例风险模型比Cox比例风险Frailty模型要保守，但是两者的意义是不同的，考虑异质性时效应是条件的效应，不考虑异质性时，效应是边际效应，在预测时需要注意这点。

与在Cox比例风险模型中引入Frailty项类似，也可以在其它生存分析方法——Weibull回归模型、加速失效模型中引入Frailty项，扩展生存分析的分析方法。

关于“Frailty模型”的翻译，有学者译为“脆弱模型”，但笔者认为有不妥之处。虽然“Frailty”有“脆弱、虚弱等”之意，但是“脆弱模型”所表达出来的意思不能反映“Frailty模型”的本质。结合“Frailty模型”的产生原因与形成思想，笔者反复斟酌，认为译为“异质性模型”更合适。在没有规范的译名情况下，使用“Frailty模型”是最恰当的。

1.Cox DR.Regression models and life tables.JR Stat Soc Series B Stat Methodol，1972，34（2）：187-220.

2.M cGilchrist CA，Aisbett CW.Regression with frailty in survival analysis.Biometrics，1991，47：461-466.

3.Therneau TM，Grambsch PM.Modelling survival data：extending the cox model.Springer：New York，2000.

4.Ha ID，Lee Y，MacKenzie G.Model selection for multi-component frailty models.Stat Med.2007，26（26）：4790-807.

5.Andersen PK，Klein JP，Knudsen KM，et al.Estimation of variance in Cox′s regressionmodel with shared gamma frailties.Biometrics，1997，53（4）：1475-84.

6.Elbers C，Ridder G.True and spurious duration dependence：the identifiability of the proportional hazard model.Review of Econom ic Studies，1982，49（3）：403-40.

7.SAS Institute Inc.SAS/STAT®9.3 User′s Guide.Cary，NC：SAS Institute Inc，2011.

8.Elbers C，Ridder G.True and spurious duration dependence：the identifiability of the proportional hazard model.Review of Economic Studies，1982，49（3）：403-9.

9.Gail MH，W ieand S，Piantadosi S.Biased estimates of treatment effect in random ized experimentsw ith nonlinear regressions and om itted covariates.Biometrika，1984，71（3）：431-44.

10.Yashin AI，Iachine IA，Begun AZ，etal.Hidden frailty：myths and reality.Research report，2001，34，48 pages.

（责任编辑：郭海强）

安徽省自然科学基金（090413126）

1.皖南医学院预防医学系（241002）

2.南通出入境检验检疫局

△通信作者：姚应水，E-mail：yingshuiyao＠163.com