混合响应类型的多水平模型在重复测量资料中的应用和实现
2013-09-07上海交通大学医学院生物统计学教研室200025张莉娜
上海交通大学医学院生物统计学教研室(200025) 张莉娜
混合响应类型的多水平模型在重复测量资料中的应用和实现
上海交通大学医学院生物统计学教研室(200025) 张莉娜
目的 将混合响应类型的多水平模型应用到具有两个不同类型结局变量的重复测量资料的分析中。方法 对原始资料的格式作适当变换,构造一个水平1虚拟变量,将2个结局变量作为水平1上的观察单位,各时间点的重复测量为水平2单位,受试者为水平3单位,用MLwiN2.25软件拟合混合响应类型的三水平模型,对试验组和对照组的疗效,以及受试者的年龄、性别、观察指标的基线值,时间、组别和时间的交互效应进行分析。结果 该模型在考虑了两个不同类型的结局变量在各个水平上的相关性后,可以对两个结局变量同时进行影响因素分析,获得解释变量对两个结局变量影响的估计,且只要数据缺失随机则估计是有效且无偏的。结论 由于混合响应类型的多水平模型允许结局变量具有不同类型,并且把数据间的相关性分解为重复测量相关性和结局变量间相关性两部分,可有效地进行重复测量资料的动态变化趋势分析,分析结果更为细致。
混合响应类型 重复测量资料 多水平模型 多反应变量模型
在医学研究中,研究者常常感兴趣的结局变量不止一个,各结局变量的类型有可能不同,并且对这些结局变量的测量并非只有一次,如多个时间点重复测量,收集到多个结局变量的重复测量数据。对于上述资料,每个个体除了各个时间点的单变量有相关性外,每次测量的多个结局变量之间也有相关性存在。
对于分析具有两个结局变量,一个结局变量为二分类指标,另一个结局变量为计量指标的重复测量资料,传统的分析思路有两种,一是在各个时间点分别对二分类结局变量拟合多重logistic回归模型,对计量结局变量拟合多重回归模型。该方法孤立看待各时间点的观察值,忽视观察对象在各个时间点的内在联系及内在相关性,且并未考虑两结局变量的相关性。二是把重复测量作为水平1单位,各个受试者作为水平2单位,分别对二分类结局变量进行一元logistic两水平模型回归分析,对计量结局变量进行两水平模型分析。该方法虽然考虑到了单个结局变量在各个时间点的非独立性,但由于把两个结局变量割裂开来单独进行分析从而忽略了两个结局变量之间的相互联系。本文将采用一个实例,用重复测量资料混合响应类型的多水平模型对两个不同类型的结局变量进行同时分析。该模型的优势就在于它允许结局变量存在不同类型,并将随机误差至少可分为两个层次:个体间误差和个体内重复测量间误差。从而对数据间的相关性进行更加细致的分解和研究,将不同变量在不同时间点协同变化的影响以丰富的内容表述出来,其分析结果更加细致和符合实际。
资 料
为了评价某新药治疗慢性乙型病毒性肝炎的有效性,采用多中心、随机、双盲双模拟、阳性药物平行对照的Ⅱ期临床试验,疗程为12周,治疗结束后随访12周。分别在治疗前、治疗4周、治疗8周、治疗12周,治疗结束后2周、4周、8周、12周各个时间点记录各受试者的ALT,并对其进行临床疗效评定(有效或无效)。所有符合试验方案、依从性良好、试验期间未服用禁止用药、完成CRF的病例纳入PP(Per protocol)分析集,由于无效而提前退出的病例也纳入PP分析。本试验的疗效分析用PP分析,共125例受试者进入PP分析集,其中试验组64例,对照组61例。原始资料数据结构见表1,变量编码见表2。
表1 两组慢性乙型病毒性肝炎患者各时间点的ALT和疗效评价情况
方 法
1.数据整理及格式转换
对原始数据库进行整理,将每个受试者只有一个记录的原始数据格式转换成堆迭数据格式,即每个受试者有与各次随访相对应的多个记录。本例有7个时间点,所以每个受试者对应7个记录。再添加一个水平1虚拟变量,将2个结局变量(ALT和临床疗效)作为水平1上的观察单位,用一个因变量表示,作为虚拟1水平单位。各时间点的重复测量为水平2单位,受试者为水平3单位。在添加了一个水平1虚拟变量后,模型中的常数项及每个纳入模型的解释变量都需要2个系数,分别对应于临床疗效和ALT,用上标(1)和(2)表示。即每个解释变量的取值在对应的结局变量上取原始值,在另一个结局变量上取值为0。以编号为1的患者为例,转换后的数据格式见表3。格式转换后的数据库的样本量为原数据库的14倍(每个受试者:7个时间点×2个结局变量)。
表2 原始资料数据库各变量编码及赋值
表3 混合响应类型重复测量资料的多水平模型资料格式
2.模型
模型Ⅰ:设yij表示第j(j=1,…,n)个受试者,第i(i=1,2,…,7)次重复测量的临床疗效,假设临床疗效yij~Binomial(1,πij),考虑组别、性别、中心化年龄、治疗前ALT和时间,并同时考虑组别和时间的交互作用,建立一个以临床疗效为结局变量,以受试者为水平1单位,重复测量为水平2单位的二分类两水平的logistic模型:
模型Ⅱ:设yij表示第j(j=1,2,…,n)个受试者,第i(i=1,2,…,7)次重复测量的 ALT,假设 ALT 为yij~N(XB,Ω),考虑组别、性别、中心化年龄、治疗前ALT和时间,并同时考虑组别和时间的交互作用,建立一个以ALT为结局变量,以受试者为水平1单位,重复测量为水平2单位的两水平的随机系数模型:
模型Ⅲ:设yijk表示第k(k=1,…,n)个受试者,第j(i=1,2,…,7)次重复测量,第i(i=1,2)个结局变量的观察值。假设结局变量临床疗效为yijk~Binomial(1,πijk),结局变量ALT为yzik~N(XB,Ω),考虑组别、性别、中心化年龄、治疗前ALT和时间,并同时考虑组别和时间的交互作用,可以建立一个混合响应类型的三水平模型:
结 果
先用临床疗效作为结局变量做重复测量资料的二分类两水平logistic回归模型(模型Ⅰ),再用ALT作为结局变量做重复测量资料的两水平随机系数模型(模型Ⅱ),再同时对两个结局变量做混合响应类型重复测量资料的多水平模型(模型Ⅲ)。
表4 三个模型的参数估计和检验
表4固定参数部分结果显示:本例模型Ⅰ、模型Ⅱ和模型Ⅲ的结论一致。对于结局指标临床疗效,组别和治疗前的ALT有统计学意义,即试验组的临床疗效优于对照组,且治疗前的ALT值越高,临床疗效越好。对于结局指标ALT,试验组低于对照组,但P值略大于0.05,故组间差异无统计学意义,而时间有统计学意义,即随着疗程的增加,ALT也随之降低。
表4随机参数部分结果显示:由于混合响应类型的多水平模型(模型Ⅲ)同时对两个结局变量进行分析,所以比单反应变量模型(模型Ⅰ、Ⅱ)提供了更多的信息。结果显示:临床疗效和ALT在受试者间的变异都具有统计学意义,且随着病程的延长,ALT下降的速率在受试者间的变异也具有统计学意义。且在平衡了重复测量间的相关后两指标在受试者水平上呈负相关(r=-0.737),相关性有统计学意义。而两指标在时间水平上也呈负相关(r=-0.250),即两指标重复测量间呈负相关,但相关性无统计学意义。
讨 论
在医学临床研究中,分析具有多个结局变量,且各结局变量类型不同的重复测量资料,混合响应类型的多水平模型有其不可替代的优势。该模型不仅能对固定效应进行分析,而且可以将随机误差分解为个体内重复测量误差和个体间误差两部分。既可以获得解释变量对各结局变量影响的有效估计,又在控制了解释变量的影响后能估计各结局变量重复测量之间的相关系数以及在平衡了重复测量间的相关以外各结局变量之间的相关系数,对数据间的相关性进行更加细致的分解和研究,因此比单个反应变量的多水平模型能提供更多的信息。另外虚拟1水平的设立,可以有效地处理当某个体有个别观察结果变量缺失的情况,只要数据缺失随机则估计是有效且无偏的。
1.Goldstein H.Multilevel statistical models(third edition).London:Arnold,2003.
2.Hox J.J.Multilevel Analysis:Techniques and Applications(second edition).Routledge,2010.
3.Rasbash R,et al.A user’s guide to MLwiN.Multilevel Models Project.Institute of Education.University of London,1999.
4.萨建,刘桂芬.双反应变量重复测量资料分析及MIXED过程实现.中国卫生统计,2007,24(6):580-583.
5.王静,刘芳,叶冬青.多反应变量模型在临床实例中的应用研究.现代预防医学,2008,35(4):640-645.
6.于浩,丁红,赵杨,等.临床试验中多个终点变量同时评价的多元logistic 模型.中国卫生统计,2007,24(3):251-254.
7.萨建,刘桂芬.非独立数据的相关性分析.数理医药学杂志,2007,20(6):821-824.
8.杨珉,李晓松.医学和公共卫生研究常用多水平统计模型.北京:北京大学医学出版社,2007,5.
The Application and Implement of Multilevel Model with a Mixture of Response Types for Repeated Measurement Data
Zhang Lina.Department of Biostatistics,Shanghai Jiao Tong University,School of Medicine(200025),Shanghai
ObjectiveTo apply multilevel model with a mixture of response types to analyze the repeated measures data with two different types of outcome variables.MethodsA multilevel model with a mixture of response types was fitted with the different types of the responses at pseudo level 1,repeated measures at level 2 and subject at level 3.The parameters in the model can be estimated by MLwiN software with rearranged data set.ResultsAfter considering of the correlation between the different types of the outcome variables in each level,the model can analysis the influence factors on the two outcome variables simultaneously.The effective estimation of coefficients can be gained and the estimates will be unbiased and efficient so long as the data are missing at random.ConclusionThe multilevel model with a mixture of response types allow a different types of the outcome variables in the model,and cut the correlation between data into two parts in the model:the correlation between multiple repeated measurements of each response variable and the correlation of all the response variables.The model can effectively analyze the dynamic change trend of multivariate repeated measures data,so the analysis results are more detailed.
Mixture of response types;repeated measures data;multilevel model;Multivariate Response Models
(责任编辑:郭海强)