利用SPSS软件中M ixed model模块处理致畸试验中窝别效应
2014-03-10凤张晋昕唐小江
周 凤张晋昕唐小江
利用SPSS软件中M ixed model模块处理致畸试验中窝别效应
周 凤1,2张晋昕1,△唐小江2
目的探讨致畸试验中由于窝别效应存在时,如何利用SPSS软件正确地进行统计处理。方法本文运用SPSS 20.0软件分别采用传统分析方法(忽略窝别效应的t检验或χ2检验、窝平均法)与多水平模型处理致畸试验中窝别效应,其中包括定量变量及定性变量的统计分析,并比较其结果。结果传统分析方法(t检验或χ2检验)未考虑窝别效应的存在,会增加犯假阳性错误的概率;窝平均法可损失样本的大量信息,会增加犯假阴性错误的概率;多水平模型考虑原始数据的内在结构,可有效处理具有层次结构的数据。结论多水平模型可正确处理窝别效应,且SPSS软件中M ixed model过程操作简单,易于掌握。
致畸试验 窝别效应 多水平模型 SPSS
致畸试验又称胚体-胎体毒性试验,是三段生殖毒性试验中的第Ⅱ阶段,它通过动物实验评价母体自胚泡着床到硬腭闭合期间接触受试物对妊娠雌体及胚胎-胎体发育的影响[1]。我国主管部门和有关管理机构已把致畸试验列为食品添加剂、保健食品、农药、新药、化妆品以及首次进口化学品的安全性评价程序中不可或缺的项目[2]。
由于遗传因素、宫内发育环境、致畸物的代谢环境等的相似性,导致了同窝胎仔之间的非独立性,即存在窝别效应,统计分析中应考虑这个效应。研究者如果不能对仔体数据进行正确的统计分析,就可能导致得出有偏甚至错误的结论。卫生部于2003年9月颁布GB 15193.14-2003《致畸试验》[3],但对数据处理的说明较为含糊,难以切实指导实验者重视此问题。甘卉芳等[2]探讨了常规致畸试验及其结果判定的规范化问题,但并未提出如何进行规范的统计分析。王炳顺等[4]采用了广义估计方程处理致畸试验窝效应并采用SUDAAN软件实现其分析过程,但多数医学研究者并不了解SUDAAN软件,导致其推广受限。以“致畸试验”作为主题词,检索关于“致畸试验”的期刊论文,发现其中大部分的研究者或对其统计分析方法含糊其辞,或采用“常规统计分析方法(方差分析或χ2检验)”来处理致畸试验中的“非常规数据”(存在窝别效应)。统计学方法的误用势必导致结果的可靠性降低。
目前可处理此类具有聚集性数据的方法有广义估计方程(generalized estimation equations,GEE)、多水平模型(multi-level model)、混合效应模型(mixed effectsmodel)等,可采用多种软件完成统计分析过程,如SAS、R、MLw in、Stata等,不同的软件在拟合模型时所用的模型估计方法和计算机算法有所差别,使得模型结果略有不同。本文探讨采用多水平模型对致畸试验仔体数据中窝别效应进行统计处理,并介绍应用广泛且易于操作的SPSS 20.0软件的实现过程,以期为正确处理致畸试验数据提供参考。
问题背景
1.观察指标
致畸试验中,常用孕鼠作试验对象,将其随机分为两组或多组,分别给予可疑致畸物及对照处理,待分娩后,观察每个孕鼠及所产子代中发生畸形的情况。主要的观察指标包括两部分,一是对母体的观察:体重变化、中毒症状、黄体数、着床数(率)、吸收胎数(率)、早死胎数(率)、晚死胎数(率)和活胎数(率)、胎盘重量等;二是对仔体的观察:性别、体重、身长、外观畸形、内脏畸形、骨骼畸形和发育(骨化)情况等。
对于母体的观察指标,由于各孕鼠间独立,故采用常规的统计分析方法即可。而对于仔体的观察指标,由于窝别效应的存在,同一窝别的仔鼠的体重、发生畸形的概率趋于相同,而不同窝别仔鼠的体重、发生畸形的概率则趋于不同。这类资料的特点是存在层次结构,即孕鼠-仔鼠。传统的方差分析或χ2检验忽略了数据层次结构的特征,可能导致错误的结论。多水平模型是处理这种具有聚集性资料的简单且有效的统计分析方法[5]。胎仔体重是仔鼠发育的一个重要指标,而“是否畸形”是判断受试物致畸性的主要指标。本文以上述两个指标为例,分别介绍两水平模型、两水平logistic模型处理致畸试验中具有窝别效应的定量资料及定性资料。
2.两水平模型原理
多水平模型是英国教育统计学家H.Goldstein于1986年提出,专门用于处理多层次或多水平结构的资料[6]。致畸试验的数据具有明显的层次结构,母鼠为2水平单位(level-2 unit),仔鼠为1水平单位(level-1 unit)。
(1)定量资料的两水平模型
考虑一个简单的2水平模型,结局变量为连续型随机变量,且服从正态分布,只包含一个解释变量,则
故上述2水平模型又可表示为yij=β0+β1x+(u0j+u1j+εij),该模型由两部分组成:固定部分和随机部分。致畸试验中解释变量为组别(group),不考虑解释变量的随机效应,故模型变为
(2)二分类定性资料的两水平logistic模型
实际工作中结局变量为定性变量的情况不在少数,如是否发病、药物是否有效、仔鼠是否有畸形等,此时,一般的线性模型不再适用。广义线性模型(generalized linearmodel,GLM)被广泛应用于定性结局变量的数据处理,通过非线性函数(non-linear link function)将反应变量与线性预测指标联系起来。对于logistic回归模型,选择的连接函数为logit函数,即对结局变量进行logit变换,含有一个解释变量的logistic回归模型可表示如下形式:
多水平模型也可以推广到非正态情形。致畸试验中模型为
实例分析及SPSS实现
下面结合实例来说明如何通过专业统计软件SPSS实现分析过程。在研究某化学物质的致畸试验中,将26只孕鼠随机分为对照组和实验组,实验组在孕早期每天给予一定剂量的受试物,对照组给予等量的蒸馏水。待孕鼠分娩后,测量仔鼠体重并且观察仔鼠某种畸形的发生数。
现在要比较实验组和对照组仔鼠的发育情况(体重作为测量指标)以及两组的仔鼠畸形发生率。如果忽略窝别效应,直接进行两组的比较,如文献中常采用的t检验或χ2检验,结果见表1。结果显示实验组仔鼠与对照组相比,体重和畸形发生率差异均有统计学意义(P<0.05),且实验组体重较低,畸形发生率较高。提示受试物可影响胎鼠的生长发育,亦可提高胎鼠的畸形发生率。
表1 忽略窝别效应的统计分析结果
《致畸试验(GB 15193.14-2003)》中指出“胎鼠身长、体重、窝平均活胎数、子宫连胎重量用t检验,胎鼠的数据以窝为单位进行统计。”这种方法可称之为“窝平均法”,将每个孕鼠作为试验单位,各指标以每窝均数为基础来进行统计。如对于仔鼠体重,可先计算每窝胎鼠的平均体重,再进行t检验;对于畸形发生率,将每窝比率作平方根反正弦变换后作t检验。结果见表2。结果显示与忽略窝别效应时的结论相反,实验组与对照组的体重和畸形发生率差异无统计学意义(P>0.05)。
表2 “窝平均法”的统计分析结果
考虑致畸试验中仔鼠数据的层次特征,即窝别效应,现采用两水平模型进行分析。检验结果见表3。SPSS操作过程见表4。对于体重来讲,水平2单位(不同孕鼠间)的随机效应残差(即窝别效应)方差为0.1656,标准误为0.0559,Wald检验结果χ2=8.961,P<0.001,认为不同窝别的仔鼠体重总体均数是不同的,即存在“窝别效应”。同样,对于畸形发生率来讲,水平2单位(不同孕鼠间)的随机效应残差(即窝别效应)Z检验结果Z=2.212,P=0.027<0.05,亦存在“窝别效应”。故采用两水平模型是合适的。在考虑了“窝别效应”后,体重及畸形发生率在不同组间的差异均无统计学意义(P>0.05)。因此,尚不能认为该受试物会影响仔鼠的生长发育或导致仔鼠畸形发生增加。
表3 两水平模型的统计分析结果
表4 SPSS软件处理传统致畸试验中仔体资料的操作过程
讨 论
1.由以上结果可以看出,将每个仔鼠作为试验单位,忽略窝别效应,简单采用传统的分析方法t检验或χ2检验是不对的,最终会导致统计推断结论的偏倚。由于同一孕鼠所产m个胎仔之间不独立,其提供的信息远远小于m个来自不同孕鼠所产胎仔的观测值所提供的信息。窝别效应存在时,均数的标准误是要比独立数据的标准误大,因此,当用传统方法计算时,会增加犯假阳性的概率。如本文实例中所呈现的情形。
2.窝平均法是将孕鼠作为分析的基本单元,将个体水平的信息整合到群体水平,这样的做法会低估个体水平的变异,损失了大量样本数据的信息。而且由于孕鼠水平的观察单位数通常较少,样本含量较小,检验效能降低,导致参数估计和统计推断的不可靠,增加犯假阴性的概率。因此,窝平均法在致畸试验中的应用也不合适。
3.多水平模型是专门用于处理具有多层次或多水平结构资料的分析方法,针对定量资料和定性资料均有相应的模型进行统计分析。目前,已有多种统计分析软件可实现多水平模型的分析,如MLw iN是用于多水平分析的专用软件,SAS的M IXED、Glimmix、Nlmixed过程亦可拟合多水平结构的线性或广义线性模型,Stata统计软件亦有相应指令。但在实际工作中,研究者或对多水平模型不了解,或对统计软件不熟悉,或对复杂的编程望而生畏,从而制约了聚集性数据统计分析方法的实际应用。本文中介绍的SPSS软件操作相对简单,结果读取清晰明了,对多数医学研究者来说易于掌握。
1.王心如,周宗灿.毒理学基础.人民卫生出版社,2007.
2.甘卉芳,李百祥,刚葆琪.常规致畸试验及其结果判定的规范化问题.中华预防医学杂志,2002(2):59-61.
3.中华人民共和国卫生部.GB 15193.14-2003致畸试验.2003.
4.王炳顺,宫丽崑,高尔生等.常规致畸试验窝效应的统计处理及统计软件实现.中国卫生统计,2003(4):10-13.
5.杨珉,李晓松.医学和公共卫生研究常用多水平统计模型.北京大学医学出版社,2007.
6.饶克勤.卫生统计方法与应用进展.第2卷.人民卫生出版社,2008.
(责任编辑:郭海强)
1.中山大学公共卫生学院(510080)
2.广东省医学实验动物中心(528248)
△通信作者:张晋昕,E-mail:zhjinx@mail.sysu.edu.cn