多水平logistic回归模型在血吸虫病流行因素研究中的优越性
2012-03-11杨建洲赵正元文师吾谭红专
杨建洲 赵正元 文师吾 谭红专
血吸虫病是严重危害人民身体健康、阻碍社会经济发展的寄生虫病。虽然血吸虫病感染的直接原因是人们在生产、生活中接触疫水所致,但是影响血吸虫病流行的因素却十分复杂。社会因素、生物因素和自然因素都起着十分重要的作用。以往对这些因素的研究仅局限于对个人或村庄这样单一水平上的研究〔1-3〕,没有考虑到个人和村庄不同层次的存在。此时,仍采用传统的多元回归模型进行分析,可能由于不满足模型的基本假定,而失去参数估计的有效性,损失了数据所蕴含的部分信息,估计的标准误就会变得太小,犯第一类错误的风险就加大了〔4〕。多水平模型将原来单一的随机误差分解到相应的各个水平上,因此具有多个随机误差项并估计相应的残差方差及协方差,构建与数据层次结构相适应的复杂误差结构,极大改善了模型拟合的效果。模型形式上仍有多元回归方程部分,但残差却分解到不同的层次结构〔5〕。
本次研究数据是采用整群抽样调查得到的,数据具有嵌套式结构,个人处于村庄之中。不同村庄水平上的流行因素对村庄内的个体的影响都是一致的,而不同村庄之间又是不同的。所以本次研究应用适用于这种层次结构的多水平logistic回归模型和传统logistic回归分析来比较,探讨多水平模型分析方法在血吸虫病的流行因素研究中的优越性。
资料和方法
1.资料来源 2006年从湖南省2 391个未控制流行村中在分层基础上随机抽取能反映湖南省血吸虫病不同流行类型和程度的16个行政村为本次研究的地区,共调查6岁以上常住居民7 482人。覆盖洲垸型、洲滩型、垸内型、丘陵型四种主要流行类型,也包括一、二、三、四类主要流行程度的村。
2.统计分析 利用两水平logistic回归模型和传统logistic回归模型来分析血吸虫病发生差异在不同层次间的分布,并尝试检验不同层次变量的影响。将所有的数据录入Excel并导入HLM6.4和SPSS 13.0进行两水平模型分析和传统的logistic回归分析。
结 果
1.零模型(null model) 首先进行零模型分析,结果如表1。
表1 零模型效应的估计
结果表明,模型的总变异中27%来自村庄水平,73%来自个人水平。说明村庄水平的影响因素对血吸虫病的发生起到非常重要的作用,这就有必要建立多水平模型来进行分析。
2.多水平模型分析
使用两水平logistic随机截距模型进行多因素分析,在模型无法自动剔除没有意义的变量且全部引入又出现迭代失败的情况下,我们采用逐个引入,多次循环,直至模型中的变量全部有意义为止(α=0.05)的方法,多水平模型方程如下,分析结果见表2。
对于一个随机效应μ0j=0的村庄而言,其血吸虫病感染的对数发生比的期望值是-3.23,那么对应的血吸虫病感染的发生比的期望值是exp(-3.23)=0.0396,对应的血吸虫病的感染率的期望值就是1/[1+exp(3.23)]=0.0381。村庄间变异(τ00)的卡方检验结果表明不同村庄之间差异有统计学意义。计算跨级相关(组内相关系数):
表2 血吸虫病流行因素多水平模型分析结果
在其他条件均为参照组时,也就是性别为女性,年龄在6~岁、职业是其他职业、该村庄无饮用沟塘水的家庭,4月份平均降雨量<100mm、6月份平均温度<27℃地区的人群的血吸虫感染的期望对数比为-5.73,对应的血吸虫病感染的发生比是exp(-5.73)=0.003 25,对应的血吸虫病的感染率1/[1+exp(5.73)]=0.003 24即0.324%(表3)。
表3 最终模型方差分析表
根据以上公式可知,水平2村庄间变异的总方差被解释了58.20%。
3.传统logistic回归分析与多水平模型分析结果的比较
对单因素分析有意义的变量,使用传统的logistic回归进行多因素分析,采用逐步前进法,以0.05作为引入变量的显著性水准,0.10作为剔除变量的显著性水准。多水平模型分析得出的有意义的变量在logistic回归分析中均有意义,但在logistic回归分析中有意义的几个变量,如人均收入、无害化厕所比例,却没有进入多水平模型方程。并且,在logistic回归分析中OR值的95%可信区间较多水平模型的结果都小。
讨 论
传统方法由于不能在模型中分解出各层次的误差,即不能区分村庄之间和个体之间的误差,而不能提供该部分的层次结构信息,对资料的分析可能造成不真实的结果,加之本次研究的流行因素主要来自村庄水平,因此使用多水平模型来分析是可行的。最终模型对水平2(村庄水平)的总方差被解释了58.20%,说明这些影响血吸虫病流行的村级因素纳入模型很有必要。
多水平logistic模型在处理具有层次结构数据时,考虑了数据间的相关性,能够分析固定效应和随机效应,对研究因素可做出准确的估计和假设检验。另外,多水平logistic模型分析包含的水平是群体所有水平中的随机样本,因此分析结果对应的是整个群体的水平,而不只是当前研究中的抽样水平。传统logistic回归模型只能研究个体层面的信息和其固定效应,无法分析组群方面信息,当数据存在层次结构时对于结果不能给出合理的解释。而且分析包含的水平,就是整个群体的水平,因此分析结果只是对应于当前研究中的因子水平。因此,在分析具有层次结构的数据时是否需用多水平模型进行分析,首先要看其组内相关性的大小(是否存在组内聚集性)和是否是随机抽样的样本(是否对总体进行推论),如果不存在数据聚集性或者不是随机样本,则用一般统计模型就可以了。
本研究通过对传统单一水平的logistic回归和多水平模型的结果比较发现,单一水平的logistic回归由于没有考虑到数据层次间的差异和数据在高水平上的聚集性,过高地估计了某些变量的作用,增大了犯Ⅰ类错误的概率,错误地提高了置信区间的水平。也就是说把一些本来没有统计学意义的因素,得出了有意义的结论。这更加说明了对于具有层次结构的数据,应当考虑到高水平单位的聚集性,使用多水平的分析方法,以得出更准确、更符合实际的结论〔6〕。
多水平模型研究和发展的历史还不长,已经广泛应用于教育学、经济学、社会学等领域〔7-8〕,在医学特别是流行病学中应用前景也十分广阔〔9-10〕。大量的流行病学研究资料都是具有层次结构的数据,使用多水平模型进行研究,不仅能对资料作出正确的分析,得出合理的结论,而且能够大大促进多水平分析方法的发展,丰富流行病学的研究方法。
1.Yi XH,Manderson L.The social and economic context and determinants of schistosomiasis japonica.Acta tropica,2005,96:223-231.
2.伍卫平,林丹丹,胡飞,等.应用多元回归分析鄱阳湖区影响日本血吸虫病传播的因素.中国寄生虫学与寄生虫病杂志,2003,21(3):164-166.
3.陈朝,周晓农,姚振涛,等.血吸虫病人群感染危险因素空间关系分析.中国血吸虫病杂志,2005,17(5):324-327.
4.Goldstein H.Multilevel Statistical Models.2nd.New York:John Wiley,1995.
5.李晓松,等译.多水平分析模型.四川科学技术出版社,2000:24-30.
6.Barbara H.Public Health Application Comparing Multilevel Analysis with logistic Regression Immunization Coverage among Long-Term Care Facility Residents.AEP,2005,15(10):749-755.
7.Jin X.Determinants of salary growth in Shenzhen,China:an analysis of formal education,on-the-job training,and adult education with a threelevel model.Economics of Education Review,2002,21:557-557.
8.Poelmans S,Sahibzada K.A multi-level model for studying the context and impact of work-family policies and culture in organizations.Human Resource Management Review,2004,14:409-431.
9.叶冬仙,李明伏,谢冬华,等.湖南省剖宫产率影响因素的多水平模型分析.中国卫生统计,2010,27(4):341-344.
10.徐倩倩,胡云,俞华,等.不同地区已婚育龄妇女生殖道感染及其多水平影响因素分析.中国卫生统计,2011,28(3):240-243.