潜在类别分析在出生缺陷高危人群识别中的应用*

2016-10-26山西医科大学公共卫生学院流行病与卫生统计教研室030001

中国卫生统计 2016年4期

关键词：缺陷率类别概率

山西医科大学公共卫生学院流行病与卫生统计教研室(030001)

李　金　刘小琴　曹红艳　张岩波△

潜在类别分析在出生缺陷高危人群识别中的应用*

山西医科大学公共卫生学院流行病与卫生统计教研室(030001)

李金刘小琴曹红艳张岩波△

【提要】目的应用潜在类别分析(latent class analysis，LCA)对具有不同出生缺陷相关因素分布特征的人群进行分类，识别出出生缺陷高危人群，为采取有重点、有针对性的干预措施提供依据。方法选取近亲结婚、亲属缺陷儿、自然流产史、既往缺陷儿、孕期发热、孕期感冒、居住地存在污染源、孕期用药、育龄9个出生缺陷相关因素作为显变量，进行潜在类别分析，识别出潜在类别，进而对人群进行分类。结果当潜在类别数目为4时模型拟合最佳，依据各因素在4个潜在类别中的条件概率的分布特征，将类别1～类别4分别命名为：一般人群组、家族缺陷史组、孕期感冒发热组、单纯用药组。对个体进行聚类后，4类人群的出生缺陷率比较，χ2值为3099.254，P<0.001。不同潜在类别人群缺陷率有差别。家族缺陷史组(73.7%)，感冒发热组(3.8%)，单纯用药组(2.5%)，一般人群组(1.0%)缺陷率依次降低，其中家族缺陷史组缺陷率最高，提示家族缺陷史组人群为出生缺陷高危人群，应该有重点有针对地进行干预。结论潜在类别分析可以应用于出生缺陷高危人群识别中。依据各因素在潜在类别中的条件概率的分布特征进行人群的分型，通过比较不同类别人群的缺陷率的差异，识别出生缺陷高危人群，揭示出生缺陷预防的重点人群和内容，为制定出生缺陷预防措施提供依据。

潜在类别模型出生缺陷出生缺陷危险因素

出生缺陷(birth defect,BD)也称先天畸形,是指婴儿出生前的身体结构由于各种因素的作用,引起的胚胎或胎儿在发育过程中发生的解剖学结构或功能上的异常改变。出生缺陷不仅带给孩子痛苦、给家庭带来严重的负担,也是公共卫生问题,影响经济发展和人们正常生活。我国是出生缺陷的高发国家之一,而山西省更是我国出生缺陷的高发省份之一[1]。因此,以山西省出生缺陷高发地区为研究地点,以出生缺陷危险因素在人群分布特征为研究重点,揭示人群出生缺陷危险因素的分布特征,对制定出生缺陷防控干预策略和提高人口质量具有重要意义。出生缺陷危险因素涉及广泛，各种研究指标呈现复杂且具有“高维度”的特点,同时各指标间可能存在相关性,对这些因素进行的研究,不仅涉及单个变量的效应,也包括一组相关变量的整体效应。现有对出生缺陷的研究更多侧重于危险因素的单独效应，而较少关注相关因素之间的局部独立效应。潜在类别分析是探讨存在统计学关联的分类外显变量背后的类别潜变量的一种统计学技术。较之传统方法独具优势,它既能针对分类变量进行分析，弥补了传统聚类分析仅能处理连续变量的缺陷，又能反映单变量效应或一组相关变量的整体效应,达到“降维”的效果[2-4]。通过对出生缺陷危险因素进行潜在类别分析，将具有不同缺陷因素分布特征的人群分型，识别出出生缺陷高危人群，从而采取有针对性的措施，对出生缺陷的控制与预防具有重要的意义。本研究将潜在类别分析方法应用于出生缺陷高危人群识别中，通过对具有不同出生缺陷相关因素分布特征的人群进行分类，进一步分析具有不同群组人群的出生缺陷率的差异，识别出出生缺陷高危人群，揭示出生缺陷预防的重点人群和内容，为针对性地制定预防措施提供依据。现将研究结果报告如下。

资料与方法

1.数据来源

研究资料来源于山西医科大学科研基地——山西省计生委科研所出生缺陷监测基地。调查对象为2006年1月1日-2008年12月31日山西省平定县、代县、纷阳市、怀仁县、中阳县、交口县6个县(市)所有的出生儿母亲及其家属。本次调查共回收调查问卷36917份,其中有效问卷36716份,有效问卷率达99.46%。

2.研究因素

本研究基于山西省六县市出生缺陷情况调查表的调查结果,同时查阅相关文献找出出生缺陷人群的危险因素[5-6],对各因素与缺陷结果进行单因素卡方检验,选取关联性由大到小排序的前9个因素选入模型进行分析,9个因素详见表1。

表1　研究因素赋值方法

3.统计方法

(1) 潜在类别分析的基本模型

潜在类别模型包括潜在类别概率(latent class probabilities)和条件概率(conditional probabilities)两种类型参数。假设有三个外显变量A、B、C，其水平数分别为I、J、K，且其彼此之间不相互独立。若存在某一具有T个潜类别的潜变量X，该变量不仅可以解释A、B、C三者间的关系，而且在X的每个类别中可维持A、B、C这三个外显变量的局部独立性，即为潜在类别分析，则其基本的潜在类别模型为:

(1)

(2) 参数估计

潜在类别分析主要采用极大似然法(maximum likelihood,ML)进行参数估计,其迭代过程中常用的算法有最大期望法(expectation-maximization，EM)、牛顿-拉普森(Newton-Raphson，NR)和Fisher计分法等,其中以EM算法最为常用。

(3) 模型评价

模型评价的主要工作就是找出包含较少参数、简洁，又具有较好拟合优度的模型。现得到广泛使用的评价指标有：Pearsonχ2值、似然比χ2值、Akaike信息准则(AIC)和Baysian信息准则(BIC)等。其中Pearsonχ2值和似然比χ2值所对应的P值大于0.05，表明模型拟合得好；AIC 和BIC 统计量值越小，则意味着模型拟合得越好。有研究指出当样本量以数千计时BIC 指标更可靠，否则AIC 更佳[7]。

(4) 个体的潜在分类

在确定模型后，需要将各观察值分类到适当的潜在类别当中，以说明观察值的后验类别属性，即潜在聚类分析。潜在聚类分析是在一定的概率模型之下，利用估计所得的潜类别概率和潜类别中各外显变量的条件概率计算每种外显变量组合分类到各潜类别的后验概率，然后依据后验概率的大小决定该组合的个体应归入的潜类别。后验概率的计算公式为：

(2)

(5) 统计分析软件

本研究的潜在类别分析采用Mplus 5.1软件，其他统计学分析采用SPSS17.0软件完成。

结　　果

1.模型拟合结果

表2列出了9个模型的分析结果，可以看出随着类别数目的增多，Pearsonχ2值和似然比卡方(G2)值逐渐减小。BIC值在模型1-cluster到模型4-cluster依次下降，从模型5-cluster又开始逐步上升。本研究调查样本n=36716,属于大样本，所以模型拟合指标以BIC为主，故选取模型4-cluster为最佳模型。

表2　不同类别数的模型的拟合指标

2.参数估计结果及类别的命名

以潜在类别数目为4作为最优模型,进一步获得模型的参数估计结果,即各出生缺陷相关因素在4个潜在类别上的条件概率与潜在类别概率,如表3。

表3　各因素在四个潜在类别上的条件概率与潜在类别概率

从条件概率来看，类别1在9个危险因素中回答“无”的条件概率均远远高于回答“有”的概率，可见类别1中不存在明显的危险因素分布特征，可将类别1命名为：一般人群组；类别2在亲属缺陷儿、既往缺陷儿两个危险因素回答“有”的条件概率分别为0.559、0.727，明显高于其他3个类别，故可将类别2命名为：家族遗传史组；类别3在孕期发热、孕期感冒两个危险因素回答“有”的条件概率均为1.000，明显高于在其他3个类别中的条件概率，故可将此类别命名为：孕期感冒发热组；类别4中，孕期用药因素回答“有”的条件概率为0.631，在四个类别中最大，而在其它8个危险因素回答“无”的条件概率均远高于回答“有”的概率，故可将类别4命名为：单纯用药组。

从潜在类别概率来看，类别1到类别4的潜在类别概率分别为0.85169，0.00312，0.01536和0.12983，总和为1，其中类别1所占比重最大。

3.分类结果

潜在聚类分析是潜在类别分析的最后一步，即利用潜在类别概率和条件概率计算每个个体分类到各潜类别的后验概率，见公式(2)，然后依据后验概率的大小决定该组合的个体应归入的潜类别。举例如表4。

表4　潜在类别分析的分类结果举例

表4列出了样本的前9个个体分类的结果,以第一个个体{000101010}为例,被分到第一个潜在类别的概率为0.005,被分到第二个潜在类别的概率为0.077,被分到第三个潜在类别的概率为0.000，被分到第四个潜在类别的概率为0.918，被分到第四个潜在类别的概率最高，所以被分到第四类别——单纯用药组中。同理我们也可以把其他的危险因素组合分到相应的潜变量类别中。分类结果：一般人群组32043人，家族缺陷史组76人，孕期感冒发热组650人，单纯用药组3947人。

4.四组潜在类别人群缺陷率比较

表5　各潜在类别人群缺陷率比较

经卡方检验，χ2=3099.254，P<0.001。不同潜在类别人群缺陷率有差别。经多个实验组间的两两比较卡方检验，α=0.007，其中家族缺陷史组、孕期感冒发热组、单纯用药组与一般人群组之间的卡方检验P值均小于0.001，可以认为家族缺陷史组、孕期感冒发热组、单纯用药组的缺陷率高于一般人群组；家族遗传史组与一般人群组、孕期感冒发热组、单纯用药组之间的卡方检验P值均小于0.001，可以认为家族缺陷史组缺陷率高于一般人群组、孕期感冒发热组和单纯用药组。家族缺陷史组缺陷率高达73.7%，提示家族遗传史组为出生缺陷儿发生高危人群，应该成为出生缺陷预防的重点干预对象。

讨　　论

针对出生缺陷人群调查数据“异质性,高维度,关系复杂和变量属性不同”的特点,传统统计方法仅关注于危险因素的单独效应,而忽略相关危险因素的整体效应，显得略有不足。因此,本文采用潜在类别模型,以山西省出生缺陷高发地区的人群调查为例,研究各类影响因素在人群分布特征的分型,找出多个危险因素的潜在类别，提取多个危险因素的综合效应，实现了出生缺陷高危人群的异质性分类，为出生缺陷病因学研究提供理论依据,并为下一步制定出生缺陷防控干预策略提供方法支持。

出生缺陷的预防主要分三级。一级预防主要是危险因素的消除与避免接触，二级预防主要是早发现、早诊断，主要通过孕期检查来实现。这两级预防如果不采取有重点，分人群的针对性干预方案，一方面会导致人群的接受度与执行效率的低下，另一方面，会大大增加甚至是浪费人力、物力与财力，最终缺陷率的降低也不一定明显。本文采用潜在类别分析，将人群分为：家族缺陷史组、孕期感冒发热组、单纯用药组与一般人群组。进而可针对具有不同出生缺陷相关因素分布特征的人群进行针对性的干预措施，这样,措施与人群具有的危险因素相符，会大大增加人群对干预措施的接受度，同时节省人力、物力和财力。家族缺陷史组人群(具有既往缺陷儿与亲属缺陷儿危险因素为特征的人群)是出生缺陷的高危人群，针对这类人群，地方的计生医学部门可以残疾儿童父母或亲属的再生育审批工作为出发点，寻找到遗传疾病高发人群，组织专家对曾生育过缺陷儿计划再生育的夫妻和亲属有过出生缺陷儿的夫妻进行缺陷再发风险详细分析研究，指导应避免接触相关危险因素和如何去消除或避免出生缺陷的发生，从根本上杜绝出生缺陷的可能。另一方面，针对此类高危人群进行孕前出生缺陷监测、实验室检查和孕期的排畸检查。减少高危人群缺陷的发生率，就能有效地降低总缺陷率的发生。孕期感冒发热组与单纯用药组人群缺陷率均高于一般人群组，所以孕期感冒、发热与孕期用药危险因素的针对干预应该引起重视。可对孕前妇女进行孕前教育与指导，指导其健康生活，提高免疫，降低孕期的感冒、发热和其他疾病的发生。如果患病，若能凭抵抗力自愈的话，应避免用药。如必须用药，则应该在医师指导下谨慎安全用药。

潜在类别分析是探讨存在统计学关联的分类外显变量背后的类别潜变量的一种统计学技术。较之传统方法独具优势,它能针对分类变量进行分析，弥补了传统聚类分析仅能处理连续变量的缺陷；能反映单变量效应或一组相关变量的整体效应。本文应用潜在类别分析，依据出生缺陷危险因素分布特征的不同，实现了人群的分类和高危人群的识别，为出生缺陷的预防与干预策略制定提供依据与思路。本次调查数据仅仅涉及山西省出生缺陷高发的六县(市)三年的相关数据,因此论文中给出的潜变量分类结果不一定能全面反映出全省乃至全国出生缺陷人群高危特征分布的特点。另外，在参数估计结果中，近亲结婚、自然流产史、周边污染源、育龄四个因素在四个潜在类别之间的条件概率差异不明显，可能是因为选取的9个因素之间相关性不是很强。

结合目前有关育龄妇女的信息采集电子化，预防工作者可利用LCA对高危地区人群进行分类，依据人群出生缺陷相关因素分布特征进行有针对性地干预，有效减低出生缺陷发生率。

[1]中华人民共和国卫生部.中国出生缺陷防治报告2012.www.moh.gov.cn.

[2]张岩波.潜变量分析.北京:高等教育出版社,2009:220-246.

[3]邱唯政.潜在类别模型的原理与技术.北京:教育科学出版社,2008:14-86.

[4]曾宪华，肖琳，张岩波.潜在类别分析原理及实例分析.中国卫生统计，2013，30(6)：815-817.

[5]郭兴萍，王裕，宋春英，等.山西省 6县(市)出生缺陷发生相关因素分析.中国计划生育学杂志，2011，19(6)：342-346.

[6]贺亚琴，郑玉华，王晓成，等.出生缺陷影响因素的meta分析.中国计划生育学杂志，2012，20(4):233-236.

[7]Lin TH，Dayton CM.Model selection information criteria for non-nestedlatent class models.Journal of Education and Behavioral Statistics，1997，22(3):249-264.

(责任编辑：刘壮)

Application of Latent Class Analysis in the Identification of High-risk Population in Birth Defects

Li Jin,Liu Xiaoqin,Cao Hongyan,et al.

(Shanxi Medical University(030001),Taiyuan)

ObjectiveThis topic expect to identify the high-risk population in birth defects,by classifing the people with different distribution characteristics of risk factors of birth defects,applicating the latent class analysis(LCA),and to provide decision support for birth defects prevention and treatment.MethodsLatent class analysis was used to identify the latent class and classify the population with different distribution characteristics of risk factors for birth defect on the basis of nine key indicator variables:intermarriage,abnormal child-bearing of relatives,history of natural abortion,abnormal child-bearing history,catching a cold during pregnancy,fever during pregnancy,environment pollution resources near residence，drug use during pregnancy,mother′s child-bearing age.Then chi-square test was used to compare the rate of birth defects of different types of mothers and identify the high-risk groups of birth defects.ResultsPopulation of risk factors for birth defects could be divided into four types which were named:family heredity history group(the mothers were mainly characterized by abnormal child-bearing history and relatives having a baby with birth defect)，cold and fevers group(the mothers were mainly characterized by catching a cold and having a fever during pregnancy)，medication group(the mothers were mainly characterized by taking medicine during pregnancy)，and general group(the mothers did not have distinct distribution characteristics of risk factors).The rate of birth defects of different types of mothers were as follows:family heredity history group(73.7%);cold and fevers group(3.8%);medication group(2.5%);general group(1.0%),and the difference was statistically significant(χ2=3099.254，P<0.001).We could find that the family heredity history group had a highest rate of birth defects,so the family heredity history group was the high-risk population in birth defects.ConclusionLatent class model can be used to classify the population basis on the different distribution characteristics of risk factors and identify the high-risk population in birth defects,which indicate the main contents and the most important tasks in birth defects prevention and provide decision support for birth defects prevention and treatment.

Latent class analysis;Birth defects;Risk factors of birth defects

张岩波，E-mail:sxmuzyb@126.com

*:国家自然科学基金资助项目(71403156)