APP下载

模糊聚类和logistic回归对试管婴儿成功因素的分析研究*

2015-03-09宁波大红鹰学院315175杨海琼

中国卫生统计 2015年2期
关键词:试管婴儿贡献输卵管

宁波大红鹰学院(315175) 徐 颖 杨海琼 王 水

模糊聚类和logistic回归对试管婴儿成功因素的分析研究*

宁波大红鹰学院(315175) 徐 颖 杨海琼 王 水△

目的分析影响试管婴儿成功率的关键因素,评价关键因素的相对重要性。方法通过采集试管婴儿医疗数据,确定影响因素并进行离散化,建立了妊娠结果对影响因素的logistic回归模型。运用优势分析法定量评价关键因素的相对重要性。最后对所有样本进行加权模糊聚类,分为普通和高危两组患者并比较两组医学特征的异同。结果对logistic回归模型进行统计学假设检验,得到年龄、移植胚胎数、促排卵药物(Gn)总量、输卵管和卵巢为影响成功率的关键因素。其重要性顺序依次为:移植胚胎数、年龄、促排卵药物(Gn)总量、输卵管和卵巢。对聚类数据进行统计学假设检验,得到两组患者在不孕状态、子宫和卵巢方面差异具有统计学意义,在盆腔、输卵管、子宫内膜异位和精子质量方面差异不具有统计学意义。结论logistic回归模型适用于分析影响试管婴儿成功率的关键因素。

试管婴儿 logistic回归模型 模糊聚类

据国家权威部门统计,我国目前约有超过4千万不孕不育症患者,并且每年仍呈增长趋势。治疗和解决不孕不育症已成为具有重要社会意义的课题。试管婴儿技术的出现,为千万不孕不育夫妇带来希望和福音,但其20%~30%的成功率已成为制约其发展的瓶颈[1]。国外侧重于从生理、病理的角度对试管婴儿技术进行实验性研究,探索改进成效的生物化学技术,并取得了实质性进展[2-3]。国内在试管婴儿技术的研究起步较晚,在继承国外研究思路和理念的同时,也发展出通过中医治疗来提高试管婴儿的成功率[4]。

综上,国内外侧重于从生理、病理角度对试管婴儿技术进行实验性研究和定性探索。然而试管婴儿的成功率受到各种因素的影响,如患者年龄、精子质量等,纯医学实验性定性分析或单因素定量研究难以把握各种不孕因素对成功率的综合影响。本文采用logistic回归模型和模糊聚类等多元统计分析技术,在全面考虑各种影响因素的基础上,客观、定量地分析影响成功率的关键因素,得出具有临床意义的指导意见。

logistic回归模型的建立

本文的原始资料来源于某市级妇儿医院,收集了2010年和2011年进行试管婴儿培育的1588份样本数据。采用SPSS 19.0软件包进行统计分析。

1.确定影响因素,数据预处理

经由医学专业人员指定,将女性年龄、不孕年限等12个影响因素进入logistic回归模型。将影响因素离散化,根据自变量的对数优势比具有线性关系的要求,转化为相应的分类变量,如表1所示。

表1 数据预处理

2.建立logistic回归模型

设X=(X1,X2,…,X12)表示Logistic回归模型的自变量,妊娠结果为因变量Y,其中Y=1表示妊娠失败,Y=0表示妊娠成功。采用向后步进似然比方法筛选变量,其中变量进入的统计学检验水平为0.05,变量删除的统计学检验水平为0.1。经8次变量筛选后,得到最终进入模型的自变量的各指标。如表2所示。

表2 回归模型中各参数取值

从表2可知,进入回归模型的自变量分别是年龄(X1)、输卵管(X4)、卵巢(X8)、Gn总量(X10)和移植胚胎数(X12),其统计学检验P值均小于0.1。

从表6可以看出,上海大型赛事的选择与对标城市伦敦、纽约、东京、巴黎和墨尔本有着较高的一致性,其中网球、F1、田径、高尔夫、马拉松是上述城市都比较青睐的赛事项目。此外,对标城市都有举办具有本国特色的赛事项目,如伦敦举办的皮划艇、橄榄球,纽约的印地赛车、篮球,东京的棒球、柔道,巴黎的自行车,墨尔本的板球等都是具有民族特色的赛事品牌。上海的斯诺克赛事虽然属于级别较高的国际性赛事,但尚处于小众的赛事项目,项目特性也与上海城市文化不太紧密。

由此建立logistic回归模型为:

其中,p为妊娠失败的概率。模型经Chi-Square检验,得到χ2=60.339,df=5,统计学检验P值<0.05,表明回归方程有统计学意义。

本文将妊娠失败概率对成功概率的比值记为失败风险。在其他变量取值不变的情况下,变量Xj的两个水平C1与C2(C2>C1)相对应的失败风险之比为:

从表2可知,在其他变量取值不变的情况下:年龄每增加一个水平,失败风险是增加前的1.605倍。输卵管异常是正常水平失败风险的1.221倍。卵巢异常是正常水平失败风险的1.248倍。Gn总量每增加一个水平,失败风险是增加前的1.203倍。移植胚胎数每增加一个,失败风险是增加前的0.47倍。

关键因素的相对重要性分析

相对重要性定义为每个自变量对于总变异的可解释方差比例,包括自变量对因变量的独自效应和联合模型中其他自变量的共同效应[12]。本文运用优势分析法进行自变量重要性评价,采用以下两个指标计算每个自变量的贡献量。

其中,L0为只含截距项的模型的似然函数值,Lm为包含截距项和自变量的模型的似然函数值。n为样本量。

通过计算和比较与某自变量有关的所有可能子模型的平均贡献增量ΔR2,以评价该自变量的相对重要性。得到每个自变量的总平均贡献后,每个总平均贡献在总平均贡献之和的比例即为该自变量的相对重要性。表3、表4给出分别采用指标计算回归模型中每个自变量对妊娠结果的相对贡献。当K=j(j=0,1,2,3,4)时,某个自变量的增值贡献表示当该自变量加入到已包含第j个自变量的logistic回归模型中所得到的平均增值贡献。

样本的模糊聚类

1.数据标准化处理

表3 指标下自变量对妊娠结果的相对贡献

表3 指标下自变量对妊娠结果的相对贡献

平均贡献增值贡献ΔR2EX1X4X8X10X12K=0 0.0155 0.0016 0.0011 0.0031 0.0161K=1 0.0155 0.0017 0.0014 0.0030 0.0162K=2 0.0154 0.0018 0.0016 0.0029 0.0162K=3 0.0153 0.0018 0.0018 0.0028 0.0163K=4 0.0152 0.0018 0.0020 0.0027 0.0163总平均贡献0.0154 0.0017 0.0016 0.0029 0.0162相对贡献40.69%4.59%4.17%7.64%42.90%

表4 指标下自变量对妊娠结果的相对贡献

表4 指标下自变量对妊娠结果的相对贡献

平均贡献增值贡献ΔR2MX1X4X8X10X12K=0 0.0112 0.0012 0.0008 0.0022 0.0117K=1 0.0113 0.0013 0.0010 0.0022 0.0118K=2 0.0112 0.0013 0.0012 0.0021 0.0118K=3 0.0112 0.0013 0.0013 0.0021 0.0119K=4 0.0111 0.0013 0.0015 0.0020 0.0119总平均贡献0.0112 0.0013 0.0011 0.0021 0.0118相对贡献40.67%4.61%4.15%7.67%42.91%

聚类的样本属性由logistic回归模型所确定的自变量构成。采用标准化变换对属性进行处理。变换公式如下所示:

n为样本量,m为属性个数。xij为第i个样本在第j个属性上的取值为第j个属性的样本均值,Sj为第j个属性的样本标准差。

2.选取凝聚点

样本聚为两类:G1,G2分别表示普通患者和高危患者。根据logistic回归模型预测每个样本妊娠失败的概率,分别将失败率最低和最高的两个样本作为凝聚点,其属性取值作为两类的初始重心:x(1),x(2)。

3.加权距离函数

设每个属性的权重为wj,j=1,2,…,5,取各属性的相对贡献率作为权重。

定义第i个样本到Gk(k=1,2)的加权距离为:

4.归类

将所有样本按与其加权距离最近的凝聚点归类。计算每一类的重心,将重心作为新的凝聚点后,再次将所有样品依据最近距离归类,以此反复,直到所有新凝聚点与前一次的老凝聚点重合。

5.聚类结果

样本总量为1588例,聚类结果显示普通患者(G1)1112例,高危患者(G2)476例。每组患者妊娠成功和失败的个数见表5所示。

经四格表χ2检验,得到χ2=710.596,df=1,统计学检验P值<0.05。可以认为两组患者妊娠结局的差别有统计学意义。

表5 聚类结果

两组患者的医学特征比较

在医学专业人员的指导下,将普通和高危患者部分医学特征作对比分析,结果见表6所示。

表6 两组患者医学特征的对比分析

其中不孕状态分为原发和继发。盆腔因素分为正常和异常。输卵管因素分为正常、输卵管通而不畅、输卵管阻塞、输卵管术后、单侧输卵管切除术后和双侧输卵管切除术后六种情况。子宫因素分为正常、子宫畸形、疤痕子宫、子宫肌瘤、子宫腺肌病和宫腔粘连术后六种情况。子宫内膜异位分为正常、异位I期至IV期,共五种情况。卵巢因素分为正常、PCOS、卵巢功能减退、LUFS、单侧囊肿术后、双侧囊肿术后和一侧切除七种情况。精子质量分为正常和异常。两组患者在不孕状态,子宫因素,卵巢因素的差别有统计学意义。

结 论

本文通过对试管婴儿数据的分析,建立了妊娠结果对影响因素的logistic回归模型,检验后将年龄、移植胚胎数、Gn总量、输卵管和卵巢确定为关键因素。并从纵向(单个影响因素不同水平的差异)和横向(不同影响因素的相对重要性)两方面定量分析关键因素对妊娠结果的影响。最后根据模型计算得到的试管婴儿成功率将原始样本聚类为普通患者和高危患者两组,分别挖掘隐含于这两组患者中的医学指标特征,得到两组患者在不孕状态、子宫和卵巢因素上具有统计学差异,在盆腔、输卵管、子宫内膜异位和精子质量因素上不具有统计学差异。研究结果将为临床医生提供定量、客观的参考意见,为推动试管婴儿技术的发展提供科学支持。

1.张丽珠.我国大陆“试管婴儿”研究进展.生物学通报,1996,31(5):1-4.

2.David B,Deborah C.Merryman R.Evaluating a novel panel of sperm function tests for utility in predicting intracytoplasmic sperm injection outcome.Assisted Reproduction and Genetics,2013,30(4):461-477.

3.Verhagen T,Hendriks D,Bancsi L.The accuracy of multivariate models predicting ovarian reserve and pregnancy after in vitro fertilization:a meta analysis.Hum Reprod Update,2008,14(2):95-100.

4.蔡惠颜,佰翠沙.中药配合针灸治疗对试管婴儿成功率影响的研究.新中医,2008,40(3):66-67.

5.Azen R,Traxel N.Using dominance analysis to determine predictor importance in logistic regression.Journal of Educational and Behavioral Statistics,2009,34(3):319-347.

6.Scott T,LeBreton J,Johnson J.Determining the statistical significance of relative weights.Psychological Methods,2009,14(4):387-399.

7.王济川,郭志刚.Logistic回归模型-方法与应用.北京:高等教育出版社,2001:145-171.

8.郭秀花,王玮,刘韫宁,等.利用两水平Logistic回归模型探讨代谢综合征的影响因素.中国卫生统计,2010,27(2):139-141.

9.杨小兵.聚类分析中若干关键技术的研究.浙江大学博士论文,2005.

10.高惠璇.应用多元统计分析.北京:北京大学出版社,2005:216-259.

11.汪存友,余嘉元.SPSS两阶聚类法如何自动确定聚类数.中国卫生统计,2010,27(2):202-203.

12.张波,沈其君.Logistic回归模型中自变量相对重要性评价方法的研究进展.浙江预防医学,2012,24(9):17-19.

(责任编辑:郭海强)

*:浙江省教育厅科研项目(Y201329710);宁波市自然科学基金(2013A610115)

△通信作者:王水,E-mail:machinelearning@126.com

猜你喜欢

试管婴儿贡献输卵管
中国共产党百年伟大贡献
如何提高试管婴儿成功率
输卵管造影疼不疼
做试管婴儿何必去远方
原来是输卵管积水惹的祸
2020:为打赢脱贫攻坚战贡献人大力量
如何提高试管婴儿成功率
输卵管造影疼不疼
做试管婴儿何必去远方
原来是输卵管积水惹的祸