基于决策树模型的罗湖区人工流产方式流行病学特征及影响因素研究
2024-02-28袁清连古聪慧喻意美
袁清连,古聪慧,毛 静,喻意美
人工流产是意外妊娠后主要补救措施之一,近年来报道显示全球范围内超过7 000万例女性需要接受人工流产[1]。女性人工流产方式受到包括环境、社会因素在内的复杂因素影响[2-3],既往采用Logistic回归模型分析影响因素存在诸多局限,如处理非线性、高度交互及存在诸多缺失值等,且难以直接显示相关指标对于结果的影响程度。而决策树模型作为一种新型数据挖掘方法,可有效消除传统回归模型在分析影响因素方面的不足[4]。基于以上证据,本次研究回顾性纳入2021年9月—2022年10月深圳市罗湖医院集团(罗湖区人民医院、罗湖区妇幼保健院和罗湖区中医院等)所属医疗机构收治的9 245例人工流产女性的流行病学资料,基于决策树模型分析罗湖区人工流产方式的影响因素,并与Logistic回归模型比较,现报道如下。
1 资料与方法
1.1 一般资料
回顾 性 纳 入2021 年9 月—2022 年10 月 深 圳 市罗湖医院集团(罗湖区人民医院、罗湖区妇幼保健院和罗湖区中医院等)所属医疗机构收治的9 245例人工流产女性作为研究对象,根据人工流产方式将其分为药物组(2 004例)和手术组(7 241例)。纳入标准:1)临床确诊早孕;2)要求终止妊娠;3)孕周在16周以内。排除标准:1)因其他疾病住院治疗;2)有人工流产禁忌证;3)不愿配合检查治疗;4)临床资料欠完整。本研究方案经医院伦理委员会批准。
1.2 调查方法
登录医院电子病历系统记录病人年龄、孕周、受教育程度、人工流产方式偏好情况、职业、人均月收入水平、婚姻状况、生育情况及最终流产情况。选择有医学背景的专业人员为调查员,并对调查员进行统一培训。经过规范化培训后双人录入数据,确保准确。
1.3 统计学方法
采用SPSS 23.0软件对数据进行统计分析。定性资料采用例数、百分比(%)表示,比较采用χ2检验;影响因素分析采用Logistic回归模型和决策树模型;以P<0.05为差异有统计学意义。
2 结果
2.1 人工流产方式影响因素的单因素分析
单因素分析结果显示,不同孕周、年龄、人工流产方式偏好情况、受教育程度、婚姻状况、生育情况的女性人工流产方式选择差异有统计学意义(P<0.05)。具体见表1。
表1 人工流产方式影响因素的单因素分析 单位:例
2.2 人工流产方式影响因素的多因素分析
利用Logistic回归模型,本研究以人工流产方式(药物组=0,手术组=1)为因变量,以单因素分析中有统计学意义的项目为自变量(赋值方式见表2)进一步进行多因素分析。结果显示,孕周、年龄、人工流产方式偏好情况、受教育水平及生育情况均是影响人工流产方式选择的独立因素(P<0.05),见表3。
表2 自变量赋值方式
表3 人工流产方式影响因素的多因素分析
2.3 决策树模型分析
基于给定的变量,本研究采用决策树模型对人工流产方式进行分析。反应变量为人工流产方式,孕周、年龄、人工流产方式偏好情况、月收入情况、受教育程度、职业、婚姻状态及生育情况为解释变量。模型参数设置:最大树深度为4,父节点和子节点的最小个案数分别为100和50。结果显示,孕周、人工流产方式偏好情况、婚姻状况及生育情况对人工流产方式选择有显著影响。其中,人工流产方式偏好情况是最主要的影响因素。决策树模型的简化图见图1。错分矩阵及风险统计分析结果显示,决策树模型的预测分类与真实分类的一致性较高,风险估计值为0.10,即预测错误率为10.00%,具有良好模型拟合度。见表4。
图1 人工流产方式决策树模型简化图
表4 决策树模型错分矩阵及风险统计分析结果
3 讨论
3.1 人工流产率高且呈低龄化趋势
人工流产是避孕失败而致意外妊娠的情况下,在孕早期采取的人为终止妊娠的一种补救措施[5]。研究结果显示,罗湖区的人工流产率高达6.2%,并且呈低龄化趋势,表明人工流产在该地区是一个普遍存在的问题。低龄化趋势表明年轻女性中的意外妊娠和不愿意怀孕的情况占比较高,这可能与性教育和避孕知识不足、避孕方法使用不当等因素有关,不仅对妇女的身心健康带来负面影响[6],而且对整个社会的发展和人口结构产生一定的不良影响。因此,加强对性教育和避孕知识的宣传普及、提高女性避孕意识和方法使用率是降低人工流产率、改善人口结构的重要措施。本研究基于决策树模型分析影响人工流产方式选择的因素,发现人工流产方式偏好情况对于人工流产方式选择影响最大,意味着妊娠妇女更倾向于根据自己的认知和意愿选择流产方式,同时表明,个体意识和选择权在选择流产方式时发挥着决定性作用。研究结果表明,病人个体意识和态度是影响人工流产方式选择的主要因素[7-8]。因此,在进行人工流产的决策过程中,应充分尊重病人的意见和选择,提供详细的医学信息和指导,帮助病人做出符合自己情况和意愿的决策。尤其在当今缓解人口老龄化和放开“三孩”背景下,研究罗湖区妇女的人工流产方式流行病学特点及其影响因素,进而采取相应措施解决问题,具有深远的现实意义。妇女选择人工流产方式受环境和社会因素影响,各因素之间复杂,存在交互影响作用;传统的使用描述性流行病学研究方法探讨其特征及其影响因素,无法处理不同因素之间的非线性、相互作用[9-10]。
3.2 人工流产方式选择影响因素分析
本研究采用决策树模型分析结果显示,人工流产方式偏好情况对于流产方式选择影响最大,即在考虑人工流产方式时,个体意识和选择权发挥决定性作用。多数妇女倾向于根据自己的认知和意愿来选择人工流产方式。此外,孕周是另一个重要的考虑因素。早孕期(孕周≤7周)的妇女更有可能选择药物流产,而随着孕周的增加,手术流产可能是一个更好的选择。因此,对于孕周较晚的妊娠,医生应向病人推荐手术流产,并提供全面的术前和术后指导。孕周≤7周人群中未婚和未育人群选择药物流产比例较高,则主要与手术流产创伤大并可能影响后续生育有关。以往研究结果表明,婚姻状况和生育情况对人工流产方式选择的影响相对较弱,已婚已育女性和未婚未育女性在人工流产方式选择上没有显著差异[11-12]。然而,部分研究指出,未婚和未育女性更倾向于选择药物流产,可能与这些女性对手术有恐惧心理有关,而已婚已育女性可能更倾向于选择手术流产,因为已有生育经历可能影响其对药物流产的意见[13-14]。因此,医生在提供流产方式选择建议时仍应根据病人的婚姻状况和生育情况,综合考虑个体差异,为病人提供最适合的选择,与以往报道结果[15-16]相符。本研究纳入的女性中部分人工流产史资料缺失,导致未对人工流产史情况进行分析。既往报道提示,未流产过人群选择药物流产比例更高,这可能因此类女性对于手术惧怕,导致首次人工流产更加倾向于药物流产;而对于既往有人工流产史的女性选择手术流产主要受上次药物流产满意度较差影响,反之亦然[17-20]。
3.3 两种不同模型预测性能分析
在本研究中使用了决策树模型和Logistic回归模型来分析数据,这两种方法都有其优势,但也存在一定的局限性。例如决策树模型可以清晰地展示不同因素的影响,但可能受到样本大小的限制。而Logistic回归模型可以从整体上反映影响因素,但可能忽略一些细节。
决策树模型主要用于评估不同变量对模型预测的价值及影响方式,并根据人群特征进行细分;但Logistic回归模型则往往从整体上反映人工流产方式选择潜在影响因素[21]。本研究Logistic回归模型分析结果中,孕周、年龄、人工流产方式偏好情况、受教育程度及生育情况均是人工流产方式选择的独立影响因素,与决策树模型结果存在一定差异。Logistic回归模型并未证实婚姻状况对人工流产方式选择有影响,本研究认为可能的原因是倾向于选择手术流产和孕周≤7周的女性对于药物流产的优势(如药物流产医源性创伤小、不适感觉轻微等内容)认知水平偏低,上述人群的不同特征导致婚姻状况这一影响因素被遮蔽;而Logistic回归模型中因共线性问题导致这一因素独立影响被遗漏。同时本研究Logistic回归模型还提示年龄、受教育程度与人工流产方式选择间存在独立关系,但这一观点未被决策树模型证实。本研究认为上述因素在决策树模型第1步分析中具有统计学意义,但在这部分分析中人工流产方式偏好影响最显著,故以人工流产方式偏好作为首层分类变量,而在后续划分中并无统计学意义,故未纳入决策树模型。决策树模型相较于传统Logistic 回归模型具有如下优势[22]:1)能够评估相关因素对于人工流产方式选择的影响程度,同时还可反映不同特征群体对何种结果影响程度更高,较单纯分析影响因素更具有指导价值;2)避免因自变量间共线性导致具有统计学意义的变量被遗漏;3)能够同时显示各变量间相互作用关系,并清楚直观地显示分析过程及结果。但需要注意决策树模型也存在一定不足,即在样本量较小情况下结果可能存在不稳定性[18];而本研究纳入病例数较为充足,故可避免或减轻这一问题。有研究提示决策树模型纳入变量并非在同一层面比较[23],可能存在顺序偏差,本研究认为在临床实践中可通过联合Logistic回归模型,分析人工流产方式选择的共同影响因素,并进一步对不同特征人工流产女性进行分类指导及提出更具针对性的建议。
4 小结
本研究通过基于决策树模型的分析揭示了罗湖区人工流产方式选择受孕周、人工流产方式偏好情况、婚姻状况及生育情况等因素的独立影响。其中,人工流产方式偏好情况对人工流产方式选择的影响最为显著。这些发现对于优化人工流产的个体化治疗策略,提高人工流产个体的医疗体验和治疗效果具有重要意义。然而,本研究仍存在一定的局限性,建议在未来的研究中纳入更全面的变量,并综合使用不同的分析方法以进一步完善对人工流产方式选择影响因素的认知。