APP下载

Apriori算法在宫颈癌发病因素中的应用与研究

2022-03-04谢桃枫郑婷曹莉黄梦圆

中国继续医学教育 2022年4期
关键词:避孕措施宫颈炎宫颈癌

谢桃枫 郑婷 曹莉 黄梦圆

随着社会的发展,女性生活节奏逐渐加快,生活压力也不断增加,伴随着饮食习惯和周围环境的改变,宫颈癌的发病率和死亡率不断升高[1],宫颈癌是临床最常见的妇科恶性肿瘤之一,其发病率仅次于乳腺癌[2]。目前,宫颈癌较为明确的诱因包括多产史、吸烟、不洁性生活、性生活过早、多次人工终止妊娠术史等[3]。多点CIN Ⅲ级的发病与HPV 感染密切相关且与患者年龄、日常生活因素存在紧密的联系,广大女性应养成良好的生活习惯,降低宫颈癌的发病[4]。通过对安徽省黄山市女性居民进行宫颈癌的健康素养现状的调查中发现,今后对于宫颈癌的关注点应更多的从“治疗”转向“预防”[5],让更多女性参与到预防宫颈癌的筛查项目中来。本研究从饮食及避孕措施对宫颈癌筛查的病检结果影响进行关联规则挖掘,为预防宫颈癌的发生提供一定的有效建议。

1 资料与方法

1.1 一般资料

本研究数据来自于2015—2016 年巴彦淖尔市农村地区女性的社区调查问卷及就诊前医院调查问卷。其中社区调查问卷10 015 份,内容包括一般情况、生活习惯、生殖情况、既往患病情况等;医院调查问卷499 份,内容包括一般情况、饮食情况、其他情况、实验室检测及病理诊断结果等。将两份问卷所生成的Excel 表进行数据合并,删除内容不全和有错误的数据,根据研究要求将清洗后的417 条数据录入数据库。此问卷表已向受访者承诺严格保密问卷信息,且对所形成的数据库进行数据脱敏处理,不会泄露受访者隐私。

1.2 研究方法

本研究采用关联性分析方法和列联表分析方法。

1.3 评价方法

本研究主要对饮食和宫颈癌患者的支持度和置信度进行评价,支持度和置信度越高关联性越强。

1.4 统计学方法

R 语言是统计软件,R 语言能够为不同的统计功能提供多种实现途径,它是一套开源的数据分析解决方案,其完全免费,对于统计工作者非常友好,而且在全球有一个庞大且活跃的研究型社区维护。本文利用R 语言中arules 包中的Apriori()函数进行关联规则提取,在规则提取过程中,设定最小支持度为0.7,最小置信度为0.7,得到关联规则后,筛选出提升度大于1 的强关联规则做分析,其中R 的版本为4.0.0,arules 包的版本为1.5-4。对部分数据利用SPSS 20.0 进行统计,对计数资料进行χ2检验,P<0.05 为差异有统计学意义。

2 结果

2.1 饮食对病检结果的研究

2.1.1 一般资料描述

本研究针对417 位宫颈疾病患者食用16 种食物做研究。

2.1.2 数据离散化

由于Apriori 算法只能对离散变量进行关联规则分析,则需要对原始数据进行离散化处理,如表1。

表1 变量离散化分组表

2.1.3 关联规则结果分析

通过对饮食与病检结果的关联性分析得到2 条强关联规则,结果是大多数病检结果为患宫颈炎的女性都食用萝卜、奶类见表2。

表2 食物与宫颈癌病理检查结果的关联规则分析表

2.2 是否避孕对病检结果的影响

2.2.1 一般资料描述

本研究共对456 名患者的问卷调查做研究,其中没有采取避孕措施的患者是148,采取避孕措施的患者人数是308,宫颈炎的患者人数是419,CIN Ⅰ患者的人数是37。

2.2.2 数据离散化

没有采取避孕措施的病例中宫颈炎患者是132 例,CINI 患者是16 例;采取避孕措施的病例中宫颈炎患者是287 例,CINI 患者是21 例,采取避孕措施和病检结果的列联表如表3。

表3 采取避孕措施和病检结果的列联表

2.2.3 结果分析

输出结果给出了病检结果与是否采取避孕措施的交叉制表、是否采取避孕措施的影响χ2检验表,对于显著水平α=0.05,由χ2检验表知,χ2=2.137,P=0.144>0.05,故认为采取避孕措施对病检结果为宫颈炎及CIN Ⅰ的影响差异无统计学意义。

3 讨论

针对生活习惯对宫颈癌发病的关系,宫颈癌发病是一个因素较多、机制复杂的过程。在研究宫颈癌的病因时发现,HPV 感染、多次阴道分娩、性因素和子宫慢性疾病是导致宫颈癌的四大病因[6]。针对生活习惯对宫颈癌发病的关系,李晔通过SPSS 软件对北京王府中西医结合医院的患者进行分组分析,对患者的基本情况和妇科情况资料进行数据挖掘,发现宫颈癌前病变的影响因素包括年龄、职业、流产次数等[7]。路文婷在宫颈癌流行病学概况中提到,吸烟或者口服避孕药、性生活过早、配偶性生活紊乱等都是与宫颈癌密切相关的危险行为因素[8]。王颖以160 例宫颈癌患者为实验组,160 例体检健康的女性为对照组,调查影响两组患者的宫颈癌发病因素,通过SPSS 软件对数据进行处理,结果显示患者的职业、学历、居住地、主被动吸烟、平时阴道冲洗、结婚年龄、首次分娩年龄、阴道分娩次数、人工流产次数、初次性行为年龄、性伴侣包皮过长、性生活频率、是否避孕以及性生活都对宫颈癌发病有影响[9]。新疆沙湾县农牧区妇女宫颈癌发病与多种因素有关,应提倡适龄结婚,重视普及与宫颈癌有关的科普知识,积极避孕,同时养成良好的卫生及性生活习惯,以降低宫颈癌发病率[10]。东部沿海经济发达地区外来务工女性生殖道感染患病率较高,生殖道健康行为习惯较差[11]。在宫颈癌的用药过程中,利用Apriori 算法确定处方中药物和药物使用频次之间的关联规则及治疗原则,最后得出宫颈癌多用活血散结、滋阴清热之品的结论[12]。通过对268 例宫颈癌患者临床病例利用加强关联规则算法进行数据挖掘,总结了江苏省中医院宫颈癌的辨证经验,得出湿热瘀毒证、痰瘀互结证、肝郁气滞证、肝肾阴虚证、脾肾亏虚证、瘀血内阻证六种常见证型[1]。使用数据挖掘算法对宫颈癌临床数据进行研究,并通过相应的决策模型对数据进行风险因素评估[13]。

关联规则挖掘技术是数据挖掘的重要组成部分,它是按照用户预先给定的最小支持度和最小置信度去研究事务数据库中各事务属性之间的关系,最终发现各项集之间的有趣联系[14]。关联规则算法在病案信息管理、疾病预测、健康数据可视化分析、电子病历数据分析、辅助诊疗等方面都有应用。Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,也是关联规则挖掘最经典的算法之一,目前已经被广泛应用于各个领域。傅雷、陈未如等使用向量法和改进的Apriori 算法应用于心脏病诊断,发现运动期间有心绞痛、静息血压>140、胆固醇含量过高等因素是心脏病致病的关键因素[15],并将其作为心脏病确诊及预防的依据。林长方、吴洋洋利用关联规则发现在冠心病检查中,肝功血脂(甘油三酯、低密度脂蛋白、总胆固醇)、肌钙蛋白Ⅰ、超敏C 反应蛋白、心电图等属性的检查对冠心病的确诊起到至关重要的作用[14]。姜建东通过Apriori 算法对糖尿病三种并发症之间的关系和肝硬化病人药物效果进行分析,并将其研究结果作为疾病预测和治疗的依据[1]。利用Apriori 算法对慢性肾病的进行预测[16]。为公立医院控制费用的不合理增长,加强成本核算提供对应的科学依据[17]。高额住院病例主要以循环系统损伤和中毒、肿瘤为主,还发现药品、住院天数、科室和住院费用关联性很强[18]。

本研究以饮食对病检结果影响的关联性分析为例,利用数据挖掘的经典算法Apriori 算法,通过R 语言寻找数据库中的频繁项集,再根据频繁项集生成强关联规则,得到巴彦淖尔市农村地区女性食用萝卜和奶类与患宫颈炎之间存在关联性的结论;以是否避孕对病检结果的影响为例,利用SPSS 软件进行χ2检验,得到了巴彦淖尔地区农村女性是否避孕与患宫颈炎、CIN Ⅰ之间不存在相关性的结论,研究得到的结果可以为宫颈炎症的预防提供生活习惯方面的参考。

本研究经过对宫颈癌相关数据的关联规则挖掘可以得到的有效信息是:针对巴彦淖尔市的农村女性,食用萝卜和奶类与患宫颈炎存在强关联规则,建议当地女性从饮食上有所调整,加以预防宫颈炎;针对巴彦淖尔农村地区女性,是否采取避孕措施与患宫颈炎、CIN Ⅰ的发病不存在统计学意义,即是否采取避孕措施不会影响宫颈炎与CIN Ⅰ的发病几率。预防宫颈癌,年轻女性应洁身自好,注意个人卫生,培养良好的生活习惯,定期进行妇科检查。同时,社会和家庭应认识到宫颈癌是一种可预防,可治愈的肿瘤[19]。健康知识的推广传播,预防疾病的观念意识的加强,女性身体健康问题也成了社会和国家关注的问题[20-22]。在未来的研究中可以考虑通过对生活习惯的调整来达到预防疾病的发生,有助于人们在疾病发生之前,为思考疾病的发生提供了从病理角度之外的新方向。

猜你喜欢

避孕措施宫颈炎宫颈癌
硫利达嗪抗宫颈癌的潜在作用机制
得宫颈炎了怎么办?中西医结合治疗效果好
中老年女性的宫颈癌预防
宫颈癌护理及心理护理在宫颈癌治疗中的作用及应用
预防宫颈癌,筛查怎么做
分析左氧氟沙星联合阿奇霉素治疗宫颈炎的疗效
宫颈炎的日常家庭护理须知!
宫颈炎危害,如何治疗
计划生育服务对女性人工流产后避孕措施的影响分析
探讨人工流产后计划生育服务对避孕措施的影响