APP下载

浅谈数据挖掘分析对乳腺癌的初筛与预防的影响

2020-12-09彭麒燕彭静万幸

商情 2020年44期
关键词:数据挖掘乳腺癌

彭麒燕 彭静 万幸

【摘要】数据挖掘是应用一系列技术从大型数据库中提取人们感兴趣的信息和知识。本文详细介绍了数据挖掘技术,总结了近年来数据挖掘技术在乳腺癌医疗辅助诊断中的应用。

【关键词】数据挖掘  乳腺癌  初筛与预防

国内外大量文献的报道中乳腺癌发病率居女性恶性肿瘤首位。据世界卫生组织(who)统计,每年有120万至140万女性患乳腺癌,约50万患者死于乳腺癌。近年来,随着生活水平的提高,我国乳腺癌的增长速度最为明显。我国是一个发展中国家,乳腺癌的发病率呈线性增长,患乳腺癌的年龄也越来越年轻。其预后与早期发现、正确诊断和正确治疗密切相关。早期诊断是改善预后、降低死亡率的关键。乳腺癌临床诊疗及术后康复护理综合医学模式的研究,为乳腺癌的诊治提供了大量的医学数据,促进了临床乳腺癌诊疗技术的不断发展。

因此,针对数据挖掘技术在乳腺癌领域的应用现状进行研究,为临床医务人员和科研人员进一步针对乳腺癌的数据挖掘提供借鉴是非常有必要的。

一、数据挖掘主要关键技术

(一)人工神经网络

它是对人脑的某种程度上的抽象、简化和模仿,通过对大量历史数据库中的计算来建立数据模型,是一种自适应、自学习的算法模型在数据挖掘中的广泛应用,是集神经学科、数学、统计学、物理学、计算机科学及工程学等学科于一体的技术。它在乳腺疾病诊治中可用于预测同侧腋窝淋巴结转移、活组织检查结果,它可以帮助识别小肿块的性质,评估乳腺癌的风险和患者对化疗的反应,分析生存率,识别基因转录标记物等。在乳腺癌的辅助诊断中,主要是通过提取一类图像数据(如超声、钼靶X线、磁共振、SPECT等)来实现的。Newell等用人工神经网络提取乳腺MRI的8个形状/边缘参数和10个纹理增强作为诊断特征,建立了一个良恶性辨别诊断模型。Zhong等用误差反向传播算法建立一个混合神经网络,通过乳腺超声图像中复杂的轮廓特征对乳腺肿块进行分类,结果诊断准确率达到0.93。目前人工神经网络用于两种及两种以上影像诊断技术方面的研究尚少,而且部分研究证实了提取两种影像资料数据库的特征诊断率高于单一影像资料。Yuan等用贝叶斯人工神经网络方法分别对全景数字乳腺X线摄影(FFDM)图像、动态增强对比磁共振(DCE-MRI)图像、联合FFDM与DCE-MRI图像三个数据库提取特征指标辅助诊断乳腺良恶性病变,并用ROC曲线下面积来评估其诊断准确率,结果显示FFDM为0.74±0.04,DCE-MRI为0.78±0.04,联合FFDM与DCE-MRI为0.87±0.03.证明了联合两种影像资料优于单一影像资料。

(二)决策树

决策树是一种用树枝状展现数据,受各变量情况影响的分析预测模型,根据对目标变量产生效应的不同而制定分类规则。它首先通过一批已知的训练数据建立决策树,然后采用建好的决策树对数据进行预测,其产生的结果简洁明了,易于理解,并可从病例中自动产生诊断规则。Lee等提取乳腺热图像中的的25个参数特征作为因素分析,根据异常肿块的特点,利用决策树自动产生诊断规则来进行分类,然后对71个乳腺癌患者和131个正常女性进行模型分析,结果证实决策树模型的诊断分类性能较好。此外,决策树还可判断各参数对乳腺癌诊断贡献的大小。Dietzel等使用决策树方法来预测乳腺MRI中的17个指标与淋巴结转移的关系,结果显示其中7个指标与淋巴结转移有密切关系,而最为显著的是皮肤增厚和内部增强。

(三)关联规则

若两个或多个变量之间存在某种规律性,就称为关联,数据关联是指存在于数据库中有潜在联系的知识。关联规则挖掘就是通过关联分析找出数据库中隐藏的知识,利用这些知识可以根据已知情况对未知问题进行推测,旨在挖掘出数据库中有潜在联系的关系网。它在辅助诊断乳腺癌时主要通过对乳腺癌患者大量的数据库信息进行关联分析,发现数据库中某些隐藏的与乳腺癌有关的联系。Woods等用逻辑程序设计运算法则归纳出62219个异常乳腺钼靶X线片,在恶性病变中学习形成了80个独特的规则。一个放射科学者评价了所有的规则,发现了潜在的感兴趣的联系,并证实了高密度肿块、形状不规则、细针状边缘、年龄可作为恶性病变独立的预测因素。Hoffman等使用基因关联分析对15个miRNA基因进行基因筛选,检测到miR-196a-2基因上的一个共同序列变异能显著降低乳腺癌的风险,并表明在乳腺肿瘤患者中miR-196a-2基因可能具有潜在的致癌作用。彭玉兰等利用乳腺超声词典和词典关联规则对超声和病理良恶性诊断信息进行数据挖掘,结果其关联检索的质量达99.98%。

二、数据挖掘在乳腺癌初筛与预防中的创新性和先进性

(1)数据挖掘技术是一项跨学科多领域的新兴技术,合理使用数据挖掘技术可以解决许多问题,如有效提高临床诊断的准确性、完善疾病预警机制、开展远程医疗、提高医疗质量、减少医患矛盾等。

(2)数据挖掘技术是对海量数据库中的数据进行统一分析和处理的技术,对医学领域而言,发现潜藏在医疗数据库中的有效信息,并将这些潜藏信息应用到临床实践的一次有意义的尝试过程。乳腺癌已被公认为严重威胁女性健康的恶性疾病,通过对乳腺癌疾病的不断深入研究,存在乳腺癌疾病下的信息被不断探索,针对乳腺癌的诊治方法,也将得到不斷创新,随着医疗数据的持续积累,也许在将来的某一天,乳腺癌会变成可以被根治的疾病。

三、数据挖掘在乳腺癌运用中的前景

乳腺癌的诊断以往大都是建立在病检并结合医生经验的基础之上,带有一定的主观性和偶然性,有时候可能还会造成误诊的情况。而基于医学信息数据库系统的数据挖掘技术,从循证医学的角度出发,探索出最科学合理的方法,提高了乳腺癌诊断的准确性和客观性,避免了主观因素带来的影响,降低了不必要的活检率,从而减轻患者的痛苦和经济负担,减少国家医疗资源的浪费,具有较广泛的实用价值。因此,我们应开发出更先进的数据挖掘方法,快速有效地提取出信息的客观特征指标,不断完善数据挖掘技术,开发出性能良好、接近医学专家水平、具有临床实际应用价值的计算机辅助诊断系统,实现对临床病例全方位的诊断,以便制定相应的治疗方案。相信随着数据挖掘技术在医学中的广泛应用,方法的不断改进,数据挖掘在医学领域的应用将更为广阔和深入,从而带来更大的社会和经济效益。

参考文献:

[1]邹菊.数据挖掘与乳腺癌诊断的研究进展[J].生物医学工程学杂志,2012(2),375-378.

[2]张婷,曹沛莹,金顺姬,郑粉善.数据挖掘技术在乳腺癌研究中的应用进展[J].科技视界,2019(15):193-193.

猜你喜欢

数据挖掘乳腺癌
不开刀治疗乳腺癌
数据挖掘技术在内河航道维护管理中的应用研究
什么是乳腺癌的内分泌治疗?
别逗了,乳腺癌可不分男女老少!
男性也应注意乳腺癌
数据挖掘综述
软件工程领域中的异常数据挖掘算法
太干净的女性易患乳腺癌
基于R的医学大数据挖掘系统研究
MCF—7乳腺癌细胞的国内研究进展