数据挖掘技术在乳腺癌研究中的应用进展
2019-07-23张婷曹沛莹金顺姬郑粉善
张婷 曹沛莹 金顺姬 郑粉善
【摘 要】随着信息技术的不断发展,医疗大数据的概念也逐渐被人类所熟知。通过对数据挖掘技术在乳腺癌各领域的研究现状(乳腺癌基因研究、乳腺癌早期辅助检查、力学药物靶点识别、乳腺癌新中医治疗方法)的分析,展望数据挖掘技术应用于乳腺癌领域的前景,为数据挖掘技术在乳腺癌疾病的研究提供新思路。
【关键词】数据挖掘;医疗大数据;乳腺癌
中图分类号: R737.9;TP311.13 文献标识码: A 文章编号: 2095-2457(2019)15-0192-002
DOI:10.19694/j.cnki.issn2095-2457.2019.15.091
Progress in the Application of Data Mining Technology in Breast Cancer Research
ZHANG Ting1 CAO Pei-ying1 JIN Shun-ji2 ZHENG Fen-shan2
(1.Yanbian University,Yanji Jilin 133000,China;2.Yanbian Hospital,Yanji Jilin 133000,China)
【Abstract】With the continuous development of information technology,the concept of medical big data is gradually becoming well known by humans.Through the analysis of data mining technology in various fields of breast cancer research(breast cancer gene research,early breast cancer auxiliary examination,mechanical drug target recognition,breast cancer new Chinese medicine treatment method),prospective data mining technology applied to breast cancer field The prospects provide new ideas for data mining technology in the study of breast cancer diseases.
【Key words】Data mining;Medical big data;Breast cancer
0 前言
乳腺癌作为女性常见的恶性肿瘤之一,严重威胁着女性人群的身心健康[1]。临床乳腺癌疾病的诊察、治疗以及术后的康复和护理等全方位医疗模式的研究,为乳腺癌疾病的诊治提供了海量的医疗数据,促进了临床乳腺癌诊治技术的不断发展,本文将针对数据挖掘技术在乳腺癌领域的应用现状进行综述,旨在为临床医务人员和科研人员进一步针对乳腺癌的数据挖掘提供借鉴。
1 什么是医疗大数据
医疗技术的不断更新、发展,医疗数字化水平的不断飞跃,将人类带进了医疗信息时代,医疗大数据是指在医疗行业中产生的各类数字信息数据,其主要来源包括临床医疗及实验室数据、费用报销及利用率、健康管理及社交网络、生命科学及制药企业等方面的信息来源[2]。医疗大数据的应用和研究在西方国家被广泛认可,多种医疗数据和平台被广泛开发应用,随着医源性信息技术的进步与完善,医疗大数据的发展,定会成为促进医疗诊治水平进步的主要动力。2016年国务院颁布了医疗大数据建设文件(简称《医疗大数据应用发展的指导意见》[3])文件中着重提到要构建权威、统一的人口信息平台,不断促进大数据平台的共享和开放,体现了我国对建设自己的医疗数据库的重视及未来医疗大数据的发展方向。
2 什么是数据挖掘技术
数据挖掘技术又被称为数据采矿,是指从海量数据库中挖掘出有用信息,并对这些信息进行分析的过程[4]。它的技术来源既包括统计学知识,同时也包含数据仓库管理、模式识别系统和机器学习等,是一门多学科的交叉性科学。医疗大数据的分析应用,改变了以往的传统疾病诊治模式,为许多医学未解难题的研究和解决,提供了新的研究方向。目前在我国,也有通过数据挖掘技术在医护领域进行运用并取得成功的案例,例如肖爽等[5]通过运用数据挖掘技术,将重庆市内,某三甲医院在2011年至2012年间上报的跌倒事件,运用关联规则分析方法进行分析,最终发现7条与跌倒有关的关联规则,与传统跌倒的单因素分析方法相比较,通过运用数据挖掘技术分析的与跌倒有关的相关因素表现更为具体,通过运用数据挖掘技术建立的防范体系,对临床工作也起到更加全面的指导意义。
3 数据挖掘在乳腺癌领域中的应用现状
3.1 数据挖掘技术在乳腺癌临床中的研究应用
沙晓妍[6]等通过文献统计学分析方法,检索Web of Science数据库中关于乳腺癌护理的相关文献,发现从2001年起至2015年为止,乳腺癌护理的发文量逐年递增,这说明针对乳腺癌患者护理的关注度正在逐年上升。文献显示,关于乳腺癌护理方面,发文量最多的国家是美国,占总数的51.22%,其次为英国,占发文比总量的5.95%,再次为加拿大,占发文比总量的5.50%,这表明欧美国家针对乳腺癌患者的护理有着更为深入的研究,而美国则在乳腺癌护理领域中的起到领头作用。通过关键词分析,可以了解到目前临床乳腺癌护理的主要研究方向在:生存質量(8.95%)、心理与社会支持(8.82%)、化疗的症状困扰与症状管理(8.70%)、早期筛查(6.59%)等10个研究方向关注度较高。研究方向逐步从乳腺癌疾病病因治疗转向为运动干预、治疗依从性等方面的研究。
何明艳[7]等运用Joinpoint回归模型分析软件,对《中国肿瘤等级年报》中2005~2013年中中国女性乳腺癌发病率及死亡率进行分析,计算出城市女性乳腺癌发病率与全国女性发病率持平,较农村女性发病率高,但农村女性发病率呈上升趋势。同时计算出乳腺癌各年龄组的发病率与死亡率区间,城市女性在30~49岁年龄组为发病率快速上升期,50岁左右达到高峰期,农村女性发病率快速上升期为30~44岁上下,在45岁左右达到发病率高峰期。
通过数据的集中分析,我们可以明了地知道乳腺癌患者的发病及死亡组别状况,了解当今乳腺癌患者的发病及护理趋势,为今后护理工作及护理研究提供指导方向。
3.2 数据挖掘技术在乳腺癌基因研究中的运用
根据陈万青等[1]研究显示,我国乳腺癌患者的发病率呈现出上升态势。运用数据挖掘技术分析乳腺癌疾病的相关数据,可以提早了解乳腺癌发生、发展的相关规律,在临床应用中更有利于制订相应的干预措施控制乳腺癌的发展速度及复发机率。
癌基因和抑癌基因的调控失调是导致肿瘤发生的主要原因,了解癌症相关基因,可以更好的了解其发病机制,并可以确定早期检测目标。Pranavathiyani G等[7]从7个公开的微阵列数据库中收集了431份乳腺癌样本,并通过运用分析软件工具对431分乳腺癌样本进行数据分析,发现癌细胞基因参与细胞蛋白质代谢过程,主要参与细胞周期和粘着斑途径,同时还发现这些癌基因与皮肤病和病毒感染等其他疾病也有着密切的联系,通过对乳腺癌中癌基因和肿瘤抑制基因的探索,可以帮助癌症生物学研究早期诊断和制定有效治疗方案。
3.3 数据挖掘在乳腺癌早期辅助检查中的应用
针对乳腺癌,早治疗是有效降低死亡率的根本方法,在早治疗中早发现又是确诊乳腺癌的关键因素,但在乳腺癌诊断过程中,乳腺攝片的检测中10%~30%的乳腺癌没有被检测出来[8]。这主要一是由于影像学早期特征一般不是很明显,二是有可能受到主治医生主观意念的影响,出现误诊和漏诊的状况。
张旭东[9]等通过分析积累的医疗数据,采用数据清洗,数据成像等技术,运用SMOTE算法对数据进行处理分析,研究构建出触诊成像乳腺癌智能诊断的初步模型,有望为临床提供可以诊断乳腺癌肿瘤性质的诊断工具。李江、唐威[10]等通过检索Pub Med、SCI、CNKI等多个数据库,对乳腺癌筛查领域的系统评价进行二次评价,对所选文献进行严格筛查后,得出结论为大规模乳腺癌筛查具有良好的筛查率,但其安全性能是否良好,由于原始数据较少,研究时限较长,尚未得到完整的数据支持,还需不断进行论证研究。
3.4 数据挖掘技术在力学-药物靶点识别的应用
医疗大数据的应用,不仅提高了生物医学的发现速度,而且将肿瘤学的实践研究也转变为多信息科学,在乳腺癌的研究发展中,除受生物化学因素影响外,也受到力学因素的影响,有研究显示,肿瘤力学的微环境的形成对肿瘤细胞的发生增殖及迁移等活动起到极为重要的影响[11]。
余静芸等[12]通过在基因表达数据库(GEO)中所获数据进行整理,对乳腺癌疾病的力学-药物靶点进行深入研究,通过力学原理与药物学原理相结合的方法,对所得数据进行深层次挖掘,识别出在乳腺癌疾病的发生发展过程中,有力学-药学作用机制的靶点共计87个,其中有12个靶点,在靶向作用中发挥相关力学功能,被证实是乳腺癌治疗的药物靶点,而其余的靶点也被认为是,潜在的乳腺癌药物靶点,并进行进一步的深入研究运用。这一研究结果的提出,证实了在乳腺癌疾病研究中,力学-药学作用的分子机制,为乳腺癌的药物治疗方向提供了一定的研究依据,也为乳腺癌新药的开发以及老药新用方法提供理论参考。
3.5 数据挖掘技术在乳腺癌中医治疗方法的研究应用
目前在临床上,针对乳腺癌患者的治疗方法,仍是以西医治疗为主的联合治疗,其中主要包括外科手术、放疗化疗等治疗手段,中医技术源远流长,作为乳腺癌患者的辅助性治疗方法,适用于乳腺癌患者治疗的各个阶段。中医药治疗,以内服外敷、针灸等多途径、多靶点、多形式的方法,结合西医治疗起到减毒增效的作用,在一定程度上可以起到延长患者生存期,降低乳腺癌复发率及转移率的作用[13]。
杨玉凤等[14]通过运用中医传承辅助系统(V2.5),运用关联规则分析方法等现代数据挖掘技术,对85位乳腺癌患者案例进行统计分析,计算出乳腺癌术后的基本证型、主要治疗法则,通过分析乳腺癌患者在治疗过程中,常用的中医药材使用频次,发现了各中医药材之间的相互关联,并从中发掘出16个核心的关联配伍、以及8个药材新处方。谢宛君、林毅等[15]运用中医传承辅助系统(V2.5),对林毅教授中医门诊诊治有效的89位转移性乳腺癌患者所使用处方的药物、药性等进行分析,诊脉得出乳腺癌患者多为肝脾血虚者,计算出处方用药原则多为甘性药材,其次为温性药材,再次为平性药材,少为凉性药材,计算出用药频次最多的为白术、茯苓、山药等前十位药材。中医学的数据分析及研究,为乳腺癌术后和转移患者的中医辨证论、治理论的可行性提供了有效的参考依据。
4 讨论
数据挖掘技术是一项跨学科多领域的新兴技术,在医疗大数据的背景下合理运用数据挖掘技术,可以解决很多问题,如有效提高临床疾病诊断准确性、提高疾病预警机制、开展远程医疗、提高医疗质量、减少医患矛盾等[16]。目前我国数据挖掘技术正处在初步起始阶段,虽然国务院办公厅已经颁布了(《医疗大数据应用发展的指导意见》(简称)),但基于目前我国医疗数据管制体系的不健全,造成的医疗数据获取困难,增加了医疗数据的统合分析难度。只有将所有医疗数据在录入端及进行标准化统一模式,才能有效提高数据的搜索率,同时各医疗机构及领域间建立数据共享,实现医疗数据共享网络,才能达到数据利用率的最大化。国家同时也应加大医疗信息研究复合型人才的培养,加快我国医疗信息平台的建设,才能尽快与国际接轨,实现医疗信息现代化的快速发展。
数据挖掘技术是在海量数据库中,对数据进行统一分析处理的一门技术,对医学领域而言,发现潜藏在医疗数据库中的有效信息,并将这些潜藏信息应用到临床实践的一次有意义的尝试过程。乳腺癌已被公认为严重威胁女性健康的恶性疾病,通过对乳腺癌疾病的不断深入研究,存在乳腺癌疾病下的信息被不断探索,针对乳腺癌的诊治方法,也将得到不断创新,随着医疗数据的持续积累,也许在将来的某一天,乳腺癌会变成可以被根治的疾病。
【参考文献】
[1]陈万青,郑荣寿.中国女性乳腺癌发病死亡和生存状况[J].中国肿瘤临床,2015,42(13):668-674.
[2]张振,周毅,杜守洪,等.医疗大数据及其面临的机遇与挑战[J].医学信息学杂志,2014,35(06):2-8.
[3]国务院办公厅:《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》http://www.gov.cn/zhengce/content/2016-06/24/content_5085091.htm.
[4]蔡斌.数据挖掘技术在软件工程中的应用[J].电子技术与软件工程,2018(21):148.
[5]肖爽,赵庆华.数据挖掘中的关联规则在住院患者跌倒事件防范中的运用[J].中华护理杂志,2014,49(10):1215-1218.
[6]沙晓妍,刘竹韵,林细吟.2001~2015年Web of Science数据库中乳腺癌护理研究论文的计量学分析[J].护理学杂志,2017,32(03):84-87.
[7]PRANAVATHIYANI G,THANMALAGAN R R,DEVI N L,Amouda Venkatesan:Integrated Transcriptome Interactome study of Oncogenes and Tumor Suppressor Genes in Breast Cancer[J]Genes & Diseases,2018.
[8]MOURA D C,LOPEZMA G.An evaluation of imagedescriptors combined with clinical data for breast cancer diagnosis[J].Intemational Joumal of computer Assisted Radiology and Surgery,2013,8(4):561-57.
[9]张旭东,孙圣力,王洪超.基于数据挖掘的触诊成像乳腺癌智能诊断模型和方法[J].大数据,2019,5(01):68-76.
[10]李江,唐威,王昕,等.乳腺癌篩查领域的系统评价再评价[J].中国肿瘤,2018,27(06):401-408.
[11]ANIKA N,JOHAN B,ALAN E.Span:The mechanical microenvironment in cancer:How physics affects tumours,Seminars in Cancer Biology 35(2015)62–70
[12]余静芸,李乾鹏,田地,等.基于表达谱数据的乳腺癌疾病力学-药物靶点识别[J].北京生物医学工程,2017,36(06):558-563+625.
[13]侯公楷.中医药防治乳腺癌进展[J].辽宁中医药大学学报,2016,18(05):249-253.
[14]杨玉凤,亢小雨,李远.从数据处理中挖掘乳腺癌术后的中医证治规律[J].医学研究与教育,2017,34(05):16-23.
[15]谢宛君,林毅,梁倩蓉,等.基于数据挖掘的林毅教授转移性乳腺癌论治经验[J].中国中药杂志,2018,43(15):3198-3204.
[16]惠华强,郑萍,张云宏.医疗大数据研究面临的机遇与发展趋势[J].中国卫生质量管理,2016,23(02):91-93.