数据挖掘在中医文献研究中的应用
2017-07-12张胜男车立娟李明
张胜男+车立娟+李明
摘要:大数据时代,数据挖掘作为有效地信息处理技术,可以在中医文献中提炼出潜在的、有用的信息。数据挖掘广泛应用于特定疾病、方剂、医案、名老专家临床经验与针灸的文献研究中。本文简要介绍了关联规则分析、聚类分析、决策树算法和神经网络数据挖掘方法,以及在中医文献研究中的应用情况。
关键词:中医;数据挖掘;文献研究
中图分类号:R2-03 文献标识码:A 文章编号:1006-1959(2017)13-0022-03
Abstract:The era of big data,data mining as an effective information processing technology,in the literature of traditional Chinese medicine extract potential and useful information.Data mining is widely applied to specific diseases,prescriptions,medical records,literature research and clinical experience of senior experts of acupuncture.This paper briefly introduces the association rules analysis,cluster analysis,decision making tree algorithm and neural network data mining method,and application in TCM literature research.
Key words:Traditional Chinese medicine;Data mining;Literature research
“大數据”已成为互联网信息技术行业的流行词汇。大数据时代,人们不再追求精准和因果关系,而是更为关注相关关系[1]。中医学也迎来了大数据时代,从海量中医数据中提取有用的信息也变得更加困难,数据挖掘作为有效地信息处理技术,可以帮助中医研究者挖掘海量数据中有用的信息。数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中、不为人知但又是潜在有用的信息和知识的过程[2],数据挖掘也被称为数据库中知识发现,即从一个大的数据堆中找出有用的知识,从数据中挖掘知识[3]。这是一个从大量不完整的数据中发现、抽取有意义数据的过程。数据库知识发现技术最早是在1989年的美国人工智能协会第11届年会上提出的[4],而后渐渐成为人们在海量数据中寻找有效知识的一个必备方法。在中医文献研究中,常用的数据挖掘方法有关联规则分析、聚类分析、决策树算法和神经网络,尤其是关联规则分析和聚类分析最为常用。也有很多中医文献研究需要综合应用多种数据挖掘方法。
1 关联规则分析
关联规则分析又称为购物篮分析,目的是在一定的支持度和置信度限制下寻找事务之间的内在的联系。它是由Agrawal等人于1993年提出来的。关联规则里的重要概念[5]:项集、支持度、频繁项集、置信度。支持度是度量一个项集出现的频率,例如项集{A,B}的支持度是由同时包含A和B的事务总数组成的。频繁项集是在数据集中出现频率高的那些项集,利用这些频繁集创建描述关联关系的规则[6],这是关联规则的核心部分。频率的阈值是用支持度来定义的。概率(Probability)是关联规则的属性,规则A=>B的概率是使用{A}的支持度除项集{A,B}的支持度计算的,该概率在数据挖掘研究领域中也称置信度。关联规则分析是数据挖掘领域中最活跃和成熟的方法之一,在中医文献研究中,关联规则分析常用在组方用药规律研究、病机的研究、针灸用穴规律的研究中,值得关注的是,关联规则分析在方证研究领域中也有所发展。关联规则在用药规律研究中旨在寻找有用的药对、药组、药症,甚至可以发现新方;关联规则在症候病机的研究中着重挖掘病机与病机之间、症候与病机之间的关联;关联规则在针灸用穴研究中,着重发现特定疾病选穴与经络之间的联系;关联规则在方证研究中,旨在寻找经方里的规律,帮助临床更好的应用经方。
1.1组方用药规律的研究
甘永康等[7]应用数据挖掘方法对叶天士《临证指南医案》治疗泄泻方剂的组方规律进行分析,得到叶天士治疗泄泻常用的药物、核心组合及发现新方,这为临床选方用药提供了新思路。
有些学者采用古今文献对比的思路研究了某病用药规律,沈劼等[8]运用关联规则分析并对比了古今医家治疗卵巢早衰的用药规律。挖掘出古代中医治疗卵巢早衰的核心药物是当归、川芎、白芍、茯苓、熟地黄等,为八珍汤基础方加减。得到关联度比较好的药对为当归-川芎、当归-白芍等。现代中医治疗卵巢早衰的核心药物是当归、熟地黄、菟丝子、枸杞子、山药等。得到关联度较好的药对为当归-熟地黄、熟地黄-菟丝子等;古代中医和现代中医治疗卵巢早衰共同选择的核心药物为当归、熟地黄、白芍、茯苓,核心药对为当归-熟地黄。在分析古今医家治疗卵巢早衰时,得到支持度最高的药物为当归,可以认为古今医家均视阴血亏虚为本病的一个病理基础,但用药有一定区别,古代方用药立足于补益气血,现代方用药以滋补肝肾阴血为主。
1.2 症候病机的研究
简维雄等[9]在基于现代文献研究高血压的证型病机特征时,运用了关联规则方法,得出高血压病机以肝肾阴虚为本,痰浊,瘀血为标,风阳内动为像。瘀血与痰浊、阳亢、肝阳化风、肝肾阴虚、阴虚阳亢、肝火上炎等病机关联;痰浊与瘀血、肝阳化风、肝火上炎、肝肾阴虚、阳亢、阴虚阳亢、气虚、阴虚等病机关联;肝肾阴虚证与病机瘀血倾向关联;肝肾阴虚证和肝阳上亢证时与病机痰浊、肝阳化风、瘀血倾向关联;血瘀证与瘀血倾向关联。
1.3针灸用穴规律研究
章薇等[10]运用关联规则探析古代针灸治疗尿失禁的用穴规律,得出治疗尿失禁多选阴经,重视手足三阴经腧穴偏重特定穴,阴经又以足厥阴肝经取穴最多,五输穴与其他特定穴配伍最为常用,原穴配伍五输穴支持度最高;而且发现古代医家治疗尿失禁不取膀胱经募穴中极。这说明数据挖掘技术也可以用来研究针灸的用穴规律。
1.4方证研究
在方证研究领域中,徐建虎等[11]运用数据挖掘技术分析古今医案专著、临床经验专著及期刊杂志中的小柴胡汤医案,发现小柴胡汤证临床病证规律。子午二个时辰定时发作的病变常采用小柴胡汤治疗;少阳提纲证(口苦、咽干、目眩) 和小柴胡汤四大主症(往来寒热、胸胁苦满、嘿(mo)嘿不欲饮食、心烦喜呕) 具有诊断小柴胡汤证的指标意义;“但见一证”指往来寒热、胸胁苦满、心烦喜呕、嘿嘿不欲饮食四者之一;小柴胡汤证主脉是弦脉。
2 聚类分析
聚类是指将物理或抽象对象集合构成为由类似的对象组成的多个类的过程[12],聚类分析是将数据进行类似对象组的划分,从而实现类的分析过程。在人类的行为中是一项非常重要的分析方法,也是一种常见的数据挖掘方法。聚类分析可分为R型聚类和Q型聚类。R型聚类可以把有线性关系的变量归到一类,然后让研究者自己去根据变量的情况判断选择代表性指标。而Q型聚类主要根据对象相似度,把整体分成若干类别,研究者在不同类别中寻找共同规律。无论是R型还是Q型聚类分析,都仅仅归类而不呈现结论,需要完成下一步分析,属于探索性分析[4]。多用于疾病的中医证候分类,为中医临床辨证论治依据提供分型的方法学[13],也应用于方剂中的用药规律、用药方案筛选等相关研究中。
刘嘉辉等[14]探讨名老中医治疗原发性肝癌的用药规律,搜集首届国医大师及首批国家级名老中医的医案提取方药信息,应用聚类分析和关联规则分析进行数据挖掘。聚类分析显示名老中医治疗原发性肝癌的药物可归为5类:补益气血类、理气活血类、解毒软坚类、利水渗湿类和健脾消食类。关联规则分析显示:关联性强的主要为益气健脾药和理气药、活血药、清热解毒药、消食药的配伍组合。名老中医治疗原发性肝癌谨守“正虚邪实”的病机本质,在扶正健脾基础上辨证运用清热解毒、疏肝理气、活血散结等治法。陈欣然[15]利用聚类分析和关联规则对近15年的反流性食管炎中医临床期刊文献进行了用药规律和证候研究。药物聚类组得出7种证型,与《实用中医消化病学》中该病的5种分类证型比较,少1种脾虚胃热型,多出4种证型脾胃湿热证、气郁痰阻证、痰热互结证和脾虚痰湿证,证明临床用药的趋向已经改变。在药物的研究中发现大部分排名靠前的药对中药物功能相近,如穿山甲、桃仁,穿山甲、红花均可活血化瘀、通络止痛;还有沿用经典用药配伍,如石青、寒水石出自《素问病机气宜保命集》中的双玉散等等。对于药症研究,大便艰难与玉竹相关性最高,白花蛇舌草、太子参、丁香、大枣、槟榔、黄芪、竹茹均与烧心相关联,说明主症烧心的用药多选择扶正祛邪、清热解毒、软坚散结的药物。
3 决策树算法
决策树算法是利用信息论中的信息增益,以寻找数据库中具有最大信息量的属性字段,建立一个决策树的节点,而后根据字段不同取之建立分支[4]。这种方法以树状结构表示模型,容易理解。国际上最早的最有影响的决策树算法是ID3算法。决策树算法在基于临床病例数据探索辨证规则的研究中使用较多,可以是研究专家的辨证规律,也可以是临床专病的辨证规则研究。决策树算法可用于中医临床疾病辨证的辅助诊断。
余学杰等[16]使用决策树算法将中医专家的临床诊断数据逐步分类以获得专家的辩证规律,研究者成功获取了多种证名与证候的规则,这说明利用决策树算法研究专家的辩证规律是可行的。黄嘉韵等[17]收集临床鼻鼽病例资料,建立了鼻鼽辩证分型决策树模型,并且获得了较高的准确率。通过决策树算法探索专病辨证规律具有可行性,在中医临床辨证过程中将会起到辅助诊断的作用。
4 神经网络
神经网路又称为人工神经网络,是模仿人脑神经元而产生的一种仿生物技术类数据挖掘方法[4]。神经网络的目的在于提取规则,在证候分类、证候诊断规则以及预测研究中经常使用,神经网络对已知证候与症状的关系或者对于建立专家系统都是有益的,但对某一个疾病的证候规律研究往往有局限性。有学者将神经网络运用在诊断学中四诊的研究,例如张康等[18]通过神经网络对舌图像进行胖舌,瘦舌和正常舌的自动归类。
5 总结与展望
数据挖掘技术在中医文献研究中已经得到广泛应用,在某一项研究中可以使用多种挖掘技术,这些挖掘技术不仅相互交叉又相互补充。其中关联规则在中医文献研究中使用较多,也趋渐成熟。聚类分析在中医文献研究中的使用频率也慢慢增多,然而在数据挖掘软件中,聚类分析呈现出的结果仅仅是归类而无结论,这就需要研究者深入探索再分析。在数据预处理方面,数据首先要规范化才能进行数据挖掘,其中症状的标准化一直是一个难点,需要我们研究人员深入探索,在症状标准化方面作进一步的研究。数据挖掘已经在中医文献研究领域中有很大的尝试,但有些数据量不够大,随着时代的进步,数据挖掘在中医文献研究领域中有更深的探索。
参考文献:
[1]张华敏,王永炎.高概念大数据时代中医理论研究的机遇[J].中国中医基础医学志,2015,21(1):4-6.
[2]刘兴方,韩学杰.数据挖掘技术在医案研究中的应用与讨论[J].中国实验方剂学志,2014,20(9):247-250.
[3]JiaweiHan,MichelineKamber,JianPei,等.数据挖掘:概念与技术[M].机械工业出版社,2012.
[4]郝峰.消化性溃疡近15年中医文献研究[D].北京中医药大学,2012.
[5]JamieMacLennan,ZhaohuiTang,BogdanCrivat,等.数据挖掘原理与应用(第2版):SQL Server 2008数据库[M].清华大学出版社,2010.
[6]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2004.
[7]甘永康,刘华一,刘惠.基于数据挖掘的《临证指南医案》治疗泄泻用药规律分析[J].中国中医基础医学杂志,2016,22(1):115-116,130.
[8]沈劼,王旭东,李新霞,等.卵巢早衰古今用药规律探析[J].中国中医药现代远程教育,2016,14(21):42-45.
[9]简维雄,陈偶英,张稳,等.基于高血压病中医药现代文献证型、病机特征研究[J].中华中医药学刊,2015,33(12):2871-2874.
[10]章薇,谭志高,曹卷舒,等.基于数据挖掘技术探析古代针灸治疗尿失禁的用穴规律[J].中国针灸,2015,35(12):1299-1303.
[11]徐建虎,陈甲秀,张琦,等.基于2898则古今医案的数据挖掘探讨小柴胡汤病证规律[J].时珍国医国药,2014,25(8):2026-2029.
[12]王欣,徐腾飞,唐连章.SQL Server 2005数据挖掘实例分析[M].中国水利水电出版社,2008:185.
[13]苏晓宇.数据挖掘聚类分析方法在中医临床中的运用[J].实用中西医结合临床,2010,10(6):90-93.
[14]刘嘉辉,韦志辉,吕东勇,等.基于数据挖掘的名老中医治疗原发性肝癌用药规律研究[J].中华中医药杂志,2016,31(1):58-61.
[15]陈欣然.基于数据挖掘技术的近15年反流性食管炎中医临床期刊文献研究[D].北京中医药大学,2014.
[16]余学杰,李书珍,李晓燕,等.基于决策树提取中医专家辨证规律初探[J].辽宁中医杂志,2015,42(1):19-24.
[17]黄嘉韵,郭宏,鄺艳萍.基于决策树算法的鼻鼽辨证规律初步研究[J].中华中医药杂志,2016,31(11):4770-4773.
[18]张康,张鹤林,金石,等.基于神经网络的舌体胖瘦分析[J].中华中医药杂志,2014,29(10):3111-3114.
编辑/成森