基于精简二元矩阵的蒙医方剂关联规则挖掘*
2017-04-10张春生图雅李艳
张春生,图雅,李艳
(内蒙古民族大学计算机科学与技术学院通辽028043)
基于精简二元矩阵的蒙医方剂关联规则挖掘*
张春生**,图雅,李艳
(内蒙古民族大学计算机科学与技术学院通辽028043)
目的:目前关联规则在中医方剂数据挖掘方面的研究成果较多,而针对于蒙医方剂的数据挖掘工作几乎没有展开。本文应用基于精简二元矩阵的Apriori算法对蒙医方剂进行数据挖掘,为新药研制提供决策支持。方法:采用基于精简二元矩阵的Apriori算法对蒙医方剂治疗“赫依病”的27种方剂进行数据挖掘。结果:当置信度为80%、支持度为60%时,出现的高频属性分别是“沉香”、“肉豆蔻”、“镇赫依”、“肉豆蔻-沉香”、“镇赫依-肉豆蔻”,得到[肉豆蔻-->镇赫依,0.83]、[沉香-->肉豆蔻,1.00]2个关联规则。结论:应用基于精简二元矩阵的Apriori算法能够快速发现蒙医方剂中潜在的关联规则和高频药物,对揭示蒙医方剂的组方规律提供了一种新途径。
二元矩阵蒙医方剂关联规则数据挖掘
数据挖掘技术自产生以来无论在算法理论还是应用研究方面得到了丰富的研究成果[1-7],关联规则作为数据挖掘最经典有效的方法,广泛应用于中医方剂配伍规律研究工作中,特别是近几年,中国的科学工作者在这些方面的研究成果较多。
朱习军等[8]应用Apriori改进算法对哮喘病案进行了数据挖掘;刘秋霞等[9]应用关联规则对国医大师班秀文治疗痛经的用药规律进行了研究;周志焕等[10]应用关联规则对郁证古方用药规律进行了分析研究;崔树娜等[11]应用关联规则对白细胞减少症方药规律进行了分析研究;陈桂芬等[12]应用关联规则挖掘技术对《千金方》中养生方剂配伍规律进行了相关研究;田茸等[13]应用熵聚类与Apriori算法对脾虚型泄泻用药规律进行了研究;郭慧娟等[14]应用关联规则对藏医隆滞布病(脑梗死)用药规律进行了研究;杨丽平等[15]应用关联规则对风寒湿痹方剂用药规律进行了数据挖掘研究;吴宏赟等[16]对宋代头痛外治方进行了关联规则挖掘;邓亚楠等[17]应用关联规则法对慢性肾炎处方用药规律进行了相关研究工作。
从以上研究可以得出,关联规则挖掘算法已经广泛应用于中医方剂数据挖掘的研究工作中。但在民族医学研究方面的成果较少,在以上的论述中,郭慧娟等[14]少数学者对藏医方剂配伍规律进行了研究,而蒙医方面的研究成果没见涉猎。另外,目前的研究成果大多应用经典的Apriori算法实现,没有针对方剂的特点进行算法改进,也没有专门针对中医方剂建立专门的数据挖掘系统。
1 本文算法应用于蒙医方剂数据挖掘的优势
本文采用基于精简二元矩阵的Apriori算法对蒙医方剂进行数据挖掘。从孙逢啸等[18]、刘敏娴等[19]和胡维华等[20]的研究可以看出,基于精简二元矩阵的Apriori算法将事务转换成向量,将整个事务集转换成二元矩阵,所有的频繁项集和关联规则都在矩阵中产生,整个过程只进行一次数据库扫描提高了系统的运行效率。但基于精简二元矩阵的Apriori算法的缺点是事务的数量和维度不能太大,以一次装入内存为阈值,否则适得其反。而蒙医方剂的各类方剂中,方剂数量较中医相比较少,用药数量也非常有限,同时可按1项集出现的频度对预处理矩阵进行属性约简,这就使得事务集的二元矩阵很小,适合采用基于精简二元矩阵的Apriori算法进行数据挖掘。
本文采用适合于蒙医方剂数据挖掘特点的基于精简二元矩阵的Apriori算法对蒙医方剂治疗“赫依病”的27种方剂进行了数据挖掘,得到了高频药物组和一些关联规则,为蒙药新药的研制提供技术支持。
2 Apriori算法简介
Apriori算法是最经典、最实用的基于布尔关联规则的数据挖掘算法。其核心是基于两阶段频集思想的递推算法。Apriori关联规则算法在分类上属于单维、单层、布尔关联规则。
算法的基本思想是:首先找出所有的频繁项集,这些项集出现的频繁性至少大于等于最小支持度。然后由频繁项集产生强关联规则,这些关联规则必须满足最小支持度和最小置信度。
3 数据预处理
针对一类病症的蒙医方剂,共有的药物较少,相异的药物较多,而相异的药物往往不是高频药物的现实,为简化原始数据的复杂性,降低数据维度,需进行属性约减。本文基于精简二元矩阵Apriori算法使用频繁1项集作为初始二元矩阵,在此基础上进行数据挖掘。因此,预处理的主要工作就是寻找频繁1项集。
根据支持度要求,扫描原始事务数据库,找到高频属性。设原始方剂数据库属性集为U={R1,R2,…,Rn},事务集为T={T1,T2,…,Tm},支持度为C,属性约减后的属性集为u={r1,r2,…,rk}。
算法描述:
4 精简二维矩阵表示与频繁项集运算
为提高算法的效率,采用精简二元矩阵表示约减后的事务数据集。dim F[p][k],其中p为约减后的事务数量,k为约减后的属性数量。精简二元矩阵的行表示事务T,列表示约减后的属性u,当属性值为1时,表示当前事务包含当前事务属性,当属性值为0时,表示当前事务不包含当前事务属性。
算法设计:
1项集就是约减后的属性集{r1,r2,…,rk}。
2项集以上项集生成算法,以二项集[ri][rj]为例,算法描述如下。
5 案例实验
本文采用内蒙古民族大学蒙医药学院奥·乌力吉教授和布和巴特尔教授编写的《传统蒙药与方剂》中治疗“赫依病”的方剂为例子,该类方剂共收录27个方剂,共涉及药物87味[21]。本文应用基于精简二元矩阵的Apriori算法对这27个方剂进行关联规则挖掘,寻找高频药物组和关联规则。
数据预处理表明,若采用普通矩阵,矩阵维度为27*87,本文采用基于精简二元矩阵的Apriori算法,预处理后的矩阵为27*6,数据量减少了93.1%,大大提高了数据挖掘效率。
文献表明,关联规则的可信度取决于高置信度,而对支持度的要求不一定太高,为了得到更多规则,本文的实验采用的置信度为80%,而支持度相对较低。
表1 实验环境
表2 支持度为30%时蒙医方剂的关联规则挖掘结果
5.1 实验环境与关联规则挖掘
本文实验环境详见表1。系统采用置信度80%,采用30%、40%、50%、60%4种支持度,应用基于精简二元矩阵的Apriori算法进行关联规则挖掘,挖掘结果分别如表2、表3、表4、表5所示。
依据表2、表3、表4、表5,从关联规则可信角度出发,我们选择置信度为80%、支持度为60%时的结果,出现的高频属性分别是“沉香”、“肉豆蔻”、“镇赫依”、“肉豆蔻,沉香”、“镇赫依,肉豆蔻”。而得到的关联规则为[镇赫依-->肉豆蔻,0.83]、[肉豆蔻-->镇赫依,0.83]、[沉香-->肉豆蔻,1.00]。
从以上频繁项集和关联规则来看,“镇赫依”方剂中的高频药物是“肉豆蔻”,而“沉香”与“肉豆蔻”总结伴出现,并且出现的频率较高。总的来说,“沉香”与“肉豆蔻”是镇赫依的2种重要药物,本结论供蒙医方剂学学者参考。
6 小结
本文在蒙医方剂数据挖掘平台上应用基于精简二元矩阵的Apriori算法对治疗“赫依病”的27个方剂进行了关联规则数据挖掘,发现“沉香”与“肉豆蔻”是镇赫依的两种出现频率较高的药物。这对蒙医方剂配伍规律研究和新药研制提供了决策支持。蒙医方剂数据挖掘的研究工作对保护民族医学的遗产,对蒙医药研究和发展开辟了新的途径,必将促进蒙医药研发工作,具有一定的社会效益和经济价值。
表3 支持度为40%时蒙医方剂的关联规则挖掘结果
表4 支持度为50%时蒙医方剂的关联规则挖掘结果
表5 支持度为60%时蒙医方剂的关联规则挖掘结果
1李立波,白树仁,陈磊,等.基于不确定数据的可能频繁闭序列模式挖掘.计算机应用研究,2016,33(4):983-988.
2马昱欣,曹震东,陈为.可视化驱动的交互式数据挖掘方法综述.计算机辅助设计与图形学学报,2016,28(1):1-8.
3张忠林,田苗凤,刘宗成.大数据环境下关联规则并行分层挖掘算法研究.计算机科学,2016,43(1):286-289.
4刘卫明,蒯海龙,陈志刚,等.基于有序树的不确定数据最大频繁项挖掘算法.计算机工程与应用,2015,51(24):145-149.
5万琳,范秋灵.面向软件缺陷数据的负关联规则挖掘方法.微电子学与计算机,2015,32(4):50-55.
6唐晓东.基于关联规则映射的生物信息网络多维数据挖掘算法.计算机应用研究,2015,32(6):1614-1616,1620.
7刘浩然,刘方爱,李旭,等.有效的不确定数据概率频繁项集挖掘算法.计算机应用,2015,35(6):1757-1761,1784.
8朱习军,陈亚楠,董国华.Apriori改进算法在哮喘病案数据挖掘中的应用.徐州工程学院学报(自然科学版),2015,30(3):8-14.
9刘秋霞,蒋祖玲,戴铭,等.基于关联规则的国医大师班秀文治疗痛经的用药规律研究.广西中医药,2015,38(3):58-60.
10周志焕,高树明,高杉,等.基于关联规则的郁证古方用药规律分析.天津中医药,2015,32(3):176-189.
11崔树娜,胡雪琴,温先荣.基于关联规则挖掘的白细胞减少症方药规律分析.中国中医药图书情报杂志,2014,38(1):23-26.
12陈桂芬,周常恩,李德森.基于关联规则挖掘技术对《千金方》中养生方剂配伍规律研究.长江大学学报(自然科学版),2014,11(36):208-212.
13田茸,段永强,马雪娇,等.基于熵聚类与Apriori算法的脾虚型泄泻用药规律研究.中国中医药信息杂志,2016,18(4):43-46.
14郭慧娟,任小巧,毛萌,等.基于关联规则的藏医隆滞布病(脑梗死)用药规律研究.世界科学技术-中医药现代化,2016,18(4):594-599.
15杨丽平,孔繁飞,杨阳,等.基于数据挖掘的风寒湿痹方剂用药规律研究.中国中医药信息杂志,2015,22(3):44-47.
16吴宏赟,张继伟.宋代头痛外治方关联规则浅析.中国中医急症, 2015,24(8):1365-1366,1388.
17邓亚楠,李献平,余学杰,等.用关联规则方法研究慢性肾炎处方用药规律.中华中医药杂志,2014,29(9):2810-2813.
18孙逢啸,倪世宏,谢川.一种基于矩阵的Apriori改进算法.计算机仿真,2013,30(83):245-249.
19刘敏娴,马强,宁以风.基于频繁矩阵的Apriori算法改进.计算机工程与设计,2012,33(11):4235-4239.
20胡维华,冯伟.基于分解事务矩阵的关联规则挖掘算法.计算机应用,2014,34(S2):113-116.
21奥·乌力吉,布和巴特尔.传统蒙药与方剂.赤峰:内蒙古科学技术出版社,2013.
TheAssociating RulesofM ongolian M edical Prescriptions Based on Reduced Binary M atrix
Zhang Chunsheng,Tu Ya,LiYan
(CollegeofComputerScienceand Technology,InnerMongolia University forNationalities,Tongliao 028043,China)
The associating rules have been widely used in traditional Chinesemedical(TCM)prescription datamining research work,whileMongolianmedical prescription dataminingwork hardly carried out.In this study,Apriorialgorithm based on reduced binarymatrixwas adopted for the datamining ofMongolianmedical prescriptionswith the provision of the decision support for research and development of new drugs.Twenty-seven Mongolianmedical prescriptions for He Yi disease were involved in the datamining with Apriori algorithm based on reduced binary matrix.Itwas found that Aquilaria agallocha,Myristica fragrans,Zhen He Yi,or Aquilaria agallocha combined with Myristica fragrans,or Zhen He Yi combined with Myristica fragranswere determined as the Mongolian drugs frequently used in He Yi disease,with 80%confidence level and 60%support,and two algorithmswere output,[Myristica fragrans-->Zhen He Yi,0.83]and [Aquilaria agallocha-->Myristica fragrans,1.00].In conclusion,some potential associating rules and drugs with high frequency in the Mongolian medical prescriptions can be fastmined using Apriori algorithm based on reduced binary matrix,providing a new way forunveiling themedication rulesofMongolianmedicalprescriptions.
Binarymatrix,Mongolianmedical prescriptions,associating rules,datamining
10.11842/wst.2017.02.028
TP311
A
(责任编辑:朱黎婷,责任译审:朱黎婷)
2016-12-01
修回日期:2017-01-06
*国家自然科学基金委地区科学基金项目(81460656):蒙医方剂数据挖掘关键技术研究,负责人:张春生。
**通讯作者:张春生,教授,主要研究方向:数据库、数据挖掘、软件理论研究。