关联规则在医药销售行业的研究
2014-10-27张峰吴辰曦
张峰 吴辰曦
摘 要:本文通过对关联规则挖掘的研究,探讨了关联规则在医药零售业中应用,以期找出不同药品间的销售相关程度,提高药品的营销力度,挖掘频繁项目集是关联规则挖掘应用中的核心技术。
关键词:数据挖掘;关联规则;频繁项集;医药营销
1 引言
如今,数据挖掘已被各行各业所广泛关注,关联规则(Association Rules)挖掘是数据挖掘的一个重要分支,自从Agrawal于1993年提出了关联规则挖掘的概念,吸引了越来越多的学者对其进行研究。关联规则是如下形式的逻辑蕴涵:A→B,其中A,B是项集,A∈I,B∈I,A∩B=Ф,一般用来分析和发现数据事务集中不同变量或个体之间是否存在着某种关系,例如利用这些关系找出顾客购买行为模式。关联规则源于购物篮分析,即购买A产品会不会刺激购买B产品,例如购买药品A对购买其它药品的相关影响,这时我们可以表示为“在购买了药品A的顾客中,有K%的顾客又购买了B药品”。发现这样的规则可以应用于药品的货架分类、库存安排及根据购买行为模式对患者进行分类。总之,关联规则通过对历史数据进行分析找出“哪些药品会被顾客同时购买”。挖掘频繁项目集是关联规则挖掘应用中的核心技术,主要研究的关联规则算法有搜索算法、深度优先算法等,其中最为经典的是Apriori算法[1]。
2 关联规则的基本概念
关联规则挖掘的主要任务是在历史数据中发现所有强关联规则,即在历史数据中挖掘出所有满足最小支持度min_support和最小置信度min_confidence的关联规则。每一条被挖掘出来的关联规则可以用一个蕴含式,两个阀值来进行标识。
定义1:I={I1,I2…,Im},由m个项目组成的集合。其中I为有m个项目的集合(itemset),即项目集,Im为购买的第m件药品。
定义2:D={t1,t2,…,tn},由n项组成的集合,代表n位顾客的交易集合,其中tj={ ij1,ij2…,ijk},其中tj代表第j位顧客的交易清单,共购买了k项物品,ijk表示第j位顾客购买的第k件商品。
定义3:关联规则一般是形如A->B的蕴涵式,它有两个重要参数,支持度sup和可信度conf。其中,sup(I1->I2)=P(I1∩I2),表示I1和I2同时购买的概率;conf(I1->I2)=P(I1|I2),表示在购买了I2的情况下购买I1的概率。
定义4:若sup(I1->I2)>=min_support,conf(I1->I2)>= min_confidence,则(I1->I2)称为强关联规则,其中min_support称为最小可信阈值,min_confidence称为最小支持阈值,一般可以根据应用经验设定。
定义5:若有项目集S,sup(S)>=min_support,则S就是一个频繁项集,频繁K-项集,通常记为LK。如果一个项目集S不满足最小支持度,则称为非频繁项集。
定义6:作用度(lift)是可信度与期望可信度的比值。作用度描述项目集X的出现对项目集Y的出现有多大影响。
在药品销售中,“购买药品A的同时也会购买药品B”,类似的自然语言可以用如下规则表示:药品A-->药品B[sup=7%, conf=89%]。这个规则的含义是:在所有交易中,药品A和药品B有7%的概率会同时购买,并且在购买药品B时会有89%的概率购买药品A。
3 关联规则算法研究
Apriori[2]算法是关联规则挖掘中比较有影响力的算法,该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是[3]:首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍[4]。
(1)频繁项集的所有非空子集也必须是频繁的。
(2)非频繁项集的所有超集一定是非频繁的。
下面通过一个例子来研究Apriori算法是如何对一个事务数据库进行频繁项集挖掘的。数据库中有4个事务,交易数据库D中共有4条记录,如表1所示,假设支持度阈值50%(即最小支持度计数为2)。
扫描数据库,得到候选1-项集C1 ,如表2所示。
比较C1中各项的支持度计数与最小支持度计数,得到频繁1-项集L1,如表3所示。
使用L1⊕L1生成候选2-项集C2,扫描数据库,得到C2各项的支持度计数,如表4所示。
比较C2中各项的支持度计数与最小支持度计数,得到频繁2-项集L2,如表5所示。
使用L2⊕L2生成候选3-项集C3,同时根据Apriori性质剪枝,并扫描数据库,得到C3各项的支持度,如表6所示。
比较C3中各项的支持度计数与最小支持度计数,得到频繁3-项集L3,如表7所示。
因为在例子中无法产生候选4-项集,即C4= ,所以Apriori算法停止连接,得出频繁项集BCE。
4 结论
通过利用Apriori算法对事物数据库挖掘,最终得出了频繁项集,根据该结论便可对药品货架分类、库存安排及根据购买行为模式对患者进行分类。Apriori过程需要完成两种操作,一是连接操作,二是消减操作,可能产生大量的候选集和重复扫描数据库。
[参考文献]
[1]J.HanandM.Kamber著,范明,孟小峰,等,译.数据挖掘概念技术.北京:机械工业出版社,2001:149-178.
[2]杨君锐.关于最大频繁项集的增量式挖掘方法研究.计算机研究与发展,2004,41:270-275.
[3]欧阳为民,蔡庆生.数据库中的时态数据发掘研究[J].计算机科学,1998,25(4):60-63.
[4]杨炳儒.多最小支持度规则的挖掘算法[J].计算机工程.2003.Vol.29 No.6.40-41.151.