APP下载

关联规则在电信业务交叉销售中的应用

2015-02-20王开祥

沈阳理工大学学报 2015年4期
关键词:项集短信数据挖掘

宋 凯,王开祥

(沈阳理工大学 信息科学与工程学院,辽宁 沈阳 110159)

关联规则在电信业务交叉销售中的应用

宋 凯,王开祥

(沈阳理工大学 信息科学与工程学院,辽宁 沈阳 110159)

研究关联规则中的Apriori算法。对某电信公司各种电信业务和客户资料进行收集和分析,了解该电信公司的经营模式和营销策略,针对运营商的需求,使用Apriori算法对电信业务进行关联规则挖掘,结合实际情况对挖掘出来的结果进行解释说明,并对模型进行优化,最终提出业务的交叉销售方式。

关联规则;支持度;Apriori;挖掘;交叉销售

业务的关联分析也称作业务交叉销售,主要通过分析客户以往的购买行为,来挖掘那些频繁地被同时购买的产品组合,根据这些信息可以为只购买部分产品的客户来推荐组合中的其他的产品,以这种方法来提高企业的利润,它的实现方法主要有关联规则、相关分析和主成分分析[1]。本文以业务角度为出发点,对电信业务进行关联分处理,建立一个电信业务交叉销售模型。通过模型发现的知识,了解电信用户频繁订购的业务组合,和一些潜在的关联规则,企业可以根据挖掘出来的关联规则和业务组合进行业务营销和业务间的捆绑销售,从而实现业务间的交叉销售[2]。

1 关联规则算法

1.1 关联规则基本概念

假设A,B是数据库D中包含的不相交数据项目集,A,B⊆I,A∩B=Φ,那么关联规则的表达形式为

R∶A→B

(1)

其中的条件

A∩B=Φ

(2)

不是一定的,但是如果没有这个约束条件就会产生一些冗余的关联规则。比如,A→A是最明显的例子。关联规则A→B和A→A∪B在数据挖掘中具有的意义是相同的[3]。

1.2 Apriori算法

数据挖掘关联规则中相当经典的算法是Apriori算法,该算法具有反单调性。与FP-tree算法生成频繁模式树的方式不同[4-5]。Apriori算法先生成候选项集判断是否为频繁项集。生成的频繁项集的任一子集一定都是频繁项集,含有非频繁项集任意子集的项集一定是非频繁的。运用迭代的思想,首先发现1频繁-项集,由频繁k-1-项集生成k候选项集,逐层扫描数据库后从候选k-项集中筛选出频繁k-项集,直到最终剩下的候选项集为空时算法结束[6]。

使用VC++语言对Apriori算法进行编程,在Visual C++中调用程序实现对表1中的样本事务数据的关联规则分析。

表1 关联规则挖掘数据

图1 生成频繁1项集过程

图1生成候选1项集,扫描数据库得到各项目集的支持度的计数,除去支持度计数小于2的项集即为1-频繁项集。

图2 生成频繁2项集过程

图2是由频繁1项集生成频繁2项集,通过扫描数据库得到各2项集的支持度计数,挑选支持度大于等于2的项集,得到频繁2项集。

图3 生成频繁3项集

图4 生成的强关联规则

图3所示是根据所有非频繁项集的超集都是非频繁的,对候选3项集进行剪枝,扫描数据库得到候选项集,除去小于支持度的候选项集,得到频繁3项集。同理,得到频繁4项集和频繁5项集。再根据最小支持度,来判定是否为关联规则。置信度大于或等于最小置信度的规则即为强关联规则[7]。图4所示即为生成的强关联规则。

2 数据准备及预处理

2.1 数据准备

要实现对电信业务的关联分析,就要大范围收集电信公司的用户数据,并需要对这些数据进行补全、去噪等数据预处理工作,得到符合构建模型所需的格式类型的数据,还要对数据进行初步的分类为下一阶段的关联分析打下基础。本文选用某电信公司2010年6-8月份3个月的客户使用的业务的数据,只选取那些状态为正常使用并且不欠费用的用户,不考虑“停机”和“销户”的客户。选取的业务包括:漏话提示、天气预报、新闻早晚报、爱音乐俱乐部、189邮箱、辽沈晚报、短信转移、短信过滤、主叫短信回复、定时短信、翼支付。

由于实验数据中客户的业务消费属性需要根据交叉销售的目的进行选择,本案例根据实验数据使用语音业务原始数据。此外,实验数据还包括客户手机卡号,并将其作为客户的唯一编号。

2.2 数据预处理

对大量的电信数据进行预处理是一项相当繁琐的工作,却又是必要的工作[8]。由于人工处理数据的时候会出现失误、数据收集过程中的遗漏等现象,导致数据通常是不完整的、有噪声的和不一致的,这些都会对挖掘结果造成影响。所以要对电信用户开通的业务数据进行预处理,可以得到符合数据挖掘的数据,缩小数据挖掘的范围,提高数据挖掘的效率和质量。本系统对数据的预处理主要是采用数据变换方法中的属性构造、属性泛化和属性的替换[9]。数据预处理最基本的步骤是对数据中不完整的条目进行数值填充,删除重复的记录,检测数据中不相符的数据并对其进行改正。由于原始数据中的各类业务大多是消费金额,这里需要将有消费的值用1代替,没有消费的用0代替。对于其他业务,客户在本月至少使用过某业务一次,那么该业务的值就为1,否则为0。由于数据挖掘是要用来预测将来客户可能发生的行为,则目标群体应该全部都是具有普遍行为特征的客户群体,那么就应该将有些不具有普遍行为的客户的数据去除,减小它们对于关联结果的影响。例如,若用户的数据值全部为“0”,则不具有普遍意义,应该将这类用户的数据去除。

处理后的客户增值业务有11种,如表2所示。

表2 客户增值业务数据表

将用户数据导入SQL2005[10]中,图5是客户办理增值业务记录。由于原始数据中的用户业务使用情况是通过数“0”,“1”来标记的,应该将客户使用的数据转化成近似项目集的形式。通过编译SQL数据库语句将数据样本转化为项目集合形式。转化后的样本如图6所示。

图5 客户使用增值业务数据

图6 转化后的数据样本

3 关联规则挖掘与结果分析

3.1 基于关联规则的数据挖掘

对电信业务的关联规则采用Apriori关联规则算法,该算法能够对大数据进行关联分析,且运算速度性能相对稳定。最小支持度及最小置信度是发现频繁项集和关联规则所必须的阈值。阈值的设定要结合具体实际情况决定,由于电信增值业务的使用率高,可以设定最小支持度为5%、最小置信度为50%。有价值的规则包含了潜在的高质量和可执行的信息。例如“189邮箱&新闻早晚报&天气预报”是具有价值的关联规则。因为189邮箱是免费的业务,而新闻早晚报和天气预报是额外收取费用的业务,那么通过推荐使用“189邮箱”业务的用户开通“新闻早晚报”和“天气预报”业务,进而增加了额外的收入。

由关联分析模型得到挖掘结果后,要从商业角度出发对知识进行分析和说明,发现规则中与实际应用不相符或没有价值的地方,以此为依据对规则进行优化。针对不同用户提出有针对性的营销方案,从而将数据挖掘出来的有效信息转换为能给企业带来利润的商业行为。

图7 客户数据生成的部分规则

图7为使用Apriori算法在VC++6.0中调用SQL 2005中经过数据预处理后所挖掘出来的关联规则。从图7可以看出,部分关联规则挖掘结果的置信度相对较高,而支持度却偏低。这一现象可能是由于电信业务的推广力度不强所导致的。由规则1和规则2可以看出,漏话提示和短信转移之间的联系比较大,客户使用其中一种业务的人很大程度上同时使用另一种业务,其置信度高达84%以上。

3.2 数据挖掘结果分析

从第3到8条关联规则可以得出,漏话提示业务或短信转移业务的使用会影响到爱音乐俱乐部和翼支付业务的使用,虽然5、6条规则的左边同时包含了漏话提示和短信转移业务,短信转移业务对规则支持度和置信度都没有太大的影响,所以漏话提示的影响力更大。可以挖掘出,向使用漏话提示或短信转移业务的客户推销爱音乐俱乐部和翼支付业务的成功率比较高。

从第9、10、11条规则可以发现,沈阳晚报对爱音乐俱乐部和翼支付业务具有较大的影响,特别是对爱音乐俱乐部。同时还显示出,向沈阳晚报的客户推销爱音乐俱乐部或翼支付中的一种业务的成功率比同时推销爱音乐俱乐部和翼支付两种业务的成功率高。

类似的,第12、13、14条规则的结论是天气预报业务的开通对爱音乐俱乐部和翼支付有相关影响,特别是翼支付业务。由于目前天气预报业务是免费试用期,营销员人可以在客户购买电话卡初期为客户开通天气预报体验业务,可以为爱音乐俱乐部和翼支付业务带来增值利润。

4 规则优化

由挖掘的关联规则可以发现,在电信增值业务中,短信转移和天气预报业务在客户中的使用率很高,电信运营商不需要在这方面过大的投入和推广[11]。而189邮箱用户使用率相对比较低的业务需要大力推广,例如翼支付业务和定时短信业务等等。若将使用频率高的业务和较低的业务放到一起进行挖掘,则会对有针对性的推广产生影响。所以需要对部分使用率低的业务进行单独的关联规则挖掘。可以对客户使用业务的情况由浅到深的探索。

通过对这11种业务覆盖率的计算,统计结果如图8所示。选择漏话提示、定时短信、沈阳晚报、新闻早晚报、爱音乐俱乐部、短信转移、主叫短信回复、翼支付和189邮箱这8种业务。从33041条记录中提取出至少使用这8种业务中的一种用户的数据。同样设置最小支持度为5%、最小置信度为50%对优化后的数据进行关联分析。

图8 客户使用业务的覆盖率

图9 优化后的关联规则部分

图9为优化后的数据产生的关联规则。从图9中的第1、2条规则可以发现,客户是否使用定时短信和漏话提示或短信转移和沈阳晚报相关,置信度高达约83%以上,而且使用沈阳晚报的用户,同时使用漏话提示会比同时使用短信转移更有可能使用沈阳晚报。从第2、3条规则可知,同时使用沈阳晚报和短信转移的用户,如果营销人员向其推销单独的定时短信业务会比推销漏话提示和定时短信两种业务成功率更高。从第8、9条规则可知,同时使用定时短信、沈阳晚报和短信转移的客户大多会同时使用漏话提示。

由关联规则挖掘出的不同业务间具有的相关联系,可以帮助营销策划人员设计出不同套餐形式的业务捆绑套餐和方案,让用户享受驿站购齐的电信业务服务。为增值业务的推广打下基础[12-13]。

5 结束语

重点研究了数据挖掘技术中的关联规则算法在电信增值业务关联规则中的实际应用。首先对收集到的电信用户数据进行数据预处理,将用户数据转化为满足数据挖掘格式的数据。使用Apriori算法,通过ODBC数据访问技术调用数据库,实现对用户业务数据的关联规则挖掘,并对挖掘出来的知识进行解释说明。根据客户使用业务的覆盖率,对关联规则进行优化,得到更为准确的挖掘结果,并将这些关联规则转化成商业模式,实现业务捆绑和交叉销售,帮助营销人员进行方案制定。

[1]彭宏,刘洋,郑维维.股票数据流的相关性技术方法[J].华南理工大学(自然科学版),2006,34(1):86-89.

[2]Cheng-Hsiung Weng,Yen-Liang Chen.Mining fuzzy association rules from uncertain data[J].knowledge information system,2010,23(2):129-152.

[3]Yi Hu,Brajendra Panda.Design and Analysis of Techniques for Detection of Malicious Activities in Database Systems[J].Journal of Network and Systems Management,2005,13(3):269-291.

[4]Xiang M,Shi WR,Jiang CJ,et al.Energy efficient clustering algorithm for maximizing lifetime of wirelesss ensornetworks[J].AEU-Int’l Journal of Electronic and Communication,2010,64(4):289-298.

[5]Younis O,Fahmy S.HEED:a hybrid,energy-efficient distributed clustering approach for ad hoc sensor networks[J].IEEE Transaction on Mobile Computing,2004,3(4):366-379.

[6]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,14(1):46-49.

[7]Hamid Mahmoodian M,Hamiruce Marhaban,Raha Abdulrahim,et al.Using fuzzy association rule mining in cancer classification[J].Australasian College of Physical Scientists and Engineers in Medicine,2011,34(1):41-54.

[8]Jim Gray.Data Mining Practical Machine Learning Tools and Techniques 2rd Edition(SECOND EDITION)[M].NEW YORK:Elsevier,2005.

[9]Duham M H.Data Mining Introductory and Advanced Topics[M].Pearson Education,2003.

[10]Roland Vouman,Josvan Dongen.Pentagon Solutions,Business Intelligence and Data Warehousing with Pentagon and MySQL[M].US:Willey,2009.

[11]钟杨俊,文堂柳.可视化数据挖掘方法与技术[J].附件电脑,2008,24(8):59-95.

[12]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京:电子工业大学出版社,2011.

[13]刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理[J].计算机科学,2000,10(4):54-58.

(责任编辑:马金发)

Application of Association Rules in Telecom Business Cross-selling

SONG Kai,WANG Kaixiang

(Shenyang Ligong University,Shenyang 110159,China)

The Apriori algorithm of association rules is studied.All consumers’ data involued in telecommunication of a telecompany is collected and analyzed.Understanding the telecommunications company’s business model and marketing strategy,according to the need of the operators,the improved AprioriTid-M algorithm is used to perfect the association rules of the telecom.Combined with the situation of the company,the mined data is analyzed.The model is optimized and the way of cross-selling is proposed.

association rules;confidence;Apriori;mining;cross-selling

2015-01-05

辽宁省科学计划项目(2012217005);辽宁省科学事业公益研究基金资助项目(2012004002)

宋凯(1964—),男,教授/博导,博士,研究方向:计算机视觉、智能检测与控制等.

1003-1251(2015)04-0075-05

TP319

A

猜你喜欢

项集短信数据挖掘
探讨人工智能与数据挖掘发展趋势
道歉短信
不确定数据的约束频繁闭项集挖掘算法
代发短信
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*
“八一”节日短信之一