基于CRISP—DM模型的移动GPRS业务关联规则应用研究
2017-03-30白鱼秀郑欢欢
白鱼秀+郑欢欢
摘 要:随着移动通信业务的发展,移动系统积累了大量的客户业务数据,急需发现各种业务之间蕴含的内在关系,为企业管理者提供决策支持。提出采用CRISP-DM模型,对移动GRPS业务进行关联规则挖掘,挖掘出GPRS业务之间的关联关系。实验结果表明,挖掘结果能发现潜在的高交叉GPRS业务。移动营销人员可以根据该挖掘结果对GPRS业务进行捆绑销售,获得更多利润。
关键词:CRISP-DM;关联规则;GPRS;移动通信
中图分类号:TP302 文献标识码:A 文章编号:2095-1302(2017)03-00-03
0 引 言
随着移动互联网的发展,人们的生活方式发生了翻天覆地的变化。越来越多的人通过移动互联网处理生活中的各个方面,如查找资讯、衣食住行、沟通娱乐、处理工作等[1]。移动业务维度多,数据量大,关系复杂[2]。GPRS业务是移动运营商价值链中最重要的组成部分之一,是移动運营商在移动基本业务(话音业务)的基础上,针对市场需求开通的可供用户选择的智能化业务[3]。中国移动在其GPRS网络上推出了彩信、WAP、手机钱包等一系列移动业务,市场需求极大且前景广阔。因此各运营商都在积极寻找GPRS业务方面的杀手级策略,试图以GPRS业务应用作为发展契机,确立市场地位。
但移动GPRS业务市场占有率不高,带来的利润相当微薄,很多客户都不了解相关GPRS业务,导致GPRS业务的开展工作也不到位。所以必须充分利用移动的海量数据,运用关联规则挖掘方法,挖掘出GPRS业务之间的关联关系,将数据转换成有价值的信息和知识,更好地向客户提供GPRS服务,发现更多商机,让企业在竞争中处于不败之地。
1 CRISP-DM数据挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining,CRISP-DM)模型自提出以来,已逐渐发展成为指导数据挖掘活动的标准。CRISP-DM模型包括商业理解、数据理解、数据准备、建立模型、模型评估和模型部署[4],包含了数据挖掘的全过程。
CRISP-DM模型如图1所示。CRISP-DM模型定义了六个阶段来指导数据挖掘过程,但该顺序并非一成不变,在实际操作中,根据每一个环节所产生的结果来确认要执行的阶段或特定环节,有可能导致循环往复的情况出现[5]。数据挖掘是一个以数据为中心,循序渐进的螺旋式数据探索过程[6]。
商业理解阶段的任务是明确项目的商业目标。只有对商业目标充分理解后,才能将有效的商业问题转化为数据挖掘解决的问题,并最终将结果转化为商业解决方案[7]。
数据理解阶段,首先收集原始数据,然后对数据作初步分析[8],熟悉数据的特征,识别数据的质量问题,发现数据库中各表之间的联系,完成数据探索。
数据准备阶段需要对表、记录和属性等数据做选择、清洗、重建、合并等工作。这一步骤一般需要反复进行,直至筛选出最终的数据集[9]。
建立模型阶段是数据挖掘中的一个重要过程,需要根据分析目标选出和应用合适的模型技术,调整最佳模型参数。最后通过样本建立模型对模型进行评估。
模型评估阶段旨在彻底评估模型,对整个建模的流程进行梳理,确保模型可以完成业务目标。若发现有重要业务问题没有考虑周全,甚至还需要返回之前的步骤对挖掘过程重新定义[10,11]。
模型部署阶段是客户用建立的模型去解决实际中遇到的问题,并根据需求进行监督、维持、产生最终报表、重新评估模型等过程。
2 关联规则
关联规则是由R.Agrawal[12]等人于1993年提出的,是数据挖掘的重要内容之一。它侧重于确定数据中不同领域之间的关系,即从事务数据库、关系数据库中找出满足事先给定最小支持度和最小置信度的多个域之间的依赖关系。关联规则强度通过支持度和置信度度量[13]。支持度为规则中所有项在事务中出现的频度,表示在整个数据库的重要性,置信度规则中左边的项(集)的出现暗示右边的项(集)出现的频度,反映其可靠程度。只有支持度和置信度均较高的关联规则才是用户感兴趣的、有用的关联规则[14]。
关联规则作为数据挖掘领域的一项关键技术,主要用来发现隐藏在大型数据集中令人感兴趣的联系。沃尔玛超市对其顾客的购物行为进行购物分析,发现了“啤酒和尿布”的关系。零售业利用此规则,帮助他们发现新的交叉销售机会[15]。除购物篮外,关联规则也可以应用到其他领域,如生物信息学、药物治疗和提高网络响应速度等方面。
3 基于CRISP-DM 模型GPRS业务关联规则应用分析
将CRISP-DM模型应用于移动GPRS业务的数据挖掘中,以移动的GPRS业务为分析对象,运用关联规则Apriori算法来挖掘出GPRS业务之间的关系。GPRS业务挖掘过程如图2所示。
3.1 商业理解
根据移动GPRS业务使用总流量少,使用人数不多等问题,必须开展GPRS营销策略,推动GPRS业务的发展使用。目前,移动公司主推手机视频、手机游戏、Mobile Market业务和手机阅读四项GPRS业务,因此要挖掘出客户特征与这四项业务之间的关联关系。从而发现支持GPRS业务交叉销售的候选业务和潜在的客户群体,对特定客户群推荐GPRS业务,以进一步提升客户保有率和满意度。
3.2 数据理解
确定了数据挖掘需要解决的问题后,首先收集原始数据,充分熟悉各表中的属性内容和各表之间的关系与结构,确定数据支持数学建模的可行性。
本文从移动数据库部分数据表中抽取如下数据信息:
(1)个人信息表:客户姓名、手机号、客户属性、性别、出生日期、联系地址、证件号码、开户日期、地区编号、付费方式、销户日期等。
(2)话单数据表:手机号、呼叫类型、对方号码、通话开始时间、通话时长、地区号、对方所在区号、漫游类型、长途类型、长途分组、IP电话类型、业务类型等。
(3)账单信息:手机号、账单开始日期、结束日期、账单总金额、月租费、月租功能费、滞纳金、最后付费日期、销账日期、积分情况等。
(4)GPRS业务:终端管理(DM)、快讯(DCD)、widget平台、手机报、航信通、手机钱包、手机视频业务、12530WAP门户、彩信相册WAP访问、音乐随身听、中央音乐平台全曲下载平台、手机医疗、手机阅读、掌上营业厅、手机电视MBBMS、网信平台试点、手机飞信WAP网站、飞信、WAP统一门户、号簿管家、条码识别、Mobile Market业务、车e行及手机导航、游戏业务。
移动数据库中数据表纷繁复杂,而且很多属性都不是挖掘目标所需要的。根据GPRS业务挖掘目标,深入分析了移动数据库中与此次挖掘相关的18张表,最终在11张表中完成属性探索,确定了10个与此次挖掘主题相关的属性集。
{客户品牌(attr_name),客户年龄(age),在网时长(tenure),性别(sex),三个月平均消费额(all_charge),三个月平均数据业务费(data_charge),手机视频(flash),手机阅读(reader),手机游戏(game),Mobile Market业务}
用户品牌中“1”代表全球通品牌,“2”代表神州行品牌,“3”代表动感地带品牌。入网时长单位为月。
上述确定的10个属性中的6个客户特征属性与客户是否使用GPRS业务密切相关,这6个属性的信息基本可以描述一类客户群的特征。因此选取这6个属性作为分析GPRS客户特征的关键属性。
3.3 数据准备
数据准备主要在建模前完成对数据的清洗和预处理工作,它在数据挖掘中起着至关重要的作用,因为数据的质量直接影响最终数据挖掘的结果。本次挖掘从移动数据库中抽取1,2,3月份的数据,并以3月份的数据为基准,把3月份的数据作为样本集,1,2,3月份的数据作为母本,对比样本集中各属性的分布与母本的分布,确定分布相一致,最终将3月份的数据作为本次关联规则挖掘的基本数据。但直接抽取的原始数据通常是不完整、有噪声和冗余的,不适合直接用来进行数据挖掘,所以需要对这些数据集进行预处理。主要完成以下几方面的处理:
(1)缺失值处理。例如客户年龄,因为很多客户在办理业务时不愿意透露自己的年龄,经常随意填写或者不填。但移动办理业务必须提供自己的身份证号码,所以通过客户的身份证号码使用SQL语句修正客户的年龄属性,这样客户年龄属性的正确率就可以提升到百分之八九十左右。客户的性别属性也可以通过客户的身份证号码来修正。对于属性较为重要但含有较多缺失值的数据,可通过已知数据精确计算或用通过统计得到的数据替换当前丢失的数据,均值替代缺失值;当属性不重要且含有很多缺失值时,忽略该属性;当属性有少量缺失值时可以删除带有缺失值的记录。
(2)异常值处理。异常值为重復记录,不正确的属性值。应直接删除停机客户、通话时长为负值的记录。
(3)数据简约处理。由于原始数据缺乏统一的标准和定义,所以存在大量冗余属性,冗余属性是指一个属性可以从其他属性中推演出来。例如入网时间和在网时长,显然在网时长可以通过入网时长推算出来。
(4)衍生属性处理。在数据理解阶段选取的10个字段中,产生2个衍生变量,即三个月平均消费额,三个月平均数据业务费。
(5)数据集成处理。将数据库中多个数据表中的数据进行合并处理,整合存放到一个一致的数据表中。
由于移动公司一个月提取的数据量有31万左右,数据量过于庞大,从算法的效率考虑,采用随机采样原则。最终确定了一个含有10维8 000条记录的数据集,10维属性即为图3所确定的属性。部分数据集如图3所示。
3.4 建立模型
数据挖掘建模就是从历史数据和结果中找出深层的关系和规律。使用数据挖掘关联规则Apriori算法对数据准备阶段产生的对象数据集进行挖掘。
针对手机视频,手机阅读,Mobile Market业务和游戏业务,设定最小支持度min_sup=10%,最小置信度min_conf=50%,运用Apriori算法挖掘这四种业务之间的关联性。最终得到的部分挖掘结果如表1所列。
从挖掘结果中可以发现GPRS业务之间有趣的关联关系,同时使用手机视频和手机阅读的客户占总客户的18%,同时使用这两种业务的客户占使用手机视频客户的85%。由此说明,手机视频业务和手机阅读业务之间的关联强度比较大,喜欢手机视频业务的客户也比较喜欢手机阅读业务。
3.5 评估模型
模型结果产生后,要对模型结果反映的数据关系进行科学的分析与评估,为此对上述关联规则挖掘得到的模型进行全面评估。采用4月份的数据来检验模型,若检验后得到一致的挖掘结果,则说明建立的模型得到的结果符合实际客观规律。在此基础上,由移动领域的专家对该模型的有效性进行了评价,证明该模型具有很好的可行性。
3.6 模型发布
建立的数学模型不仅要通过指定样本检验,还要通过应用问题的结果评估,即将模型应用到实践活动中,对模型的挖掘结果展开应用,从而有效促进解决实际问题的决策工作。
通过分析可以看出,基于关联规则的GPRS业务数据挖掘主要是从业务角度发现各业务之间的关系。通过挖掘结果发现潜在的高交叉GPRS业务,将模型挖掘结果导出为报表文件,帮助营销策划人员开展精准营销活动。
可以开展的营销策略:
(1)短信电话营销。根据挖掘结果向已开通某一业务的客户主动推荐另一种关联强度比较高的业务,引导其开通相关联的业务。
(2)业务捆绑销售。根据挖掘结果、业务之间的关联关系,设计出相应的业务捆绑销售套餐,从而促进业务的开展使用。
4 结 语
本文使用CRISP-DM模型进行GPRS业务数据挖掘,证明了方法的可行性和实用性,并得到了GPRS业务之间的关联关系,对营销实践和营销策划起到重要的指导和辅助决策作用。该挖掘结果模型已应用于某移动公司的GPRS业务营销。实际应用表明,该挖掘结果具有较好的实用性,推动了市场GPRS业务的需求与发展,对移动领域的发展具有较为重要的现实意义。
参考文献
[1]海天电商金融研究中心.一本书读懂移动大数据商业营销[M].北京:清华大学出版社,2016.
[2]鄢兵安.电信行业海量用户数据稽核方法及系统研究[J].攀枝花学院学报,2014(5):97-99.
[3]童建飞.数据挖掘在电信移动客户行为分析中的应用研究[D].南昌:南昌大学,2010.
[4]武森,程锴,陈凤洁.聚类分析在电信客户细分中的应用[J].技术经济与管理研究,2008,156(1):10-12.
[5]任谦.基于Clementine软件的电信客户流失分析及预警[D].北京:北京邮电大学,2012.
[6]薛薇.基于SPSS Modeler 数据挖掘方法及应用 (第二版)[M].北京:电子工业出版社,2014.
[7]李佳林,徐亮.建立CRISP-DM模型分析移动用户离网情况[J].通信企业管理,2016(6):72-74.
[8]郭鑫.基于CRISP-DM的流程可視化数据挖掘工具的研究与实现[D].上海:东华大学,2009.
[9]华苗苗.利用CRISP_DM模型规范企业两化融合过程中的数据开发利用[J].中国高新技术企业,2015(21) :29-30.
[10]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
[11]宋凯,王开祥.关联规则在电信业务交叉销售中的应用[J].沈阳理工大学学报,2015,34(4):75-79,83.
[12] Rakesh Agrawal,Tomasz Imielinski, Arran Swami.Mining association rules between sets of items in large database[C].In: Proceedings of ACM SIGMOD Conference on Management of Data. Washington,D.C,1993:207-216.
[13]骆凡,彭艳兵.一种基于apiori算法改进的knn文本分类方法[J].电子设计工程,2016,24(7):1-3.
[14]王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010,20(4):105-108.
[15]张震.论数据挖掘技术在公共危机管理系统中的应用[D].长春:吉林大学,2005.