资费政策与业务量关系模型研究
2010-02-23黄锦成
黄锦成, 杨 苹, 吕 茵, 张 臻
(华南理工大学电力学院, 广东省绿色能源技术重点实验室, 广东 广州 510640)
0 前 言
随着我国移动通讯行业的快速发展以及移动通讯企业之间的竞争日趋激烈,各个移动通讯运营商对移动通讯资费进行了频繁的调整,希望利用各类优惠资费政策刺激业务量增长.从对移动通讯运营商和消费者产生影响的角度来看,资费调整的目的在于通过下调移动通讯资费来促进市场规模的扩大和业务量的提高,并且增加消费者的利益以及提高移动通讯运营商的盈利.然而,某一个资费政策可以带来多少业务量的增加,这个增加是否能够持续,也就是资费政策的变动到底与业务量之间存在着怎样的定量关系,在移动通讯业界还没有确切的定论.文献[1]针对目前资费套餐设计中存在的一些问题,运用数据挖掘的方法提出了移动资费套餐设计的模型.然而,资费套餐以及资费政策的变动,对业务量的促进效果如何,文中没有提出定量的分析.文献[2]针对移动通讯企业中客户流失的现象,应用数据挖掘的方法,建立了客户流失的预测模型,当中提及资费政策对于业务量增长以及避免客户流失的定性影响.目前,针对资费政策和业务量的关系所进行的研究,大多是探索资费政策与业务量之间的定性关系,由于无法分离引起业务量变化的各类影响因素,因此难以进行资费政策与业务量之间的定量关系分析,然而,资费政策与业务量之间的定性关系,对移动通讯运营商进行决策帮助不大,决策者更加需要定量分析结果.
为此,本文提出采用数据挖掘的方法对资费政策和业务量之间的关系进行定量分析,并以某移动通讯运营商的全网数据为基础,尝试运用数据挖掘的方法分离引起业务量变化的各类影响因素,建立并求解资费政策与业务量的关系模型,为资费政策的建立和调整提供参考依据.
1 资费政策与业务量历史数据特点分析
移动通讯运营商针对不同的客户以及不同的市场策略,设计了各种各样的资费政策.按照资费政策内容的不同,大致可以将其分成4类:(1)通话类资费政策,如:通话资费的下降.(2)IP类资费政策,如:17951IP闲时优惠政策.(3)漫游类资费政策,如:漫游资费的下降.(4)数据类资费政策,如:GPRS日套餐.移动通讯运营商所推出的资费政策繁多,而且往往在同一时期内推出多种资费政策.资费政策通常具有一定的时效性,移动通讯运营商通常会根据业务量的波动情况以及不同的市场策略对资费政策进行频繁的调整.因此,分析资费政策对业务量的影响时,需要针对不同类型的资费政策建立统一的量化标准.
为了建立资费政策与业务量之间的关系模型,需要收集与资费政策生效期间的业务量数据.这些数据可以分为以下2类:(1)语音业务类数据.(2)数据业务类数据.其中,每一类数据又包括了许多数据点,例如:语音类业务中的H话务(半速率话务)、F话务(全速率话务)等.数据点一般每小时保存一次,每个数据点每天有24个数据.假如历史数据库中包含各类数据共100个数据点,则每个基站每天需要保存的数据为24×100个数值.移动通讯运营商的基站数量庞大,以广州移动公司为例,其基站数目超过了5 000个.由此可见,移动通讯运营商每年获得的数据量十分庞大,而且业务量的波动与资费政策有着确定的对应关系,然而,对于移动通讯运营商的工作人员而言,仅靠经验很难发现资费政策与这些数据之间的定量关系.面对如此庞大的数据量,可以考虑采用数据挖掘的方法去寻找业务量的波动与资费政策之间的关系.数据挖掘(Data Mining)是一个利用各种分析方法和工具,在大量的数据中发现数据变量之间关系模型和数据间关系的过程.
不过,建立资费政策与业务量之间的关系模型的困难不仅仅在于数据量大,还因为引起业务量变化的因素很多.移动通讯领域与国计民生有着密切的联系,因此业务量不仅受资费政策的影响,还受到节假日以及经济发展等因素的影响.随着国民经济的发展和人民生活水平的提高,移动通讯的用户数不断增加,业务量也随之增加.与此同时,人们相互之间的联系也因为经济的发展而变得更加紧密.对节假日的业务量以及其前后两周的业务量平均值进行对比,分析节假日区间中由于用户行为而引起的业务量波动,可以知道业务量在节假日前期会有较大幅度的上升,而在节假日后期会有一定幅度的下降,如图1所示(以五一劳动节为例).
图1 2004~2008年五一劳动节期间某移动运营商全网语音业务量波动分析图
因此,要得到某一个资费政策与业务量之间的关系,必须对引起业务量波动的各类因素进行分离,去除资费政策之外的因素对业务量产生的影响,才能得到资费政策与业务量之间的关系模型.
2 基于数据挖掘的资费政策与业务量关系模型研究
根据移动通讯行业资费政策变动频繁以及业务数据量大的特点,可以将数据挖掘的方法用于建立资费政策与业务量关系模型.采用数据挖掘的方法来进行资费政策与业务量之间的关系模型研究,应当包括以下步骤:(1)数据挖掘目标描述与数据准备.(2)数据预处理.(3)数据挖掘.(4)目标评估.
其中,第三步数据挖掘可以采用的方法很多.本文采用关联分析的方法,按照资费政策与业务量的时间序列曲线的相对变化势态的接近程度来计算两者的关联度,求解资费政策与业务量之间的定量关系模型.
2.1 目标描述与数据准备
在数据挖掘之前,首先应确定数据挖掘的内容,即确定采用数据挖掘方法建立资费政策与业务量关系模型的目标,并对数据挖掘目标进行描述,以便据此准备数据.数据挖掘目标描述包括:(1)资费政策数据和业务量数据的集合.(2)采用数据挖掘的方法,建立资费政策与业务量的关系模型,描述资费政策对业务量产生的定量影响.
为了达到以上目标,收集某市移动通讯运营商2004~2008年的全网语音业务量以及该市2004~2008年人均GDP增长量,利用2005年8月至2006年3月的资费政策以及业务量数据建模,通过求解模型,得到了各个资费政策对话务量的定量影响.
2.2 语音业务量数据预处理
通过对资费政策以及语音业务量数据进行分析,可以发现语音业务量的增长主要受到节假日、经济发展、移动电话用户数上升和资费政策等因素的影响.现在设法把前3个因素对语音业务量的影响隔离,可以更加准确地分析资费政策与语音业务量的关系.隔离前3个影响因素的具体实施步骤为:
(1)去除节假日对语音业务量的影响.根据上一节分析得到的语音业务量曲线,对应各个节假日的时间,提取业务量受用户行为影响比较大的节假日.假定每周的同一天的业务量是线性增长的,可以将每个节假日前后的平稳期语音业务量数据进行加权平均来代替该节假日的语音业务量.如第n日为节假日,距离第n日星期相同且相隔最近的两天为n-7j和n+7k,j、k为自然数,则用以下公式计算填补后的业务量:
在此,将经过了去节假日影响以后所得到的某移动通讯运营商2004~2008年的全网语音业务量曲线定义为y1i(i=04,05,…,08).
(2)去除经济发展因素对语音业务量的影响.某市2004年到2008年人均GDP 增长率分别为8.66%、11.5%、11.9%、12.4%、10%,假设每年的语音业务量受到经济发展因素影响也出现了同样的增幅,则利用每年的第一周平均每天的语音业务量为起始点,以每年的第一周平均每天的语音业务量乘以(1+当年经济增长率)为终点作直线,可以作出只受经济发展因素影响而产生的语音业务量直线.再用该直线上每一点的值减去该年的第一周平均每天的语音业务量,可以得出由于经济发展因素影响而产生的语音业务量增量Δy1i(i=04,05,…,08).将去除经济发展因素对语音业务量的影响后,实际语音业务量曲线定义为y2i(i=04,05,…,08),则:
y2i=y1i-Δy1i
图2 去除影响因素效果分析图(影响因素1:节假日;影响因素2:经济发展;影响因素3:用户数增长)
(3)去除移动电话用户数的增长对语音业务量的影响.用某市2005年8月到2006年3月每月累计开机用户数,除以该段时间每月累计用户数的平均值,可以求出2005年8月到2006年3月每月累计用户数归一化曲线.从y2i截取出2005年8月到2006年3月的语音业务量数据,并求出其月平均值.用此语音业务量数据月平均值乘以每月累计用户数归一化曲线可以得出只受用户增长因素影响而呈现的语音业务量曲线,用只受用户增长因素影响的语音业务量曲线中每一个点都减去2005年8月的语音业务量值,可以得出只受用户增长因素影响的语音业务量Δy2i(i=1,2,…,8,其中1,2,…,8分别代表2005年8月,2005年9月,…,2006年3月),因此,去除移动电话用户数的增长对语音业务量的影响后,实际语音业务量曲线为:y3i=y2i-Δy2i(i=1,2,…,8,其中1,2,…,8分别代表2005年8月,2005年9月,…,2006年3月).
2.3 资费政策的量化
根据上一节的分析,资费政策可以划分为4类:(1)通话资费类优惠政策;(2)IP类优惠政策;(3)漫游类优惠政策;(4)数据类优惠政策.根据各类资费政策的特点,需要制定与其相适应的量化规则.
(1)通话资费类优惠政策的量化规则
其中:l1为当月通话优惠量;ai为第i个优惠前的本地通话费;bi为第i个优惠后的本地通话费;ci为第i个优惠前的长途通话费;di为第i个优惠后的长途通话费;ri为第i个修正系数.
(2)IP类优惠政策的量化规则
其中:l2为当月IP优惠量;mi为第i个IP优惠的打折数;ti为第i个IP政策每天优惠小时数.
(3)漫游类优惠政策的量化规则
其中:l3为当月漫游优惠量;ei为第i个优惠前的漫游主拨话费;fi为第i个优惠后的漫游主拨话费;gi为第i个优惠前的漫游接听话费;hi为第i个优惠后的漫游接听话费;ri为修正系数.
(4)数据类优惠政策的量化规则
根据某数据优惠政策的出台而导致的每兆数据流量所减少的资费,对数据优惠政策的优惠程度进行划分:
其中:l4为当月数据优惠量;ji为第i个优惠政策前每兆数据流量所需资费;ki为第i个优惠政策后每兆数据流量所需资费;ri为修正系数.
2.4 资费政策与语音业务量关系建模
经过对语音业务量数据的预处理和各种资费政策的量化后,可以得到两者的时间序列曲线,根据两者的时间序列曲线的相对变化态势来计算关联度.所谓两曲线的相对变化势态的接近程度,是指两时间序列在对应各时段Δtk=tk-tk-1(k=2,3,…,n)间原始变量经标准化后的增量的大小来判定的,若在时段Δtk间两增量相等或接近于相等,则这两时间序列在时段Δtk间的关联系数就大;反之,就小.
对于时间区间[g,h],h>g≥0,预处理后的语音业务量数据以及量化后的各种资费政策的时间序列在[g,h]上各点的取值分别为:
y={y(t1),y(t2),…,y(tn)}
l1={l1(t1),l1(t2),…,l1(tn)}
l2={l2(t1),l2(t2),…,l2(tn)}
l3={l3(t1),l3(t2),…,l3(tn)}
l4={l4(t1),l4(t2),…,l4(tn)}
(1)标准化.通过标准化可以使语音业务量与各种资费政策的时间序列之间具有可比性.
其中,Y为语音业务量标准化之后的时间序列;L1为通话类资费政策标准化之后的时间序列.
(2)求增量序列.
ΔY={ΔY(tk)=Y(tk)-Y(tk-1),k=2,3,…,n}
ΔL1={ΔL1(tk)=L1(tk)-L1(tk-1),k=2,3,…,n}
(3)计算各时段的关联系数.
在上式中,sgn(ΔY(tk),ΔL1(tk))确定关联系数ξ(tk)的符号,即当sgn(ΔY(tk),ΔL1(tk))>0时,关联系数ξ(tk)>0,表示y与l1在tk-1时点到tk时点这一时段间Δtk是同方向变化的,即正关联;当sgn(ΔY(tk),ΔL1(tk))<0时,关联系数ξ(tk)<0,表示y与l1在tk-1时点到tk时点这一时段间Δtk是反方向变化的,即负关联;当sgn(ΔY(tk),ΔL1(tk))=0时,关联系数ξ(tk)=0,表示y与l1在tk-1时点到tk时点这一时段间Δtk是不关联的.
(4)计算关联度.记预处理后的语音业务量数据以及量化后的通话类资费政策的时间序列的关联度为:r(y,l1),则:
记预处理后的语音业务量数据以及量化后的IP类优惠资费政策的时间序列的关联度为:r(y,l2);记预处理后的语音业务量数据以及量化后的漫游类优惠资费政策的时间序列的关联度为:r(y,l3);记预处理后的语音业务量数据以及量化后的数据类优惠资费政策的时间序列的关联度为:r(y,l4).r(y,l2)、r(y,l3)以及r(y,l4)的求解方法与r(y,l1)类似.通过求解语音业务量与各种资费政策的关联度,可以得到两者的关系模型为:
y=r(y,l1)l1+r(y,l2)l2+r(y,l3)l3+r(y,l4)l4
3 资费政策与语音业务量关系模型精度验证
利用资费政策与语音业务量关系模型,可以算出某一时期语音业务量的计算值.在考虑经济发展因素影响的基础上,将其与该时期实际语音业务量相比较,可以检验资费政策与语音业务量关系模型的精度.
表1 2007年1~3月的语音业务量特征数据
上文中,利用2005年8月至2006年3月的数据建模,通过求解模型,得出了各个资费政策对话务量的定量影响,下面以2007年1~3月的数据为样本进行模型验证.2007年1~3月的语音业务量特征数据如表1所示.
根据资费政策与语音业务量关系模型y=r(y,l1)l1+r(y,l2)l2+r(y,l3)l3+r(y,l4)l4可以得出:
表2 模型精度分析表
由以上的验证结果可以看出,该模型具有较高的精度,并且具有良好的数据无偏性.
4 结束语
本文在对移动通信资费政策与业务量历史数据特点进行详细分析的基础上,运用数据挖掘的方法,分离出引起业务量波动的除资费政策之外的因素,采用关联分析法建立了资费政策和业务量之间的定量关系模型,并对其精度进行了验证.验证结果表明,该模型能够较准确地反映业务量与资费政策之间的定量关系,为移动通讯运营商进行资费政策决策提供依据.同时,本研究方法也适用于数据业务.
参考文献
[1] 吕志国. 基于数据挖掘的移动资费套餐设计模型的建立与实现[J].中国管理信息化, 2007,10(12):23-26.
[2] 林向阳. 基于数据挖掘的移动大客户流失分析[D].北京:清华大学硕士学位论文,2008:30-50.
[3] 杨 苹, 吴 捷.火电厂锅炉常见故障的数据挖掘诊断方法[J].仪器仪表学报,2005:26(7):696-701.
[4] 全小曼. 基于数据挖掘技术的电信资费套餐设计[J]. 现代电信科技,2007,(11):28-32.
[5] 王正新, 党耀国, 曹明霞. 基于灰熵优化的加权灰色关联度[J]. 系统工程与电子技术,2010,32(4):774-777.
[6] 唐五湘. T型关联度及其计算方法[J]. 数理统计与管理,1995,14(1):34-38.
[7] 陈 钢.数据挖掘技术在移动通讯领域的应用研究[D].北京:北京邮电大学硕士学位论文,2007:18-71.
[8] 谢 萌.关于我国移动电信资费套餐制定的研究[D].南京:南京航天航空大学硕士学位论文,2007:20-53.
[9] 李 丹.基于粗糙集的数据挖掘属性约简算法的研究[D].哈尔滨:哈尔滨工程大学硕士学位论文,2008:26-39.
[10] 李宁宁.基于粗糙集理论的数据挖掘应用研究[D].大连:大连理工大学硕士学位论文,2007:25-47.