电信数据仓库体系结构的研究*
2014-11-23陈浩孙瑜
陈浩, 孙瑜
(云南师范大学 信息学院,云南 昆明650500)
1 引 言
随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,以帮助企业进行内外部业务的处理和管理工作.但是,随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动[1].目前,电信应用的信息系统如图1所示,有业务应用部门、应用系统以及数据源三个层次.由于相关业务应用部门需要操作多个应用系统,这些不同的应用系统需要不同的数据源,因此这种处理方式会造成编码口径不一致,数据统计口径不一致,从而很难对已有的海量业务数据进行共享.除此之外,这种烟囱式的应用系统会造成数据全面性不足,数据系统负载较大,处理效率较低及数据质量较差,从而很难为商业决策提供准确的数据[2].基于上述原因,需要使用数据仓库来打破信息孤岛,充分利用现有的历史数据,为企业战略决策提供数据支持.
图1 电信应用信息系统模型Fig.1 Model of telecom application system
2 数据仓库
根据 William H.Inmon 在 《Building the Data Warehouse》中的定义,数据仓库是一个面向主题的、集成的、随时间变化的、不容易丢失的数据集合,支持管理部门的决策过程[3].数据仓库具有以下优点:
(1)数据仓库的数据是面向主题的.数据仓库里的数据是面向主题域进行组织的,而这些主题通常是用户使用数据仓库进行决策时所关心的重点内容.在电信的数据仓库中典型的主题有客户、产品、交易、账目等.
(2)数据仓库的数据是集成的.数据仓库里的数据可以来自多个分散的操作性数据,数据仓库的建立正是将数据进行提取、净化、转换、装载、编码统一的过程.
(3)数据仓库的数据是随时间变化的.一般而言,企业数据仓库中数据的时间期限通常为3~5年,要远远长于操作型系统中数据的时间期限.
(4)数据仓库的数据是不可更新的.由于数据仓库中的数据是一系列某一时刻生成的复杂快照,因此为决策提供数据时涉及的操作主要是数据的查询.
电信企业的数据仓库系统需要采集企业内部生产管理系统所有与市场经营相关的数据源,包括客户背景资料、产品或套餐购买行为、消费资料、客服交互行为、缴费行为等方面的信息,对其进行规范和整合,然后按业务、客户、竞争、营销活动及数据挖掘等主题,将数据按照数据集市的形式存放,并提供多维报表和挖掘工具,为分析人员提供数据仓库系统和分析平台,解决此前分析人员所面对的数据分散、口径不统一、分析工作缺乏延续性等问题.
3 电信数据仓库的体系架构
电信数据仓库系统将各业务系统、非业务系统中的数据按照不同的主题进行融合,并在数据仓库的基础上对相关主题的数据进行分类、分析和管理,最后建立统一的业务数据视图,为企业的决策提供数据支持,电信数据仓库的架构如图2所示:
图2 电信数据仓库体系架构Fig.2 Architecture of telecom data warehouse
3.1 数据获取层
数据获取层是针对电信现有各个业务系统及不同网点的分散数据,充分理解数据定义后,规划所需要的数据源,对可操作的数据源进行数据抽取.数据获取层通过指定的接口从相关的数据源获取企业所需的业务数据.通常,这些数据源的数据为CRM系统、计费系统、结算系统、资源系统等系统数据,并且这些数据包括客户背景资料、产品或套餐购买行为、消费资料、客服交互行为、缴费行为等方面的信息.然而,值得注意的是,数据获取层从相关数据源获取的业务数据并没有进行数据融合,只是将其按照不同的数据源进行分类,这样做便于数据的校验、异常的返回处理以及保证决策所涉及数据的数据质量.
3.2 数据存储层
数据存储层是整个数据仓库的核心部分,它将数据获取层中的数据进行汇集、清洗、转换以及分类存储操作.这些业务数据按照产品、账务、地域、营销活动等主题进行分类存放,并为数据应用层提供有效的数据支撑.
数据存储层分为细节数据层、业务视图层以及应用视图层三个层次.
(1)细节数据层
细节数据层主要是面向技术角度的,是将数据获取层中的数据按照一定的规则进行统一处理的层面.这些数据主要进行汇集、清洗、转换(Extract-Transform-Load,ETL)以及编码等操作,然后按照产品、账务、地域、营销活动等主题进行分类存放.
(2)业务视图层
业务视图层主要是面向业务角度的,是将数据从技术角度向业务角度进行过渡的层面.业务视图层的作用是使用统一的数据处理口径处理数据从而提高数据生成效率,使得数据更加有效的支持用户决策.
(3)应用视图层
应用视图层也是面向业务角度的,是将业务视图层处理好的数据按照用户的需求进行数据分离的层面.应用视图层主要根据用户的不同需求将不同的应用数据进行分离,从而便于用户使用这些数据.
3.3 数据展现层
由于不同用户对数据仓库系统有着不同的需求、观察角度和观察方式,数据仓库系统应该能够提供多种数据展现方式来满足不同用户的需求.电信数据仓库系统除了展现移动业务、固定电话业务、聚焦客户信息等日常固定的数据应用外,还可以通过不同的角色进行个性化的定制,结合不同用户的操作以及数据的分类方式使得数据展现更加符合用户的个人习惯.
3.4 数据应用层
数据应用层是根据用户提出的需求,建立相应的主题.由于数据应用面向不同用户从不同角度提出的需求,因此在数据应用层涉及时必须充分地考虑到数据的响应效果以及数据的响应效率.同时,为了满足数据分析人员、业务分析人员、管理人员的需求,电信数据仓库的数据应用层通常有多维分析、客户管理、专题分析、决策分析等主题.
从数据仓库的角度来看,在外部数据源中的数据还存在二义性、重复、不完整、违反业务规则等问题,因此需要根据定义的清洗规则对这些数据进行数据转换.由于数据转换后的数据还存在数据结构和数据库平台的差异性以及数据不一致等问题,须将这些不同的数据格式转换成相同的数据格式,从而解决各个不同数据源不同统计口径以及难以共享的问题[4].
由引言可知,各个业务部门拥有自己的业务系统,这些业务系统之间没有标准的接口,从而导致数据定义不同,形成数据冗余、数据值不一致等问题.与此同时,这些业务系统缺乏集中的管理系统,形成了各自的数据孤岛,无法做到数据的完全共享.结合上述提出的电信数据仓库体系,按照不同的主题对各类生产系统(如:CRM系统、计费系统、结算系统、资源系统等)的数据进行抽取、转换、装载(Extract-Transform-Load,ETL),从而实现对业务数据的汇聚和整合.这样,数据仓库可以全方位管理各个业务系统中的数据,实现不同数据展现的准确性、及时性和一致性,从而解决业务系统之间数据口径不一致以及大数据量难以完全共享的问题[5].
4 电信数据仓库模型
数据仓库里的主题通常是用户使用数据仓库进行决策时所关心的重点内容.从电信企业的实际运作情况看,可以大致分为客户、产品、账务收入、欠费等主题.随着这些主题的完善和发展,相应主题下的数据表也随之不断扩充,最终覆盖整个电信的业务系统[6].表1是电信企业数据仓库的主要主题.
表1 电信企业数据仓库主题Table 1 Subjects of telecom data warehouse
5 电信数据仓库在针对性营销上应用
由于传统粗放式营销缺乏客户消费数据和数据分析,制定出的营销策略往往只依靠决策者的主观判断和直觉.而数据仓库系统可以利用数据挖掘等方法分析数据仓库里的数据,并有效地分析出用户的消费特征和行为偏好,从而为企业决策者提供针对性营销的决策支撑.营销管理是从客户、产品、收入等不同的主题分析跟踪电信企业的各种营销方案和市场行为,准确地识别目标客户,评估存在的营销方案,从而保证营销策略的成功率.市场针对性营销清晰的反映了营销成功率、反馈准确度、执行效果、营销收益以及投资收益率[7].图3列出了针对性营销基于流失预测模型,发现客户流失倾向,实现客户维系挽留的模型.
图3 针对性营销中客户挽留模型Fig.3 Model of customer retention system on targeted marketing
(1)数据准备
针对性营销是在充分了解顾客信息的基础上,针对顾客的偏好,有针对性地进行一对一的营销.下面主要分析消费行为特征所涉及的客户信息,如表2所示:
通过对表2中所涉及的各类客户消费行为的数据进行分析作为数据准备,这些信息包括活动名称、产品名称、活动方案、活动时间、账目情况等.
(2)流失预测
流失预测是在分析客户消费行为的基础上,对流失客户进行预测,并将流失客户进行分类,对有价值的流失客户选择最佳的匹配挽留方案,然后根据用户价值对营销效果进行评估,将营销效果评估后的结果纳入知识库.图4所示是客户预测模型,通过这个模型可以预测即将流失的客户.
表2 用户消费行为特征信息Table 2 Characteristic of customer consumption behavior
图4 客户预测模型Fig.4 Customer forecasting model
(3)客户挽留
在这个阶段,将利用优惠短信推送或电信回访的方式访问流失客户并了解客户流失的具体原因.然后根据客户流失的原因及时调整营销政策来尽力挽留可能流失的客户.
(4)评估优化
这个阶段将对整个营销政策的效果进行合理的评估.营销政策的执行效果的衡量来自数据仓库中的反馈信息,我们通过对客户在营销前后价值行为进行评估从而可以对营销政策的效果进行准确的分析.最后,将评估的结果加入到知识库中,从而可以及时地调整营销策略和营销事件的阈值,提高流失客户预测的命中率.
基于上述的客户挽留模型,从某省选择50万用户,以2013年6月份为预测点,选取前三个月的客户行为主题数据以及账务主题数据,来预测未来一个月的客户流失情况.具体实验数据如表3所示.
表3 客户流失预测模型实验Table 3 The experiment of customer churn prediction model
通过以上实验验证,发现预测模型在预测流失客户数和成功预测流失客户数上都有较高的命中率和查准率,表明通过正确的预测流失客户数,可以进一步调整营销策略从而对有价值的客户进行挽留.
6 总 结
目前,很多企业都已经着手构建其产业领域的数据仓库,这些企业将不同业务系统中的数据按照不同的主题整合在数据仓库中,从源头上解决了数据孤岛及大数据难以共享等问题,使得这些大数据便于共享、存取、查询、分析及应用.数据仓库为企业带来了一些“以数据为基础的知识”,并为企业的运作带来新的视角.与此同时,这些企业利用数据挖掘等相关技术对数据仓库中数据进行充分的分析和挖掘,从而为企业市场决策和企业发展战略提供有力的决策支持[8].
[1]于红雷,华庆一,刘燕玲,等.数据仓库在电信统计分析中的应用[J].计算机技术与发展,2007,17(8):201-204.
[2]周亮.电子政务决策支持系统中数据仓库的研究与设计[J].武汉理工大学学报,2005,27(1):31-34.
[3]WILLIAM H.Inmon著,王志海译.建立数据仓库[M].4版.北京:机械出版社,2006.
[4]张军玲.数据仓库在电信综合运营支撑系统中的应用[D].西安:西安电子科技大学,2009.
[5]雷海艳.电信企业针对性营销管理系统的设计与实现[D].成都:电子科技大学,2011.
[6]刘英姿,崔南方,马士华,等.基于电信业务的数据仓库系统设计[J].华中科技大学学报,2002,30(9):42-44.
[7]唐九洲.电信行业经营分析系统数据仓库建模研究[D].长沙:中南大学,2004.
[8]楚丽桃.论数据仓库在电信统计分析中的应用[J].工业设计,2011(07):130-132.