一种支撑客户细分的终端分析系统的设计与实现
2011-06-11王锐,陈丽
王 锐,陈 丽
(1.中国移动通信集团广东有限公司 广州 510623;2.广东交通职业技术学院计算机工程学院 广州 510650)
1 引言
随着移动通信技术的发展,特别是全业务和3G运营同步发展,各种类型的业务日趋多样化,用户手机终端的类型和功能也越来越复杂,在传统语音收入贡献趋缓的情况下,数据业务、互联网业务的重要性进一步凸显。
现有基于终端的应用种类繁多,如常见的数据业务,包括短信、彩信、手机报等,以及逐步蓬勃发展的各种移动互联网应用,例如手机搜索、手机游戏、手机定位等。另一方面,不同型号的手机终端(例如Nokia 5800、HTC G7等)或不同终端操作系统(例如iOS、SymbianOS、Android、BlackBerryOS等),对 GPRS、彩信、短信、WLAN等支持能力上也存在差异。因此,只有了解用户终端,理解客户需求,才能提供全面的移动业务运营环境。
而针对数据业务的营销,传统数据分析平台普遍存在数据庞大而不精细、后台分析与一线营销相分离的情况,无法对客户进行精确细分,一般采用整体短信下发或热线外呼的方式进行营销宣传,不仅效果甚微,而且容易产生垃圾短信、电话骚扰等新投诉,无法在保证服务质量的前提下提升营销能力。
现有的支撑客户细分的技术,主要是基于信令分析或计费系统数据(只包含成功信息)精确筛选出营销目标客户群,进而制定营销策略,但其缺少对用户终端和用户消费数据业务的状况数据分析(包含成功和失败信息),客户定位的精度还不够,需要进一步细分客户群,进行差异化服务,例如音乐类手机可下发无线音乐俱乐部套餐、商务手机下发证券类套餐、低中高端手机终端进行差异化优惠套餐。
因此,客户需求成为市场的核心,企业需要有区别地对待用户,客户细分更是客户关系管理中最基础、最重要的内容,需要从各个角度分析客户,针对目标客户制定相应的促销或服务策略。基于此,本文提出一种终端分析系统的设计与实现,通过对终端设备支撑能力以及客户消费行为的数据挖掘分析,实现了对于客户群进行精确细分,从而支撑数据业务以及移动互联网应用的精确营销和网络运维。
2 系统架构设计
终端分析系统是基于终端信息库,以用户使用数据业务产生的网络数据作为数据源,进行深度数据挖掘和关联分析。其系统架构和流程如图1和图2所示。
2.1 系统设计思路和架构
按系统技术架构所示,从下往上,系统架构主要包括数据处理层、数据存储层、核心服务层、数据访问层。每层模块介绍和处理流程的详细说明如下。
(1)数据处理层
数据处理层是终端分析系统从各数据业务源系统(WAP、彩信、KJAVA、短信、GPRS等系统)将 CDR(call detail record)/LOG数据进行抽取、清洗、加工、整理并加载入库的部分,即数据抽取、转换、装载(extract,transform,load,即ETL)处理。主要包括以下模块。
数据抽取模块:通过数据抽取接口从各系统抽取数据,典型的数据抽取接口包括数据库接口和文件接口,对于不同数据平台、不同源数据形式、不同性能要求的业务系统以及不同数据量的源数据,采取不同的数据抽取接口。在数据抽取时需要重点考虑数据抽取的效率以及对现有业务系统性能和安全的影响。数据业务的源数据具有海量、业务系统位置分散、业务系统工作负荷重、业务系统性能和实时性的要求较高的特点,一般采用文件接口,必要的时候采用API接口编程或数据库接口实现数据的抽取,以提高数据抽取效率,同时减少对业务系统的性能的影响。
数据转换模块:指根据数据仓库系统模型的要求,对从业务系统中抽取的源数据,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式数据的一致性和完整性,并按要求装入数据仓库。
数据加载模块:数据加载就是将从数据源系统中抽取、转换后的数据,按照数据仓库的分层模型运算加载到数据仓库系统中。要求数据加载工具必须具有高效的加载性能。可以采用数据仓库引擎厂商提供的数据加载工具或API编程进行数据加载,同时需要考虑加载周期以及数据追加策略两方面的内容,具体采取何种方式,要综合考虑效率、业务实现、访问实时性要求等因素。
(2)数据存储层
数据存储层实现终端分析系统的数据集中存储和管理,数据范围涵盖 WAP、彩信、KJAVA、短信、GPRS等系统的细粒度CDR/LOG数据,以及日常分析所涉及的日汇总、月汇总等分析数据,另外也存储了其他终端信息库、经验知识库等数据库。主要包括以下模块。
数据仓库:用于存储关联数据业务相关的数据,例如客户使用短信、彩信等消费行为数据,提供面向主题的、集成的、反映历史变化的集合,并以标准化的格式存储。数据仓库除了要支撑联机分析处理(OLAP)操作进行多维度数据分析,还要支持海量数据库的实时查询功能,其合理的逻辑设计和物理设计非常关键。系统中数据仓库基于RDBMS(关系型数据库),逻辑模型设计采用分层结构,根据业务需求分为3层或4层,其中最底层为日志数据层,支撑最细粒度的数据业务日志查询,上层为汇总数据层。层层数据汇聚,满足多维的钻取分析操作,可以采用星型/雪花型设计。物理上考虑数据量和查询效率因素,可采用分区方法,例如最底层可采用数据库的复合分区技术,提升海量数据的访问效率。
终端信息库:终端信息库记录了用户终端属性信息,包括手机号码、国际移动设备识别码(international mobile equipment identity,IMEI)、号码品牌、归属城市、终端品牌、终端型号、终端字符串、软件版本、业务支持能力(GPRS支持能力、彩信支持能力、3G支持能力、手机阅读支持能力、GPS定位能力、双卡双待能力、屏幕分辨率等)等,以及数据业务操作行为信息(注册日期、是否活跃、上次活动、最后活动),其中终端可以是手机、信息机、上网本、上网卡等,3G支撑能力可以细分为TD-SCDMA、WCDMA、cdma2000等。
终端信息库还需要提供TAC-手机终端对应关系表和UA-手机终端对应关系表,满足用户终端的识别。其中,TAC是IMEI的前6或8位,表示设备型号核准号码,即终端的类型;UA(user agent),即终端字符串,包含了用户所使用的手机终端的品牌、型号、软件版本、操作系统、浏览器等信息,例如NokiaN70/5.0741.4.0.1 Series60/2.8 Profile/MIDP-2.0 Configuration/CLDC-1.1,该信息可以从 WAP、彩信日志中获取。
作为终端分析系统的数据核心,终端信息库可通过外购、自维护方式形成,也可以通过抽取WAP、彩信日志的UA信息而成,需要及时更新和维护。
知识经验库:主要记录了终端问题或营销经验,包括问题分析原因、营销建议等,提高终端相关投诉处理效率和营销效率。
(3)核心服务层
核心服务层主要完成业务逻辑封装和处理,并对外提供数据共享等服务,支撑用户、工具和其他系统访问。主要包括以下模块。
OLAP分析模块:OLAP分析模块提供基于统一数据模型的灵活查看分析,使数据分析人员、企业管理人员通过多种可能的观察角度进行快速、一致和交互性存取,来获得对信息的深入理解。支持灵活的上钻/下钻,实现灵活数据探查;支持数据切片,灵活转换数据分析视角;另外,还支持对比、趋势、象限等多种分析方法。
报表服务模块:系统提供报表、文件、饼图、直方图等多样化的报表展示方式,支持数据导出为Excel、Html、PDF等格式,支持单列或多列组合的排序、过滤等操作,规则至少包含顺序、倒序、显示、包含、不包含、大于、小于、之间等。
CDR查询模块:CDR记录了用户使用数据业务(彩信、短信、WAP)详细的访问/操作记录,并采用各种CDR数据关联,形成端到端的数据流程图,通过该模块获知用户使用某项业务的详细情况,例如是否成功或失败、访问的设备网元、失败原因、失败的位置等信息。该模块为投诉处理、故障定位以及市场营销提供基础数据支撑。
数据挖掘模块:系统提供数据挖掘支持,如通过一般线性模型(包括因素分析、方差分量模型、混合模型等)、关联分析、多变量分析(主成分分析、因子分析和典型相关等)、判别分析、聚类分析等数据挖掘分析,挖掘出深层次、隐性的数据价值。
订阅管理模块:采用订阅机制向外部应用系统共享数据,所有需要终端分析数据的应用系统需事先向平台提出数据订阅请求,经过审批通过后才有权使用各类终端分析数据,加强终端数据的安全管理。审批时可对应用系统请求订阅的数据和有效期进行修改。该模块可以根据不同数据要求(比如数据粒度、访问频次、安全等)自定义订阅规则,对敏感数据应具备判定过滤功能,对其进行过滤,不予显示。另外,系统可以支持管理员应用系统进行预授权配置。当应用系统的请求订阅的信息和订阅有效期在预授权规则范围内时,订阅请求可自动获得审批通过,无需人工审批。
共享服务模块:系统支撑订阅/通知的方式的数据共享模式,提供CDR日志/汇总分析数据共享,可以为其他应用系统进行投诉处理、故障诊断和市场营销提供基础原始数据或高价值的分析数据。数据共享服务的接口可以采用Web Service、FTP等接口进行数据获取。
(4)数据访问层
系统的数据访问层的主要功能针对两类消费者:用户终端分析系统使用人员和其他应用系统(例如投诉处理系统、市场营销系统)。
针对终端系统使用人员,可以通过报表和图形的方式,简便、快捷地访问系统中的各种数据并进行数据查询、分析预测操作。数据访问层应提供多种数据加工展现方法,包括KPI指标、预定义报表、即席查询、多维动态分析。
针对来自不同的部门的用户,数据访问层可以提供一个统一的门户入口,实现预定义报表、即席查询和多维动态分析的无缝连接,并提供集成化的认证、信息发布和管理环境,使客服人员、营销人员无需关心具体的技术实现途径,即可实现终端分析数据的访问和分析。同时门户站点还可根据不同分析和决策人员的需求,对所需的访问和分析内容进行方便、简捷的定制,以满足个性化信息服务的需求。
针对其他应用系统,通过统一规范的数据接口,在满足数据订阅策略和共享机制的前提下,进行数据获取,实现终端分析数据的进一步数据关联和价值提升,例如终端信息库是支撑各类用户行为分析的数据基础。
2.2 系统流程说明
结合图2,整个用户终端分析系统主要执行以下步骤(至下而上)。
(1)数据抽取模块从各类数据源(彩信、短信CDR)抽取数据,根据要求采用实时或定期抽取,主动推送或被动接收等方式。
(2)数据转换模块将抽取的源数据进行转换、清洗,屏蔽系统间数据格式差异性,形同统一、完整的处理数据。
(3)将S2流程的处理数据进行装载入库,形成数据仓库等,其中也可挖掘出终端信息装载入终端信息库。
(4)数据仓库和终端信息库中的数据支撑了核心服务层模块(OLAP分析、数据分析、报表服务、CDR查询),进而支撑终端分析功能。同时,针对用户终端的分析和投诉处理经验,可以记录在经验知识库,形成经验传承。
(5)核心服务层模块支撑用户和外应用系统使用。外系统如需访问终端分析系统数据,需要采用订阅机制,经过订阅管理模块审批通过后,才能通过共享服务模块获得所需数据。
3 系统功能设计
系统功能框架(如图3所示)主要从用户和业务场景出发,提供了支撑客户细分以及精确营销的功能模块,详细说明如下。
终端市场分析功能:该模块根据用户终端的属性特征,从终端品牌、终端型号、语音品牌、终端厂家、GPRS支持、终端属性(音乐、黑莓、商务手机等)等维度来分析用户终端使用情况、发展趋势,为定制终端的销售提供一定的导向意义;通过分析手机更换频次(天/周/月)来锁定一机多卡或一卡多机用户群,从而制定有目的下发营销套餐策略;针对终端型号敏感的数据业务进行用户聚类,制定支持目标客户群Push OTA营销功能,有助于各项新业务快速定位目标用户,协助新业务的推广。
生活圈分析功能:结合用户手机终端属性,通过获取属于不同生活圈的特定号码群,聚类出其行为类别,细分其爱好倾向,以利于市场各类用户精确营销(如证券用户、音乐俱乐部用户、娱乐用户等),以及市场营销套餐的下发。例如可以通过对短信/彩信的SP服务代码分析,进行生活圈策略配置,挖掘分析出某类用户,例如分析使用证券业务的终端情况,发现有TOP N种终端,一方面可以针对使用该类终端的用户进行市场营销优惠资讯下发,培育新增用户,同时也可以有使用证券业务的潜在用户推荐该类手机。
区域化分析功能:该功能基于用户终端信息库,将若干个小区配置为热点目标区域,并指定抓取用户号码等信息的目标时间段,进行数据的综合分析,将结果按品牌、型号、时间、小区进行分析统计,并为相应用户打上相应类别标签。这样通过特定群体终端属性分析,可以针对某一特定群体,如演唱会、学校、高尔夫俱乐部、体育盛事等营销活动区域的用户群,开展挖掘分析,掌握各群体用户的终端使用习惯,为针对性的终端营销提供参考依据。例如采集演唱会期间进入演唱场地客户号码,结合终端属性特征,将多次参加演唱会客户号码标志为音乐类VIP重点营销对象。
上网行为分析功能:通过对用户终端上网数据(WAP日志的URL信息)的统计分析,实现对用户上网行为的分析及统计,营销人员可以根据统计分析结果获取不同目标客户群,从而有针对性地下发不同营销策略。例如可按新闻、体育、财经、游戏等栏目,对网址进行归类分析,提取出各类网址对应的用户群,以及用户点击次数网址排名、用户排名、终端品牌/型号排名等,同样,可给用户打上对应类别标签进行精确营销。
以上的功能只能是终端分析系统内容的一部分,进一步采集其他海量数据(如信令),通过关联挖掘分析,从而可实现更多更广的分析功能,更好地进行客户细分。
4 结束语
本文提出一种用户终端分析系统的设计与实现,详细描述了系统架构、流程和功能模块,其核心是通过挖掘网络数据(含用户消费行为数据),建立全面且及时更新的终端信息库,以及支撑客户细分的终端分析模型,从而精确归类出客户对象族,不仅提供客户细分,满足业务精确营销支撑,还能为用户投诉处理、用户配置纠错提供广阔的使用场景。
目前该用户终端分析系统已经在中国移动通信集团广东有限公司实施应用,为市场营销推广和网络维护管理提供了大量的分析数据,例如及时提供了详细准确的山寨机(黑手机、杂牌机等)终端分析、iPhone终端分析数据等,还为各地市公司提供第一手的现网终端分析应用,不仅有助于了解终端使用的发展趋势、掌握各群体用户的终端使用习惯,还能帮助各项新业务快速定位目标用户,协助新业务推广或针对性营销,同时也能为经营决策提供大量高价值分析数据。分析数据是准确、及时的,来自于实际网络运营数据,又服务于终端用户。
由于目前终端发展和互联网业务发展迅速,不仅出现iPad等众多新的用户终端,还迅猛发展了基于各类平台的移动应用,用户消费行为数据的抽取和挖掘以及终端识别算法都需要进一步改进和完善。
1 王彦龙.企业级数据仓库(EDW)原理、设计与实践.北京:电子工业出版社,2006
2 Ian H,Witten E F.数据挖掘:实用机器学习技术.北京:机械工业出版社,2006
3 马子斌,杨鸿宾.客户细分在电信营销中的应用研究.计算机系统应用,2008,17(3):105~108
4 方安儒,叶强,鲁奇等.基于数据挖掘的客户细分框架模型.计算机工程,2009,35(19):251~253