电信运营商大数据系统建设初探
2015-05-30温文波
温文波
【摘要】 结合运营商内部大数据系统建设实际经验,从数据、平台、能力、应用等四个方面对运营商大数据系统建设提出自己的想法和意见,仅供参考。
【关键词】 大数据 hadoop 能力建设
4G时代,运营商“管道化”一词开始被频繁提及。运营商与互联网企业,传统电信业务与OTT业务被从各个角度进行比较,与此同时,大数据,作为运营商利用“管道”资源进行自我救赎的重要举措也开始在各运营商落地、开花。
大数据系统的建设,无外乎数据、平台、能力、应用等几个层面,电信运营商作为作为网络服务接入者和网络内容的承载者,在大数据系统建设方面有着自己的先天优势,同时在建设过程中也有一些针对性要求:传统电信级运营的准确、稳定、安全的要求与互联网模式所强调的快速、体验、迭代在理念上的冲突也要求电信运营商在大数据的建设、运营方面有所突破。
一、数据
相对互联网企业而言运营商在数据来源方面具有明显优势:
1、全覆盖,运营商所能获取的数据包含了行为(浏览、搜索、下载等)、时间、位置(基于基站的位置)甚至可能包行用户本次浏览的体验(网速、掉线等)。这些数据APP只能以游走法律边缘的形式偷偷获取(如手机识别码、位置、通话记录),甚至根本无法获得(用户本次浏览的体验),而对运营商而言这些都只是运营商提供服务所必须具备的基础数据,运营商先天拥有这些数据。同时运营商能获取用户全天候上网行为数据,保证了对用户上网行为数据的全面掌握,相对而言,任何APP都无法避免被关闭,甚至后台进程一起被关闭而无法获取用户任何信息的黑暗时期。
2、强关联,通过IMEI这个天然的“关键字”,所有用户的上网行为可以被明确地关联至准确的用户,避免了cookie存在的已识别用户丢失的问题;通过LAC和CI,用户的位置等信息可以被准确关联致小区、基站,对用户“在哪儿”做什么的跟踪也变得非常容易。
3、多维度,运营上不仅有用户的上网行为数据,还有用户的通话、缴费等传统营帐数据数据,有投诉、咨询等客服数据。能全面刻画用户视图。
在我们的系统建设过程中,我们首先考虑的是DPI数据(Gn口)、信令数据(电路域(A口、IuCS)及数据域(Gb、IuPS))的获取。通过Gn口数据,我们对用户LAC、CI、流量类型、应用IP地址、流量、时长等信息进行解析;通过信令数据,我们对用户LAC、CI、呼叫次数、是否成功等信息进行解析。同时,BOSS重要数据也被一并接入,力图从上网行为、通话行为、缴费行为、位置、投诉、终端等各种维度客户用户画像。
二、平台
笼统而言电信运营商对平台的需求至少包含以下几个方面:
1、稳定:底层可升级,确保底层平台的延续性。尽可能采用开源版本,减少运维压力;2、易用:屏蔽hadoop底层技术难点,运营商可集中精力处理能力实现、应用支持等核心问题;3、可视化:元数据管理、任务管理、运行监控、资源分配等操作尽可能采用可视化操作;常用挖掘算法、工具的调用,重点数据源的引用均应尽可能以可视化方式实现;4、自动:任务分布式依赖与调度,减少人工干预;5、数据生命周期管理:数据保存周期的自动维护、归档和清理;6、多租户:数据的隔离与访问控制以确保安全,避免在ETL、数据初加工、建模、能力建设等任何环节被绑定于一个供应商;7、安全共享:实现自动数据脱敏、日志、审计等;
目前市场上主流的大数据平台主要有hadoop(开源)、Greenplum、Vertica等;Hadoop 分布式计算平台是Hadoop 采用开源模式,以分散存储和并行计算为基础的分布式计算平台,利用低成本的通用计算设备(PC)组成大型集群,构建下一代具备高性能的海量数据分布式计算服务平台,其由hdfs支持的分散存储、由map/reduce实现的并行计算、由hive实现的数据仓库平台,hdaoop很好地支持了超大规模数据存储能力、高性能分布式处理、数据可靠性保障、系统的水平扩展,其主要问题在于不支持联机事务分析及相对陡峭的学习曲线。考虑到GP等昂贵的license费用、对最前沿技术跟进的相对滞后,hadoop无疑是最好的选择。为解决学习曲线陡峭的问题,我们在基础平台上建设了基础平台管理系统,实现对基础平台的图形化、可视化管理;建设了数据管理系统实现对元数据、数据安全、访问控制等的管理。在很好地利用了开源性、多租户、安全、稳定等平台优势的同时,实现了易用性、可视化。
三、能力
电信运营商的大数据能力建设至少应该包括以下2个方面:建模/挖掘能力、数据开放能力。
就建模、挖据能力而言,大数据价值的最终来源并不在于其庞大的基础数据量,而在于数据之间若有若无的微妙联系以及在此基础上的数据关联的模式;在于各数据图层叠加的过程中凸显的数据之间的相互联系,这方面,“啤酒与尿布”的故事很能说明问题。
在内部,我们综合了在网时长、客服接触情况、通信圈变话、呼转等数据,对用户的稳定度进行评估,最终的求准率达到85%以上,达到了较好的效果。
对外,我们综合了用户通话消费情况、交往圈情况、搜索情况、访问重点网商的情况,对用户的综合消费能力进行评估,使用过程中满意度也较高。
就数据开放能力而言,无论大数据分析、挖据的结果含金量有多高,最终能让这种价值得到体现的是数据的开放能力,数据的开放能力至少包含了三种能力“个体数据脱敏输出的能力”、“报告性质的二维数据输出的能力”、“数据魔方等三维数据输出的能力”;
其中,最为敏感的是个体数据的脱敏输出,对个体数据的利用无法避免公众对自身信息安全的疑虑、国家法律对个人隐私保护等问题。对此,互联网公司一般采用cookie而不是个人物理信息关联的办法避免碰触法律红线;在运营商内部,手机号码、用户/客户编号无疑是最便捷的数据关联方式,但是在与外界进行数据交换的时候,IMEI等必将被启用作数据交换过程中唯一识别码,在此过程中,如何保证数据的完全脱敏就成为很大的问题;
人群热力分布、特定人群消费能力评估等作为评估报告进行输出,在输出报告的过程中,个体信息不会被显示出来,因此个体数据相对安全,审计、日志等手段就成为保证群体性数据安全的必要手段。
四、应用
电信运营商的大数据应用场景基本可以归为三类
精准化营销/维系:通过对用户行为、特征、爱好的准确刻画,达到减少客户接触次数、提升接触效果(营销/挽留)的目标。随着目标人群手机饱和度越来越大(部分甚至已经大于100%),各运营商也逐渐将运营重点从新增市场转向存量市场,在存量市场中,对客户体验、客户需求的准确把握并提出针对性的营销、维系案尤为重要。某运营商曾对用户的客服电话主动拨打行为和离网行为进行关联分析,结果发现,主动拨打客服电话人群在后续3-6个月内离网概率大幅增加,拨打次数的上升会使离网趋势急剧上升。这种关联,对后续的维系服务无疑具有极重要的导向性意义。
提升运营效能:基于大数据的网络效益、业务体验、网络投资等指标综合优化,达到优化投资、提升运营效能的目标。大数据时代,对网络质量的指标要求从拨测、探针取数转向客户的实际体验的数据模拟,这种模拟包含了CS/PS海量数据还原,也包含了通过用户上网行为对用户体验的反向定位。由此得出的基础数据,对运营商的网络布局、网络优化无疑都至关重要,针对性的网优和网络布点可以很大程度上优化投资、提升运营效能。
数据变现:即以脱敏数据、综合报告等形式交付数据,实现经济收益、社会效益、数据交换收益。在RTB整个产业链中,运营商所能扮演的DMP或者CSP角色就很能说明运营商所掌握数据在整个产业链中的价值。热力图、人群报告等社会管理中亦有及重要的意义。某运营商在重大赛事期间所提供的运动场馆附近人群实时热力分布为主办方了解整体状况、确保安全提供了基础信息保障。
搭建延展性好、延续性佳的平台,尽可能汇聚数据并在此基础上针对性建模、挖掘,并将结果内向与外向输出,以实现数据价值。这就是笔者从事运营商大数据系统建设的最大体会。