基于运营商大数据的终端产品运营系统设计
2017-07-12贾利娟
贾利娟,王 伟
(陕西广播电视大学 陕西 西安 710119)
基于运营商大数据的终端产品运营系统设计
贾利娟,王 伟
(陕西广播电视大学 陕西 西安 710119)
为了充分利用运营商大数据来支撑终端产品运营,设计了一种基于运营商大数据的终端产品运营系统,主要包括终端监控子系统、终端推荐子系统、应用推荐子系统。该系统通过建立监控指标、终端推荐模型、应用推荐模型充分利用了运营商积累的通信行为数据、位置数据、上网行为数据、终端数据等大数据资源,提升了终端产品运营的效率以及终端推荐和应用推荐的效果。
大数据;终端运营;推荐模型;数据挖掘
据IDC预测,未来5年全球数据量将达到35ZB,电信运营商是这些数据的传送者,处于数据交换的中心,具有天然的优势[1]。电信市场的竞争越来越激烈,三大传统运营商面临管道化和边缘化的危机,数据经营是在当今大数据时代下最好的选择[2]。国外运营商已实现了大数据的多领域应用,Orange借助大数据,根据用户消费情况,完善网络布局;Verizon将用户数据进行整合,向合作伙伴提供广告投放服务[3]。运营商大数据服务平台是有效利用大数据的重要基础[4]。大数据平台连接了运营商的BSS域、OSS域、MSS域的各类业务数据[5]。利用大数据技术,充分将业务支撑系统、经营分析系统的各项基础数据[6],例如移动互联网的上网行为、以及位置、网管、信令、应用等多种非结构化的数据形式进行有效整合[7]。运营商大数据具有很多的价值,是运营商业的新的增长点,很多文献对运营商大数据政策与应用价值进行了研究,运营商开展大数据业务在政策上可行并具有很高的商业价值[8-13]。
随着移动通信市场发展,运营商面临语音业务市场饱和的挑战,通信运营商的市场的着力点放在了流量经营与终端经营之上。在终端运营方面运营商具有天然的数据优势,一方面运营商积累了用户的基本信息、通信行为数据、位置数据、上网行为数据,这些数据来源于通信网络系统以及传统的运营支撑系统,电信运营商的系统本质是为用户与用户、设备与设备、用户与设备之间提供通信信道,每天承载着海量信息,是互联网大数据的源头。另一方面运营商具有每个用户使用终端的品牌、型号、使用时长、功能特性等与终端直接相关的大数据资源。如何利用好这些数据资源为终端运营提供服务是运营商需要解决的问题。基于运营商大数据的终端运营系统通过对运营第二商大数据资源进行解析与挖掘利用从而支撑终端运营。终端运营系统主要解决的问题有3个,首先对终端销售情况、市场占有情况进行监控分析,这是终端监控子系统要解决的问题。第二,通过现有大数据数据每款终端匹配目标用户群,这就是终端推荐模型要解决的问题。第三,用户购买手机以后,为用户推荐合适的APP应用,这是应用推荐模型要解决的问题。
1 整体系统架构设计
终端运营系统主要包括终端监控子系统、终端推荐子系统、换机应用推荐子系统。终端监控子系统主要实现对现有用户终端各项指标的监控。终端推荐子系统主要通过基于大数据的数据挖掘模型在合适的时机为用户推荐合适的终端产品,并引导用户在线下单或者通过对用户位置数据的分析引导用户到最近的营业厅购买终端产品。换机应用推荐子系统通过对Gn口数据进行DPI解析并在终端维度对用户偏好进行分析,在用户更换终端设备时进行实时个性化应用推荐。
与终端运营系统链接的外围系统包括:CRM、BOSS、BI、终端电商平台、门户网站、掌上营业厅、CRM前台、短信网关。
CRM、BOSS、BI为数据来源系统,为运营系统提供用户基本信息、通信行为数据、位置数据、上网行为、终端等数据。电商平台为在线终端购买系统实现用户的在线下单,并为运营系统提供终端数据信息库。门户网站、掌上营业厅、CRM前台为用户的接触渠道,为用户推送终端推荐信息。
终端监控子系统监控的指标主要包括各型号终端的用户数总量、用户增量、ARPU、流量、增值业务订购数等。
图1 终端运营系统周边交互图
终端推荐子系统包括数据接入模块、数据挖掘模块、机型推荐模块、规则管理模块、规则识别模块、渠道管理模块、终端信息管理模块、电商平台调用模块、效果监控模块。接入模块接入终端推荐模型相关的基础数据,并做预处理。数据挖掘模块计算换机目标用户人群。机型推荐模块为目标用户人群中的用户匹配合适的机型。规则管理模块负责管理数据挖掘的结果,也就是换机目标用户人群筛选规则。渠道管理模块管理用户接触渠道,以及推送相关的素材。电商平台调用模块调用终端销售平台上的终端销售页面以及同步终端库信息。效果监控模块监控推荐效果,然后把效果反馈到数据挖掘模块以决定是否启动数据挖掘流程。
换机应用推荐子系统的功能是在用户更换手机终端时给用户推送手机个性化应用信息。由Gn口数据同步模块、个性化推荐模块、IMEI比对模块、触达模块等模块组成。
Gn口数据同步模块从DPI解析平台同步Gn口数据。个性化推荐模块基于DPI解析数据计算用户偏好,并给用户推荐适合偏好的应用。IMEI比对模块对比终端IMEI信息以发现用户换机行为。触达模块调用触达接口将推荐信息发送给用户。
一个大数据系统要面临3个问题:大数据存储、大数据分析、大数据管理。Hdoop分布式云计算框架是大数据最有力的搭档,主要由分布式文件系统和HDFS和MapRduce编程模型组成[14]。本系统的核心在数据分析处理区,在预处理阶段与数据挖掘阶段都需要对海量大数据进行存储和计算,HADOOP技术是为处理大数据而生的技术,通过MapReduce模型把任务分配到分布式的计算机集群中,既降低了成本又提供了可伸缩性。计算模型的下面是基于Hadoop分布式文件系统 (HDFS)的分布式文件系统,这个文件系统是“可拔插的”。不过现有的数据基础架构是基于传统关系型数据库和结构化查询语句的,面对此挑战可以采用HIVE的解决方案。HIVE不支持联机事务处理(OLTP),更接近联机分析技术(OLAP)。HIVE不是一个完成数据库,最大的限制是不支持记录级别的更新、插入或者删除操作。同时由于HIVE是一个面向批处理的系统,MapReduce任务的启动需要一段时间,所以HIVE的查询延时比较严重。由于Hadoop本身的时间开销很大,而且所处理的数据量很大,所以查询返回时间会很长。HIVE是最适合数据仓库应用程序的,可以对海量数据进行维护并进行数据挖掘。
在挖掘周期和规则识别周期都比较长的情况下,对于产品推荐、内容个性化规则挖掘的过程来说无需快速的查询时间,Hadoop架构是能够胜任的。如何挖掘周期和规则识别周期都比较短,可以考虑采用SPARK技术。SPARK同样能够实现Hadoop的基于MapReduce的并行计算,任务运行的中间结果保存在内存中,而不需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2 终端监控子系统
终端监控子系统监控现网用户的终端使用情况,数据的来源为BI与CRM,支撑以终端维度为中心的个性指标的报表。这些报表是以终端品牌型号为维度对用户群进行划分,使用同样品牌和型号的用户作为一个群体,对群体的各项指标做统计分析,可以对各项指标统计分布情况,也可以对各个终端之间的指标平均数做对比分析。
可选择的查询维度包括:时间、终端品牌、终端型号,展现指标包括用户数总量、用户增量、ARPU值、流量,如表1所示,报表在时间上以月为单位提供报表。每个月初计算上个月的报表。用户数总量就是截止月底时间用户数总量,用户增量为本月新增的用户数,ARPU值为用户消费的平均值,流量为本月用户使用流量平均值。
表1 指标基础表
3 终端推荐子系统
终端推荐子系统实现的功能是通过推荐模型的计算得到换机人群集合并为用户推荐合适的终端。终端推荐子系统的核心是终端推荐模型,终端推荐模型由换机人群数据挖掘模型和机型推荐模型两个模型组成。聚类和分类算法都可以应用于客户细分[15],其中决策树方法是解决分类问题的最有效方法。为了实现快速响应算法需要运行于Spark框架下[16]。首先需要根据模换机人群数据挖掘模型计算出换机人群,这里采用C4.5数据挖掘算法计算出换机人群特征规则的决策树,然后筛选出符合决策树规则的用户群体就是换机目标用户群。
定位了目标用户人群以后,要通过机型推荐模型推荐合适的终端产品。决策树分类算法也成贪心算法,采用自顶向下的方式构造。
终端推荐子系统由数据预处理模块、数据挖掘模块、规则管理模块、机型推荐模块、终端库模块、素材管理模块、展示平台接口模块组成。
目标用户人群数据挖掘模型的流程如下所示:
第一步:取得换机用户与非换机用户集合作为训练数据。
第二步:提取用户的属性维度特征。
第三步:运行分类算法C4.5,得到决策树。
第四步:根据决策树得到预测规则。
第五步:固化规则,效果监控与持续优化。
图2 推荐人群规则数据挖掘模型流程
在决策树中一个一条从根节点到叶子节点的路径为一条目标人群识别规则,对应每一条规则覆盖的历史数据人群按照机型分类建立状态转移矩阵,如公式(1)所示。统计出每个机型转移后的状态概率,把概率最大的机型作为推荐机型,如公式(2)所示。
监测大数据模型的效果,与无大数据模型的情况下进行对比分析,选取的指标为响应率,用用户购买点击行为作为响应率的衡量口径。可以看到,基于大数据的终端推荐模型响应率较高。
图3 终端推荐效果对比
4 换机个性化应用推荐模型
换机个性化推荐模型基于用户偏好为用户推荐应用。用户偏好通过Gn口用户访问上网记录计算。这里最重要的是换机时机的捕捉。在通信网络中读出用户的 IMEI信息,IMEI与终端一一对应,当IEMI信息发生变化的时候就是用户发生了更换终端的行为。
DPI(Deep Packet Inspection,深度报文检测)是相对于传统报文检测技术而提出的一种报文检测技术[8]。DPI应用场景有:用户洞察、精准营销、流量控制、增值业务[17]。精细化运营室运营商发展的必然趋势,DPI是实现精细化运营的基础之一。通信网络是移动通信用户上网的通路,通信网元中的Gn口中可以提取每个用户的上网行为,包括APP使用行为或者网站访问行为。Gn口用户上网行为的获取是通过DPI解析技术来实现的。深度包解析DPI中的 “深度”是和普通的报文分析层次比较而言的,普通报文检测仅分析IP包4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI除了这些层次,还增加了应用层分析,能够识别各种应用及其内容。
通过对Gn口数据进行DPI解析,记录每一类应用或者网页的访问次数、访问流量、月访问天数。对每个用户的每一个偏好分类计算分值,偏好分类的分值综合访问次数、访问流量、月访问天数3个方面。访问次数的分值为用户对每个分类的访问次数与对各分类访问次数最大值之比,如公式(3)所示。访问流量、月访问天数的得分如公式(4)、公式(5)所示,某个用户的某个偏好分类的偏好分值如公式(6)所示,输出的偏好表结果如表(2)所示。设定一个阈值,如果用户对某类偏好大于这个阈值那么就给用户推荐此类内容。
表2 用户偏好分数表
以上计算的是用户的总偏好,通过DPI解析可以获知用户在换机前安装了哪些应用。按照偏好的计算方法,同样可以计算出具体应用的偏好,如表3所示。
表3 应用偏好分数表
最终给用户推荐的应用组成一个推荐列表。推荐列表由两部分组成,一部分是根据表3中的应用偏好得到的直接推荐部分,另一部分是根据表2中的总偏好匹配得到的间接推荐部分。直接推荐列表选取应用偏好值大于与阈值N的应用。间接推荐部分是根据阈值大于M的偏好去 “偏好与应用映射库”中去匹配相应的应用从而得到间接推荐列表。偏好与应用映射库就是把待推荐的应用打上一一对应的偏好标签,从而通过偏好可以查询到符合相应偏好的应用。通过5周的数据监测得到基于大数据与无大数据模型两种情况下的对比如图4所示。基于大数据的换机场景下的应用推荐模型对响应率有明显的提升。
图4 应用推荐效果对比
5 结束语
基于运营商大数据的终端运营系统利用运营商的大数据资源为终端运营提供支撑。不仅包括终端指标监控模块,还包括终端推荐模型、终端更换场景下的应用个性化推荐模型。通过这些模块模型提高了终端运营的效率和效果。终端运营系统可以进行产品化,向外提供终端相关大数据产品能力。
[1]陈科帆,周洪成.电信运营商大数据资源变现模式及策略研究[J].移动通信,2016,40(1):63-67.
[2]郑雪非.国外电信运营商大数据应用及启示[J].移动通信,2015,39(13):29-33.
[3]高寅欣.运营商大数据发展与应用[J].通信企业管理,2015(10):76-77.
[4]沙甲戊.运营商大数据服务平台与典型应用模式研究[J].移动通信,2016,40(4):92-96.
[5]李玲.大数据时代下运营商如何驱动数据的 “智慧运营”[J].通信世界,2015(23):32-33.
[6]胡建英,彭军.浅谈运营商大数据分析及应用系统设计[J].信息通信,2015(9):299-300.
[7]丁虹.大数据时代运营商转型的思考[J].中国电信业,2015(10):58-59.
[8]姚若辉.电信运营商大数据发展策略[J].电子技术与软件工程, 2015(4):196.
[9]王钦敏.经济社会发展中的大数据应用 [J].地理学报, 2015,70(5):691-695.
[10]黄小刚.电信行业大数据应用的四个方向[J].信息通信技术, 2013(6):26-28.
[11]黄勇军,冯明,丁圣勇.电信运营商大数据发展策略探讨[J].电信科学, 2013(3):6-11.
[12]晓镜.Sprint:运营商仅靠大数据就能生存[N].中国邮电报, 2012-11-21(5).
[13]庞淑娟.大数据在银行信用风险管理中的应用[J].征信, 2015(3):12-15.
[14]何广才,周根宝.基于MapReduce的改进蚁群算法在TSP中的应用[J].内蒙古农业大学学报,2015,36(5):125-132.
[15]杨倩倩,生佳根,赵海田.K-means聚类算法在民航客户细分中的应用[J].电子设计工程,2015(12):25-27.
[16]胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015(4):216-220.
[17]谷红勋,张霖.DPI:运营商大数据安全运营的基石[J].网络空间安全,2016(7):23-26.
The design of terminal product operation system based on big data of operators
JIA Li-juan,WANG Wei
(Shaanxi Radio and Television University, Xi’an 710119,China)
In order to make full use of big data of operators to support terminal operation,the paper designed a terminal operating s stem based on big data of operators,mainly including terminal monitoring subsystem,terminal recommended subsystem,and applied recommended subsystem.The system established monitoring index, terminal recommended model, and applied recommended model to make full use of big data resources such as communication behavior data, location data, and online behavior data that operators accumulated,and improve the efficiency of terminal operation and the effects of terminal recommendation and recommended application.
big data; terminal operation; recommended model; data mining
TN87
A
1674-6236(2017)12-0119-04
2016-09-06稿件编号:201609047
陕西省2014年重大科技创新项目(2014ZKC(-)03-18);陕西省2014年信息化重点建设项目(陕工信发[2014]199号)
贾利娟(1981—),女,陕西宝鸡人,硕士,讲师。研究方向:大数据、数据挖掘、网络仿真。