APP下载

电信运营商数据挖掘分析共享平台架构研究

2014-11-15李卫张云勇魏进武

移动通信 2014年19期
关键词:数据挖掘运营商建模

李卫+张云勇+魏进武

运营商现有的数据挖掘分析建模管理机制不健全,存在挖掘管理混乱、知识共享困难等问题。文章研究了数据挖掘分析共享平台架构,并探索了若干业务场景,为运营商在全集团范围内实现数据挖掘分析模型构建与知识的沉淀以及快速推广应用提供参考。

数据挖掘 业务模型 共享平台 专家式共享 分散式共享

1 引言

近几年,在互联网、电信、金融、政府等行业,各巨头纷纷积极推进大数据平台建设,开发大数据应用,希望借此获得核心竞争优势,重塑产业链格局。电信运营商拥有海量的用户,积累了丰富的用户通信业务、行为偏好以及企业经营、管理和运维数据等,围绕精准营销、客户维系、网络优化、业务规划等方面做了不少大数据的具体应用[1,2]。然而,运营商现有的大数据应用管理机制不健全,企业范围内在集团、省分等各层级分别各自建设数据挖掘平台、开展数据挖掘专题应用,各省独立研发、维护和管理数据挖掘分析模型,无法对数据挖掘模型和算法实现企业级的统一管理;各省单独建设和维护的数据挖掘模型和算法在省分之间共享困难,效果良好的模型和挖掘算法等不能得到及时的共享,各省分重复投资和建设同一类型甚至完全相同的业务模型和算法,造成人力、物力、财力等资源的大量浪费;优秀的业务建模经验得不到及时的分享和借鉴,也极易导致企业错失良好的营销时机、竞争优势,从而使企业利益受损。

针对这些问题,本文研究探索了电信运营商数据挖掘分析共享平台架构[3-5],在全集团范围内实现数据挖掘分析模型构建与知识的沉淀及快速推广应用,为上层应用提供多层级、多维度、全方位的数据服务。

2 电信运营商数据挖掘分析共享平台架

构建议

电信运营商数据挖掘分析共享平台架构建议如图1所示。

数据挖掘分析共享平台架构面向运营商的模型需求方(如前端市场、客服部门)、业务分析人员、数据处理人员、数据挖掘人员和模型管理人员等5类角色,提供统一的日常工作支撑平台以及贯串模型和数据挖掘算法全生命周期的企业级、可视化管控体系。

设计态管理主要针对不同的数据采用不同方法创建数据挖掘分析业务模型。针对结构化的高价值密度数据,可以采用“指标/标签+规则”建模、多维关联分析建模以及数据挖掘建模等3类方式进行建模,第1类建模方式将自动生成的SQL脚本导入到模型中;第2类建模方式需将多维关联分析表生成部署算法包,导入到模型中;第3类建模方式则可以使用数据挖掘工具(如R/SAS/SPSS等)进行挖掘分析,将挖掘结果以PMML文件、SQL脚本、JAR包方式生成部署算法包,导入到模型中。针对低价值密度的批量数据,可以在Hadoop上编写Map-Reduce脚本进行数据挖掘,将挖掘结果以Map-Reduce脚本方式生成部署算法包,导入到模型中;也可以集成开源的大数据挖掘算法进行基于Hadoop的大数据挖掘。针对低价值密度的实时流数据,则以流计算规则方式建立模型,部署到实时流引擎。

运行态管理主要根据不同的调度模式提供业务模型服务。高价值密度的数据模型支持消息调度和周期调度运行规则以及实时和离线这2种服务模式。在实时服务模式下,数据服务请求方(业务人员或第三方数据应用)通过Web Service或自定义Socket协议,在线提交数据处理请求、等待数据处理结果,要求数据服务提供方能够快速响应,因此适用于小量或简单数据处理需求的业务场景;在离线服务模式下,数据服务请求方在线提交数据处理请求后,不必在线等待数据处理结果,因此适用于大批量、复杂或周期性数据处理需求的业务场景。低价值密度批量数据模型以周期调度方式运行,根据数据处理时间要求,对存储在Hadoop中的批量数据(如互联网流量详单数据),按照模型的Map-Reduce脚本进行分析处理,生成高价值密度的结构化数据,存入结构化的数据仓库中。低价值密度的实时流数据从数据源采集后并不存入数据仓库,因此它的处理以消息调度方式运行,根据实时流引擎中的业务模型要求(流计算规则)处理后,将提取的高价值汇总信息存入结构化的数据仓库,而事件触发可以直接发送给生产系统以开展业务活动。

共享管理负责数据挖掘分析业务模型和数据挖掘算法的创建、发布、评估、共享、变更、下线、还原的全生命周期管理。业务模型共享分为专家式共享和分散式共享2种模式,专家式共享模式即“省分——集团——全国推广”模式,省分将本省建设的具有普适性的优秀模型推荐到集团,集团模型管理人员审批通过并完成数据准备后,将该模型推广到全国共享使用;分散式共享模式即“A省分——B省分推广”模式,B省分模型需求方通过模型查看功能,获知A省分某业务模型适合B省分相同类型的业务应用,向集团模型管理人员提出共享申请,审查通过、数据准备就绪后,在B省发布并使用该模型。

3 业务场景探索

3.1 “指标+规则”建模场景

省分市场业务人员可以根据业务需要,在数据挖掘分析共享平台上发起业务需求申请,由业务分析人员创建模型,支撑市场业务人员的日常运营工作。“指标+规则”建模场景如图2所示。

在步骤⑧模型创建中,以高价值客户分析业务模型创建为例,首先选择与需求相关的业务参数,如通话时长、通话次数、短信条数、上网流量、出账金额等与建立高价值用户模型相关的业务参数;然后根据业务需求,配置业务规则,如ARPU>120、在网时长>6个月等作为判断高价值用户的规则。

3.2 数据挖掘建模场景

省分市场业务人员可以根据业务需要,在数据挖掘分析共享平台上发起业务需求申请,由业务分析人员和数据挖掘人员创建模型,支撑市场业务人员的日常运营工作。数据挖掘建模场景如图3所示。

在步骤⑩模型训练中,以流失预警分析业务模型创建为例,首先初步筛选与流失预警相关性高的数据,然后综合考虑命中率及覆盖率,确定利用神经网络算法建立预测模型,最后通过模型多次训练,确定神经网络算法的阈值,确定流失预警最优模型。endprint

3.3 模型分散式共享场景

省分模型需求方或业务分析人员在数据挖掘分析共享平台上可以查看其它省的业务模型,选择出本省需要的模型,发起共享申请;集团模型管理人员对共享申请进行审批后,省分业务分析人员在省分数据处理人员准备好本省的数据后进行模型评估和调整后,就可以将模型在本省上线使用。模型分散式共享场景如图4所示。

在步骤⑩模型评估中,省分业务分析人员根据省分数据处理人员准备好的本省数据,对推荐模型进行实际数据评估,出具评估报告,评估后的结果分为3种情况:

(1)可用:但是需要调整,根据实际业务情况变更模型,如业务参数或者算法参数;

(2)直接可用:可以直接调用;

(3)不可用:省分业务分析人员根据实际业务需求进行模型新建。

3.4 模型专家式共享场景

省分业务分析人员通过数据挖掘分析共享平台,将本省建设的创新、亮点模型推荐到集团,集团模型管理人员审批通过并完成数据准备后,将该模型推广到全国共享使用,指导其它省分的业务工作。模型专家式共享场景如图5所示。

在步骤②模型推荐申请预评估中,集团模型管理人员需要对省分业务分析人员推荐的共享模型进行预评估,出具预评估报告,审批是否可以转为共性。

在步骤⑨个性转共性中,将待共享模型中的省分个性指标数据转为集团共性指标数据统一存储,模型规则由集团统一管理、监控使用。

4 结束语

本文分析探讨的数据挖掘分析共享平台提供了大数据开放服务能力,统一的数据和建模工作环境以及模型的开放共享,满足日常数据运营及模型建立、训练、使用、评估等工作需求,有助于运营商公司部门、省分公司的各个团队形成合力,共同推进数据知识的沉淀、共享,将创新、亮点模型支撑下的大数据应用快速推广,避免重复建设,符合运营商大数据发展需求和建模开放的工作要求。

参考文献:

[1] 魏进武,张云勇. 电信运营商的大数据价值创造[J]. 信息通信技术, 2013(6): 10-14.

[2] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 6-9.

[3] 刘春,邹海锋,向勇. 大数据环境下电信数据服务能力开放研究[J]. 电信科学, 2014(3): 156-161.

[4] 韩晶. 大数据服务若干关键技术研究[D]. 北京: 北京邮电大学, 2013.

[5] 张秀典. 电信数据能力开放研究[D]. 北京: 北京邮电大学, 2010.endprint

3.3 模型分散式共享场景

省分模型需求方或业务分析人员在数据挖掘分析共享平台上可以查看其它省的业务模型,选择出本省需要的模型,发起共享申请;集团模型管理人员对共享申请进行审批后,省分业务分析人员在省分数据处理人员准备好本省的数据后进行模型评估和调整后,就可以将模型在本省上线使用。模型分散式共享场景如图4所示。

在步骤⑩模型评估中,省分业务分析人员根据省分数据处理人员准备好的本省数据,对推荐模型进行实际数据评估,出具评估报告,评估后的结果分为3种情况:

(1)可用:但是需要调整,根据实际业务情况变更模型,如业务参数或者算法参数;

(2)直接可用:可以直接调用;

(3)不可用:省分业务分析人员根据实际业务需求进行模型新建。

3.4 模型专家式共享场景

省分业务分析人员通过数据挖掘分析共享平台,将本省建设的创新、亮点模型推荐到集团,集团模型管理人员审批通过并完成数据准备后,将该模型推广到全国共享使用,指导其它省分的业务工作。模型专家式共享场景如图5所示。

在步骤②模型推荐申请预评估中,集团模型管理人员需要对省分业务分析人员推荐的共享模型进行预评估,出具预评估报告,审批是否可以转为共性。

在步骤⑨个性转共性中,将待共享模型中的省分个性指标数据转为集团共性指标数据统一存储,模型规则由集团统一管理、监控使用。

4 结束语

本文分析探讨的数据挖掘分析共享平台提供了大数据开放服务能力,统一的数据和建模工作环境以及模型的开放共享,满足日常数据运营及模型建立、训练、使用、评估等工作需求,有助于运营商公司部门、省分公司的各个团队形成合力,共同推进数据知识的沉淀、共享,将创新、亮点模型支撑下的大数据应用快速推广,避免重复建设,符合运营商大数据发展需求和建模开放的工作要求。

参考文献:

[1] 魏进武,张云勇. 电信运营商的大数据价值创造[J]. 信息通信技术, 2013(6): 10-14.

[2] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 6-9.

[3] 刘春,邹海锋,向勇. 大数据环境下电信数据服务能力开放研究[J]. 电信科学, 2014(3): 156-161.

[4] 韩晶. 大数据服务若干关键技术研究[D]. 北京: 北京邮电大学, 2013.

[5] 张秀典. 电信数据能力开放研究[D]. 北京: 北京邮电大学, 2010.endprint

3.3 模型分散式共享场景

省分模型需求方或业务分析人员在数据挖掘分析共享平台上可以查看其它省的业务模型,选择出本省需要的模型,发起共享申请;集团模型管理人员对共享申请进行审批后,省分业务分析人员在省分数据处理人员准备好本省的数据后进行模型评估和调整后,就可以将模型在本省上线使用。模型分散式共享场景如图4所示。

在步骤⑩模型评估中,省分业务分析人员根据省分数据处理人员准备好的本省数据,对推荐模型进行实际数据评估,出具评估报告,评估后的结果分为3种情况:

(1)可用:但是需要调整,根据实际业务情况变更模型,如业务参数或者算法参数;

(2)直接可用:可以直接调用;

(3)不可用:省分业务分析人员根据实际业务需求进行模型新建。

3.4 模型专家式共享场景

省分业务分析人员通过数据挖掘分析共享平台,将本省建设的创新、亮点模型推荐到集团,集团模型管理人员审批通过并完成数据准备后,将该模型推广到全国共享使用,指导其它省分的业务工作。模型专家式共享场景如图5所示。

在步骤②模型推荐申请预评估中,集团模型管理人员需要对省分业务分析人员推荐的共享模型进行预评估,出具预评估报告,审批是否可以转为共性。

在步骤⑨个性转共性中,将待共享模型中的省分个性指标数据转为集团共性指标数据统一存储,模型规则由集团统一管理、监控使用。

4 结束语

本文分析探讨的数据挖掘分析共享平台提供了大数据开放服务能力,统一的数据和建模工作环境以及模型的开放共享,满足日常数据运营及模型建立、训练、使用、评估等工作需求,有助于运营商公司部门、省分公司的各个团队形成合力,共同推进数据知识的沉淀、共享,将创新、亮点模型支撑下的大数据应用快速推广,避免重复建设,符合运营商大数据发展需求和建模开放的工作要求。

参考文献:

[1] 魏进武,张云勇. 电信运营商的大数据价值创造[J]. 信息通信技术, 2013(6): 10-14.

[2] 童晓渝,张云勇,房秉毅,等. 大数据时代电信运营商的机遇[J]. 信息通信技术, 2013(1): 6-9.

[3] 刘春,邹海锋,向勇. 大数据环境下电信数据服务能力开放研究[J]. 电信科学, 2014(3): 156-161.

[4] 韩晶. 大数据服务若干关键技术研究[D]. 北京: 北京邮电大学, 2013.

[5] 张秀典. 电信数据能力开放研究[D]. 北京: 北京邮电大学, 2010.endprint

猜你喜欢

数据挖掘运营商建模
探讨人工智能与数据挖掘发展趋势
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
基于并行计算的大数据挖掘在电网中的应用
取消“漫游费”只能等运营商“良心发现”?
一种基于Hadoop的大数据挖掘云服务及应用
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合
三大运营商换帅