电信运营商省级大数据平台建设方案
2016-03-21孙红恩中国移动通信集团设计院有限公司北京100080
孙红恩(中国移动通信集团设计院有限公司,北京 100080)
电信运营商省级大数据平台建设方案
孙红恩
(中国移动通信集团设计院有限公司,北京 100080)
摘 要大数据时代的到来,让传统电信运营商面临不小机遇。本文总结当前运营商IT支撑平台建设和企业数据分布情况,分析国内运营商大数据发展所处的阶段;给出大数据平台建设架构和技术方案,并对电信运营商大数据平台建设方案中的关键点进行研究。
关键词大数据平台;IT支撑平台;运营商;Hadoop
近年来,以移动终端为基础的移动互联网发展迅猛,互联网终端及厂商在大数据技术驱动下,占据了信息服务的制高点,全面挤压传统通信企业的利润,使通信行业面临前所未有的压力,但也是通信行业的一次发展机遇。
电信运营商网管支撑系统、业务支撑系统和管理信息系统经过多年的建设和积累,分别汇集了企业内多个领域的数据,支撑了公司的生产经营工作。但是各系统数据未整合、分散存放,支撑建设被动响应、需求临时性定制的状况越来越突出。现有支撑系统的软硬件架构难以充分发挥自身拥有大数据的价值,研究和探讨适合运营商的大数据平台建设方案具有重要的理论和实际意义。
1 运营商大数据平台建设背景
1.1 运营商大数据现状及存在问题
为支撑生产运营,目前运营商已经独立建设了经分系统、精准营销平台、流量经营分析系统、网络综合分析平台、新媒体分析试点平台等多套分析型系统,数据源来自BSS/OSS/MSS三大支撑域以及互联网。
公司虽然建设了一些分析型系统,但是我们拥有“大数据”,却只使用了“小数据”,各平台对数据的采集、分析处理以及应用各有侧重,烟囱林立,难以发挥大数据价值,且软硬件架构(包括计算能力、存储能力等)并非从企业级大数据的技术角度设计。
(1)数据分散:目前各类数据分散在BSS/OSS/ MSS三大支撑域中,数据分散、相互隔离。
(2)重复采集存储:各系统不同阶段独立建设,存在数据重复采集和重复存储问题。
(3)挖掘能力不足:数据不全,无法形成跨专业、跨域的数据关联,无法呈现端到端全局数据,价值不能深度被挖掘。
(4)应用支撑能力不足:数据共享与开放能力不足,不能有效支撑应用。
考虑现有各平台仍需要支撑现网生产经营活动,因此建议采取“先立后破”的方式启动公司企业级大数据中心的建设。
1.2 大数据平台建设必要性
(1) 海量数据处理压力:海量数据处理和存储,已经超出传统主流软件工具的处理能力。
(2) 数据层面:OSS数据没有全量接收,缺乏集中、统一的数据处理。各部门分别探索的工作模式,不适应大数据对全量大规模数据的天然要求,从而导致IT整体支撑能力发展受到制约,整体规划缺乏。
(3) 平台层面:IT支撑缺乏竞争力,业务支撑能力不足,缺少企业级数据治理、统一数据平台、数据挖掘分析相匹配的组织架构和管理流程,现有的工作模式已经不适应大数据的发展需要。
(4) 业务层面:大数据应用价值亟待推广。虽已意识到数据分析的重要性,但思维未转换,多为原有工作的延伸,难以支撑商业模式的创新,最终导致大数据文化的缺失。
(5) 运营层面:人员分散、能力未充分聚合。客户研究能力不足,缺乏对客户精确洞察和行为挖掘,无法还原其真实需求,且信息和知识无法对外开放。
1.3 大数据平台发展阶段分析
通过对大数据系统发展历程分析,大致可将其发展分为以下3个阶段。
(1)数据跨域共享阶段:拉通企业各IT系统,充分发挥数据的价值,支撑以数据为核心驱动管理变革,构建企业精细化、智能化运营管理的生态服务体系,实现“超细分”、“微营销”、“精服务”的企业战略。
(2)对内能力提升阶段:从通过网络分析提升网络质量、通过市场分析提升营销能力、通过行为分析提升客户体验、通过平台分析优化操作流程等角度,大力支持运营商内部各业务需求部门的各类分析应用需求。
(3)对外产品服务能力阶段:在确保客户信息安全的前提下,大力拓展大数据的对外服务,实现运营商大数据的货币化,运营商的数据比互联网企业的数据更多了真实性、准确性,对客户的分析更为精准,逐步开放运营商大数据分析的结果,拓展大数据在广告营销、舆情分析等多领域的对外服务能力。
国外运营商大数据系统建设起步较早,主流运营商已经可以提供数据产品与服务,已经进入第3阶段,如法国电信客户维系、沃达丰爱尔兰公司的Tellabs、西班牙电信的智慧足迹、Verizon精准营销以及德国电信智能网络等。国内运营商也在积极推进大数据平台与体系的规划建设。
2 大数据平台建设方案
2.1 大数据平台总体架构
企业大数据平台统一采集数据、存储数据、计算数据、分配数据、共享资源,服务于企业管理、精细营销、数据运营、价值发现等各种领域,其架构如图1所示。
图1 企业大数据平台总体架构
整个方案体系架构分为应用层、数据层和采集层。
(1) 统一应用管理:通过统一的Portal集成框架,将各类专题分析、自助服务、线上运营、数据开放等能力进行集成,服务于企业的管理、营销、运营和创新。
(2) 统一数据存储和共享:实现企业跨域数据的统一存储、计算和共享,并实现对用户事件的感知、分析和实时营销支持,明确采用唯一的企业级Hadoop平台;通过分布式内存数据库集群提供标签查询、KPI查询;通过多租户资源池支撑各类业务应用。
(3) 统一数据采集:采集业务域、网络域、管理域、互联网域数据以及第三方数据。
2.2 大数据平台功能架构
2.2.1 数据采集及调度
大数据平台主要完成数据的统一采集和处理。大数据平台的统一采集,需要针对多样化的数据进行采集和清洗,需要兼顾现有经分系统相关数据源的采集能力,以及系统自身的开放性。构建统一调度模块,负责整个大数据系统的任务调度管理、调用和监控,并通过调用接口与ETL计算集群进行交互。
2.2.2 数据接口规划企业级统一数据采集和调度作为后续大数据中心的数据流转枢纽,实现按需平滑接入数据源,经过文件解压、文件合并和拆分、文件级校验、数据级校验、清洗、转换、关联、汇总等步骤对接入数据统一进行处理,加载到大数据平台,并负责大数据平台内部数据统一调度。
企业级统一数据采集和调度作为后续大数据中心的数据流转枢纽,同时承担对上层应用提供数据服务的能力,服务接口调用各类数据接口(用户统一视图、标签视图等),实现按需访问数据。
2.2.3 数据流规划
大数据平台作为大数据中心的数据流转枢纽,承担了从数据源加载BOM以及互联网四域数据到大数据平台、大数据平台内部数据的交互、以及数据在流转过程中的数据抽取、清洗和加载等三大部分任务。数据流向规划如图2所示。
图2中所示从下至上,从左至右分别说明(与本工程相关的数据流)。
(1)CRM/BOSS业务数据、运行状态日志数据通过CRM/BOSS系统提供,由ETL采集;CRM业务事件数据通过Socket(或类似接口)进行流数据采集。
图2 数据流规划示意图
(2)Gn口/A口等信令日志数据通过日志留存系统提供,经统一采集后由大数据处理平台进行整合处理,其中整合后需要爬取的URL列表,通过Discp推送(或者ftp方式)提供给网络爬虫(复用现有能力)进行数据爬取。
(3)大数据处理平台整合后的数据分别加载到核心数据仓库和MPP数据分析集群。
(4)大数据处理平台采集来自网页分析(复用现有能力)后的URL列表标签信息,用于与信令日志数据的整合,最终将整合后的网络信令数据加载到上网行为分析(复用现有能力)进行后续深度分析。
(5)关于网络爬虫和网页分析的接口需按照集团公司集中化经分下发的URL列表格式进行设计,以便于后续与集团公司一级系统进行接口整合。
2.2.4 数据生命周期管理
对于大数据平台内存储的数据进行有效全面的梳理,实现对于不同数据实体和内容数据生命周期的合理规划。
提供可视化的管理服务界面,对于各类数据支持按不同级别的生命周期进行监控管理,对于过期数据定期提示清理。
2.2.5 数据可视化查询
对于大数据平台内存储的数据提供可视化的数据查询界面。支持对大数据平台内存储的全部数据模型和全部数据周期的数据内容通过可视化SQL界面(如类似PL/SQL工具的界面)进行数据的查询,并支持通过该界面进行Join、Group by等操作。
支持通过该界面查询某个数据对象在大数据平台不同数据周期的实际存储位置。
表1 数据源数据类型及数据量
2.3 关键考虑因素
2.3.1 技术选型分析
随着运营商集约化、互联网化等策略的推进,大数据平台面临的数据处理体量急剧增长。以某省运营商为例,其大数据平台2015年面临的数据处理需求单如表1所示。
同时为满足公司经营需求,大数据平台需要支撑实时处理和批量处理等多种计算场景需求。面对如此庞大的数据规模和支撑需求,典型解决方案对比如表2所示。
结合系统处理性能、投资成本以及技术成熟性等多方面因素考虑,目前阶段,运营商大数据平台建议采用以Hadoop为核心的融合化技术方案。现有传统数据仓库、MPP数据仓库可作为大数据平台的数据服务对象,主要专注企业经营分析或专业数据集市应用。
2.3.2 硬件选型分析
运营商大数据平台搭建主要分为两种:批处理型服务器和流处理型服务器。考虑到运营商大数据平台存储规模较大,且各省普遍存在机房基础资源紧张的问题,在平台搭建时要控制节点数量,绕开跨机房等问题,在硬件选型时推荐配置较高机器。
(1)批处理型服务器:以平衡计算和存储为目的,建议采用机架式服务器,硬盘插槽大于10个SATA,最好12个以上,单盘建议选择量产的2 TB;内存采用量产内存,目前建议单条8 GB,内存槽不少于16个,配置128 GB以上内存;配置2颗CPU,CPU建议选择高性价比CPU,不单纯追求计算能力。
表2 解决方案对比分析
(2)流处理型服务器:以保证处理速度和内存容量为目的,建议采用4节点以上的机架服务器,单节点硬盘不多于2个SAS硬盘,单盘建议选择量产的300 GB,单节点内存采用量产内存,目前建议单条8 GB,内存槽不少于8个;单节点CPU建议配置2颗,CPU建议选择高性价比CPU。
2.3.3 集成模式分析
根据企业级大数据平台的建设,从技术选型上有一体机、混搭和电商定制3类集成模式。
(1)一体机模式:采用软硬件一体的商业产品,提升系统稳定性,降低建设周期。
(2)混搭模式:采用软硬件分离、商业软件和开源软件混搭的模式,保持一定的灵活性。
表3 集成模式分析对比表
(3)电商定制模式:对软硬件深度定制,投入技术团队持续跟踪技术发展。保持核心能把控。
如表3所示,经过对3类模式的分析,综合考虑平台建设和投入的关系,推荐采用混搭模式。
3 结论
电信运营商的大数据平台建设与大数据应用方兴未艾,研究和探讨适合运营商的大数据平台架构具有重要的理论和实际意义。本文根据电信运营商的业务特点,研究并给出了一种集约、融合、开放的运营商大数据平台架构设计方案。在实际搭建大数据平台时,应考虑运营商当前IT系统架构的复杂性,根据不同应用场景以及技术的多样性,对系统组网方案、管理方案等技术细节进行深一步的探讨。后续将持续结合各运营商大数据工程建设和应用实践进行研究总结。
The big data platform construction solution of telecom operators
SUN Hong-en
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)
AbstractBig data age brings new opportunities to traditional telecom operators. In this thesis, IT supporting platform construction and enterprise data distribution situation of current telecom operators were summarized, the phase of big data development of domestic telecom operators was analyzed, big data platform construction infrastructure and technical solution were proposed, key points in the big data platform construction solution of telecom operators were researched.
Keywordsbig data platform; IT supporting platform; telecom operator; Hadoop
收稿日期:2015-06-29
中图分类号TN915
文献标识码A
文章编号1008-5599(2016)02-0034-06