移动互联时代电信运营商大数据管理平台研究
2016-04-17周实奇
周实奇
摘 要:大数据平台生态圈产品众多,提供了众多功能,开源产品为主,普遍面向功能层面,相比传统关系型产品圈,大数据平台更缺乏全局的统筹管理;大数据平台面对的数据更多,数据量更多,处理更为复杂;平台的灵活性,为不同用户提供了不同的数据视觉;复杂度灵活性也带来了对数据管理的难度;过去关系型数据的管理与管控往往是事后行为,数据的管理与管控效果较差;在大数据更为复杂的环境下,有效的管控变得更为重要。
关键词:移动互联网、大数据平台
1 背景
1.1 什么是大数据
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
本文将立足大数据在电信运营商支撑体系的定位、价值应用和支撑方案等方面展开讨论。
1.2 大数据的特点
要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
1.3 大数据在电信运营商IT支撑体系中的应用定位
而对于企业来讲,尤其是电信运营商企业,为了达到汇集数据,并最大发挥数据的价值,建设数据中心是不二的选择。那么在大数据时代,大数据的数据范围应该包含哪些?我们又应该通过什么样的方式管理和最大程度的挖掘其价值呢?
首先,为了达到辅助企业精细精确化运营,大数据的范围应该包括企业运营产生的全部数据,即我们通常所说支撑体系中B、O、E、M、D域中的全部数据。同时为了不断适应发展环境,我们还应该考虑纳入互联网数据,乃至物联网数据。在大数据支撑体系架构设计上,还应考虑通过灵活的手段,支撑未来更大范围的数据。
2 业务现状
处于大数据爆炸时代下的电信运营商,也不能独善其身,电信运营商的数据来源可以分为三类:
(1)用户数据:包括用户的姓名、年龄、职业等基本数据,上网记录、浏览网站、浏览内容等兴趣爱好,支付交易、资金往来等消费水平,上网地点、使用时间等行为轨迹,朋友圈、同学群等交往圈子。
(2)产品数据:包括产品形态、產品声音、图片、视频,流量,短信、渠道、品牌等。
(3) 网络数据:网管能力,网络基础通信能力,运维数据等。
面对这些几何式增长的数据,如何管理并有效它们成为摆在每个电信管理者面前必需解决的问题。目前电信运营商在大数据管理方面所面临的一些挑战:
(1)大数据平台生态圈产品众多,提供了众多功能,开源产品为主,普遍面向功能层面,相比传统关系型产品圈,大数据平台更缺乏全局的统筹管理;
(2)大数据平台面对的数据更多,数据量更多,处理更为复杂;平台的灵活性,为不同用户提供了不同的数据视觉(如MapReduce和Hive);复杂度灵活性也带来了对数据管理的难度;
(3)过去关系型数据的管理与管控往往是事后行为,数据的管理与管控效果较差;在大数据更为复杂的环境下,有效的管控变得更为重要;
(4)大数据平台目前混合架构会长期存在,混合架构的数据管理产品缺乏。面对挑战,适应潮流,建设一套统一的数据管理平台对每个运营商来说势在必行。
3 建设原则分析
大数据平台建设并不单纯取决于企业的业务规模、需求等因素,而是与企业本身的技术水平、基础数据的可信度、对统计分析需求的理解等多方面有着密切的关系。综合上述因素,在建设中应坚持以下的建设原则要求:
(1)系统的建设与电信运营商信息化数据分布及接口现状结合
大数据的建设应与信息化数据分布及接口现状紧密结合,引入有效的数据管理和控制手段,对分散在各系统的数据进行科学、实用的整合,对系统间各类数据传递接口进行合理、高效的整合,保证数据的一致性、完整性、准确性,从而顺利实现大数据建设目标。
(2)坚持从实际出发,统筹规划、突出重点、分步实施的系统建设理念
信息化建设是一个逐步推进和不断完善的过程,不可能一蹴而就,尤其是作为企业数据架构之一的大数据支撑平台建设,既要有高瞻远瞩的战略眼光,又要有脚踏实地的务实精神。大数据的建设应把当前需求与长远规划发展结合起来,突出重点、分步实施,实现对精确管理和品牌经营的有力支撑。
4 平台总体设计
在明晰了电信运营企业在大数据的定位和价值体现后,我们来谈谈怎样来实现。
对于大数据的特点,业界已经达成基本4V特点的共识,即Volume(数据大)、Variety(种类多)、Velocity(及时性要求高)、Value(价值密度低)。而我们要说大数据的特点,应该是为更好的处理大数据找到相应的方法,对于其规模大的特点,我们是不是应该想办法把大数据变小;对于其结构复杂,我们是不是应该找到不同类型数据相应的处理方法;对于它价值密度低,我们应该怎么样更好的分类和设计挖掘的模型;对于时效性要求,我们应该怎么样提高处理速度,满足需求。这应该是我们总结大数据特点的初衷,而这些特点相应的解决方案应融入到我们的架构设计中去。
5 平台实现方案
大数据管理平台共由六大模块组成,分别是运维门户,数据安全管理,数据运维管理,数据生命周期管理,数据质量管理以及元数据管理。下面分别介绍这六大模块。
5.1 数据运维门户
数据运维门户提供统一的信息服务功能入口,实现大数据信息的共享。其主要实现的功能包括以下三点:
1.界面集成,即在运维门户系统的一个页面中将多个系统页面进行统一呈现,使用户无需在各个系统之间进行登录切换,增加用户查看信息的便利性;
2.数据集成,运维门户系统需要采集各个系统的业务数据,然后进行归纳、加工和处理,提取出对使用者更有价值的信息并进行展示;
3.功能集成,运维门户系统还需要对各系统的功能进行集成,使用户在门户中也能够使用各系统中的特定功能。
5.2 数据安全管理
通过集中的数据安全管理来保证组织数据安全、合理的使用;数据安全管理包敏感数据脱敏、数据权限管理、访问控制、接入认证、数据传输安全和权限控制。
敏感数据脱敏指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
访问控制是指能够识别非法来源的请求,并拒绝为其提供服务,从而防止对系统恶意攻击。
接入认证是指对接入者的身份认证,对于认证失败的请求,拒绝提供服务。
5.3 数据运维管理
数据运维活动,基于基础的元数据管理、数据生命周期管理、数据质量管理、数据安全管理等活动,将这些活动有序的组织贯通,以保证组织数据处理、数据分析、数据使用的有效运作。
5.4 数据生命周期管理
数据生命周期管理通过制定合理的管理制度、组织架构以及对应的技术规范,协调各流程制度、技术规范的有效运行,以提升数据服务水平与数据使用效率,从而实现降低成本、提高效率的目标。数据存储和备份规范是保障和基础,数据管理和维护是执行方法,通过高效的数据管理和维护效率,从而不断提升数据服务水平。
5.5 数据质量管理
数据质量管理通过对数据质量进行检查,发现数据质量问题后及时进行报警。并采取相应的解决方案。运营支撑系统和源系统形成闭环的数据管理流程,避免产生不合格的数据,影响运营商系统环境。
5.6 元数据管理
大数据系统的元数据包括Hadoop元数据、Hbase元数据、Hive元数据等。
Hadoop元数据
HDFS文件的目录树、文件名称、文件路径、文件大小、文件权限和拥有者、文件访问时间和修改时间, HDFS文件的分类目录、文件生成规则和命名规则、业务描述和模型结构定义信息、任务调度数据等。
Hbase元数据
HBASE库表目录、库表名称、库表结构、HBASE库表的模型分类目录、业务描述、模型结任务调度数据等元数据。
Hive元数据
HIVE库表目录、库表名称、库表结构、库表大小、HIVE库表的模型分类目录、业务描述、模型结构、任务调度数据等元数据。
6 大数据平台建设关键点分析
关键点一:明确的系统定位和目标。
大数据系统的建设,是个复杂庞大的工程,需要多期的持续化建设,所以在初期的建设中,需要明确整体系统定位和各期各阶段的建设目标,在保持一定先进性的前提条件下合理演进。在大的系统定位和业务支撑明确后,还需在各期建设中,不断的进行规划咨询,通过细微的调整,来满足不同时期重要紧急的能力支撑,保证整体系统体系的高效建设和发展。
关键点二:从运营商公司实际需求出发,选择合理的技术架构。
技术不是万能的,但没有技术也是万万不能的。大数据平台涉及到的技术花样繁多,Hadoop框架、MPP数据库、列式存储、并行计算、实时计算、内存计算、交互式查询、可视化展现等等,有很多的技术路线分支,大多数又是开源的,集成商对其掌握的深入程度,在其之上改造提升的程度,如何选用及整合合适的技术路线产品,性能、稳定性、安全性、可维护性、快速问题解决能力、二次开发的方便性,都成为大数据平台建设的关键因素。
关键点三:对业务数据的深刻理解和科学的数据存储规划。
做大数据项目,首要点在于对各类数据的理解和掌握。对于BSS/OSS的数据、客户行为的数据、增值业务系统的数据等等是否有深入的理解和认识?这些数据如何进行关联,如何能够打通不同网络,前后端的数据?哪些数据是真实有效的,存在哪些数据盲点?对于盲点数据,如何弥补数据缺陷?如果没有对数据全方位完整深入的认识,由此建设的大数据项目就会成为花架子,中看不中用。
关键点四:打造开放的体系架构,盘活数据资产。
大数据能力产品与应用平台作为对外数据能力和平台能力的支撑平台,为了更好发挥大数据能力与应用平台的价值作用,如何规划建设开放化的架构体系,丰富数据服务能力和平台能力,为用户提供完善的数据服务和平台服务,将一定程度上决定系统的生命力。
关键点五:“百花齐放”的应用开发支撑,充分挖掘数据“金矿”。
传统时代是“有问题找数据”,大数据时代是“用数据找机会”。如何从“看数据”到“用数据”再到“养数据”,让数据成为构建企业生产力的重要部分,成为企业取之不尽,用之不竭的“金矿”。这必须要有一个基于“百花齐放”思想的应用开发支撑框架,以及丰富的应用的支持。大数据应用将不是简单地提供一些报表或分析模块,而是需要站在企业运营(营销、客服、运维等)及对外数据价值变现的各个方面,将数据的力量和思考的力量融合在一起,推动更主动的管理和更多的创新。
关键点六:可持续发展的系统平台。
如何适应运营商大数据平台建设规划的发展,以及大数据平台不断丰富完善的过程,进行大数據平台的配套建设,灵活适应业务发展和管理完善的要求,制定切实可行的平台和业务支撑演进计划,是在本期系统平台和应用开发设计需要重点考虑的,同时也是打造一个可持续发展的系统平台的关键问题。
7 结束语
基于Hadoop平台建设大数据中心数据管理平台,收集HDFS、Hive、Hbase、Hcatalog、Oozie等核心产品和关系型数据处理相关的元数据信息,实现对大数据元数据的统一管控,并结合实际的业务需求,实现基于大数据平台的数据运维。在大数据环境下,实现大数据相关的元数据管理及数据运维辅助支撑。从远景来看,实现大数据环境下面向全行业数据的管理与管控平台,提供企业级的数据运营管理平台。
参考文献
[1] 郑雪菲.国外电信运营商大数据应用及启示.
[2] 卢晔.大数据--移动互联网时代通信运营商的破局之道.