APP下载

大数据PaaS开放平台建设思路探讨

2016-03-24卢楠耿辉张金刚

中国新通信 2016年4期
关键词:大数据

卢楠 耿辉 张金刚

【摘要】 移动互联网时代,各通信运营商均已建立起大数据平台,而平台对内对外的应用支撑能力、数据开放共享能力的需求也更加强烈。而日趋成熟的PaaS多租户架构等技术,对于支撑大数据平台的能力开放建设提供了有效的技术思路。本文对大数据建设面临的业务和技术趋势,提出了大数据平台能力开放的发展、演进思路,为运营商建设大数据平台的能力开放提供架构设计上的一点可借鉴的思路。

【关键词】 大数据 能力开放 PaaS 多租户

一、背景

目前某省通信运营商已建立起以“大数据、超细分、微营销”为方向,初步实现支持跨域数据融合与能力共享的一个大数据集中平台,目前平台通过云化ETL实现数据的采集、装载、计算。对业务支撑域主要接口和网管支撑域的2、3G信令数据进行采集,构建MPP数据库和Hadoop处理平台,构建客户标签库、互联网内容识别能力,并且初步实现了统一运维管理。

随着业务的不断发展,平台接入的各类数据不断增长,包括管理支撑域和政企客户、电商等相关数据也纳入了大数据平台进行分析。这对平台本身面向各类业务部门、各种合作伙伴的运营支撑工作提出了挑战,为充分利用系统的计算资源、数据资源,提升数据挖掘的能力,统一数据模型,进一步增强数据使用和管理的效率,有必要建设一体化架构、支持能力开放、多租户技术的大数据平台,满足一体化运营发展的要求。因此,下面提出了一种基于PaaS、多租户技术的大数据开放平台建设方案。

二、大数据平台现状及问题分析

大数据平台在一期工程完成了基础架构的搭建,采用MPP+Hadoop混搭式架构,同时兼顾与现有经分架构的融合,便于演进和扩展。

在具体应用方面,支撑了营销策划、审批和执行的闭环流程,打通了短厅、CRM、外呼等电子渠道;支撑流量运营,提供流量全景图、客户画像中心、营业厅效能评估、移动指数应用等。

系统总体架构分为数据采集层、数据处理层、数据共享层和应用层。

系统采集层:构建企业级统一数据采集能力,水平扩展接入B域数据、O域数据、M域数据、互联网数据、实时数据和外部数据等。

数据处理层:构建多样化且高效的数据处理能力,DB2库主要负责日常生产分析,数据价值密度高、周期短、使用频率高、高度汇总频率高;MPP库主要负责结构化数据计算和存储、数据深度挖掘、长周期数据应用,数据特征价值密度中、周期长(同时视为DB2的备份库)、跨域跨度大;Hadoop平台主要负责处理后台结构化/半结构化数据,信令数据和互联网数据处理完成后输出互联网知识库清单,后期将承担流量详单查询应用;实时计算集群负责信令数据的高效处理和分发,支撑在线营销。数据处理层离线数据和实时数据的交互通过云化ETL横向平滑扩展,纵向通过消息接口实现在线数据支撑。

共享层:通过服务总线北向提供丰富的服务能力和组件能力,提供外部应用使用,并屏蔽底层异构数据源,使外部应用按需取数,实现应用与数据解耦,支撑应用百花齐放。

应用层:实现应用的统一管理;

目前,系统存在的不足包括以下方面:(1)大数据接入大量数据源,业务部门亟待数据开发(2)上层应用程序调度管理无序,系统资源使用不充分,传统开发模式响应慢,不能满足敏捷开发需求;(3)对于应用开发部署支撑能力弱,无法及时支撑开发需求;(4)应用开发过程管控能力不足,无法实现对应用开发全流程、全生命周期的有效管控。

因此,大数据平台应建立起能力开放体系,将系统处理能力进行标准化封装,按需进行开放,实现统一调度、开发管理、数据管理、多租户下的资源管控,满足各业务部门数据使用的需求,并在经验成熟的情况下逐渐开放给外部众多的开发合作伙伴使用。

三、 大数据平台PaaS能力开放需求分析

根据某省通信运营商的生产、管理、维护职能的不同特点和技术要求,大数据开放平台的主要建设需求分为以下三类:1、数据开放:Hadoop中HDFS文件目录的读、写权限控制;2、资源开放:Hadoop中计算资源(CPU、内存),存储资源(HDFS存储空间);3、能力开放:开发能力,统一开发IDE,提供MR批量数据处理、数据挖掘、数据报表的开发能力。统一运行,提供统一开发结果的编译运行引擎,实现开发结果在基础软件上的运行。提供OpenAPI字典,SDK包。

管控能力,数据和资源的管控,基于基础软件提供的数据、资源隔离能力,PaaS平台通过多租户的方式进行封装,实现不同租户数据和资源的隔离。应用开发的管控,提供基于元数据的开发、调度、数据标准、数据安全、数据隐私、数据质量、元数据、运维监控的统一管控,实现可管控的开放。

通过构建能力开放的大数据开发环境,能够实现对整个平台的多应用开发厂家的情况下开发过程的管控,有效提升数据质量。

四、大数据平台PaaS能力开放建设方案

4.1系统建设目标

综合系统现有问题和需求分析,提出了目前大数据平台的建设目标:

(1)能力开放。进一步开放企业数据中心各层次能力,以提供:数据层面的支撑、工具层面的支撑、服务层面的支撑、系统资源的支撑。

(2)开发管控。提升数据治理的能力,帮助应用开发规范和流程的落地。统一数据治理,实现对应用开发全流程、全生命周期的有效管控。建立数据产品目录,以实现对数据资产的有效管理。建立基于元数据驱动的统一开发和统一运维机制。规避资源分配浪费,降低平台运维成本,打破流程管理瓶颈、解决应用厂商开发差异,提升平台支撑效率。进一步提升开放的能力,促进应用开发效率的提高,落实百花齐放的应用开发模式。规范流程、制定准入规范,推动能力开放中心能力应用。扩展能力开放中心组件能力,提升使用效率。

(3)三个基础构建:①搭建PaaS平台基础框架,实现基础资源的集中管控,低成本运维,资源可以租户式弹性割离;②基于元数据的数据资产管理,实现可流动数据资产管理;③元数据驱动的统一开发和执行。

4.2 PaaS平台总体架构及功能设计

大数据开放平台主要实现数据、资源、能力的开放。其中数据和资源的开放依赖于软件基础设施提供的功能,PaaS平台封装软件基础设施的功能实现开放。

某省大数据平台构建的PaaS通过提供:统一开发、统一运行、统一调度、统一管控功能,实现开发和管控能力开放,数据和资源通过统一管控中的多租户管理由PaaS封装软件基础设施功能后开放。

系统提供以下功能:

(1)统一开发:提供基于元数据统一开发环境、开发过程管理,实现数据批处理开发、数据挖掘、数据报表的开发。

(2)统一运行:是指统一开发结果的运行,提供统一开发生成元数据的编译执行引擎,对大数据平台的数据分析、数据处理等不同的开发能力提供相应的引擎,满足开发结果的运行。主要包括批处理引擎、数据挖掘引擎、报表引擎。

(3)统一调度:PaaS平台提供调度策略的配置,支持以周期性自动调度和手工调度;对外提供标准接口服务,支持对接外部脚本或程序标注化接口调度和优先级控制。

(4)统一管控:提供数据标准、数据权限、数据隐私、数据生命周期、数据质量、元数据的管理,通过多租户管理实现软件基础设施数据、资源、能力开放,运维监控实现PaaS平台的监控与运维。实现平台多租户的资源隔离,针对每个租户开放的资源可以有自己的CPU,内存,存储配额。租户可以申请配额,租户任务运行过程中使用自己的配额,相互之间的性能不影响。

(5)多租户开放:PaaS平台通过多租户封装数据、资源和工具的能力,PaaS平台对于存储在Hadoop上的数据都可以通过多租户方式开放。云化ETL(BDI)、数据挖掘(Smartminer)、数据报表等可作为工具能力开放,为不同租户使用。实现Hadoop多租户的资源隔离,针对每个租户开放的资源可以有自己的CPU,内存,存储配额。租户可以申请配额,租户任务运行过程中使用自己的配额,相互之间的性能不影响。

(6)流程管控:大数据开放平台主要支撑调度监控者、任务开发者和资源分配者三类人员的使用,分别参与PaaS管控平台的资源分配和审核流程、开发流程、日常运行维护和任务管理流程中。① 任务开发者:利用PaaS管控平台开发环境进行任务脚本或过程开发,并交由统一调度进行任务执行;同时任务开发者还进行调度任务开发。应用开发、任务开发的人我们统称为任务开发者。② 调度监控者:利用PaaS管控平台的统一调度监控功能,进行任务调度的日常运维,包括监控、启停等工作,比如:任务调度执行、监控;数据质量监控、元数据管理监控等。③ 资源分配者:利用PaaS管控平台的资源管理能力,进行资源的分配、审核等。

(7)数据共享平台:PaaS架构的数据共享平台提供标准API封装,提供给外部系统进行数据查询和调用,实现大数据系统对外数据服务标准化,同时保障数据安全性并降低外部系统数据存储压力。

4.3未来演进思路

引入PaaS架构后的大数据开放平台,未来也可以同步接入云资源池管理,演进为实现云化管理,实现应用的虚拟化部署,支持弹性伸缩,所有部件具备自动配置能力,能够静默安装和配置;系统的安装、升级、配置均通过IT PaaS进行。能在保证数据安全、流程管理规范的前提下,有效地提升应用开发部署的速度。

五、结束语

从长远角度看,通信运营商的IT支撑系统在向着集中化的大方向发展。大数据平台未来将成为企业各类网络、业务核心数据的处理中心。实现IT系统的能力开放,将各应用系统独立、封闭的“烟囱”式开发、交付,转变为运行在PaaS平台的统一服务交付和应用系统交付模式,已经成为面向融合建设的IT支撑系统的关键。在具备能力开放环境的IT系统中,既可以提高相关业务系统的生产效率,也保证了各类数据的信息安全,对于加快发展企业创新模式和思路有着重要意义。

参 考 文 献

[1] 丁岩. 基于云计算的数据挖掘平台架构及其关键技术研究[J]. 中兴通讯技术,2013,2(1):53-60

[2] 胡尼亚. 面向移动互联网的业务能力开放技术标准综述[J]. 信息通信技术,2011,(4):23-31

[3] 董西成.hadoop技术内幕:深入解析YARN架构设计与实现原理[M].北京:机械工业出版社,2013

[4] 成静静.基于Hadoop的分布式云计算/云存储方案的研究与设计[J].数据通信,2012(05):14-18

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索