APP下载

共享开放的运营商大数据平台架构研究

2014-05-18

信息通信技术 2014年6期
关键词:数据服务组件运营商

广东省电信规划设计院有限公司 广州 510630

引言

近几年来,大数据以排山倒海之势席卷全球,如何合理地将大数据转换为有价值信息成为未来企业的必备技能。作为拥有丰富大数据资源的电信运营商,大数据浪潮既提供了巨大的机遇,也带来了巨大的挑战。一方面互联网技术不断发展,移动互联网时代迅速到来,加剧了OTT业务对电信业务的挑战。电信运营商面临长期的量收剪刀差,收入增长乏力,急需开源(创新商业模式/新产品)、节流(提升精确管理水平/精准营销能力/运营效率),这些使得大数据的广泛应用有着迫切的内在需求驱动。另一方面,大数据的4V+1C特性,对运营商的IT系统技术架构和管理模式都提出了巨大的挑战[1-2]。移动互联网发展趋势、海量数据处理和分析需求、互联网化战略的推进,对运营商IT系统架构在敏捷性、开放性、可扩展性、低成本等方面提出了新的要求。同时,大数据应用的规模效应、技术复杂性和管控要求等也对大数据系统集约化建设和运营提出了要求。

当前,大数据技术日趋成熟并快速发展,大数据业务模式和应用场景日趋清晰。运营商如何在新形势下,构建适应未来大数据战略推进的大数据平台,支撑对内对外的数据服务,成为迫切需要解决的问题。

1 国内运营商大数据平台现状与发展要求

1.1 运营商大数据平台现状概述

2011年大数据兴起以来,国内各运营商紧密跟进大数据技术发展,推出了各自的大数据发展战略,并积极试点和推广大数据应用。总体而言,当前,国内各运营商大数据建设与应用正处于从试点向大规模建设、推广过渡阶段。

运营商大数据具有广阔的应用前景。运营商具有用户的账户、业务使用和行为数据以及位置、网络体验等数据。通过对这些数据进行加工处理、分析挖掘,可实现对内提供面向企业内部的客户行为和消费特征的分析挖掘,实现精准分析、精确营销、精细服务等数据应用业务需求。对外通过与广告、实地销售、金融和咨询等多行业进行合作,可快速实现大数据资产的增值,提高企业经营效益和市场竞争能力。

从应用场景角度分析,当前国内各运营商大数据应用仍主要以内部应用为主。分布式联机日志采集/存储、分布式ETL、上网清单查询和历史数据查询等较简单的应用场景已较普遍和成熟[3-6];网络运营分析、流量经营分析和用户行为分析等分析型应用场景正处于试点推广阶段。

从建设模式角度分析,当前各运营商大数据类平台建设除少量系统采用集约化、平台化建设外(如联通总部流量查询平台、移动北方基地大数据平台等),多为分散建设、单应用集群模式(为单个应用部署一个大数据集群),专业区隔、数据分散(各集群存储单一数据源)。

从系统架构角度分析,运营商传统数据分析系统以SMP关系型数据库和一体机等MPP数据库为主,初期大数据技术引入主要用于解决传统数据仓库处理能力不足问题,整体系统架构采用混搭模式。Hadoop等新型大数据技术主要应用于简单场景和基础数据处理,复杂的数据分析仍主要基于传统的SMP架构和MPP架构。某省级运营商EDA总体架构如图1所示。

图1 运营商省级分公司EDA架构示意图

1.2 存在问题与发展要求

当前大数据系统建设模式与系统架构存在缺乏整体规划、技术体系杂乱、容易形成数据孤岛、整体运维困难和容易重复投资等缺点。

新形势下,随着大数据应用的推进,大数据平台需要面向企业内外部提供大数据服务,系统需要向共享的大数据中心和开放的大数据能力平台演进,如图2所示。

图2 大数据平台演进示意图

运营商共享化、开放式大数据平台必须具备如下特性。

1)集约化。数据集约,统一汇聚企业各专业数据;平台集约,由统一平台支撑大数据资产管理;应用集约,对内对外应用整体规划与集约管控。

2)开放架构体系。面向服务,对内、对外提供数据共享与数据服务开放能力。

3)提供多计算框架支持的PaaS(Platform as a Service)服务。支持离线批量处理、流式处理、在线处理和交互式探索等多种计算框架;提供多租户管理模式下的PaaS服务。

4)提供标准化、组件化的DaaS(Data as a Service)服务。基础数据处理和业务处理能力组件化,支持服务能力流程化、可视化配置与封装;面向应用,提供个性化推荐、实时位置营销等数据服务支撑。

5)平台统一管控。包括整体计算框架的管理,任务工作流的灵活管理和调度,平台基础资源管理(如网络、内存、CPU等),平台统一监控与告警方案,应用快速部署支撑等。

6)低成本、高并发、高性能和高可扩展性。

7)基础平台技术/产品选型具备良好的产业生态系统支持。

2 大数据技术新动态与选型分析

2.1 大数据技术趋势概述

大数据时代,数据的处理与应用方式均产生了巨大的变化。但从本质上看,大数据工程技术的变革仍主要体现在数据管理方面,数据分析模型和算法本身没有大的突破,主要是提升算法的执行效率及并行化。近年来,从计算存储角度,大数据的数据管理演进如图3所示,针对不同场景发展出不同的计算框架。如为解决传统数据仓库无法满足大体量下的交互性问题,引入MPP ShareNothing数据仓库,将数据与计算进行分布化;为满足高交互性、高时效性要求引入内存分析型数据库;面向结构复杂、计算复杂、计算/存储线性扩展需求,引入并行批量处理/NoSQL技术;面向原始数据体量巨大的实时响应要求提出流式处理技术等[7-9],如图3所示。

图3 数据管理(计算存储层)的演进示意图

学术界和业界不断研究推出新的和改进的计算模式和系统工具平台,目前主要有以下三方面的重要发展趋势和方向[7]。

1)主流的Hadoop平台改进后与其他计算模式和平台共存,继续作为近期大数据解决方案的主流。Hadoop2.0新版本“YARN”的出现,极大地提升了Hadoop生态系统的适用性。各商业MPP产品也纷纷加强与Hadoop的融合。预计今后相当长一段时间内,Hadoop平台将与各种新的计算模式和系统共存,并相互融合,形成新一代的大数据处理系统和平台。

2)混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。当前混合计算模式之集大成者Spark系统涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算、数据查询分析计算以及图计算。随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。

3)内存计算将成为高实时性大数据处理的重要技术手段和发展方向。随着内存成本的不断降低,内存计算将成为最终跨越大数据计算性能障碍、实现高实时高响应计算的一个最有效技术手段。内存计算是一种在体系结构层面上的解决方法,因此,它可以与各种不同的计算模式相结合。

2.2 改进的Hadoop生态系统与Spark

Hadoop2.0及以上版本的发布与更新,使Hadoop在业务场景适应性上有了质的飞跃[8]。Hadoop2.0核心由HDFS、MapReduce和YARN三个分支构成,其核心提升点包括以下三部分。

1)HDFS v2。支持NameNode HA,支持NameNode Federation,解决单点故障问题,提升了集群扩展能力。

2)MapReduce v2。MRv2变成运行于通用资源管理框架YARN之上的计算框架MapReduce。YARN负责资源管理和调度,而MRv2仅负责作业的管理,作业与资源耦合度更低。

3)YARN。通用资源管理模块,可为各类应用程序提供资源管理和调度功能。YARN通过Container实现资源动态管理和分配,而Hadoop1.0资源按Slot分配,只能实现资源的静态管理和分配。YARN支持一个集群部署多个版本,计算资源按需伸缩,不同负载应用混搭,共享底层存储,避免数据跨集群迁移。

Hadoop2.X的新特性,以及学术界、业界和Hadoop社区对基于Hadoop生态系统计算模式框架和平台的扩展,使Hadoop2.X技术架构支持多种成熟的计算模式,如适合交互式查询和分析的Tez、Impala,流式计算Storm、S4、内存计算Spark等,如图4所示。

Spark当前已发展出较成熟的完整生态系统。比较Hadoop框架,Spark框架具有如下特点。1)Spark的中间数据放到内存中,对于迭代运算效率更高;2)Spark的弹性分布数据集(RDD),使其更适合于迭代运算比较多的ML和DM运算;3)Spark提供的数据集Transformations和actions操作类型更多,上层应用开发更方便;4)各个处理节点之间的通信模型更多样化,编程模型更灵活。

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。让Spark运行于YARN上与Hadoop共用集群资源可以提高资源利用率,如图5所示。

图5 Spark on Yarn示意图

综上所述,改进的Hadoop生态系统与Spark的兴起,使电信运营商以开源生态系统为基石,建立统一融合的大数据平台成为可能。

2.3 大数据平台技术选型分析

如前所述,随着运营商集约化、互联网化等策略的推进,大数据平台面临的数据处理体量急剧增长。以某运营商为例,其集约大数据平台2015年面临的数据处理需求单移动DPI数据增量就达到100T/天;同时为满足对内对外经营需求,平台需要支撑批量和实时处理等多种计算场景需求。面对如此庞大的数据规模和支撑需求,典型解决方案对比如表1所示。

表1 典型解决方案对比分析

综上所述,未来运营商大数据平台建议采用以Hadoop为核心的融合化技术方案。现有传统数据仓库、MPP数据仓库可作为大数据平台的数据服务对象,主要专注企业经营分析或专业数据集市应用。

3 共享开放的大数据平台架构设计

3.1 大数据平台总体架构

综合前文业务支撑新要求与技术发展趋势、技术选型分析,设计运营商大数据平台总体架构如图6所示[9-10]。

图6 总体架构示意图

系统由下到上依次为数据采集层、基础平台层和数据平台与服务层;其中基础平台层为PaaS层,包括基础设施域和基础平台管理域;数据平台与服务层为DaaS层,包括数据处理域、数据服务域与数据平台管理域。各域主要功能及特点如下。

1)数据采集层。实现数据接入、负载均衡、清洗过滤、内容脱敏和数据稽核等功能,实现海量原始数据安全高效地采集、传输。

2)基础设施域。基于X86和开源软件提供海量数据的存储和计算能力,支持批量计算、流式计算和内存计算等多种计算模式框架要求,提供PaaS基础能力。

3)基础平台管理域。提供PaaS服务能力,主要包括能力管理、资源管理、任务管理、数据管理、安全管理和系统管理等功能;实现基础平台和应用的隔离,无需访问基础平台即可实现应用的开发、测试、运行和维护。

4)数据平台与服务层。

a)数据处理域。对数据进行加工处理,生成应用所需要的结果数据;面向公共数据的处理和特定应用数据处理,提供数据服务基础能力组件库和数据处理、分析规则和模型库,提供DaaS基础能力。

b)数据服务域。提供DaaS服务能力,包括提供多种方式访问应用所需要的结果数据,基础数据处理能力的服务化封装与管理,数据服务能力开放管理等。

5)数据平台管理域。提供全流程、全生命周期的数据管理能力;支持大数据的经营管理。

3.2 技术架构

对应于系统功能架构,相应的技术架构如图7所示[11-12]。

图7 总体技术架构示意图

平台技术架构采用开放理念,以融合的支持多计算模式的Hadoop为基石,基于X86服务器,构建面向集约管理、数据共享与能力开放的低成本、高性能和高可扩展性大数据平台。各部分主要特性说明如下。

1)采集层。支持FTP/SOAP /MQ/JDBC/爬虫等多种数据采集方式;支持分布式数据采集、加载和转换。

2)数据计算/存储集群。提供数据存储与计算功能,整体以Hadoop为核心构建大数据基础设施,基于HDFS提供数据统一存储能力,支持SQL、M/R、Spark内存计算、实时流计算、数据挖掘等多种计算模式;基于YARN统一资源管理调度,具备多租户模式支撑数据应用能力;基础数据处理和业务处理能力组件化,支持服务能力流程化、可视化配置与封装;支持基于消息/事件驱动的进程调度。

3)数据共享与数据应用服务。通过统一的共享与服务框架对外服务,支持如Impala、Hbase和K-V数据库等集群,并提供通用API接口对外开放。

4)监控管理。对平台任务进行实时监控,记录各种日志信息,保证数据质量、数据安全,并实行统一调度管理。

基于面向服务技术、业务能力以能力封装形式由平台完成装载上线,并使用标准接口进行进程拼接,组装成完整业务流程。进程间使用内存数据进行交互,减少IO开销;平台提供统一的进程调度及日志服务管控。如图8所示。

图8 能力组件与业务流程关系示意图

平台按照多租户部署模式承载不同部门、不同合作伙伴的应用,并支撑通过统一的管理平台进行程序部署管理,包括资源分析、数据自动迁移和共享,任务统一定义和监控、调度,系统集中监控和运维。实现应用开发和平台管理隔离,应用开发团队通过基础平台管理系统提供的Web界面,完成开发、测试、运行和运维管理等所有工作,基础平台管理系统提供强制的安全、资源、数据、调度等控制策略,确保平台本身的安全、稳定运行,如图9所示。

图9 多租户应用部署管理示意图

3.3 服务能力与应用支撑框架

融合、共享与开放的大数据平台可灵活提供大数据服务能力,支撑对内对外数据应用集约化服务,其中对内应用主要面向精确营销、精准维系、网络优化与效益评价等业务需求,对外服务主要面向数据查询、数据咨询和数据解决方案等应用。

大数据服务能力可分为资源能力和数据能力两种形式,其中数据能力是大数据运营的关键。运营商大数据平台应构建和持续完善数据服务能力组件库与规则库,作为企业大数据运营的基础支撑工具。根据当前的大数据对内对外应用场景需求,基础数据能力组件主要可包括规则/行为分析类组件(如URL分析组件、通话交际圈分析组件)、标签类组件(如客户行为标签、兴趣标签)、客户识别类组件(如宽带LBS分析组件、AD-IP分析组件)、关键词分析组件、统计挖掘类组件等,如图10所示。数据服务能力组件域与服务开放域组成对内对外的DaaS服务框架并支撑上层SaaS应用。

图10 数据服务能力组件与规则库示意图

3.4 应用实践

某运营商正在采用上述思路构建集约、共享的大数据平台,以支撑对内对外大数据经营。平台完全采用以Hadoop为主的开源生态系统解决方案,系统设计日数据增量达到150TB以上,已承载多个深度大数据挖掘应用。下文以DMP(服务于实时竞价广告等业务的基础数据平台)业务为例,简介平台对应用的支撑方案与效果。

依托大数据平台的强大处理能力和丰富的数据资产,DMP应用实现方案如图11所示。DMP应用通过调用行为分析、标签能力类算法模型与产品组件,使用PaaS层提供的批量处理与实时分析能力,生成面向第三方的多维标签数据。平台以多租户模式满足各DSP合作伙伴特定算法模型部署需求。DMP通过整合、关联、匹配自有数据和第三方标签数据,形成多维标签体系服务能力,通过KV内存数据库向DSP提供群组特征的命中查询服务,从而满足RTB互联网广告业务对精准数据的实时需求。

图11 DMP支撑示意图

根据前期试点测试与业务上线情况,验证了该技术方案可行性,大数据基础平台满足PB级数据处理和多应用场景支撑要求。基于该架构的DMP应用满足对外“单服务器节点5万TPS、10ms以内响应时间”的实时信息查询服务要求。

4 结语

电信运营商的大数据平台建设与大数据应用方兴未艾,研究和探讨适合运营商的大数据平台架构具有重要的理论和实际意义。本文结合业界大数据动态与工程实践,研究并给出了一种集约、融合、开放的运营商大数据平台架构设计方案。由于各运营商当前IT系统架构的复杂性,以及大数据应用场景和技术的多样性,完成向本文技术架构演进仍需综合考虑实施复杂度、管理支持等诸多因素。后续将持续结合各运营商大数据工程建设和应用实践进行研究总结。

[1]刘智慧.张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):1-16

[2]陶雪娇,胡要峰,刘洋.大数据研究综述[J].系统仿真学报.2013(S1):142-146

[3]康尚钦,李军,叶何亮,等.基于分布式计算的电信联机采集系统设计[J].计算机与现代化,2013(01):91-94

[4]赵清,唐菁.电信业数据仓库体系结构及关键技术研究[J].信息通信技术,2013,7(6):15-19

[5]马又良.采用云计算技术构建大型数据仓库平台的探讨[J].邮电设计技术,2012(07):15-19

[6]成静静.基于Hadoop的分布式云计算/云存储方案的研究与设计[J].数据通信,2012(05):14-18

[7]中国计算机协会大数据委员会.中国大数据技术与产业发展白皮书(2013)[R]

[8]董西成.hadoop技术内幕:深入解析YARN架构设计与实现原理[M].北京:机械工业出版社,2013

[9]华为.大数据解决方案[R/OL].[2014-10-25].http://www.hwclouds.com/application/1356235944_16.html

[10]钱岭.电信运营商大数据平台和应用实践[C]//2014中国数据库技术大会,2014

[11]林仕鼎.大数据的系统架构支持[C]//第五届中国云计算大会,2013

[12]明风.基于Spark on Yarn的淘宝数据挖掘平台[R/OL].[2014-10-20].http://www.doc88.com/p-7804379529208.html

猜你喜欢

数据服务组件运营商
地理空间大数据服务自然资源调查监测的方向分析
无人机智能巡检在光伏电站组件诊断中的应用
基于数据中台的数据服务建设规范研究
新型碎边剪刀盘组件
U盾外壳组件注塑模具设计
数据服务依赖图模型及自动组合方法研究
如何运用税收大数据服务供给侧结构性改革
取消“漫游费”只能等运营商“良心发现”?
第一章 在腐败火上烤的三大运营商
三大运营商换帅不是一个简单的巧合