APP下载

运营商大数据平台选型探讨

2020-11-10宋晓波

无线互联科技 2020年15期
关键词:选型结构化数据处理

宋晓波

(华信咨询设计研究院有限公司,浙江 杭州 310000)

0 引言

随着运营商集约化、互联网化等策略的推进和5G时代的来临,运营商大数据平台面临数据处理体量急剧增长的挑战。如何在新形势下构建适应未来业务战略的大数据平台成为迫切需要解决的问题[1]。

大数据需要特殊的技术,以快速有效地处理海量数据满足应用需求,包括大规模并行处理(Massively Parallel Processing,MPP)数据库、大数据采集技术、分布式存储技术、分布式计算技术等。

1 运营商大数据面临问题

由于技术、数据系统限制等问题,运营商利用大数据主要遇到以下问题。

海量数据存储和处理压力;数据处理种类多,单一技术难以实现:传统数据平台无法支持非结构化、半结构化数据存储和处理,无法满足互联网类业务发展要求;实时应用需求难以满足;挖掘能力不足;数据不全,无法形成跨专业、跨域的数据关联,无法呈现端到端全局数据,价值不能深度被挖掘;应用支撑能力不足:数据共享与开放能力不足,不能有效支撑应用。

2 运营商大数据平台技术选型思路

运营商大数据平台经历了从早期的对称多处理器(Symmetric Multiprocessing,SMP)架构到MPP架构、Hadoop架构及Hadoop和MPP混搭架构[2]。

SMP架构即对称多处理器结构,难以支撑运营商海量数据存储和处理要求,平台扩展能力成了瓶颈,并且平台投资成本高,运维成本也相应剧增。

MPP架构具有高效的结构化数据处理能力和交互分析能力,SQL和报表工具兼容性好,开发和运维成本低等特点。但MPP数据库在非结构化数据处理和实时处理方面能力有限。

Hadoop架构具有分布式数据存储、分布式并行计算、支持横向扩展、支持X86集群架构等特点,适合运营商的非结构化数据采集存储、海量数据处理、实时处理等应用场景。

Hadoop和MPP混搭架构结合两者优势,既具有非结构化数据存储和海量数据处理能力,又具有高效的结构化数处理和分析能力及良好的第三方应用工具兼容性。当前该架构在运营商大数据平台中使用较多。

2.1 MPP选型

目前市场上的MPP数据库多种多样,例如有Teradata,Vertica,Greenplum,GBase等,建议结合运营商实际数据应用情况进行评测和选型,如表1所示。

表1 某运营商MPP数据库选型评测项目

2.2 Hadoop发行版选型

目前Hadoop发行版主要有CDH,HDP以及MapR,在组件和版本方面大致相同,但HDP完全开源、可视化工具强大;而CDH在I/O性能和MapReduce性能方面皆优于HDP和MapR。因此Hadoop发行版选型建议:

在计算性能和稳定性要求较高的场景,最佳Hadoop发行版选择CDH;

在需要大量二次开发的场景中,最佳Hadoop发行版选择HDP;

在可视化要求较高的场景,最佳Hadoop发行版可选择CDH或HDP。

2.3 数据采集组件选型

运营商大数据平台采集的数据包括BSS,OSS,MSS的结构化业务数据和用户上网、用户行为等半结构化及非结构化数据。如果属于高延迟的业务,可以采用批处理采集方式,实时分析则需要使用实时采集技术。

离线采集(批处理采集):对于运营商BSS,OSS,MSS的结构化业务数据,需定期按需接入数据源数据,经过校验、清洗、转换等步骤,对接入数据统一进行处理,加载到大数据平台。

实时采集:对于运营商信令日志、用户行为等实时性要高的业务数据,采用实时采集技术实时接入数据源数据。常用的数据采集组件特性如表2所示。

表2 常用的数据采集组件特性

2.4 数据存储组件选型

数据存储是大数据平台的核心,运营商大数据平台按数据分类,可分为结构化数据存储、非结构化数据存储和半结构化存储[3]。

结构化数据存储:通常使用MPP数据库存储运营商大数据平台采集和整合后的核心数据仓库数据和分析型数据。

非结构化数据存储:使用分布式文件系统进行非结构化数据存储,如运营商大数据平台采集的图片、文档、网络等非结构化数据,通常基于Hadoop HDFS进行存储。

半结构化数据存储:适合使用NoSQL数据库进行存储,具有非关系型、分布式、轻量级、支持水平扩展等特点,选型时需结合其特性和应用场景考虑。

2.5 数据计算组件选型

根据应用类型不同,大数据平台数据计算可分为实时、交互式、批处理/非交互式3类,常用的数据计算组件特性比较如表3所示。

表3 常用的数据计算组件特性比较

3 结语

本文针对运营商大数据问题,探讨如何进行运营商大数据平台选型,主要从平台架构选型和平台技术选型方面展开,并给出选型建议。在实际大数据平台选型时,应考虑运营商当前IT系统架构的复杂性和企业IT人员技术能力和运维能力,根据不同应用场景以及技术的多样性进行综合考虑,形成适合运营商本身的大数据平台方案。

猜你喜欢

选型结构化数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
不锈钢二十辊冷轧机组横切剪的选型计算
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
促进知识结构化的主题式复习初探
昆钢铁路内燃机车选型实践与探索
结构化面试方法在研究生复试中的应用
产品选型
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于图模型的通用半结构化数据检索
基于软信息的结构化转换