APP下载

大数据背景下MapReduce并行计算模式研究进展

2018-02-25王嘉仪

电子技术与软件工程 2018年9期
关键词:并行计算研究进展大数据

王嘉仪

摘要 计算机技术的发展导致互联网中积聚了大量的信息,如何对这些大量数据进行搜集、筛选以及处理成为一个重要的课题。在此背景下,简单易用的MapReduce成为目前大数据处理最成功的主流并行计算模式。本文对大数据背景下MapReduce并行计算模式研究现状进行了分析,并且展望了该领域的发展态势。

【关键词】大数据 并行计算 研究进展

近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据己远远超出了传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为全世界的广泛关注的研究热点。

MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了Google的GFS和MapReduce的基本原理和主要设计思想:MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作;最后MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此大大简化了程序员进行并行化程序设计的负担。目前,MapReduce的简单易用性使其成为目前大数据处理最成功的主流并行计算模式。本文对近年来MapReduce并行计算模式性能优化研究进展做出简要介绍。

1 面向新型硬件的性能优化

MapReduce在最初推出时将更多的焦点放在了工作节点之间的高层次并行,而忽略了对于多核或者GPU等新型硬件的具有针对性的优化处理。为了克服MapReduce的缺陷,相关的人员不断进行研究创新,进而提出了Phoenix。至此之后,诸多的学者针对Phoenix进行了大量的研究,例如,Yoo、Romano和Kozyrakis以UltraSPARC处理器为基础针对MapReduce进行了性能改善,改善的方面包括算法、实现和OS接口等。Rafique等、Linderman等则分析了MapReduce在不对称的多核集群和异构多核集群方面面临的挑战,并且针对这些挑战提出了应对的办法。在此基础上,为了进一步改善计算能力,诸多学者对计算模式也进行了大量的研究,研究的方向主要包括改善迭代能力、提高调度效率、改善流水线处理以及增加索引等。

2 面向流处理的性能优化

大数据环境中,数据流的特点是数据所拥有的价值与其时效存在密切的联系,随着時间的延长,数据所具有的价值也会随之降低,这就意味着在改善数据流系统时需要将低延迟作为遵循的首要原则。传统的MapReduce数据流处理手段主要将没有任何边界的数据流分割成相对较小的而且具有明显边界的批处理集,然后采用批处理方式对数据进行挖掘研究。这种方式存在着一定的局限性,会产生很多不是十分重要的磁盘和网络I/O,这样就不能达到流式应用对于实时性的需求。

为了进一步改善流处理模式的性能,很多学者尝试将MapReduce模型和具有代表性的数据流系统进行融合,进而产生效率更高的处理框架。Kumar等以IBM的System数据流处理中间件为载体,对MapReduce模型进行了改善,进而研发了DEDUCE系统,该系统的优势在于可以在同一时间进行数据的批量和流处理。C-MR则将滑动窗口理念融合到MapReduce模型中,进而保证数据流能够在不间断的情况下持续进行,这种改善方法的缺陷在与这种方式仅仅适用于具有多核的单机系统。

3 面向图数据的性能优化

社交网络、Web链接关系图等都包含大量具有复杂关系的图数据,这些图数据规模很大,常常达到数十亿的顶点和上万亿的边数,传统的MapReduce计算模式处理这种具有复杂数据关系的图数据通常不能适应,需要采用专用图并行计算模型则将图计算所具有基础特点考虑在内,即该种处理模式的内部就已经具备了专门针对大图的处理机制。图数据处理主要解决大规模数据的分布式存储管理问题。由于图数据具有很强的数据关系,分布式环境中的图计算网络通信的成本很高,解决这一问题的方式是图划分,传统的图划分方式包括ParMetis等,近年来很多学者开始研究新的图划分方法,例如Trinity使用多层标签传递的划分方式,GPS和Mizan则使用动态划分方式。

4 结论

尽管MapReduce计算模型存在一些不足,但由于MapReduce己发展成为目前最主流的大数据处理并行计算模式、并得到广泛的使用,因此,目前研究者并不会抛弃MapReduce模型,而是试图不断改进和发展现有的平台,增加其对各种不同大数据处理问题的适用性,以便能解决现有版本在计算性能、计算模式、系统构架和处理能力上的诸多不足。

参考文献

[1]ONIZUKA M,KATO H,HIDAKA S,et al.Optimization for iterative queries onMap Reduce[C].Proceedings of the VLDBEndowment (VLDB 2014),2 014,7 (04).

[2]SHAO B,WANG H,LIY.Trinity:adistributed graph engine on amemory cloud [C]. Proceedings of theACMSIGMOD

Interna tional

Conferenceon Management of Data (SIGMOD 2013).New York: [s.n.],2 013:5 05-516.

[3]TIAN Y,BALMIN A,CORSTEN SA, et al.From" Think Like a Vertex" to" ThinkLike a Graph” [C].Proceedingsof the VLDB Endowment (VLDB2013),20t3,7 (03):193-204.

猜你喜欢

并行计算研究进展大数据
MiRNA-145在消化系统恶性肿瘤中的研究进展
离子束抛光研究进展
独脚金的研究进展
云计算中MapReduce分布式并行处理框架的研究与搭建
并行硬件简介
EGFR核转位与DNA损伤修复研究进展