试论云计算环境下的大规模图数据处理技术
2017-12-26黄根华
黄根华
试论云计算环境下的大规模图数据处理技术
黄根华
广东省电信规划设计院有限公司,广东 广州 510630
互联网基础建设和普及的时代已经过去,云计算的产生使得一个平台多种应用成为可能。近年来,随着网络带宽等网络技术的发展,通过网络访问非本地计算服务的条件越来越成熟,对大规模数据的处理应用实践,更加促进了云计算技术往更加广阔的方向发展。研究的主要内容是云计算环境下的大规模图数据处理技术及其在实际应用的意义,旨在通过构建基于云计算虚拟机集群来解决图数据计算难题,提高大规模图数据处理效率,促进云计算技术的发展和推广。
云计算环境;处理技术;大规模图数据
图是互联网计算中最常用的数据结构之一,相对于常见的诸如线性表类的数据结构,图在语义和结构表达上更为复杂,表示能力更具有一般性,能够高度模拟不断演变的网络模型。随着互联网技术的发展,互联网业务日益丰富和多样,对计算能力提出了更高的要求。与此同时大规模图数据处理技术研究也发展到了一个更高的层次,基于云计算环境的图数据处理是一个重要的研究方向,如何对大规模的图数据进行高效处理,成为新的挑战[1]。
1 云计算概述
云计算是指以互联网核心技术为基础,以非常必要的实际应用平台为主要内容的一种应用程序。云计算具有通用性、虚拟化、经济性、可扩展性等优势。
云计算主要涉及三种技术。一是海量分布式存储技术。这种存储技术对应用中的重要数据以及信息具有强大的存储功能,可以有效提高云计算存储数据的质量和安全性。二是数据管理技术。对高速访问和读写的数据实现精准的比较、分析、存储管理,从而有效避免由于重要数据丢失影响应用的正常运行。三是并行编程模式技术。对于云计算中的各种应用服务对象,进行科学合理的编程,按照合理的优先级进行同步或异步响应,提高计算资源的利用率。
2 云计算环境下大规模图数据处理技术
2.1 云计算环境下的图数据存储模型
在云计算的环境下,对于大规模图数据的存储,主要有超图和单图两种数据模型。二者的差异主要体现在存储的格式:一个是基于数据库格式;一个是文件系统格式[2]。云计算环境下的大规模图数据处理技术的存储应用,主要是借助这两种方式实现对重要数据或是信息的海量存储,并在存储的过程中实现对相关信息的安全维护。这两种存储方式都具有便捷、灵活的特点,可以较大程度地提高对数据信息的高效处理。
分布式文件和分布式数据库两种不同形式的存储方式,适用不同的应用场景,同一场景下运行将出现两种完全不同的应用结果。因此,在实际应用的过程中,为了尽可能地提高大规模图数据处理效率,需要我们结合其相关数据图形的特点,采取恰当的存储格式进行相应的处理。大量实践结果证明,一般情况下,分布式数据库主要是用来对各种数据模型的存储,分布式文件主要是对接表和临接矩阵来进行存储。
2.2 云计算环境下的分割图数据
在实际应用中,为了进一步提高对图数据的处理质量,需要对云计算环境下的图数据进行必要的分割处理。简单而言,需要进行以下步骤:首先,结合云计算集群中的大规模存储工作节点,对具有复杂逻辑结构的图进行分割处理;其次,对已经分割完的图进行连通性与均衡性比较,以保证被分割的图之间还可以实现相互之间联通。通过以上两个步骤反复执行,达到一定的均衡性指标之后,即可实现对大规模图数据的分割到合理的水平。图数据过大时,不同分割的子图之间的计算处理会出现时间差,出现“木桶理论”的时间瓶颈,降低图数据整理处理效率,影响到应用系统的正常运转。通过对这种分割之后的图数据处理,可以有效地避免大规模图数据计算的不同子图之间的时间差,从而提高图数据整体处理效率。
2.3 云计算环境下的图数据计算模型
云计算环境下的图数据计算模型有两种,分别是BSP模型和Map Reduce模型。其中BSP模型主要是保障云计算环境下的图数据之间通信,高效及时的通信机制可以避免计算机运行系统出现锁死。Map Reduce模型是多个Reduce、Map组成的共同体,以实现多个共同体可以并行的对数据信息的并行处理,确保云计算环境下的大规模图数据的处理效率。通常的处理流程如下:首先,通过Reduce对接受到的实际数据进行聚集处理,对分布式文件中的相关数据进行保存,得到输出的结果;其次,借助Map阶段,实现对数据的分析计算,并进行统一的资源分配。通过计算得到相对应的Key值,之后在使其与之相对应的数据信息在Reduce任务中进行映射[3]。
2.4 云计算环境下的图数据查询处理
在现阶段的云计算环境下,有两种模式可以支持大规模图数据驱动:一种是以图顶点驱动的主动遍历模式;另一种是与之相反的以消息驱动的被动式遍历模式。这两种模式仅仅是驱动对象不同,应用操作对象都是图顶点。因此,在查询处理图数据过程中,图顶点的维护有着至关重要的作用。对二者的优缺点进行比较,主动遍历模式的优点在于应用性强,可以支持所有的图应用场景,但明显的缺点是会出现较大程度的资源浪费;被动便利模式在不调动处理函数的情况下,可以有效地降低不必要节点,避免资源的浪费。
2.5 云计算环境下的图数据容错管理
在云计算环境下,大规模图数据持续时间长,由于云平台硬件性能普遍较低,单个节点出现故障的概率高,出错重新处理的代价非常大,因此容错机制必不可少。大规模图数据处理技术在云环境中的容错管理主要是通过对相应的冗余数据备份,或者是借助硬盘来进行读写,以实现对其数据的保护。其主要内容包括对冗余备份写入时机的把握,确定冗余备份的相关数据存放位置,以及冗余备份过程中相关出现故障的检测与恢复等。
3 云计算环境下的大规模图数据处理技术应用的现实意义
云计算环境下大规模图数据处理技术应用的现实意义。其一,强大的存储能力,可以实现对数据的统一集中管理,统一高效维护,大大提高了信息数据量较大图数据存储以及保护水;第二,算法的灵活性拓展了大规模图数据的实际应用领域,满足不同场景的计算需求;其三,大规模图数据处理技术将云计算技术的发展引入了一个新的方向,也促进互联网计算技术的进一步发展[4]。
4 总结
综上所述,云计算是一项将计算机技术与网络技术进行有效整合而成的新型信息产物,这一技术有着非常广阔的应用背景。云计算技术与大规模图数据处理技术两者在发展历程中相辅相成、相互促进。基于云计算环境的下大规模图数据处理技术的应用,将会带给我们更加丰富和完善的用户体验。
[1]李东升.云计算环境下的大规模图数据处理技术[J].信息与电脑:理论版,2015,34(8):1753-1767.
[2]王欣.云计算环境下的大规模图数据处理技术[J].决策与信息旬刊,2015,34(10):209.
[3]李渊.浅析云计算环境下的大规模图数据处理技术[J].中国高新技术企业,2014(6):53-54.
[4]于双红.云计算环境下大规模图数据处理技术的应用研究[J].信息与电脑:理论版,2016(1):6-7.
A Large-Scale Map Data Processing Technology in Cloud Computing Environment
Huang Genhua
Guangdong planning and Design Institute Co., Ltd., Guangdong Guangzhou 510630
The Internet infrastructure and the popularity of the era of the past, cloud computing makes a platform for a variety of applications possible.In recent years, with the rapid development of network technology such as network bandwidth, access condition and non local computing services through the network more mature, application of large-scale data processing, more to promote cloud computing the technology to broader direction. The main contents of this paper are large graph data processing technology in cloud computing environment and its significance in practical application, aims to build a cloud based virtual machine cluster to solve the graph data calculation problem, improve the large graph data processing efficiency, promote the development and promotion of cloud computing technology.
cloud computing; processing technology; large graph data
TN919.5
A
黄根华(1984—),男,工程师,毕业于中山大学,硕士,现就职于广东省电信规划设计院有限公司,长期从事网络咨询与规划工作,在云计算、业务网络等方面具有深厚的理论功底和丰富的项目经验。