基于Spark的空间大数据实时查询分析关键技术
2018-02-28郑艳飞荆培强丁敏
郑艳飞 荆培强 丁敏
摘要
伴随着我国信息技术和地观测技术的快速发展,空间大数据的指数呈现出快速的增长,其地理位置信息服务业逐渐成为人们平时生活中的必须。空间数据管理是地理服务的核心所在,它的性能好坏是能够直接影响到地理信息的服务能力的。
【关键词】Spark 空间大数据 实时查询 框架特点
随着我国地理信息服务从专业化逐渐转向大众服务和云计算服务中,我国地理信息计算的实时性查询和分析的要求也逐渐提高。现目前,我国实时地理信息服务主要是存在两个方面的性能问题;第一是传统空间索引方法大多都是基于磁盘的相关特性来进行设计的,在进行空间大数据实时查询分析过程中需要通过多次的访问,在一定程度上是会造成实时效果不佳。第二是磁盘性能的问题,在某种程度上是会直接造成其无法高效率的存储持续增加的大量空间数据,很难去支持高并发用户的实时查询等。在内存计算技术当中能够为实时地理服务提供一种解决办法,那就是充分利用集群搞西宁花鞥的云计算特性以及相关内存计算的性能,在某种层面上是能够充分的让传统的地理信息服务技术得到相关的优化,让Spark的空间大数据实时查询分析能够有所改善。
1 Spark简述
Spark是专门为大规模的数据处理所涉及出的快速通用计算引擎。Sark是国外AMP实验室所開发出来的类似于HadoopMapReduce,通用并行的机构框架。当Spark出现时,其所具有Hadoop MapReduce的所有优点特质。但是Spark不同于HadoopMapReduce是一点就是在job中间所输出的相关结果是可以充分的保存在计算机内存当中的。
2 HDFS与MapReduce结构原理
在大数据当中,结构化数据是最为常见的一种,但是更多的则是大量的半结构化数据和非结构化数据。根据数据储存空间大的问题,在一般处理的思想之上首先想到的一般都是分布式储存。然而分布式储存系统,是将大数据分散在各个储存独立设备上。
3 Spark的相关特点
3.1 快速
在面向磁盘的MapReduce受限于磁盘读写性能以及网络性能的相关约束,在进行处理迭代计算,交互式数据查询以及实时计算等各方面都不算是高效的。但是这些却在数据挖掘,图计算等相关应用范围当中是较为常见的。我们针对上述不足问题,充分将大数据储存在内存当中并且给予内存在进行计算是有个有效解决这个问题的方法。Spark是面向内存的大数据处理计算引擎,在一定程度上这也会让Spark能够为多个不同数据提供实时查询分析的功能,其适用的范围是需要进行多次操作并且要根据实际的特定数据集的应用场景来进行确定的。
3.2 简洁容易使用
在使用MapReduce开发应用程序期间,用户通常所关注的重点和难点都是将一个需求的作业分拆成为map和Reduce这两部分。因为MapReduce当中仅是为大数据处理提供了相应的两个操作,第一是Map,第二是Reduce.所以在系统开发工作人员中其需要解决的难题就是怎样去将数据处理的业务逻辑进行科学合理的封装在这两个类型当中。
3.3 通用
当前Spark相对于最初的大数据生态系统MapReduce与Hadoop,在Spark中其不论是在性能还是在策划方案的统一上,都是有着巨大的优势。Spark的框架包括了很多个紧密集成的相关组件。如图三所示。在位于底层的是Apache core,在某种程度上其能够去实现Spark的作业调度,容错和内存管理以及交互等诸多功能,并且其能够针对弹性分布式数据提供较为丰富的操作。
3.4 多种的运行模式
Spark是能够支持多种运行模式的;其具有本地local运行模式和分布式运行模式。Spark的集群底层资源是可以充分的借助于外部的框架进行相关管理的。现目前在spark和yam提供相对稳定的支持方式。
4 Spark和MapReduce
Spark和MapReduce都是数据处理层的两大核心。下面我们通过对这两者进行容错,性能和应用场景上的具体分析。
容错分析:在执行过程中出现失败时,MapReduce是会从失败位置进行任务的继续执行,因为其是依赖在硬盘驱动器上的。反之,Spark若是在执行期间出现失败时,它就会从头开始执行,在一定程度上MapReduce是会比Spark在执行任务上节约了很多的时间。
性能分析:MapReduce是通过MAP和Reduce这两个过程来操作磁盘中数据的处理。而Spark是在内存中处理数据的。在这个层面中Spark是要优于MapReduce的。但是,每当数据量较为庞大时,很难去全部对数据进行读入内存时,那么MapReduce就会比Spark有优势。
应用场景分析:Spark是可以应用在很多的大数据实时查询和迭代分析场景的。而MapReduce一般都是要进行理县计算处理,计算有些已经存在的数据进行分析。
5 结语
随着现代化网络的快速发展,我们进入到了数据时代,对于大量的数据分析技术也是层出不穷。在基于计算引擎空间大数据实时查询分析中,通过将Spark充分的加入空间大数据实时查询中,来解决在大数据和高发用户背景下空间数据管理的相关问题。在一定程度上能够让实时查询系统在实际运用中能够更优化,从而增强数据的实时性,让其在大数据时代下能够发挥出自身的优越性。
参考文献
[1]龚灿,卢军.基于Spark的实时情境推荐系统关键技术研究[J].电子测试,2016(Z1):48-50.
[2]云惟英,苟宇,王京,等.基于SparkStreaming的实时流数据处理模型化研究与实现[J].测绘与空间地理信息,2017,40(z1).