APP下载

基于Hadoop的遥感影像节能存储策略

2016-07-10冶鑫晨于炯钱育蓉

电子技术与软件工程 2016年8期
关键词:分布式分组次数

冶鑫晨 于炯 钱育蓉

摘 要:随着相关技术的进步,在轨运行的遥感卫星的数量逐步增加,运行时间增长,卫星所携带设备的成像分辨率不断提高,随之而产生的遥感数据急剧增长,原有的单机运行的GIS(Geographical Information System,地理信息系统)已经无法满足需求。当前的研究显示分布式的存储方案已经成为未来海量遥感数据存储的必然选择,而面对随着数据量增加而不断扩展的分布式节点,分布式存储带来的能耗问题变得日益突出。

【关键词】Hadoop 遥感影像

1 引言

数据存储带来的能耗问题一直是各国的研究者关注的重点,目前针对云存储平台的节能研究也广泛存在,文献指出目前云平台的节能研究多从硬件节能和软件节能两个方面来实现的。硬件层次上主要通过DVFS等技术通过根据运行在芯片上的程序对计算能力需求,动态的对芯片的运行频率和电压进行调节来达到节能的目的。软件层次上的节能研究更加多层次,对于类似Hadoop这样的通用的分布式架构,通常使用数据放置策略和节点调度策略相配合来实现节能。目前较少有研究针对数据内在特性优化数据放置策略的研究,在遥感影像数据这样单一数据源产生的海量数据存储中,针对数据内在特性进行优化数据放置策略是解决云存储能耗问题的新思路和方法。

2 基于遥感影像特性的HDFS数据放置算法

本文的工作目标是在hadoop平台上对HDFS分布式文件系统的数据放置策略进行更改,根据卫星遥感影像数据特性优化存储策略,在系统负载较低时关闭部分节点达到节能的目的。

2.1 遥感影像数据的特性

遥感影像数据的读取和查询通常通过影像数据对应的地理位置进行,而单次查询的数据对应的地理空间范围上相近或者临近的。对大量遥感影像查询记录分析发现,对于感影像数据在对应地理空间上的访问存在高频度中心向周围递减的特性。

2.2 遥感影像存储建模

对同一波段的遥感影像数据进行空间建模,根据所在空间经纬度进行分割为m*n个分片,每个分片的影像数据对应HDFS中的一个数据块,标识每个数据块为dij,记录每个数据块的访问次数为aij,建立数据块访问次数矩阵Fm×n:

对各个数据块的访问次数进行排序,数据块访问次数排位为cij,建立数据块访问次数排序矩阵Dm×n:

根据数据块的访问频度对数据块进行分组,首先选取数据块访问次数最高的数据块作为分组E1中心数据块dsisj:

asisj=max aij

选定数据块dsisj记录在分组E1中,对数据块dsisj周围的数据块进行8向搜寻,当cij>β×m×n时将数据块dij记录在分组E1中,其中β为数据块分组边界因子(β<1),对记录在分组内的数据块继续做8向搜寻,直至没有新的数据块满足条件为止。在没有被选中的数据块中选取数据块访问次数最高的数据块作为分组E2中心数据块dsisj,重复上述过程,直至Ep+1的中心数据块dsisj的数据块访问次数csisj<α×m×n,其中α为分组抑制因子(α<β),创建数据块分布的数量为p。

2.3 副本放置策略

为了保证节能算法的效果,HDFS集群内需要拥有10个以上存储空间和计算性能相同的Datanode节点。遥感影像数据存入顺序为:

(1)分组E1中的数据块选择集群内剩余空间最大的节点存入,在剩余的节点中选取剩余空间最大的两个存入分组E1的副本,在节点存储中,数据块的的存放顺序按照分组数据块的排序来进行;

(2)分组Ep中的数据块在集群中选取存储空间剩余最小的节点来储存,同样在另外的节点上储存两个副本。接下来按照分组E2、Ep-1、E3、Ep-2……的顺序来存储数据块;

(3)当分组的数据块都已经存入集群后,将在分组时没有被选择的数据块按照节点剩余空间大小的比例随机存入节点当中。

3 实验与分析

节能效果实验使用云环境仿真平台CloudSim模拟一个拥有60个节点的集群,比较在模拟的24小时遥感影像数据查询的不同负载情况下,默认HDFS策略、动态数据放置策略、本文所使用策略节点开启情况对比,如图1所示。

通过对比可以发现本文所使用的策略相较HDFS默认策略节点开启率降低了53%,在中高访问频率时较动态数据放置策略优化效果明显,但是由于数据块分组细分不够,在低负载时此策略节点开启率过高需要后期优化。

4 总结与展望

本文对HDFS的数据放置策略根据遥感影像数据的特性进行优化,映射数据块对应影像的空间位置建模,用访问频率设置存储中心对数据进行聚类,在中等负载的实验环境中表现出比通用的节能算法更好的节能效果。下一步的工作在于优化策略在较低功耗时的节能表现。

作者简介

[1]钱育蓉,于炯,王卫源,孙华,廖彬,杨兴耀.云计算环境下软硬件节能和负载均衡策略[J].计算机应用,2013,33(12):3326-3330.

[2]廖彬,于炯,孙华,等.基于存储结构重配置的分布式存储系统节能算法[J]. 计算机研究与发展,2013,50(1):3-18.

[3]于炯,廖彬,张陶,等.云存储系统节能研究综述[J].计算机科学与探索,2014,8(9):1025-1040.

[4]康俊锋.云计算环境下高分辨率遥感影像存储与高效管理技术研究[D].浙江大学,2011.

作者单位

新疆大学软件学院 新疆维吾尔自治区乌鲁木齐市 830008

猜你喜欢

分布式分组次数
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
分组搭配
怎么分组
分组
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL