分布式云存储系统的数据迁移优化策略浅析
2017-04-07吴文蔚
吴文蔚
(山西职业技术学院,山西 太原 030006)
2017-07-13
吴文蔚(1969- ),女,广东梅县人,讲师,研究方向:计算机应用。
1674- 4578(2017)05- 0074- 03
分布式云存储系统的数据迁移优化策略浅析
吴文蔚
(山西职业技术学院,山西 太原 030006)
为了进一步提高分布式云存储系统的数据服务性能,就分布式云存储系统下的数据迁移策略进行了深入研究和分析,并提出了粒子群算法与分布式内容分发机制相结合的优化策略,在动态负载均衡和降低迁移的时间成本方面具有一定的改善效果。
分布式云存储;数据迁移策略;数据迁移算法
分布式的云存储系统是对传统数据存储模式的一种全新变革,提供的是基于网络的高性能海量数据的存取管理服务。由于云存储架构下的海量存储空间是构建在物理位置各不相同的存储设备集群之上的,大规模数据的备份更新、存取分发等功能的实现都是极其复杂的。为了能够有效地提高云存储系统的资源利用率,和保障数据存储的服务质量,数据迁移技术的应用与完善是关键。
1 分布式云存储系统
云存储是从云计算概念当中延伸和发展出来的一种新的数据服务模式。采用云存储技术构建的数据存储系统是将分散在不同区域的软硬件资源构建为各自独立的子系统,并利用网络通信、设备集群、网格计算、数据迁移等核心技术进行整合与优化,在此基础上采用分布式文件管理系统实现逻辑层面上的资源统一分配、调用,最终为用户提供统一的服务接口实现云数据的存取服务。
与传统的数据存储系统相比较,分布式云存储系统具有以下优势:
1) 高效的数据处理能力:云存储系统集合了多个高性能的服务器集群,并使其协同工作,对于大规模的数据处理具有极强的运算能力;
2) 极强的数据容错能力:云存储系统对存储数据会生成多个数据副本,并分别存储在多个子系统当中。一旦某个子系统发生故障,都可以通过数据迁移进行恢复;
3) 良好的系统扩展能力:云存储系统的底层硬件架构提供有统一的硬件调用接口,并通过采用分布式文件管理系统来实现逻辑层面的数据统一管理,很好地屏蔽了底层硬件的物理差异,使得系统硬件性能扩展变得更加易于实现。
2 分布式云存储系统的数据迁移策略
分布式云存储系统中的数据迁移策略主要是为了解决三个方面的关键问题:一是对云存储系统中存储节点的负载均衡进行动态的调整,即将访问过于集中的节点上的数据向空闲的节点进行迁移,以均衡网络负载;二是对数据进行多地备份,并在某部分数据出现错误时能够进行及时修复;三是提高系统响应的及时性,通过将用户要访问的数据提前迁移至距离用户较近的节点,来提高用户的访问效率。
2.1 数据迁移策略的算法研究
在云存储系统中应用数据迁移策略,虽然可以有效地提高分布式数据存储管理的访问效率和数据存储的服务质量,但数据迁移本身所带来的数据同步问题,以及用户访问的难以预测性问题都严重影响了数据迁移策略的有效实施。因此如何提高数据迁移的效率,降低数据迁移的时间开销一直是数据迁移算法的重点研究内容。目前常见的数据迁移算法主要有:
◆热分区数据贪婪算法,其设计思路是:首先采用统计方法划分和记录下来当前系统中的访问热点区域;然后利用哈希算法对热点区域的关键值进行优先级排序,访问量越大的区域优先级别越高;再按由高到低的优先顺序对热点区域的数据进行迁移,并将数据优先向临近的空闲节点上迁移。在该算法当中重点解决的是节点上负载量动态均衡的问题,并通过优先级排序和临近节点迁移的方式来提高数据迁移效率,但却忽略数据迁移本身的时间开销。
◆数据复制迭代迁移算法,一种轻量级数据迁移算法。主要的运算思路是通过迭代器对数据节点进行遍历,将待迁移的数据与节点上已保存的数据进行比对,对与相同的数据块部分不做迁移处理,仅对更新或删减了的数据块部分进行刷新迁移操作。这样就可以有效减少迁移数据的体量,从而降低数据迁移的时间开销。但在该算法中如果涉及到的数据重复部分很少,算法的优势就很难体现出来,反而还会因为对数据节点的迭代运算增加数据迁移的时间开销。
对比以上两种算法的设计特点,本研究认为数据迁移的策略优化应着重解决两方面问题:一是如何实现数据节点之间的动态负载均衡,并有效提高数据信息在各个节点之间的共享性;二是如何减少数据迁移操作随着时间推移而不断增加的时间成本,有效提高系统对外的数据服务性能。
2.2 数据迁移的优化策略分析
在分布式云存储系统架构中,数据存储的逻辑空间主要包括命名空间与节点空间两部分。命名空间中建立有数据流表,用于记录文件所包含的数据块信息,以及存储的节点信息。数据存储在节点空间,通过命名空间对其进行检索、查询与管理。在此架构基础上,云存储系统对数据迁移策略的优化主要采用了内容分发与迁移相结合的解决方案。具体设计思路如下:
首先锁定要迁移数据的源节点与目的节点,并由源节点对数据副本进行混合式压缩,以减少数据传输的带宽占用;再将压缩后的数据块向目的节点迁移,每完成一次迁移,都会在命名空间的数据流表中动态生成一条记录信息。
由这些记录构成的迁移日志会通过命名空间向节点空间进行分发,接收到用户请求的服务器就可以通过查询日志向最近的数据节点请求数据信息。当某一节点上的负载量超出预定的阈值范围之后,命名空间可以动态调整数据迁移日志中的记录信息,将负载过重的节点信息进行删除,使得该节点暂时接收不到新的数据请求。
在间隔一段时间之后,节点再次进行迭代复制时,会再生成新的更新记录并写入到数据流表当中,以恢复其就近响应用户的数据服务功能。
在该方案中所采用的数据迁移核心算法——粒子群算法,是在迭代算法上的进一步优化算法。它将存储节点看做是单个粒子,每一个粒子都可以独立进行计算和更新。在每一次的迭代中被迁移的粒子,都要计算其迁移完成的速度,并得出相应的速度适应值;将新的速度值与前一次迁移所得到的值相比较,选择最优值更新到粒子;再结合其他粒子的最优值进行比较排序,得出全局范围内的最优排序。在执行数据迁移操作时,就按照优先级排序顺序完成数据迁移。该算法重点考虑了数据迁移本身所产生的时间开销问题,通过迁移速度的比对快速检索到适合进行迁移的节点,有效减少了数据遍历的次数,大大降低了数据迁移的时间成本。
3 结论
分布式云存储系统目前已经被非常广泛地应用到了各个领域,它既能够为企业级用户,也能够为个人用户提供海量的数据存储服务。这对云存储系统的数据服务性能提出了更高的要求,如何保障数据在网络存储中的及时响应性和高可靠性,有效的数据迁移策略是关键。针对这一问题,本文对分布式云存储系统下的数据迁移策略进行了深入的研究与探讨,在数据迁移的负载均衡与时间开销方面提出了优化解决方案,进一步提升了分布式云存储系统的数据服务性能。
[1] 武奇.云存储中数据的分发与迁移机制的研究.长春:长春工业大学,2016.
[2] 程秋晨.基于弹性负载的数据实时迁移方法的研究.济南:济南大学,2016.
AnalysisonDataMigrationOptimizationStrategyofDistributedCloudStorageSystem
Wu Wenwei
(ShanxiVocationalandTechnicalCollege,TaiyuanShanxi030006,China)
In order to further improve the data service performance of distributed cloud storage system, this paper makes a deep research and analysis on the data migration strategy under distributed cloud storage system, and puts forward a optimization strategy combining the particle swarm optimization with the distributed content distribution mechanism. In the respect of dynamic load balancing and time cost reducing of migration has a certain improvement effect.
distributed cloud storage; data migration strategy; data migration algorithm
TP333
A