APP下载

云计算环境下的大数据可靠存储关键技术概述

2014-12-16杨静

电脑知识与技术 2014年32期
关键词:云计算大数据

杨静

摘要:呈指数级增长的大数据需要被可靠存储,而云计算环境下的大规模分布式存储节点和数据,极大地提升了数据丢失或失效的几率,该文从云端数据中心拓扑结构的设计、数据容灾技术的相关策略及系统节能减耗等三个方面进行了系统的阐述,为大数据的可靠存储技术研究提供了一定的参考依据。

关键词:云计算;大数据;数据容灾

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7574-02

1 概述

当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。

2 云端数据中心拓扑结构

云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以 switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:

以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。

以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。

混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。

3 云端数据容灾技术

容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。

3.1 复制冗余策略

复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。

3.1.1副本数量设置

副本系数设置主要采取两种方式: ①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;

3.1.2数据放置方法

巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。

①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。

②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。

3.2纠删编码冗余策略

3.2.2 LDPC编码

LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。

3.2.3阵列编码

阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。

3.2.4 RS编码

RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。

4 云端系统节能减耗技术

数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。

当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。

参考文献:

[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.

[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.

[3] 郭仁东.网络数据容灾备份技术及其应用浅析[J].电脑知识与技术,2012(31).

[4] 王意洁,孙伟东,周松等.云计算环境下的分布式存储关键技术[J].软件学报,2012,23(4):962-986.

[5] 万武南.分布式安全存储系统纠删码技术的研究[D].北京:中国科学院研究生院,2006:97-105.

摘要:呈指数级增长的大数据需要被可靠存储,而云计算环境下的大规模分布式存储节点和数据,极大地提升了数据丢失或失效的几率,该文从云端数据中心拓扑结构的设计、数据容灾技术的相关策略及系统节能减耗等三个方面进行了系统的阐述,为大数据的可靠存储技术研究提供了一定的参考依据。

关键词:云计算;大数据;数据容灾

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7574-02

1 概述

当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。

2 云端数据中心拓扑结构

云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以 switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:

以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。

以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。

混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。

3 云端数据容灾技术

容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。

3.1 复制冗余策略

复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。

3.1.1副本数量设置

副本系数设置主要采取两种方式: ①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;

3.1.2数据放置方法

巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。

①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。

②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。

3.2纠删编码冗余策略

3.2.2 LDPC编码

LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。

3.2.3阵列编码

阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。

3.2.4 RS编码

RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。

4 云端系统节能减耗技术

数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。

当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。

参考文献:

[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.

[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.

[3] 郭仁东.网络数据容灾备份技术及其应用浅析[J].电脑知识与技术,2012(31).

[4] 王意洁,孙伟东,周松等.云计算环境下的分布式存储关键技术[J].软件学报,2012,23(4):962-986.

[5] 万武南.分布式安全存储系统纠删码技术的研究[D].北京:中国科学院研究生院,2006:97-105.

摘要:呈指数级增长的大数据需要被可靠存储,而云计算环境下的大规模分布式存储节点和数据,极大地提升了数据丢失或失效的几率,该文从云端数据中心拓扑结构的设计、数据容灾技术的相关策略及系统节能减耗等三个方面进行了系统的阐述,为大数据的可靠存储技术研究提供了一定的参考依据。

关键词:云计算;大数据;数据容灾

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7574-02

1 概述

当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。

2 云端数据中心拓扑结构

云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以 switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:

以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。

以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。

混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。

3 云端数据容灾技术

容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。

3.1 复制冗余策略

复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。

3.1.1副本数量设置

副本系数设置主要采取两种方式: ①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;

3.1.2数据放置方法

巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。

①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。

②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。

3.2纠删编码冗余策略

3.2.2 LDPC编码

LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。

3.2.3阵列编码

阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。

3.2.4 RS编码

RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。

4 云端系统节能减耗技术

数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。

当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。

参考文献:

[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.

[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.

[3] 郭仁东.网络数据容灾备份技术及其应用浅析[J].电脑知识与技术,2012(31).

[4] 王意洁,孙伟东,周松等.云计算环境下的分布式存储关键技术[J].软件学报,2012,23(4):962-986.

[5] 万武南.分布式安全存储系统纠删码技术的研究[D].北京:中国科学院研究生院,2006:97-105.

猜你喜欢

云计算大数据
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
大数据环境下基于移动客户端的传统媒体转型思路
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索