APP下载

面向大数据云存储系统的关键技术研究

2016-05-14刘若冰

现代电子技术 2016年6期
关键词:数据加密云存储关键技术

刘若冰

摘 要: 该文介绍面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析。为了保证数据安全,通过RAS加密算法对数据进行加密,利用公钥或密钥针对所需存储的数据进行加密,将另一个作为对应的解密密钥对数据进行解密。为了保证系统的可靠性和数据的访问效率,详细分析数据的检索技术。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的,对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。仿真实验结果表明,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

关键词: 大数据; 云存储; 关键技术; 数据加密

中图分类号: TN911?34; TP333 文献标识码: A 文章编号: 1004?373X(2016)06?0021?04

Research on key technologies for big data cloud storage system

LIU Ruobing

(College of Arts and Sciences Yunnan Normal University, Kunming 650222, China)

Abstract: Therefore, the key technologies of a big data cloud storage system are introduced, and the distributed cloud storage technology is analyzed according to the rules of the directional random walk. In order to guarantee the data security, the data is encrypted with the RAS encryption algorithm, the public key or secret key is used to encrypt the data which needs to be stored, and another corresponding decryption key is adopted to decrypt the data. In order to guarantee the reliability of the system and data access efficiency, data retrieval technology is analyzed in detail. The efficient integration and network storage resource management are reached by means of the combination of cloud storage technology, data encryption technology and data retrieval technology, which provides a friendly connection window for outward to make the release of the cloud computing network data quicker, and provide users with convenient storage service. The simulation experiment results show that the cloud storage system with the proposed key technology has shorter running time, lower overall energy consumption and higher availability.

Keywords: big data; cloud storage; key technology; data encryption

0 引 言

云存储是在云计算技术的基础上发展形成的,其将数据的存储及管理看作是核心任务,云存储能够在集群应用、网格技术及分布式文件系统的基础上,利用相关软件将网络中各种类型的存储设备结合在一起,为用户提供相关数据存储和业务访问功能[1?3]。随着科技的逐渐发展,数据量越来越大,研究面向大数据云存储系统具有重要意义,已经成为相关学者研究的重点课题[4?6]。

目前,关于云存储系统的研究主要有 Amazon EC2,Amazon EBS和Google File System(GFS)等。相关研究也取得了一定的成果,其中:文献[7]介绍了一种Virtual Block Store(VBS)云存储系统的关键技术,其不仅能够独立作为一个云存储系统进行使用,也能够为一些云计算系统(如 Openstack)提供云存储管理服务,但该系统很容易出现单点故障问题,影响了整个云存储系统的性能;文献[8]介绍了一种Orthrus云存储系统的关键技术,该系统采用了多服务器形式,依据变种遗传算法实现各服务器的负载均衡,但该系统因缺少变异过程,容易陷入局部最优,无法实现对系统负载的最优化分配;文献[9]介绍了一种P2P云存储系统的关键技术,将之前较为分散的互联网资源集合起来,为用户提供相应服务,但该系统往往会受到一些网络因素的限制,性能不高;文献[10]介绍了一种Kuhn云存储系统,对相关文件进行分块和建立元数据,将元数据保存在文件中,新的文件对象均存储于文件的目录结构之中,该云存储能够明显提高元数据的存储性能,然而其需要引入目录,约束了应用的发展及使用。本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析,通过RAS加密算法对数据进行加密,利用数据检索技术使云存储系统更加可靠,数据的访问效率更高。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的。经实验验证,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

1 面向大数据云存储系统的关键技术

云存储是依据云计算技术发展而来的,将大数据的存储及管理作为核心任务,为外界提供相关的数据存储和业务访问功能。云存储系统的基础是分布式云存储技术、数据加密技术及数据检索技术,上述关键技术的组合方式不但能达到高效整合、管理网络存储资源的目的,还能够对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。下面详细介绍面向大数据云存储系统的关键技术。

1.1 基于定向随机游走规则的分布式云存储技术

面向大数据云存储系统的分布式存储技术就是利用网络服务商提供的不同存储设备上的存储空间对数据进行传输存储,同时将上述分散的存储资源组成一个虚拟的存储设备。本文依据定向随机游走规则对分布式云存储技术进行分析。

依据定向随机游走规则,在云存储系统源数据包抵达所访问的网络节点[v]后,从[v]的所有邻居节中随机选择一个节点[u]继续进行访问。

假设[No]为云存储系统下一个节点[o]的邻居节点集合;[δo=No]为节点[o]的邻居节点个数;[co]为定向随机游走此刻已经访问节点[o]的总次数,则邻居节点[u]的选择过程如下:

(1) 从正在访问节点[v]的邻居节点集合[Nv]中随机选出2个节点,将其看作是备选节点,其构成的集合用[N′]表示;

(2) 依据给出的条件从2个备选节点中选择继续访问的节点。

本文面向大数据云存储系统分布式云存储技术的基本原理如下:

面向大数据进行云存储前:每个节点均存储有一个初始值为0的存储数据包[Yi],同时所有数据节点仅存在一个源数据包[Xj]。

开始进行云存储后:从任意数据节点开始一个步数为[cnlnn]的定向随机游走,对该数据节点的源数据包进行传递;源数据包抵达一个新的节点后,新节点将以概率[alnkk]接收源数据包,并且将得到的源数据包储存在自身的存储数据包中;新节点按照定向随机游走规则继续发送源数据包。源数据传递次数达到定向随机游走的给定步数[cnlnn]后,即[N>cnlnn],源数据包会被删除。所有[k]个源数据包均被删除后,即实现了大数据的云存储。详细实现过程如下:

输入:[k]个源数据包[Xv],[v=1,2,…,k]。

输出:[n]个存储数据包[Yu],[u=1,2,…,n]。

(1) 假设数据节点为[v],[v=1,2,…,k]。将信息[IDv]号与定向随机游走步数计数器[N=0]加入源数据包[Xv]中;

(2) 假设云存储系统节点为[u],[u=1,2,…,n]。对所有存储数据包的值及所有源数据包已访问节点的次数进行初始化处理;

(3) 以概率[alnkk]接收[Xv],并且完成对自身存储数据包的更新。

(4) 通过定向随机游走原则将源数据包[Xv]传输到其相邻节点中。

(5) 针对所有抵达节点[u]的源数据包[Xj],若[Xj]第一次访问节点[u],则节点[u]以概率[alnkk]接收[Xj],并利用步骤(2)对自身的存储数据包进行更新,源数据包[Xj]对头信息进行更新:[N=N+1]。若[N

1.2 数据加密技术

因为本文采用的是分布式云存储技术,数据存储在多个数据中心中,所以数据安全成为亟需解决的问题,本文通过RAS加密算法对数据进行加密。

RSA加密算法是一种典型的公钥密码算法,在RSA加密算法中,公钥与密钥均可用于数据的加密。而另一个可以作为对应的解密密钥。

RSA加密算法属于一种依据大整数分解的算法,其过程可描述成[n=p×q],对素数[p]与[q]的值进行计算,详细程序代码如下:

RSA加密算法对参数的选择有一定的要求,主要需遵守下述条件:

(1) 素数[p]与[q]需足够大,同时为强素数。RSA算法的安全性主要是依据[p]与[q]因子分解的,因此,需保证[p]和[q]是强素数。除此之外,为了保持因式分解的难度,加强RSA算法的安全性,[p]与[q]的取值需足够大。

(2) [p]与[q]的差不能太小,也不能太大。如果[p]与[q]的差过小,则可采用下述方法对[n]进行分解。若[p]与[q]的差过大,即可通过尝试法完成对[n]的分解。

(3) [d]不能够过小。解密密钥的值越小,RSA的机密效率越高,然而,若[d]过小,则可以较小的代价,利用己知明文求出密文。RSA算法中通常[d≥n14]。

(4) [e]不能够过小。[e]越小,RSA算法的效率越高,对密钥的管理容易,但[e]过小则能够利用加密算法[c≡memodn]对密文[c]进行破解。

为了保证形成的数的素性,需对素数进行检验,详细过程如下:

(1) 完成对[p-1]的分解;

(2) 完成对[F]的分解;

(3) [a=1];

(4) [a=a+1];

(5) 若存在等于1的情况,则继续进行下一步;反之,进行第七步,结束迭代;

(6) 若[p]为素数,进行下一步,结束迭代;反之,重新进行第四步;

(7) 结束迭代。

1.3 数据检索技术

数据检索技术是云存储系统的关键技术之一,检索性能的好坏不仅决定着系统的可靠性,还决定着数据的访问效率。

用户在对云存储数据进行检索时,通过访问[n]个云服务器中任意[k]个服务器实现对原始数据的还原。通过下式对用户检索所选[k]个云服务器上的全部编码向量与编码标记进行验证。

若某编码标记验证失败,则用户将向第三方服务器发送报告,同时对替代云存储服务器进行访问。若[k]个存储服务器编码标记均验证成果,则用户仅对编码向量进行置信传播解码算法,同时对有利于解码的编码向量ID进行统计。同时,数据用户从相应的存储服务器处检索对应的编码分组和检索标记,完成对编码分组完整性的验证。通过对编码分组进行和编码向量相同的计算过程,能够恢复文件[M]的全部原始分组。最终,对文件进行[M]解密操作,同时得到明文数据,以完成云存储系统的检索。

2 仿真实验结果分析

本文实验在真实的网络环境下进行,拓扑结构如图1所示。

图1中的拓扑结构由10个数据节点DataNode、1个中心路由节点Center和1个客户端节点Client构成。软件环境为Windows 7.0。实验将Hadoop系统作为对比进行分析。

2.1 运行时间分析

在数据量较小的情况下,随着存储数据的逐渐增加,将本文系统和Hadoop系统消耗的时间进行比较,这里消耗的时间主要包括读取时间、存储时间和写入时间。

分析图2、图3可以看出,当数据量较小时,本文系统和Hadoop系统所消耗的时间相差不大,而当数据量较大时,本文系统所消耗的时间明显低于Hadoop系统,这是因为本文系统专门面向大数据而设计,时间优势非常明显。

2.2 系统可用性分析

当数据节点数为100个时,对本文系统和Hadoop系统数据分布情况进行统计,得到的结果分别见图4、图5。

分析图4、图5可以看出,和Hadoop系统相比,本文系统的数据分布情况更加均匀说明本文系统具有很高的可用性。数据的分布情况对整个系统性能的影响很大,如果数据分布不均匀,会导致负载不均衡,使节点宕机,造成数据迁移,大大降低系统的可用性。

2.3 网络的整体能耗

对本文系统和Hadoop系统的网络整体能耗进行比较,得到的结果如图6所示。

分析图6可以看出,当存储数据数量不同时,两种系统的整体能耗变化不同。本文系统的总消耗明显低于Hadoop系统,这主要是因为Hadoop系统需要在整个云存储系统中来寻找存储点,大大增加了存储所需的时间,提高了网络的总体能耗。

3 结 语

本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析。为了保证数据安全,通过RAS加密算法对数据进行加密,利用公钥或密钥均对所需存储的数据进行加密,将另一个作为对应的解密密钥对数据进行解密。为了保证系统的可靠性和数据的访问效率,详细分析了数据的检索技术。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的,对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。仿真实验结果表明,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

参考文献

[1] 林丽,种大双.高校数据中心私有云存储系统研究[J].软件导刊·教育技术,2014(4):85?87.

[2] 杜芸芸.一种面向纠删码技术的云存储可靠性机制[J].计算机应用与软件,2014(2):312?316.

[3] 闫智,詹静.面向行为可信的大数据安全系统形式化描述[J].电信科学,2014,30(7):32?38.

[4] 孙燕飞.大数据场景下基于HDFS的云存储服务系统设计[J].数字技术与应用,2014(2):172.

[5] 毛文彬.面向大数据的分布式系统设计关键技术研究[J].无线互联科技,2014(11):150?151.

[6] 傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述[J].计算机研究与发展,2013,50(1):136?145.

[7] 孙勇,林菲,王宝军.面向云计算的键值型分布式存储系统研究[J].电子学报,2013,41(7):1406?1411.

[8] 赵铁柱,邓见光.面向大规模数据备份的云存储网关研究[J].计算机光盘软件与应用,2013(12):43?44.

[9] 费贤举,王树锋,王文.一种海量大数据云存储系统框架设计[J].常州工学院学报,2014(3):38?42.

[10] 马军,石辉,裴文斌,等.面向云存储的存储网关[J].计算机系统应用,2014,23(12):42?46.

猜你喜欢

数据加密云存储关键技术
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
大数据时代个人隐私的保护
AES和RSA混合加密技术在网络数据传输中的应用
云数据存储安全关键技术研究
基于云存储的气象数字化图像档案存储研究
云存储技术的起源与发展
基于云存储的数据库密文检索研究