APP下载

混合云环境下高校数据迁移调度算法研究

2016-05-21陈苗苗蔡吸礼

计算机时代 2016年5期
关键词:数据中心

陈苗苗+++蔡吸礼

摘 要: IT时代正在向DT时代的迁移,高校数据中心的数据随着业务边界的扩展而迅速膨胀。混合云模式的数据中心建设已逐渐成为高校未来数据中心发展的核心目标。根据数据生命周期理论,通过将数据中心的数据按安全等级、访问频率、数据量大小等因子进行分析并统一建模,建立科学的迁移调度算法来对数据实施动态调度,从而有效的提高数据的利用率,保证数据的高可用性。

关键词: 混合云; 迁移调度算法; 数据中心; 动态调度

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2016)05-41-04

Abstract: When the IT era is transferring to the DT era, with the expansion of business boundary, the data is rapidly expanding in data center of colleges. Construction of data center of hybrid cloud model has gradually become the core target of the future development of the data center in colleges. According to the theory of data lifecycle, the data in data center is analyzed and unified modeling in terms of the factors of the security level, access frequency and data size, a scientific migration scheduling algorithm is established to schedule the date dynamically, so as to effectively improve the data utilization rate, ensure the high availability of data.

Key words: hybrid cloud; migration scheduling algorithm; data center; dynamic scheduling

0 引言

伴随着云计算技术的出现和发展,高校的信息化、数字化也不断的向前发展。云计算应用模式作为一种按量付费的模式,不仅在硬件成本上对高校有着重要的意义,而且更能在硬件管理的成本上为高校减少不小的开支。

云计算作为大数据的支撑平台,在硬件的投入成本、学校的管理成本等方面有着不俗的表现[1]。大数据,指的是伴随互联网、社交网络、云计算等信息技术的迅猛发展,而产生的海量数字化以及非结构化或半结构化为特征的数据集[2]。大数据作为一项颠覆性的技术革命,不仅成为影响政治、经济、社会和文化的重要因素,更对教育改革与创新产生直接而深远的促进作用[3]。

1 云计算在高校数据中心面临的问题

云计算与高校数据中心的整合,已经从理论探讨层面,快速的步入到实用阶段。近两年来,随着云计算的迅速崛起,云服务的价格快速的降低,而安全性、功能性则日益提高。云计算从早期的实验室应用步入到大规模的商用阶段,类似于12306等大量的政企类项目逐渐地以云服务为支撑,云计算已经毫无争议的成为未来普惠经济的基石之一。

据统计,中国目前80%以上的云计算是独立于现有数据中心的,这种独立主要体现在管理方式上,公有云和现有数据中心的管理是两种完全独立形式[4]。这种现状对于中国的高校尤为明显。由于公有云与现有数据中心不具有互操作性,导致数据迁移环境复杂,对迁移标准化提出很高要求。标准化问题包括技术标准和服务标准,同时也涉及到云平台的规划设计、系统建设、服务及质量控制等。另外鉴于网络安全方面的考虑,涉及服务平台自身的安全、学校及师生的数据和应用安全、资源的滥用[5]。

有鉴于此,综合公有云和私有云各自优势的混合云,就能以最小代价、最低成本、最佳兼容的特点,成为高校数据中心未来升级改造的最优方案。但在对高校数据中心由私有云向混合云转变、公有云与现有数据中心数据互迁的改造中,如何平衡数据安全性和效率之间的关系,是高校混合云建设能否成功的关键所在。

云计算有两大问题:

其一是数据安全问题,因为云计算能力和数据都在云里,保证数据的安全就尤为重要,特别在高校中,学校的资产数据、师生的个人数据更为重要[6]。安全主要包括两个方面:一是保证数据不会被泄漏或者不被外部人员通过黑客等手段获取;二是数据不会丢失,这一般可以通过数据备份来解决。

其二是网络访问的延迟或中断问题,云计算一般都是远程通过网络访问的,虽然现在网速提高很快,但是和局域网相比,速度还是有所延迟的,而如果一旦网络中断,服务也就无法访问[7]。

2 数据的形式化定义

大数据和云计算的爆发对高校教育领域的发展起到了非常重要的支撑作用。在云计算的主要业务交付形式中,更适合高校的当属混合云模式,既可以保证学生隐私数据安全无误的存储和传输,也可以满足大数据分析、互联网,业务、移动应用等多种扩展性需求。但是前文中提到使用混合云面临最大的障碍是云存储安全性问题以及访问速度和延迟性问题。因此如何有效的保证数据的安全,提高访问速度将是本文需要解决的问题,而如何对数据集进行迁移调度,以及对数据集如何分层存储是提高混合云存储的关键。

混合云是私有云与公有云的组合,是组织提供和管理一些内部资源,以及其他组织提供外部资源的云计算环境,是一种保持平衡的方式,需要在保证本地敏感数据安全性前提下充分利用云环境的可扩展性和灵活性——对高校IT管理来说变得越来越重要[8]。分块管理计算和存储能力是混合云的优势,尽管互联网的连接速度越来越快,也不能与一个高校自建数据中心的访问速度相比,并且在高校数据中心保存高校自己产生的数据是非常重要的。因此,本文提出了混合云存储环境下针对高校大数据的迁移调度算法,在保证了敏感数据安全的同时,也最大地优化数据的访问速度,提高数据的利用效率。

关于数据集对象的模式定义,在高校中数据分析通常是实现教育决策的根本路径,而数据来源的可靠性是教育决策的根本,所以数据的意义与数据来源有很大关系。这里,我们针对高校大数据本文给出如下定义。

3 迁移调度算法

混合云的存储策略是建立在私有云和公有云服务之上,本文将会采用一种混合云存储策略决定数据存储到公有云还是学校内部的数据中心上,如图1所示。存储策略不仅仅包括数据的存储调度策略还包括数据的迁移调度策略,为了提升访问性能,数据的存储策略会采用两层模式,即在服务器硬盘中设定一定大小的缓存空间,用于存放数据集位置表以及对于需要经常访问的数据。数据的迁移调度策略将会结合数据的敏感度、存储时间、数据的访问频率、数据大小等因素综合考虑,最大程度地提高数据的访问速度[9]。由于缓存空间的容量有限,本算法仅对200MB以下的数据进行缓存。

访问数据时首先根据数据集的安全等级标准判断数据存储在私有云还是公有云,本文中将安全等级在0的数据集存放在私有云,对于其他安全等级的数据集则根据下文中提到的迁移指数,指定存储于缓存空间或者公有云上。并且,为了提升存储在公有云数据的访问速度,本文设计在服务器硬盘中设定一定大小的缓存空间,通过遍历缓存空间的数据集位置表,查找目标数据集,如果数据集在缓存空间则可以直接获取,否则读取数据集的位置,到相应的位置获取。缓存空间是为了使经常使用的数据可以直接获取,不需要从云服务器上获取,在一定程度上提高了数据获取时的性能。但是缓存空间的容量有限,本文设置存储容量为500GB,为了描述此存储迁移调度策略,需要首先描述定义存储迁移调度函数,本文定义的迁移调度函数综合考虑了数据访问的频率、数据的大小、数据的采集时间因素,最大程度地提高数据的访问速度。所以得到迁移调度函数为:

其中,T表示数据的时间长度,本文中用系统当前时间(t)减去上次的访问时间(tk)即为该数据集的某个时间长度记为Tk,整个数据集D的时间T为T==。就数据价值而言,根据数据的生命周期可知,数据的价值与数据的时间长度相关,数据时间长度越长,被访问的频率越低,所以数据的价值将相对越低[10-12]。F表示数据访问的频率,即在某个时间内被访问的次数,在一定时间,数据访问频率越大,则相应的数据价值也就越高,而同样,一段时间内,数据被访问后未使用的时间越长,在一定时间内的数据访问频率F会较小,数据重要性就越低,数据被再次访问的可能性也相应降低。V为数据集D的大小。

根据迁移调度函数计算数据集的迁移指数,指数越大则迁移到缓存空间的要求度越高。数据存储过程算法如下。

4 实验分析

混合云存储系统所在网络的传输性能及带宽对本文算法的性能会有较大影响,本文实验环境中内部网络的传输宽带为100Mbps,公有云的网关上行带宽为2Mbps,下行带宽为5Mbps。服务器以我校网络信息中心的服务器作为私有云存储平台共100TB,其中500GB为缓冲空间,阿里云服务提供商提供公有云。数据来源包括:通过学校内部业务系统采集的师生数据、其他院校公开的科研等数据,以及互联网上的相关数据。

如图2所示,传统存储方式对数据访问时,由于数据位于本地的服务器上,访问数据的速度较快且访问速度稳定;而本文的混合云存储模式是一种私有云和公有云结合的数据存储方式,由于某些数据需要从公有云调用数据,这必然会影响数据的访问速度,但是本文的迁移调度算法因为增加了缓冲空间,所以减少了数据从公有云上调用的概率,所以在一定程度上保证了数据的访问速度。

5 结束语

混合云存储架构将高校的数据中心与公有云存储整合在一起,弥补了公有云存储在数据安全性和访问性能上的不足。本文采用混合云的存储模式对数据进行管理,即将隐私数据存放于本地的数据中心,将另一部分非隐私的数据存放于公有云中,这样不仅可以减少购买硬件的成本,同时也节省了数据管理与维护的成本,并通过增加缓冲空间的概念在一定程度上保证了数据的访问速度。在存储空间无止境增加的情况下,本文提出的云存储方式并不会影响数据的访问效率。

未来的工作将对此问题进行更为深入的研究,并继续完善本文提出的迁移调度算法,提高缓冲空间在访问时的命中率,进而将其应用在实际的产品中。

参考文献(References):

[1] 陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009(5):1337-1348

[2] 韩晶.大数据服务与若干关键技术研究[D].北京邮电大学,2013:1-72

[3] 孟小峰,慈祥.大数据的管理:概念、技术与挑战[J].计算机研究与发展,2013(1):145-169

[4] 苏命峰.云计算环境下高校数据中心的虚拟化研究与实现[D].湖南大学.2015:1-48

[5] 朱承学,伍海波.云计算环境下高校教学资源建设与应用研究[J].中国教育信息化,2015.11:51-52

[6] 刘玮,王丽宏.云计算应用及其安全问题研究[J].计算机研究与发展,2012.S2:186-191

[7] 曹爽,顾柏园,王昭建.高校网络建设中的必然趋势:云计算技术的应用研究[J].教育,2015.16:223-223

[8] 田由辉.高校混合云存储的研究与实践[J].电脑知识与技术,2015.26:35-38

[9] 卢亮.混合云存储架构的研究与设计[D].北京邮电大学.2014:1-54

[10] Graduate School of Library and Information Science atUT-Austin:the Information Lifecycle. http://www.ischool.utexas.edu/~l38613dw/readings/infolife-cycle.html,2009.

[11] Humphrey,Charles.e-Science and the life cycle ofresearch. http://datalib.library.ualberta.ca/-humphrey/life-cycle-science060308.doc,2012.

[12] CEOS.Data lifecycle models and concepts. http://wgiss.ceos.org/dsig/whitepapers,2012.

猜你喜欢

数据中心
酒泉云计算大数据中心
数据中心ECC设计方案研究
关于建立“格萨尔文献数据中心”的初步构想
数据中心制冷节能技术及应用
民航绿色云数据中心PUE控制
大唐电信数据中心产品解决方案
基于VMware vSphere的高校数据中心建设
10kV油机在大型数据中心的并机控制与切换方案探讨
浅谈云计算数据中心在沪宁高速公路中的应用
基于云计算的交通运输数据中心实现与应用