动态数据聚集算法的绿色云计算数据中心分析
2017-04-01倪斌
摘要:动态数据聚集计算方法主要包括节点聚集、数据聚集两个方面的内容,实现了绿色云计算数据中心系统的统筹管理,结合不同时段节点和数据的使用情况,将数据集聚起来,重新部署各数据节点,逐步实现了有序化聚集,保证了计算储存节点可持续正常运转。本文通过仿真实验,详细的分析了该算法的各项性能,总结与探讨了面向绿色云计算数据中心的动态数据聚集算法的重要意义。
关键词:绿色云计算 数据聚集 能耗 数据中心
中图分类号:TP393.02 文献标识码:A 文章编号:1007-9416(2016)10-0135-03
云计算(cloud computing)是一种借助网络平台集聚各类虚拟化计算资源,并通过数据中心供给多租客或单一用户性价比较高、动态、弹性规模扩展的信息存储、信息计算等服务方式[1]。云计算转变了传统信息架构,引进了全新的运作模式,逐渐成为国内外各领域、各行业争相关注的重要问题。据相关统计显示,云应用程序所部署服务器数量超出原有应用程序的4倍,在数据中心的运营成本中,能源消耗费用所占比重较大,约为43.35%。因此,云计算数据中心的节能降耗成为了重中之重,能耗管理应兼顾服务质量和“绿色”两项要求[2]。本文详细分析了云计算数据中心的相关工作,基于其运行模式,提出了面向绿色云计算数据中心的动态数据聚集算法。
1 动态数据聚集算法的相关概念界定
近年来,对云数据中心的研究已进入白热化阶段,目前已提出了三个阶段数据布局的策略,主要通过跨数据中心的数据传输、全局负载均衡及数据依赖关系三项指标,来优化、求解数据布局方案。与此同时,还总结了云计算数据中心所面临的资源管理问题,致力于网络宽带灵活性和吞吐量的有效提高。根据云计算数据中心的网络拓扑设计,以Fat-tree、BCube为主要结构,设计出了云计算方法,其具有直径小、连通性强的特征,逐步形成了一种可拓展性较强的拓扑网络结构。[2]
结合云计算数据中心的实际情况,发现该系统的主要能耗来源有以下几方面的内容:(1)电源供应、服务器、互联网等设备所带来的能源消耗。这一系列设备能耗约占总能耗的23%;(2)温控设备,包括水冷、风冷设备等所产生的能源损耗;(3)云计算数据中心照明设备带来的能源损耗,此设备能耗比例小。电源使用效率会对云计算数据其中心能源使用情况产生影响。电源使用率(PUE)指的是数据中心所消耗的总能源和IT负载消耗呈现的比值,电源使用率越接近1,云计算数据中心的绿色化程度越强。温度控制设备负荷由计算机主机、外部辅助设备等所产生发热量组成,存储设备、服务器设备与网络设产生的发热量所占比重较大。云计算数据中心具有一定的优势,其充分利用了虚拟化技术,减少了物理服务器,进而实现节能减排。通过上述内容可得知,在相同任务的执行过程中,如何既有效确保QoS,还能够将数据中心总体能耗有效降低则是“绿色云计算”实现极为关键的条件。[3]因此,需要采取相应措施对云计算中心数据进行改进,在最大限度降低能耗的同时,提高工作效率与服务质量,实现云计算数据中心的可持续发展。其中,动态数据计算法作为减少能耗的有效方法,对于云计算数据中心的绿色发展而言起到了至关重要的作用。
2 动态数据聚集算法
2.1 能耗分析
在云计算数据中心的节能减排工作中,通常存在以下几点问题:
2.1.1 数据部署和任务调度
云计算数据中心的任务调度忽视了能源消耗问题。以Hadoop开源云計算项目为例,该系统采用了多种调度方法,包括公平调度方法、先来服务算法、计算能力调度算法等,都忽略了系统能源损耗问题,太过侧重访问效率、存储空间、可靠机制等问题,忽视了数据访问规律。
2.1.2 温度控制
云计算数据中心缺乏有效的温度控制,无法根据运行设备的实际情况进行有效管理,造成各项资源的大量浪费。
2.1.3 认知问题
云计算数据中心所指定的节能措施仅针对设备本身的功能耗费,实际上设备功能消费与设备性能呈负相关,难以得到改进;同时,部分数据中心地处严寒地区,太过依赖于外界环境,为了引入室外空间,应尽量避免人工制冷。
2.2 云数据模型
从用户的视角来看,云计算系统可分为四种:
(1)当用户提出任务请求时,云计算服务器应主动提供相应程序、数据及信息等,与搜索引擎极为相似;
(2)若用户的任务请求中涉及相关程序,由用户主动提供,数据由云计算服务器提供。系统通过将用户所提供程序迁移到服务器客户端,在将客户端信息及数据进行利用与计算,在完成用户所请求任务后将结果发送至用户端;
(3)若用户的任务请求中涉及相关数据,由用户提供,相应程序可由云计算提供,系统通过将用户所提供数据迁移到服务器客户端,在将客户端信息及数据进行利用与计算,在完成用户所请求任务后将结果发送至用户端;
(4)若用户的任务请求中涉及相关数据及程序,均由用户提供,而存储、计算等设备由云计算系统提供,将程序、数据迁移后,完成指定任务,并反馈结果到客户端。
2.3 算法描述
系统的总功耗()主要由静态功耗(),动态功耗()、温控功耗()三个部分组成。虽然部分设备的具体功耗模型不同,但是大多能符合多项式分布:
静态功耗是指系统未执行任何任务时所消耗的能源;s是指任务执行点的工作速率,当系统的动态功耗发生变化时,s也会随之变化,可表示为(s)=>1。当工作中任务执行点负载加重时,其工作速率则会不断提高,任务执行点各部件温度随之显著升高。为了保证各部件温度处于安全范围以内,温控功耗无疑会大大增加。此外,温控功耗还会受到制冷能效比(eer)与空间因素(r)等影响。假设,t为现阶段环境温度,为安全温度上限,b为温控基本能耗。
则可得:
从上式可知,制冷能效比(eer)越高,(s)则越低;空间因素(r)越大,(s)则越高。设备的制造工艺决定着制冷能效比(eer)的高低,这一参数较为恒定。在制冷策略中,如果其环境温度控制具备较强的针对性与精确性,则可有效控制制冷能耗。[4]
由于降低功耗不等于降低总能耗,因此判断系统是否“绿色”不能仅依靠功耗这一个指标[5]。例如要减少系统能耗,可选择降低工作速率,但是相应会拖长事务处理时间,此时系统总能耗并没有发生较大改变。
因此,计算系统总能耗应当重视两个关键因素,即功耗与时间,计算式为:
为了使云数据中心能在服务高峰其稳定承受负载,保障系统稳定性,在对系统进行设计与构建时必须留有一定余量。但是在非高峰期,部分节点处于空转状态,仍旧浪费部分能源。在不同时间段,数据中心每个节点的负载情况有所不同,并不容易实现精确温控,致使有效制冷量低于50%。因而需进行热力学散热模型的构建,通过功耗分配策略及对集群功耗进行实时监控来实现对温控制冷环境的精准控制。
该算法是将数据与节点进行重新分布或有序聚集,进而实现云数据中计算存储节点的有效利用,同时还可使未得到利用的节点处于关机状态或休眠状态,温控设备则处于关闭状态或待机状态,从而最大限度的节省能源消耗,促进绿色节能目标的实现。这一算法具有明显的优势,1)数据和节点聚集之后,极易造成部分区域节点耗能与工作符合加大,另一部分区域可完全处于休眠状态,以避免整体能耗的降低;2)数据和节点聚集之后,节点在系统运行时达到高负载状态,从而实现资源利用率的有效提高,并且在相互备份的作用下,实现不间断访问数据,有效保障云计算数据中心的安全运行。除此之外,利用动态数据聚集算法,还可使各节点实现轮转运行,在极大程度上提高了意见设备的工作稳定性及其使用寿命。[6]
3 仿真实验分析
3.1 仿真实验
本文模拟构建的数据中心为廉价节点构成,其功耗实测情况及节点性能参数如表1所示。
所有节点功耗总和在待机状态下为84W;在正常关机状态下为2.5W;在节点开关技术的关机状态下为0W;在最大负荷工作状态下为138W;在负载50%以下为124W。
节点通常反复处于三种状态,即待机、工作、关机。其中,待机状态是指机器仅通过主板维持内存数据的保存和记录机器其他设备状态,此时CPU、硬盘等没有工作。然而,即使处于待机状态,节点功耗仍然较大。在传统技术中,仅从避免“由于数据无法访问,导致用户满意度下降”的角度对任务调度和数据部署的数据中心进行设计,而忽视节能问题,导致大量节点处于空耗的待机状态。在关机状态下,节点功耗非常低,空耗部件主要是电源线等,可忽略。
在数据中心的温控系统中,区域是温控系统覆盖的最小控制单位。1个区域由4个机架构成,1个机架上存放8个节点。每个区域的制冷量由温控系统设定,一般为8kW,其制冷能效比可达到“能源之星”标准,制冷功耗在2.5kW左右。[7]
本次实验将数据中心划分成4个Section,并将数据中心数据在聚集前后所产生的不同能耗进行对比,将24h作为1个实验周期。节点能耗和温控系统的能耗为数据中心4个Section的主要能耗组成部分,合计为773.72kW·h(如表2所示)。
每一个机架的节点能耗情况都有所不同,如表3所示Section 1中某一个机架的节点能耗情况。
当数据聚集并且运行一段时间以后,数据中心的能耗情况会产生较大變化(如表4所示),主要包含温控系统能耗与节点能耗,合计为476.44kW·h。
3.2 性能分析
上述实验结果表明,节点上所部署数据聚集前因部署不规范导致访问热点过于散乱,从而致使系统中大部分节点都没能得到有效利用。尤其是当许多节点长时间处于待机状态却不能关闭时,仍然占有较大功耗,不仅形成热负荷环境,温控系统还需对其进行持续降温,以避免更大能源浪费。若系统总能耗达到773.72kW·h,仅制冷能耗便远超300kW·h。
数据、节点聚集之后可以发现,部分节点工作负荷显著上升,而功耗也随之快速上升。部分时段即使未加制冷消耗,部分Section其节点总功耗依然与峰值极为接近。同时,部分Section一定程度上消除服务器的待机空转状态,仅剩电源线等设备或造成少量能源消耗,从而减少了较大热负荷,并且温控设备不用持续对Section实施降温,进行成功实现对大量能源的节约。经过对比我们可以发现,在数据和节点聚集之后,1周期内的系统总能耗仅达到聚集前的58.8%,节约大量能耗。[8]
3.3 资源利用率与服务质量
基于用户请求规模一致,数据中心在应用数据聚集算法前后总资源利用率差别不大。但以具体节点为基础,数据聚集后,开机运行时节点达到高负载状态,可得以充分利用;若波态运行达到低谷时段,则节点负载状态相应降为0。
若波态运行达到高峰时段,则节点负载明显上升,此时若运用传统的时间片轮转调度算法则会知识用户响应时间延长。若用户设置了节点访问量阈值β则影响较小,且此时系统不会由于部分节点产生变化而出现诸如数据无法访问等现象,上述现象主要是由于动态数据聚集算法对运行规律相反节点互补现象的充分利用得以实现的。[9]
3.4 硬件设备稳定性
“服务器必须具备2h*7d的不间断运行能力”,在传统数据中心的性能中,这一性能被反复强调,同时要求数据中心一直处于低温状态,这就对服务器各部件的制造技术有较高要求。但是现阶段,大量云计算数据中心以成本角度为基础,侧重廉价节点的应用。但廉价节点难以保持长时间的稳定运行,因而构建时需要通过系统云计算数据中心节点故障、节点损坏来将其设置为常态。动态数据聚集算法使数据中心节点可进行间歇性轮转运行,有助于设备使用寿命的有效延长、提高系统稳定性、保护用户长期的投资。[10]
4 结语
综上所述,云计算数据中心的节能降耗作为一项十分重要且复杂的工作,涉及到多个层面、多方面因素,需要相关部门和技术人员的积极配合和共同努力,从数据中心任务部署或调度入手,逐步实现数据中心各项数据或节点的集聚,统筹管理和规划,进而准确控制云计算数据中心的能源消耗,使云计算数据中心逐步走向绿色节能的道路。笔者希望,更多专业人士能够投入该课题的研究,文中不足之处,望指正。
参考文献
[1]FRIGIONI D,MARCHETTI-SPACCAMELA A, NANNI U. Semidynamic algorithms for maintaining single-source shortest path trees [J]. Algorithmica, 1998, 22:250-274.
[2]FRIGIONI D,MARCHETTI-SPACCAMELA A, NANNI U. Fully dynamic output bounded single source shortest path problem [C]//Proceeding of ACM-SIAM Symposium on Discrete Algorithms (SODA96). Atlanta, Georgia: ACM, 1996:212-221.
[3]Castelluccia C,Mykletun E,Tsudik G. Efficient aggregation of encrypted data in wireless sensor networks.In:Proc. of the 2nd Annual Intl Conf.on Mobile and Ubiquitous Systems.San Diego: IEEE Press,2005.109-117.
[4]徐小龍,杨庚,李玲娟 等.面向绿色云计算数据中心的动态数据聚集算法[J].系统工程与电子技术,2012,34(9) 1923-1929.
[5]郭建波.动态数据聚集算法探究--以绿色云计算数据中心为研究方向[J].中国信息化,2013,(4) 108-109.
[6]肖艳文,王金宝,李亚平等.云计算系统中能量有效的数据摆放算法和节点调度策略[J].计算机研究与发展,2013,50(z1) 342-351.
[7]肖艳文.云计算系统中能量有效的数据摆放算法和节点调度策略的研究[D].2013.24-30.
[8]RAMALINGAM G, REPS T. An incremental algorithm for a generalization of the shortest-path problem [J].J. Algorithms, 1996, 21:267-305.
[9]He W,Liu X,Nguyen H,Nahrstedt K,Abdelzaher T.PDA:Privacy-Preserving data aggregation in wireless sensor networks.In: Proc.of the 26th IEEE Intl Conf.on Computer Communications. Alaska:IEEE Press,2007.2045-2053.
[10]Yang Y, Wang X, Zhu S, Cao G. SDAP: A secure hop-by-hop data aggregation protocol for sensor networks. ACM Trans. on Information and System Security, 2008,11(4):18.
收稿日期:2016-09-08
课题来源:河南省科技厅2016年度河南省科技攻关计划(社会发展领域)立项项目“《大数据时代“智慧司法云”社区矫正综合管理平台设计与应用》”(课题编号162102310377);河南省教育厅2016年度高等学校重点科研项目计划“《“智慧社区”司法云平台网络空间建设》”(课题编号16B520013);河南司法警官职业学院2015年院级项目课题《大数据时代“智慧司法云”矫正帮扶平台建设与应用》(课题编号2015-YB-02)。
作者简介:倪斌(1983—),男,汉族,河南郑州人,硕士,一级警司,讲师,研究方向:网络安全、信息安全。