APP下载

基于统计量的存储系统磁盘功耗建模方法研究

2016-08-01李战怀王惠峰赵晓南

计算机研究与发展 2016年7期
关键词:存储系统磁盘能耗

孙 鉴 李战怀 张 晓 王惠峰 赵晓南

(西北工业大学计算机学院 西安 710129)



基于统计量的存储系统磁盘功耗建模方法研究

孙鉴李战怀张晓王惠峰赵晓南

(西北工业大学计算机学院西安710129)

(qwert3277@163.com)

摘要大数据的迅猛发展导致数据中心的存储规模急剧扩张,由此引发的高能耗已经成为数据中心普遍面临的一个突出问题,磁盘类存储介质在数据中心耗能中所占的比例也在逐年增加,能耗建模在目前学者们的研究中越来越受到关注.精确的磁盘能耗模型不仅可以解决数据中心中的电力配套问题,而且为当前数据中心各种能耗管理技术体现更为精确的节能效果.提出了一种基于统计量的磁盘能耗预测模型,该模型弥补了传统细粒度模型产生的额外负载影响,同时获取了比传统粗粒度模型更佳的预测准确率.在实际应用中,该模型不需要分析记录复杂的磁盘内部活动细节,也不需要繁杂的参数采集,仅需要存储系统中宏观的统计量作为参数,且预测精度与细粒度模型近似.通过实验验证,该模型在能耗预测上的平均误差为3%,并且针对同步IO及异步IO都有较好的预测效果.此外,该模型还可以应用于各种在线系统的能耗预测.

关键词存储系统;能耗;建模;磁盘;电源管理

随着现阶段数据中心信息处理规模的不断扩大,大量数据密集型应用需要更可靠的在线数据资源访问.但大容量的存储空间带来了电力能源的高消耗,同时也间接地增加了二氧化碳的排放量,加剧了温室效应.IDC 2011年6月发布的数字研究报告显示:2011年全球数据总量已高达1.8 ZB,并且预计到2020年,全球所有IT部门所管理的数据将比现在多出50倍[1].目前,在一个标准的数据中心中,存储系统的能耗约占总能耗的37%,而数据中心的存储系统在3~5年内所消耗的电量费用将超过其硬件购置成本,并且存储能耗还以每年60%以上的速度递增[2-5].能耗成为存储系统运行的主要开支,近来大家开始将研究兴趣转向调度中的能耗管理.能耗感知调度是指将能耗作为调度评价指标之一[6],无论是在线的密集型数据访问还是离线的海量数据存储,都会导致数据中心的能耗需求逐年增加.针对能耗需求爆炸的挑战,很多学者致力于磁盘节能技术的开发及优化,例如以MAID[7]为代表的磁盘分组技术、以PDC[8]为代表的数据分布技术等.这些技术在特定负载场景下达到了较理想的节能效果.但对于能耗管理技术来说,准确的磁盘能耗预测模型可以更方便地设计IO调度节能算法以数据布局技术,使得节能效果更加显著,而不准确的能耗预测会导致数据中心配套电力设施的浪费或不足,因此,解决存储系统的能耗预估是大多数数据中心面临的一个巨大挑战,也是存储系统节能技术研究的一个重要方面.

目前现有磁盘能耗模型根据参数的采集方式及模型的构建思路的不同可划归为细粒度模型及粗粒度模型两大类,细粒度模型将设备划分为多个功能组件,依据磁盘内部的细节活动来预估磁盘能耗,精确的计算设备的功能部件在每次IO访问过程中所引发的耗能,细粒度提出时间较早,预测结果较为精确,但大多数磁盘模型所需的参数采集方式较为复杂,并且采集内容种类繁多,并不具有通用性.在目前数据中心高性能的需求下,这种细粒度模型的应用会对日常数据处理带来很大的采集开销.粗粒度模型以IO特征参数预估磁盘能耗,大多使用磁盘标量参数或使用数据传输率等IO特征参数,应用于节能技术中粗略的能耗估计,但这些粗粒度的模型专注于研究IO特征与能耗间的相关关系,并不关注磁盘的细节活动,因此在精确度上并不能令人满意.针对于上述情况,本文提出了一种基于统计量的磁盘能耗预测模型,该模型不需要分析记录复杂的磁盘内部活动细节,也不需要繁杂的参数采集,仅需要存储系统中宏观的统计量作为参数,且预测精度与细粒度模型近似.与传统的细粒度和粗粒度不同的是,本文主要关注如何利用磁盘的统计量来获得磁盘内部活动特征,再从内部细节活动去预估磁盘能耗.从实验验证结果来看,本模型在寻道能耗预测模型上的平均误差在3%,基本达到了细粒度模型的精确度.

1磁盘能耗模型的研究现状

在目前的磁盘存储系统能耗预测研究中,细粒度模型专注于获取磁盘的内部活动细节,而不过多地考虑设备的功率情况,例如在Zedlewski等人[9]使用早期的笔记本磁盘来进行能耗测量,将IO读写分为寻道能耗、传输能耗以及固定的电子部件能耗等,通过笔记本磁盘的寻址次数、传输数据块大小等作为模型参数,预估磁盘的IO访问能耗,其预估结果较为精确,是较为典型的细粒度模型,但其在论文中主要预估磁盘耗能,并没有过多地关注功率状态.Peek等人[10]精确地调查了在特定配置下的磁盘能耗特征,并且研究了LBN与寻道所用能耗的相关关系,但作者没有考虑到磁道与LBN并不是顺序对应的.

上述学者们所设计的细粒度磁盘模型在测量设备能耗时具有非常优秀的精确性,但在实际应用情况下受到很大的约束.首先由于磁盘本身的运动特性,磁盘在旋转延时期间所消耗的时间是不确定的,因此虽然细粒度模型对IO事件引发的能量消耗预估效果较好,但对于功率预测却效果不佳.而功率预测由于其具有一定的统计意义,恰恰是在目前大规模数据中心能耗预测中更为关注的部分[11-13].此外,目前数据中心的在线及离线处理的数据量巨大,全程监测磁盘内部工作的细节并不现实,这种模型所需的Trace分析文件至少跟当前的IO处于相同的数量级,这也是细粒度模型适应性不强的另一个原因.

粗粒度模型并不特别关心磁盘的细节活动特征,在粗粒度模型中很多学者试着使用一些磁盘标量或者特征量预估磁盘能耗而回避较为复杂的内部细节活动.专注于存储系统节能技术研究的学者,对节能效果的模拟建模都比较简单.例如Hybrid disks[14]使用非易失性存储器增强IO子系统的性能,从而降低能耗,文献[15]使用写重定向的方法降低磁盘能耗,但这2种技术均使用磁盘在每秒操作数(IOPS)状态下的大概功率来估计节能效果.多速磁盘[16]由于目前实测建模比较困难,学者在探讨其节能效果时使用的是模拟的标量.MAID技术[7]应用磁盘分组技术降低阵列能耗,但学者更关注于闲置能耗及待机能耗的节能效果,并不关注负载磁盘的能耗状态.文献[17]提出一种应用数据冗余降低磁盘能耗的方法,其使用磁盘负载状态的平均能耗来预估节能效果.上述的节能技术研究可以看出该方向的学者大多更关心节能算法及数据布局等内容,对能耗预测的定量分析不足,选取的特征参数大多无法体现能耗的细节变化.

同时,部分学者发现磁盘的功率状态与磁盘的活动特征有关,并且在通过活动特征预测磁盘能耗方面做了进一步的研究.Stoess等人[18]使用磁盘利用率来衡量磁盘的能耗,磁盘利用率是通过数据传输率和响应时间来定义的,该模型显示在闲置和活动状况不同的磁盘,根据其磁盘利用率能耗呈近线性趋势.但在文献[19]中,学者通过实验证实,在操作时间相同的磁盘活动,能耗结果可能不同.同时在文献[19]中作者通过将IO负载分解为磁盘活动细节,并且采用“耗能对应表”的方法来将磁盘活动特征与能耗对应起来,但在IO分解中没有考虑数据传输时间对12 V磁头寻道的影响,这可能也是大数据块随机访问误差较大的原因.Yan等人[20]给出了磁盘能耗与应用程序的关系模型.通过DEEP作为测量手段,建模给出磁盘与应用程序的能耗关系.文献[21]中使用限制当前设备的寻址、提速降速、待机等状态来测定设备的数据并用于其他的模拟器.粗粒度模型本身不关注细节内部活动细节,对磁盘的能耗预测精度无法达到细粒度模型的水平.无论是能耗优化,还是通过磁盘活动特征进行预测,都不能获得较为理想的预估结果.

本文在目前传统的细粒度模型及粗粒度模型研究的基础上,分析了两大类模型在现阶段高吞吐率需求的存储系统中存在的缺陷,结合IO访问特征相关参数的研究成果,通过不影响在线访问的统计量参数预测磁盘细节活动,然后根据细节活动对磁盘能耗进行建模.这种思路有效地避免了繁多的采集量对系统性能的影响.

2参数选择

在建立磁盘能耗模型的过程中,参数的选择对预测准确性影响很大,虽然对于单次IO来说,旋转延迟时间,下次IO到达时间等磁盘的活动特征是随机的,但对于一段时间内的IO访问,在统计上还是有其相应的特征,并且这些特征被学者们用来预测磁盘能耗,Allalouf等人[19]使用每秒钟的平均寻道数、每秒钟的数据传输量、磁盘队列深度等参数构建能耗表用于磁盘功率的预测.但我们在探索磁盘寻道功率模型时发现,文献[19]中的参数选取还有一定的片面性:从本节的构造负载验证实验来看,在读写数据块相同的条件下,寻址距离而不是寻址数量会引发相同的能耗.本文在选取参数方面与文献[19]相比主要有4点区别:1)我们使用轻量级采集工具而不是通过推测获取特征参数;2)我们将寻址距离而不是寻址次数作为12 V寻址功率模型的主要影响参数;3)我们考虑了磁盘活动利用率对功率预测的影响;4)通过实验验证了传输块大小对寻址功率的影响.下面通过实验来分析本文选取的选址跨度、磁盘活动利用率、数据传输块大小等参数对磁盘细节活动的影响.

2.1LBA与寻址跨度

逻辑块地址(logical block address, LBA)是描述存储设备上数据所在区域的通用机制.通常一个LBA为一个扇区大小.为了保证磁道上存储空间的利用率,磁盘上的磁道是以环带(zone)分组的形式进行分布的,简单来讲,多个磁道组成一个环带,仅在同一环带中磁道上的扇区数相同,这样既保证了存储空间的利用率又降低了磁头读写的复杂程度.目前关于磁盘特征抽取技术的研究已经较为成熟,这种映射关系可以通过询问或经验抽取的方法实现.SCSI接口提供了通过SENDRECEIVE DIAGNOSTIC的Translate选项实现逻辑地址物理地址互转换的询问方法[22],而文献[22-23]提供了多种经验抽取的磁盘特征提取方法,其中文献[23]的方法效率最佳,可以在75 min内获取250 GB SATA磁盘的内部特征.我们是在广泛应用的磁盘模拟器disksim工具中获得Seagate ST3146855SS磁盘逻辑地址与物理地址的映射关系,并且每次运行负载时都使用blktrace工具进行跟踪,以确保访问的LBA与真实的物理磁道相对应.这便保证了本节实验结果的可靠性.

为了验证IO访问时磁头位移对寻址能耗的影响,我们采用合成负载在SeaGate ST3146855SS服务器硬盘进行了相应的测试,本节所应用的合成负载是一种基于磁道顺序访问的负载,以每个磁道中某一扇区的LBN为寻址跨度,每个磁道访问块大小为4 KB,保证整个测试过程中磁头从第1个单盘片的物理0磁道依次移动至物理最高的磁道.对磁盘单盘片上每一条磁道依次进行读操作和写操作,并保证每次寻址后磁头都回到本次访问的起点,每次读写的数据量大小为4 KB.在图1中,横坐标为磁头的寻址位移,纵坐标为单次寻址的平均耗能.我们可以看到,在寻道距离为10 000个磁道跨度之前,每次寻址的平均耗能与磁盘寻址跨度呈近似的线性关系,这也与dempsey[9]中的实验结果相对应.在10 000个磁道跨度至最大寻道跨度之间存在箭头所示的5个阶梯状耗能曲线,这代表这块磁盘为保证IO访问的性能,采用延长磁头推动力持续时间的某些技术,在应对大跨度的寻址位移时,根据寻址位移的范围不同,在磁盘半径方向采用不同的最高速度进行寻址,例如本次实验中的SeaGate ST3146855SS磁盘就拥有5个不同的最高径向速度,这样虽然增加了耗能,但可以保证磁头的寻址时间不会过长.这一结果与传统的磁头运动模型部分相符,我们在第3节中我们采用等效动力模型对磁头活动功率建模时,针对这种情况对磁头运动模型进行了改进.

Fig. 1 Energy consumption of single seeking.图1 单次寻址耗能

本节也验证了磁头的位移而不是磁头的位置是寻址能耗的主要影响参数.主要验证方法是采用2种不同的合成负载,2种负载与单次寻址耗能实验中所用负载类似,均对磁盘单盘片上每一条磁道依次进行读操作和写操作,并保证每次访问后磁头都回到本次访问的起点,每次读写的数据量大小为4 KB.但差异之处在于,第1种合成负载从第1条磁道(磁道0)开始访问到最后一条磁道(最高磁道)结束,我们称之为顺序访问;第2种合成负载从最后一条磁道(最高磁道)开始到第1条磁道(0磁道)结束,我们称之为倒序访问.图2中显示为顺序访问和倒序访问的能耗,横轴坐标为寻址位移.从图2可以看到,顺序访问及倒序访问的能耗变化趋势几乎相同,在相同的寻址位移上的瞬时变化功率也非常相近.因此磁头寻址功率与当前磁头所在位置关系不大,而磁头位移是决定磁头寻址功率的重要参数之一.

Fig. 2 The power of sequence-reverse order seeking.图2 磁头顺序-倒序访问的变化功率

2.2磁盘活动利用率

磁盘活动利用率指的是在单位时间内磁盘读写操作占总运行时间的比率,这一参数反映了磁盘的繁忙程度.

我们在统计磁盘活动利用率时,使用IO操作的总时间占单位时间的比率来计算磁盘活动利用率.这一计算方法也从侧面反映了IO之间存在的达到时间占总运行时间的比例大小.如图3所示:

Fig. 3 Disk utilization affects the seeking power.图3 磁盘活动利用率对寻址功率的影响

在考虑该参数对功率影响时,我们测试了3次不同的合成负载对磁盘瞬时功率的影响,如图3所示,横坐标为当前IO访问的磁道,纵坐标为12 V电路在发生寻址操作时增加的功率.为保证负载访问模式的一致性,该3次合成负载的测试均保证磁头在单盘片上从0磁道到最大磁道的访问,每次IO为数据块大小相同的同步的读写请求,在读写请求结束后加入不同的休眠时间以获取不同的磁盘活动利用率.f1为没有休眠时间的合成负载,其活动利用率在95%~100%之间;合成负载f2休眠时间为4 ms,其活动利用率为80%~90%之间;合成负载f3休眠时间为6 ms,其活动利用率为70%~80%之间.在图3中,f(p)的数据是实测能耗数据,f(u)的数据为当前寻址距离下,根据所采集的利用率估算的能耗数据.可以看出f(u)与f(p)的数据在访问相同磁道时相对吻合,因此我们从实验结果中推断,对于12 V的寻址电路来说,磁盘活动利用率与寻址能耗成正比.

2.3数据传输率

数据传输率是指在单位时间内读写操作分别传输的数据块大小,在磁盘IO操作中影响数据传输时间.

我们使用不同的合成负载,在保证活动利用率不变、寻址跨度相同的前提下,分别测试每次传输块大小为4 KB,64 KB,256 KB时,3次合成负载的功率变化情况(对于SeaGate ST3146855SS磁盘而言,其内侧环带中的磁道中单磁道最少扇区数为800,单次读写400 KB大小通常会引发跨盘片的读写操作,因此测试采用的最大块数为256 KB).从图4我们可以看出,随着传输块大小的增加,寻址功率呈下降趋势,其主要原因在于数据块的增加引起了磁头读写操作时间的增加,对于磁头的寻址操作来说,在耗能不变的前提下延长了IO的访问时间.因此随着传输数据块的增加,其功率会逐渐降低.

Fig. 4 Block size affects the seeking power.图4 传输块大小对寻址能耗影响

本节主要讨论了IO访问发生时磁盘的活动特征,根据磁盘读写的基本原理及验证性的实验数据,分析磁盘特征参数与磁头寻址功率之间的相关关系,并得出4点结论:

1) 寻址耗能与寻址位移在一定范围内呈线性关系,一定范围内呈常数关系.磁头寻道的一般机械过程为:加速前进—匀速前进—减速前进—定位调整,并且经典运动模型给出的磁头寻址模型均把磁头的寻址运动等效为加速度相反的匀加速直线运动.因此,我们假设有一个径向的推动力及牵引力帮助磁头完成了磁头的寻址运动.从经典的磁头寻址模型可知,推动力及牵引力大小相同,方向相反.从而在磁头径向速度小于v0(见3.2节)时寻址耗能与寻址位移呈线性关系,在大于v0后呈常数关系.

2) 磁头寻址能耗与LBA及磁头所在位置无关,与磁头位移相关.由结论1的分析可知,目前磁盘器件的径向均加速均减速运动所消耗的电能与磁头当前位置(LBA)没有相关性,而与磁头的位移(牵引力制动力的作用距离)相关.

3) 磁头寻址能耗与磁盘活动利用率呈正比.磁盘活动利用率指的是在单位时间内磁盘读写操作占总运行时间的比率.这个比率越低则说明磁头在IO操作完成后间隔的空闲时间越长.也就是说磁头在空闲时间内并没有工作,所以磁头寻址能耗与磁盘活动利用率呈正比.

4) 块大小越大,磁头寻址功率越低.由于单次IO操作是由磁头寻址—定位—传输数据块这样的流程进行的.单次IO操作中数据块大小越大,所占总的传输时间比率越大,而对于磁头的寻址操作来说,相当于在耗能不变的前提下,延长了IO的访问时间,因此变相地降低了磁头的寻址功率.

本节对磁头寻址功率的相关特征参数做了相应的研究,提出了与寻址功率相关的4个结论,通过目前磁盘的工作原理分析以及实验验证相结合的方法,证实了这些结论的一般性.此外,在实验过程中采集的数据中可以看出,磁头的寻址操作对IO读写的平均访问时间影响最大,因此我们将IO读写的平均访问时间作为寻道预估模型的主要参数.而寻址位移、磁盘活动利用率、数据传输率等参数对磁盘的能耗影响较大,我们将其作为细节模型的建模参数.

3模型的建立

在第2节确定模型的主要参数之后,本节中我们将根据磁盘的内部原理及读写时的活动细节构建寻道预估模型(cylinder-seeking model for hard-disk activity, CSMDA),12 V电路的寻道功率模型(seeking model for hard-disk power, SMDP)及5 V电路的数据传输功率模型(data transport model for hard-disk power, TMDP).CSMDA模型用于预估磁盘寻址的细节活动,SMDP与TMDP模型用于预估磁盘不同线路的功率状态.目前大多数的SAS或是SATA磁盘由12 V及5 V两路电路进行供电,磁盘功率由2个线路共同计算获得,如图5所示.图5为8 KB随机读访问下磁盘2个线路的电流状态,可以看到磁盘的整体能耗由2条线路共同承担.

Fig. 5 Diagram of disk power.图5 磁盘功率示意图

Fig. 6 Neural network fitting results.图6 神经网络拟合结果

3.1寻道预估模型(SMDA)

为了保证能耗预测的准确性,我们的寻道功率模型需要知道当前IO访问的平均寻道跨度,从第2节的分析中我们可以得知,大多数的统计参数都与寻道跨度有关,但为了减少预测过程中的计算量,我们使用IO的平均访问时间来预测单位时间中的磁头平均位移.

预测的主要方法是使用神经网络建模,将采集到的测试负载中的单次读写操作的平均时间作为输入参数,而将磁头位移量作为输出.训练样本及测试样本均使用在实验中获取的数据,其中70%的数据为训练样本,其他30%为验证及测试样本,使用Levenberg-Marquardt拟合算法,训练拟合度为图6(a),确认及测试为图6(b)(c),综合拟合结果为图6(d).由于在实验中访问了单盘片上的所有磁道,所以样本空间足够,在一定程度上保证了预测的准确性.训练集测试集及误差结果如图6、图7所示.

Fig. 7 Neural network error results.图7 神经网络误差结果

从拟合结果可以看出,使用神经网络建模的方法预测当前磁头的平均寻道跨度具有一定的误差,其原因主要是在统计量中太多的数据与寻道跨度有关,为了保证简洁性我们只选择了影响最大的读写特征来建模.但其误差在一定程度上可以接受,同时也说明寻道预估模型具有较大的改进空间.

3.2寻道功率模型(SMDP)

盘臂制动器由12 V电路供电[10],主要用于磁盘读写中的磁头定位,是磁盘部件中的高能耗部件,也是磁盘部件中电能消耗波动较大的部分.为了避免文件系统层以及块设备层中读写优化调度的影响,我们采用直接向磁盘裸设备发送读写指令的方式控制其盘臂的活动,并且我们在实验过程中发现,在磁盘盘片中不同物理磁道间位移相同磁道距离的能耗是相同的,这个结论也与Dempsey[10]提出的假设相符合.因此我们提出了SMDP模型,在模型中只要给定磁盘臂的磁道位移跨度及相关参数就可以模拟出磁盘臂本次定位的电能消耗.该磁盘臂跨度的能耗模型的优点是单次测量、永久模拟.在以后的预测中,只需要给出磁盘臂的位移跨度,就可以获取磁盘臂单次位移的电能消耗.

在研究磁头寻址功率模型过程中,我们应用较为广泛的等效磁头运动模型,该模型将盘臂在盘片上的寻址运动(近似的径向运动)等效为2段加速度相反的匀变速直线运动.该运动模型假定磁头存在一个最大速度v0,磁头在达到v0前匀加速运动,达到v0后匀速运动.并假定存在一个寻址距离seek0,当寻址距离小于seek0时,如图8(a)所示,寻址过程中磁头没有达到极值v0便开始减速,当速度为0时恰好到达寻址位置.而当寻址距离大于seek0时,如图8(b)所示磁头达到极值之后不再加速而是保持一段匀速运动状态后再减速到0,同时到达寻址位置.图8是我们基于等效磁头运动模型假定的磁头特征给出的IO访问模型,从变极速补充模型图8(c)上可以看出,由于磁盘采用多极速的技术,可以使IO的磁头寻址节省粗实线及虚线所在区域的时间.

Fig. 8 Disk seeking model.图8 磁头运动模型

在推导过程中所需参数如表1所示.

Table 1 Interpretation of Symbols

Fig. 9 Seeking-power fitting.图9 寻道功率模型拟合

n=f+0.01a×y×(x2+x)

d×x+g×z+e).

(1)

在寻址距离大于seek0时,由于此时磁头运动状态比较简单,我们直接给出简化公式:

n=f+0.01a×y×x(b×x2+

d×x+g×z+e).

(2)

为了获取磁盘臂精确地寻址能耗特征,我们采用特定负载直接对磁盘设备进行读写操作,保证磁头每次的读写都从盘片外圈至内圈,以升序依次访问该盘片的每一条磁道,并且每次读写块大小为1 KB,以减少磁头传输数据块时的时间影响.测试运行了26 min,共采集数据点1 541个,磁头以升序依次访问了72 704个磁道中的每一个磁道.经第2节的验证性实验结果可知,在磁道数10 000左右达到第1个极大速度,此时寻址位置应处于seek0附近.采用前560个数据点图9(a)作为寻址距离小于seek0的建模数据,而将后1 000个数据点图9(b)作为寻址距离大于seek0的建模数据.使用数学工具1stopt,采用对公式的拟合效果如图9所示.

从上述的拟合结果及所获得的拟合参数化简给出的式(1)与式(2).我们可以得出针对于Seagate cheetah15K5 146GSAS盘的寻道功率为

(3)

其中,s为寻址距离,u为磁盘活动利用率,BLK为IO读写的数据传输块大小.在第5节中我们对寻道功率模型在小文件访问及完全随机访问中进行了实验验证.

3.3数据传输功率模型(TMDP)

磁盘中的5 V电路主要用于控制磁头寻址结束后的读写操作以及相应的缓存等电路功率.通过第3节的实验分析我们可知,IO的数据传输率可以很好地描述磁头在定位后的读写频率,我们将其作为建模的主要参数.我们通过实验发现,相同的数据传输率下5 V的电路功率总是相同,并且无论随机还是顺序,功率变化幅度很小.从磁头的数据传输原理可知,磁头在进行读操作和写操作时其工作细节并不相同,所以我们假设5 V电路功率与读写操作的数据传输率呈线性关系,并且将读操作的传输率和写操作的传输率做为建模参数.

在TMD模型的建模过程中,我们为了保证建模准确,使用自定义的负载,让磁盘每次执行读写操作时数据块大小不断增大,在更大的范围内描述磁头在定位后的读写频率.使用这样的方法,会使我们的建模数据更加可靠.

我们假定5 V电路功率为

P=a×RKB+b×WKB+c,

(4)

其中,RKB,WKB分别为磁盘在单位时间内的读写传输率.

从图10的拟合结果及获得的拟合参数简化式(4),我们获得了5 V电路的数据传输模型:

P=(4.08E-6)×RKB+(1.48E-6)×

WKB+2.54,

(5)

第5节中我们顺序访问及完全随机访问中对5V电路的数据传输模型进行了实验验证.

Fig. 10 Data transmission power fitting (R=0.880 8).图10 数据传输功率模型拟合(R=0.880 8)

3.4盘片马达及电路能耗

盘片马达在磁盘通电后用于控制盘片的转动,通过12V电路供电,马达在磁盘待机过程中会停用.主轴电机主要控制磁盘在活动及待机状态下的磁盘转动,在活动及闲置状态时能耗基本保持不变,文献[3]给出了主轴电机的能耗公式:

(6)

其中,ωspm为主轴电机的角速度,γ为盘片的半径.我们从式(6)中可以看出,在角速度保持不变的情况下,盘片马达能耗可以看作是静态的能耗,也就是说,在磁盘处于活动状态或是待机状态时,其主轴电机能耗基本不变.对5V供电电路来说,主要用于磁头读写及相关电路的供电[10],这部分能耗也可以认为基本不变.

本节中我们应用改良后的通用磁盘等效运动模型推导出通用的寻址能耗式(1)、式(2)及传输能耗式(4),然后在对磁盘SeagateST3146855SS的IO访问能耗进行了分析与实验测试,对该磁盘的2个供电线路分别建立了功率模型,SMDP模型与式(3)用于描述磁头的寻址活动主要用于模拟磁盘12V电路的功率.TMDP模型与式(5)用于描述读写数据块大小对磁盘功率的影响情况,主要用于描述5V电路功率.

磁盘中的固定能耗部分如盘片马达及控制电路等能耗已经作为常量应用于2个模型中.在第4节我们将对本节中所提出的功率模型进行试验验证,以获取其各自的误差范围,并对该公式的获取方法进行通用性的验证.

4实验验证及数据分析

在第3节中我们主要应用了试验分析型的负载对磁盘功率进行了建模和参数拟合,为了保证模型应用的广泛性,在本节中我们设定了多种负载对模型进行验证,并对误差进行分析.整个实验环境如图11所示:

Fig. 11 Experimental environment of disk energy.图11 磁盘能耗实验环境

4.1实验平台

在本组实验中,使用曙光天阔A620r-G服务器单独测试磁盘功率,我们使用SAS延长线将SeagateST3146855SS磁盘外接于服务器的供电线路.使用电流钳获取磁盘的电流,为了防止电路间的电磁干扰,电流钳获取电流的电路通过电路板单独外接.

4.2功率模型模拟结果

4.2.1异步IO模拟

我们使用2种负载对12V电路寻道模型的随机访问功率预估进行验证.第1种负载使用IOmeter工具来模拟小数据文件和大数据文件的在异步IO条件下的磁盘访问.设置块大小分别为512B,1KB,4KB,8KB,16KB,如图12(a)~(e)所示.读写比例为50%读操作、50%写操作,访问模式为随机访问.第2种负载使用自定义负载,自定义负载访问模式为随机访问模式,寻址位置从单盘片中的所有磁道中随机选取图12(f),每次访问数据块的大小也从512B,1KB,4KB,8KB,16KB中随机选取,读写比例为50%读操作、50%写操作.在加载负载的同时,我们使用采集工具采集模型所需要的参数,如磁盘平均读写时间,作为寻道预估模型的输入,通过神经网络建模来估计当前单位时间内的平均寻址跨度,然后将平均寻址跨度作为磁头寻道功率模型的输入,结合磁盘活动利用率、数据传输速率等参数用于估计寻址功率.

Fig. 12 The model validation of seeking-power.图12 寻道功率模型验证结果

从图12可以看出,12V电路的寻址功率模型在IOmeter模拟小数据块的随机读写方面,寻道功率模型可以较好地预测磁盘当前能耗.并且预测的精准度比较平稳,并不随着数据块的增加而变大,主要原因在于在12V寻道功率模型中,我们同时也加入了与数据块传输时间相关的参数,用于适应传输数据块时功率的变化.

Fig. 13 Estimation errors of different block size.图13 不同数据块的估计误差

同时我们也发现在使用IOmeter模拟异步IO负载时,数据块大小不同,能耗差异性并不大,这可能与IOmeter本身的随机读写策略有关,IOmeter虽然使用的是随机访问模式,但异步IO在块调度层中对队列中随机的地址进行排序后,磁头寻址位移的变化会比较平稳.为了消除IOmeter本身随机策略对模型验证的影响,我们同时也使用了自定义负载,该负载使用特定的访问模式,从磁盘所有磁道集内随机抽取磁道对其进行直接读写访问,这种自定义负载可以保证最大限度的寻址随机性.从图13(a)(b)的误差统计来看,对于IOmeter模拟的文件访问的平均误差都在2%~3%之间,最大误差不高于6%.从自定义随机负载的模拟结果可以看出平均误差在2%,最大误差小于5%.顺序访问过程中由于磁头的位移幅度很小,对12V电路的影响有限,能耗基本不发生变化.图14所示为5V电路的传输功率模型的验证结果,对于5V电路,我们使用IOmeter工具,分随机负载(如图14(c)、图14(d))和顺序负载(如图14(a)、图14(b))两种验证集进行测试,我们在测试过程中设置块大小为32KB,64KB,128KB,256KB,512KB,1MB,2MB,4MB等多种数据块访问模式来体现传输数据块时电路能耗的显著变化.

对于从小至大的数据块传输情况,从误差统计来看无论随机还是顺序都有较好的模拟结果,平均误差在3%左右,最大误差不超过5%.

Fig. 14 The model validation of data transmission.图14 数据传输功率模型验证结果

4.2.2同步IO模拟

我们使用合成负载对12V电路寻道模型的同步随机访问进行功率验证.同步IO的合成负载的访问模式为寻址位置从单盘片上所有磁道中随机选取.每次IO访问之间的时间间隔也随机产生,这样保证了磁盘活动利用率的随机性.负载随机选取不同的传输块大小、寻址的磁道、每次IO访问后的休眠时间,这样基本上可以模拟常见的同步IO访问.设置块大小为4KB,16KB,64KB,128KB.读写比例为50%读操作、50%写操作,访问模式为随机访问.在加载负载的同时,我们使用采集工具采集模型所需要的参数,如磁盘平均读写时间,作为寻道预估模型的输入,通过神经网络建模来估计当前单位时间内的平均寻址跨度,然后将平均寻址跨度作为磁头寻道功率模型的输入,结合磁盘活动利用率、数据传输块大小等参数用于估计寻址功率.

图15是我们对数据块大小分别为4KB,16KB,64KB,128KB进行的同步IO验证试验结果,如图15(a)~(d)所示.可以看到在同步IO中数据块大小发生较大变化时,对寻址功率才会产生可见的影响.从预测结果来看,虽然数据块大小增加会影响模型的预测精度,但4种同步IO负载的平均误差都在3%左右.并且从预测结果来看,本文提出的功率模型无论从预测结果还是预测趋势都可以较为准确地预测磁盘寻址的当前功率.

Fig. 15 The model validation of synchronous IO.图15 同步IO寻址功率预测结果

4.3额外的负载

Fig. 16 Performance impact on random access.图16 随机访问性能劣化

本模型可以采用在线及离线的方式处理所采集到的数据,由于采集数据的处理可以使用其他的服务器而对存储系统不会产生额外的计算负载,因此我们主要考虑采集工具是否会对当前的工作负载产生影响.根据采集时间窗口的不同,对当前工作负载的影响也不相同.我们使用IOmeter工具模拟较为典型的访问负载:随机访问负载,数据块大小为4KB,50%读、50%写;顺序访问负载,数据块大小为4KB,50%读、50%写.由于随机访问对IOPS的要求较高,因此我们以IOPS作为负载性能劣化的指标,而顺序读写我们以数据传输率为负载性能劣化的指标,分别对时间窗口1s,10s,30s进行性能测试,每次测试时间为30min.测试结果如图16、图17所示:

Fig. 17 Performance impact on sequence access.图17 顺序访问性能劣化

从图16可以看出对于随机访问来说,使用iostate采集所需参数所带来的额外负载随着时间间隔的增加而不断减少,并且以1s为时间窗口的细粒度采集模式也几乎不会对随机访问产生较大的影响.同样,从图17可以看到,采集工具对顺序访问也没有带来太大的额外负载.从上述的实验测试来看,建模所需数据的采集对当前的工作负载产生的影响极其微小,在极细小的采集窗口下(采集间隔1s)也没有超过3%.

4.4建模方法的通用性

本文提出了一种使用磁盘活动特征统计量作为参数对磁盘能耗进行建模的方法,该方法以理论及实验验证的磁盘活动与能耗的相关关系为基础,结合改良的传统磁头寻址模型,对磁盘的寻址能耗及数据传输能耗均进行了建模.从理论上来说,这种建模方法只应用了磁盘活动的普适特征,而对于其他磁盘能耗的建模应该具有通用性.第3节中的建模只针对了SeagateST3146855SS磁盘,这里我们限于篇幅,不再描述其他型号磁盘繁琐的建模过程.直接给出3个磁盘的特性能耗模型及其测试结果.如表2所示:

Table 2 Fitting Formulae of Disk Drivers

我们使用IOmeter对上述3种磁盘的模型进行验证性测试,选取较为典型的随机负载,即数据块大小为4KB,50%读、50%写、全随机,测试时间为10min,其中,D1磁盘为SeagateST3146855SS,D2磁盘为WD10EZEX,D3磁盘为SeagateConstellationES.测试结果如图18所示:

Fig. 18 Multiple disks experiment.图18 多磁盘验证实验

从图18中可以看出,对于不同类型的3种磁盘,本文出的建模都具有较好的效果,并且与经典的细粒度磁盘模型dempsey所给出的5%平均误差相比,精度很接近.因此,本文提出的建模方法具有通用性,并且精确度与细粒度模型接近,可以达到目前密集型数据访问的要求.

5结束语

本文提出了一种使用磁盘活动特征统计量作为参数预估磁盘能耗的方法.这种方法通过统计量预测出磁盘的细节活动,然后使用等效的运动学模型结合相关的参数去预测磁盘在寻址及数据传输上的功率状态.这种方法不需要关注磁盘的细节活动,也不需要采集磁盘每一个IO操作,只需要一段时间内的统计参数就可以估算磁盘的功率.这种无需密集型采集的方法即适用于在线性能要求较高的数据中心功率预测,也适用于精确的评估各类节能算法在负载状态下的真实节能效果.实验结果表明,该模型在同步及异步IO等多种数据访问模式下都具有较好的准确性.

参考文献

[1]IDC.The2011IDCdigitaluniversestudy[EBOL]. (2011-07-04) [2016-01-15].http:www.emc.comcollateralaboutnewsidc-emc-digital-universe-2011-infographic.pdf

[2]AcharyaA,UysalM,SaltzJ.Activedisks:Programmingmodel,algorithmsandevaluation[C]Procofthe8thIntConfonArchitecturalSupportforProgrammingLanguagesandOperatingSystems.NewYork:ACM, 1998: 81-91

[3]HopkinsM.Theonsiteenergygenerationoption[EBOL]. (2004-05-19)[2016-01-15] .http:datacenterjournal.comNewsAriticle.asp?article_id=66

[4]BianchiniR,RajamonyR.Powerandenergymanagementforserversystems[J].Computer, 2004, 37(11): 68-74

[5]DimitrijevicZ,RangaswamiR,ChangE,etal.Diskbench:User-leveldiskfeatureextractiontool[J].Computer, 2004, 35(12): 50-61

[6]MaYan,GongBin,ZouLida.Duplication-basedenergy-efficientschedulingfordependenttasksingridenvironment[J].JournalofComputerResearchandDevelopment, 2013, 50(2): 420-429 (inChinese)(马艳, 龚斌, 邹立达. 网格环境下基于复制的能耗有效依赖任务调度研究[J]. 计算机研究与发展, 2013, 50(2): 420-429)

[7]ColarelliD,GrunwaldD.Massivearraysofidledisksforstoragearchives[C]Procofthe2002ACMIEEEConfonSupercomputing.Piscataway,NJ:IEEE, 2002

[8]PinheiroE,BianchiniR.Energyconservationtechniquesfordiskarray-basedservers[C]Procofthe25thIntConfonSupercomputing.NewYork:ACM, 2014: 369-379

[9]ZedlewskiJ,SobtiS,GargN,etal.Modelinghard-diskpowerconsumption[C]Procofthe2ndUSENIXConfonFileandStorageTechnologies.Berkeley,CA:USENIXAssociation, 2003: 217-230

[10]PeekD,FlinnJ.Drive-Thru:Fast,accurateevaluationofstoragepowermanagement[C]Procofthe11thUSENIXAnnualTechnicalConf.Berkeley,CA:USENIXAssociation, 2005: 251-264

[11]ZhuQ,ChenZ,TanL,etal.Hibernator:Helpingdiskarrayssleepthroughthewinter[J].ACMSIGOPSOperatingSystemsReview, 2005, 39(5): 177-190

[12]ZhuQ,DavidF,DevarajC,etal.Reducingenergyconsumptionofdiskstorageusingpower-awarecachemanagement[C]Procofthe10thIntConfonHigh-PerformanceComputerArchitecture.Piscataway,NJ:IEEE, 2004: 118-129

[13]ZhuQ,ZhouY.Power-awarestoragecachemanagement[J].IEEETransonComputers, 2005, 54(5): 587-602

[14]BissonT,BrandtS,LongD.Ahybriddisk-awarespin-downalgorithmwithIOsubsystemsupport[C]Procofthe26thIEEEIntPerformanceComputingandCommunicationsConf.Piscataway,NJ:IEEE, 2007: 236-245

[15]NarayananD,DonnellyA,RowstronA.Writeoff-loading:Practicalpowermanagementforenterprisestorage[J].ACMTransonStorage, 2008, 4(3): 10-21

[16]CarreraEV,PinheiroE,BianchiniR.Conservingdiskenergyinnetworkservers[C]Procofthe17thAnnualIntConfonSupercomputing.NewYork:ACM, 2003: 86-97

[17]PinheiroE,BianchiniR,DubnickiC.Exploitingredundancytoconserveenergyinstoragesystems[C]ProcofACMSIGMETRICSPerformanceEvaluationReview.NewYork:ACM, 2006, 34(1): 15-26

[18]StoessJ,LangC,BellosaF.Energymanagementforhypervisor-basedvirtualmachines[C]Procofthe13thUSENIXAnnualTechnicalConf.Berkeley,CA:USENIXAssociation, 2007: 1-14

[19]AllaloufM,ArbitmanY,FactorM,etal.Storagemodelingforpowerestimation[C]ProcoftheIsraeliExperimentalSystemsConf.NewYork:ACM, 2009: 3

[20]YanJ,LonappanCK,VajidA,etal.Accurateandlow-overheadprocess-levelenergyestimationformodernharddiskdrives[C]ProcofIEEEGreenCom’13.Piscataway,NJ:IEEE, 2013: 171-178

[21]WeddleC,OldhamM,QianJ,etal.PARAID:Agear-shiftingpower-awareRAID[J].ACMTransonStorage, 2007, 3(3): 13-24

[22]ZhangJu,XiaoYuxin,JingNing,etal.OptimizedtheextractionofdiskcharacteristicsfortheIOschedulers[J].JournalofNationalUniversityofDefenseTechnology, 2003, 4(6): 15-26 (inChinese)(张巨, 肖予钦, 景宁, 等. 面向IO优化调度器的磁盘特征提取[J]. 国防科技大学学报, 2003, 4(6): 15-26)

[23]ChuX,OuyangK,ChangX.FAXtrac:Fastextractionofdisklayout[C]Procofthe4thIEEEIntConfonNetworking,ArchitectureandStorage.Piscataway,NJ:IEEE, 2009: 309-314

SunJian,bornin1982.PhDcandidate.Hismainresearchinterestsincludecloudstorageandgreenstorage.

LiZhanhuai,bornin1961.ProfessorandPhDsupervisor.Hismainresearchinterestsincludedatabasetheoryandtechnologyandmassivedatastorage.

ZhangXiao,bornin1978.PhDandassociateprofessor.Hismainresearchinterestsincludegreenstorageandmassivedatastorage.

WangHuifeng,bornin1986.PhDcandidateinNorthwesternPolytechnicalUniversity.Hisresearchinterestsincludecloudcomputing,datasecurityandmassivedatastorage.

ZhaoXiaonan,bornin1979.PhDandlecturer.Hermainresearchinterestsincludehierarchicalstorageandcloudstorage.

收稿日期:2016-03-09;修回日期:2016-05-16

基金项目:国家“八六三”高技术研究发展计划基金项目(2013AA01A215);国家自然科学基金项目(61472323,61502392);中央高校基本科研业务费专项资金项目(3102015JSJ0009);华为创新基金项目(YB2014040023)

通信作者:张晓(zhangxiao@nwpu.edu.cn)

中图法分类号TP333

A Statistic-Based Method for Hard-Disk Power Consumption in Storage System

Sun Jian, Li Zhanhuai, Zhang Xiao, Wang Huifeng, and Zhao Xiaonan

(SchoolofComputerScienceandEngineering,NorthwesternPolytechnicalUniversity,Xi’an710129)

AbstractDue to the rapid development of big data in the data center, power consumption of storage system is a major issue in today’s datacenters. How to reduce the power consumption of storage systems has become an urgent issue and a hot research topic in the field of computer science. As the hard disk drive is the primary storage medium in today’s storage systems, modeling hard-disk power consumption is attracting more attention in the current state of research. The accurate power consumption model of disk can not only solve the problem of power matching in data center devices, but also estimate the accuracy of energy-efficient solutions. We develop a statistic-based hard-disk power modeling method that estimates the power consumption of storage workloads. The model makes up the weakness of traditional fine-grained model and it is more accurate than the coarse-grained model. In practical applications, it does not need to record the disk internal activities, and does not need to trace complex parameter. Our power estimation results are highly accurate, which means error of 3% and the model is applicable to the synchronous IO and asynchronous IO. Moreover, our model can also be applied to various online storage systems and data center.

Key wordsstorage system; energy conservation; modeling; hard-disk; power management

This work was supported by the National High Technology Research and Development Program of China (863 Program) (2013AA01A215), the National Natural Science Foundation of China (61472323, 61502392), the Fundamental Research Funds for the Central Universities (3102015JSJ0009), the Huawei Innovation Research Program (YB2014040023).

猜你喜欢

存储系统磁盘能耗
120t转炉降低工序能耗生产实践
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
分布式存储系统在企业档案管理中的应用
解决Windows磁盘签名冲突
天河超算存储系统在美创佳绩
日本先进的“零能耗住宅”
修改磁盘属性
磁盘组群组及iSCSI Target设置
创建VSAN群集