计算机CPU服务能耗指标的相关性分析
2016-03-07赵彤洲
翟 畅 何 芳 赵彤洲 周 萍 李 慕
(1.武汉工程大学计算机科学与工程学院,湖北 武汉 430205;2.智能机器人湖北省重点实验室,湖北 武汉 430205;3.湖北工业大学计算机学院,湖北 武汉 430064;4.中国科学院武汉物理与数学研究所,湖北 武汉 430071)
计算机CPU服务能耗指标的相关性分析
翟 畅1,2何 芳3,4,∗赵彤洲1,2周 萍1,2李 慕1,2
(1.武汉工程大学计算机科学与工程学院,湖北 武汉 430205;2.智能机器人湖北省重点实验室,湖北 武汉 430205;3.湖北工业大学计算机学院,湖北 武汉 430064;4.中国科学院武汉物理与数学研究所,湖北 武汉 430071)
由计算机的广泛应用带来的大量计算任务将导致能量消耗增高。计算机C PU承担了主要计算任务,因此,分析C PU的服务能耗指标,准确找到影响能耗的重要因素能为面向绿色效能的服务选择提供依据。本文利用能耗监测仪采集到的数据,构建了多元回归模型及单变量和多变量相关性分析,并通过拟合优度进行评估,实验表明,在利用马氏距离剔除利群点后构建的多元回归模型能很好地拟合整体样本数据。
离群点;马氏距离;多元回归;拟合优度
1 引言
基于互联网的应用越来越普及,计算机的联机事物分析及处理能力越来越强,因而处于网络各节点上的计算机的各种能耗也随计算任务增多而升高。在大数据分析中,往往需要分布式处理,并对数据中心的计算依赖程度更高,数据中心的能量消耗是非常重要的成本指标[1]。在涉及到大数据的分布式处理中,动态监视网络各节点上的CPU能耗、显卡能耗、硬盘能耗、内存能耗等,找出执行任务与各能耗之间的关系,根据任务及CPU状态及时调整任务指派,对网络节点进行全局优化,最大限度实现节能指标,具有十分重要的现实意义。2009年,谷歌测算了一次普通查询的能耗约为0.0003kWh,若日均查询次数为3亿次,则一天消耗的功率为90000kWH[2]。因此,服务器能耗是与企业运行成本密切相关的,而CPU是计算机高耗能部件,其能量消耗也占据服务器总能耗的相当大比例,因此,在CPU诸多参数中找到高能耗指标是实现绿色计算的重要环节。
2 影响CPU能耗的指标
CPU的性能指标与其能耗密切相关。CPU性能越好,运算速度越快,能耗也越高。CPU性能计数器是处理器的主要活动指标,如表1所示。
表1 CPU性能计数器相关参数
由表1可见,CPU的性能计数器包含了CPU能耗、处理器时间比例、中断时间、访问物理盘时间比、访问页面数/秒、内存错误数/秒,网络接包-发包率/秒以及网页服务相应/秒等。上述指标反应了处理器的活动状态,且与CPU能耗密切相关,本文将根据测量数据对各项指标进行性能分析,找出与能耗密切相关的因素。本文重点关注如下3个方面的问题:① 研究实测能耗Power与CPU性能计数器其余8个参数之间的关系;② 研究能耗性能计数器参数之间的关系;③ 研究对CPU能耗有重要影响的因素。
3 CPU性能计算器的能耗分析方法
CPU能耗数据可以由能耗测量仪测量得到,但因为测量得到的数据会存在测量误差,因此,在进行数据分析之前要对数据进行检测,检查测量数据之间是否存在离群点。
3.1 基于马氏距离的数据异常检测
马氏距离用来度量两个服从同一分布的随机变量的差异程度,通过度量待测样本与某一类的均值向量的差异程度判别样本的归属[3]。其定义为:
3.2 构建多元回归模型
由于CPU性能计数器包含诸多参数,因此,需要构建多元回归模型[4]用以分析其参数间的关系。
多元回归模型就是用样本统计量β0,β1,β2,…,βp估计回归方程中的参数时得到的方程,采用最小二乘法,其一般形式为:
3.3 多元回归模型的统计检验
对于多元回归模型,利用拟合优度检验来判定来自总体的数据是否与当前已知随机变量分布一致,即回归方程对观测值的拟合程度[5]。度量拟合优度的统计量是判定系数,其取值范围在[0,1]之间。
公式(4)中,SSR为残差平方和,n-k-1为残差平方和的自由度;SST为总离差平方和,n-1为总离差平方和自由度。当R2越接近1则拟合程度越好,而越接近0,则表明拟合方程对观测值的拟合效果越差。
4 实验结论及分析
本文实验数据来源于利用工具H8713功耗监测仪,通过串口通讯动态监测服务器耗能得到的。利用监测数据,拟求得公式(2)的各项拟合参数。考虑到CPU性能计数器中的Web Service Requests容易受到计算机系统影响较大,因此,本实验暂未考虑该因素。
4.1 数据标准化处理
由于实验采集的8个参数的量纲不同,为统一计算方便,我们将数据标准化处理[6]。设向量x0,x1,x2,…,xn为一随机时间序列,均值为μ,方差为σ2,标准化后有本实验中,我们将数据标准化到0-1之间。
4.2 异常值检验
利用马氏距离检验数据中是否存在奇异值。受篇幅限制,本文中只选取前100个样本计算出的马氏距离,见表2。
表2 前100个样本的马氏距离
表2中看到大部分数据都>1,有少量数据<1,说明数据整体较好,异常值较少。这些异常值可以剔除。
4.3 单变量相关性分析
在分析多变量相关性之前,进行单变量相关性分析,用最简单方法探索数据之间的关系。
表3 CPU性能计数器各参数与能耗的相关性分析
由表3结果可见,x1与Y的相关系数最大(0.9246),其次为x7。说明其中可能存在较强的线性相关性。以(x1,x7,Y)为研究对象找寻三者之间的关系。
图1与图2对比可见,旋转后,散点图接近一条直线分布。因此数据之间可能存在线性关系,需要进一步进行多元线性分析。
图1 原始图:100个采样点(x1,x7,Y)的散点图
图2 旋转后:100个采样点(x1,x7,Y)的散点图
4.4 多元线性回归分析
在上述单变量相关性分析基础上,利用公式(3)可以进一步分析多变量的回归系数,其回归系数和置信度区间如表4所示。
表4 回归系数及置信度区间(α=5%)
其残差杠杆如图3所示。
图3 残差杠杆图
由图3可知,绝大部分数据的残差都在0点附近,说明拟合效果较好,且绝大部分残差都位于[-0.3,0.3]之间。其中,还有3个点的残差离0点较远,说明此3点是异常点(点的序号为9,65,95)。剔除异常值后,重新进行回归得到表5的结果。
表5 取出异常值后的回归系数及置信度区间(α=5%)
因此,剔除异常值后我们拟构建了如下多元一次回归模型:相应地,剔除异常值后的残差和对应的残差置信度区间如表6所示。
5 总结
本次实验对影响CPU性能的7个分量进行了分析,由实验结果可见影响CPU能耗的7个分量与能耗之间的关系是一个多元线性模型。剔除异常数据后,用多元线性回归分析方法能得到较好的拟合方程式。进一步观察回归方程的系数可见,正相关参量按照x1>x3>x7>x5的权重分别从大到小对CPU能耗有影响,而负相关参量有|x6|>|x4|>|x2|关系存在。在上述关系中,x1的权重最大,因而对拟合的准确性影响最大。对得到的权重系数进行分析可以得到,影响CPU能耗较大的参数是第1个和第3个,即Processor Time(%)和Disk Time(%)。
表6 剔除异常值后的残差和对应的残差置信度区间
通过对CPU计数器能耗分析可以清楚地知道处理器及外设访问是高耗能服务,因此,对于追求绿色能效的分布式计算系统而言,本实验结果将能有效地指导如何将高能耗服务分配到处于闲置状态的计算机上,可以合理利用分布式网络服务任务,大大提高CPU利用率进而降低整个网络的能耗。
[1]商云飞.数据中心网络节能路由研究[D].北京:清华大学,2013.
[2]googleblog. blogspot. com/2009/01/powering- google- search.html.
[3]De Maesschalck,Roy;Jouan- Rimbaud,Delphine; and Massart,Désiré L. The Mahalanobis distance[J]. Chemometrics and IntelligentLaboratory Systems 50:1–18,2000.
[4]Rencher,Alvin C.;Christensen,William F.Methods of MultivariateAnalysis,Wiley Series in Probability and Statistics [M].709(3rd ed.),John Wiley & Sons,p.19,2012.
[5]刘明,李明莉.线性回归模型统计检验方法体系构建[J].统计与决策,2009(2).
[6]于之虹,黄彦浩,鲁广明,等.基于时间序列关联分析的稳定运行规则提取方法[J].中国电机工程学报,2015(03):519-526.
The CorrelationAnalysis for the Service Energy Consumption Index of CPU
Zhai Chang1,2He Fang3,4,∗Zhao Tongzhou1,2Zhou Ping1,2Li Mu1,2
(1.School of Computer Science and Engineering,Wuhan Institute of Technology,Wuhan 430205,Hubei;2.Hubei Key Laboratory of Intelligent Robot,Wuhan 430205,Hubei;3.Hubei University of Technology,Wuhan 430640,Hubei;4.Wuhan Institute of Physics and Mathematics,ChineseAcademy of Sciences,Wuhan 430071,Hubei)
The widespread use of computers brings a large number of computational tasks,leading to the increasing energy consumption.CPU undertakes the main task of computing,so it is necessary to analyze the energy consumption index to search the important factors that have influence to energy consumption.It can provide the basis for the service selection of green efficiency.This paper uses the energy consumption monitor to collect the data,constructs multiple regression models and makes univariate and multivariate correlation analysis which uses the goodness of fit to evaluate the models.Experiments show that the multivariate model can well fit the whole sample data after excluding the outliers with Mahalanobis distance.
outlier;Mahalanobis distance;multivariate regression;Goodness of Fit
TP399
A
1008-6609(2016)12-0008-04
翟畅(1990-),男,湖北黄冈人,硕士,研究方向为数据分析、文本推荐算法研究。
*通讯作者:何芳(1977-),女,湖北黄石人,硕士,研究方向为计算机应用技术。
国家自然科学基金资助项目,项目编号:61103136。