一种云计算资源自适应预警方法研究
2016-12-12胡华伟
[胡华伟]
一种云计算资源自适应预警方法研究
[胡华伟]
云计算为能够为用户提供基础作为服务(IaaS,Infrastructure as a Service)的计算能力,使得用户能够在使用高效、可靠、经济的计算资源的同时,不用增加额外的购置、维护资源的开销。这在很大程度上要依赖对虚拟资源的使用,因此如何有效地管理虚拟资源,使其使用率最大化并保证用户对资源使用的有效性,已成了虚拟化技术应用中最重要一环。针对这一问题,文章提出了一种云计算资源自适应预警方法,通过对虚拟资源的性能数据收集分析,和模型预测,削峰填谷为安排虚拟机的最优资源调度。文章详细给出了现网实现实例。通过实际虚拟化资源管理调度实现应用结果表明,该方法能够提高虚拟资源的使用率及保证用户对资源使用的良好感知。
云计算 资源 预警 调度算法
胡华伟
硕士,工程师,现就职于中国电信福建分公司,主要从事业务平台、云资源池技术支撑工作,曾在视频监控、IPTV和云计算技术应用方向申请多项国家专利。
1 概述
“云计算”是一种将池化的集群计算能力通过互联网向内外部用户提供按需服务的互联网新业务。云计算为能够为用户提供基础作为服务(IaaS,Infrastructure as a Service)的计算能力,使得用户能够在使用高效、可靠、经济的计算资源的同时,不用增加额外的购置、维护资源的开销,这在很大程度上要依赖对虚拟资源的使用。
云计算的优势在于能提高服务器的资源利用率。确保部署在同一台物理机上的虚拟机消耗资源的高峰期相互错开,能提高云平台的资源利用率。虚拟机对资源的消耗不是一成不变的,高峰期和低谷期出现的规律也是会动态变化。通过分析虚拟机消耗资源的变化规律,为虚拟机部署提供依据,预先输出资源调配预警,有利于提高云平台的资源使用率,和增强用户使用虚拟计算资源的感知。
2 云计算资源自适应预警方法
资源的最优使用需要通过收集数据,分析门限,调优资源占用的方法来进行。具体在本研究方法中,准实时采集云计算资源池中物理机和虚拟机消耗资源的数据(包括CPU资源、内存资源、IO资源等)。以近期历史数据为基准,分析虚拟机消耗资源的变化规律,预测分析未来的资源消耗数据,以此作为安排部署虚拟机的依据,为定期调整资源分配提供支持。目的是将消耗资源高峰期不同的虚拟机错开部署,达到削峰填谷和自适应业务发展变化的效果。同时对资源运行负载进行提前预警分析,可以规避在资源消耗高峰期间,实施虚拟机动态迁移调整,影响平台运行。
自适应云计算资源预警的方法技术框架如图1。
图1 自适应云计算资源预警方法总体技术架构
3 关键实现技术方法
依据以上自适应云计算资源预警方法技术架构,具体实现方法如下:
(1)节点管理Agent
节点管理Agent部署在物理机节点上,负责收集资源使用数据,接收中央管理服务器的控制指令。包含以下几个子功能模块:
① 资源采集模块
该模块实时采集物理机和虚拟机的综合计算资源(包括CPU、内存、磁盘IO、网络吞吐量)使用情况,并上报中央管理服务器。
② 控制管理模块
该模块负责向中央管理服务器注册,接收中央管理服务器运行指令。
(2)资源分析预警服务器
资源分析预警服务器可以部署在单独的物理机或者虚拟机上,实现数据分析,资源使用预警功能。包含以下几个子功能模块:
① 资源数据收集模块
该模块负责汇总节点管理Agent采集的资源使用数据,并将收集到的信息录入数据库。
② 智能分析模块
该模块负责分析云平台资源消耗的变化规律,提出资源预警,作为部署虚拟机的参考依据。
以天为周期分析虚拟机消耗资源的变化规律。按照5分钟颗粒度作为数据采集分析点,取最近7天的数据作为分析的历史数据,预测分析第二天虚拟机消耗资源的变化曲线。(时间隔间以及历史时间跨度可以配置调整)
假设Yi,其中i=[1,2,3,…,287,288]为1天中288个的数据分析点。Xij,其中j=[1,2,3,4,5,6,7]为对应Yi最近7天在该时间点的历史数据。
计算Yi的期望值Ei=∑Xij/7。
计算Yi的标准方差σi=√(∑(Xij-Ei)2/7)
将期望值和标准方差的和作为未来第二天Yi的预测值Yi=Ei+σi。
期望值Ei计算了当前时间点近7天的一个平均值,标准方差σi则计算近7天的一个平均波动范围。期望值加标准方差的综合分析方法,提供了自适应的资源预警机制。
(3)监控预警模块
该模块负责实时监控物理机运行负载,评估未来是否会出现资源使用高峰使物理机运行负载过高影响性能。流程如下:
当物理机运行负载超过预警门限时:
① 实时采集该物理机节点上虚拟机资源使用情况。
② 假设当前值为Z,智能分析方法在当前时间点的预测值为Y=E+σ。计算变化率ε=(Z-E)/σ。当ε>1时,说明当前的资源使用波动超过了原先预测的范围,未来的资源使用负载可能增加。
③ 对ε>1的虚拟机重新计算后续时间点的各个预测值Y’=E+σ*ε。
④ 根据新的预测值,检查物理机后续时间点的运行负载。
⑤ 如果运行负载超过设定的门限值,可能出现性能问题,产生事件通知。
⑥ 如果事件通知持续产生(连续产生三次),则告警逐步升级(告警分三个等级),升级为严重告警时,说明需要启动虚拟机动态迁移,减轻物理机运行负载,否则后续可能产生性能问题影响平台运行。
资源预警分析服务器定期将虚拟机资源消耗的预测分析结果上报统一综合网管,并在预测可能产生高负载运行时将新的预测分析值上报电信统一综合网管,并生成告警,由统一综合网管统一进行资源调配。
4 自适应资源预警方法的实施
前面就云计算资源自适应预警方法整体技术架构和关键技术进行了阐述。使用本自适应资源预警方法的实施(见图2)。具体流程如下:
(1)节点管理Agent注册到资源预警分析服务器,每隔5分钟采集一次物理机和物理上虚拟机资源消耗数据,并上报到预警分析服务器的资源数据收集模块。
(2)资源数据收集模块汇总节点管理Agent上报的数据,录入数据库。
(3)智能分析模块根据第2步采集的信息每隔6个小时进行分析资源消耗变化规律,分析方法如下:
① 针对每个数据采集点,提取近7天的历史数据。
② 计算每个采集点近7天的期望值Ei=∑Xij/7。
③ 计算每个采集点近7天的标准方差σi=√(∑(Xij-Ei)2/7)
④ 计算Yi=Ei+σi,作为对应采集点第二天的预测值,并录入数据库。
(4)第二天实时监控物理机运行负载:
① 监控物理机运行负载是否超过预警门限值。
② 如果超过预警门限值,提取该物理机上每台虚拟机在当前时间点的资源消耗数据Zi和之前的预测分析值Yi=Ei+σi。
③ 计算每台虚拟机当前资源消耗的变化率,εi=(Zi-Ei)/σi。
④ 如果εi>1,说明当前虚拟机资源消耗超过了预期的增长范围,需要重新评估未来该虚拟机的资源消耗值。
⑤ 根据变化率εi,重新计算该虚拟机后续每个采集点的资源消耗值Y’=E+σ*ε。
⑥ 根据物理机上每台虚拟机新的资源消耗值,计算物理机运行负载,是否会超过设定的告警门限,可能产生性能问题。
⑦ 超过告警门限,产生事件通知。
⑧ 如果事件通知持续产生(连续产生三次),则告警逐步升级(告警分三个等级)。资源告警信息传递至电信统一综合网管。当预警级别为严重告警时,可以作为启动虚拟机迁移,减轻物理机运行负载的参考。
5 结论应用
福建电信业务云资源池采用vsphere 虚拟化技术,版本为5.5。包含68台物理机,划分为6个集群,截至2016年6月部署业务虚拟机627台。业务云资源池对接chinaNet,CN2和DCN网络,上面的业务有IP短信中心、商务领航、彩铃管理平台、ISMP平台、ISAG平台、海西基础呼叫平台、省全球眼等重要业务平台,也包括传输网管、SOC等系统。
2015年12月把本云计算资源自适应预警方法实施对接业务云资源池和电信综合告警系统,对资源池的集群主机负载标准偏差、虚拟机迁移次数、物理机性能告警收集数据如表1。
表1 云计算资源池实施自适应预警方法前后比较
数据来源:2015年6月至2016年6月云计算平台网管
注:与实施前观测指标相比,实施后数据向小(优势)趋近。集群主机负载标准偏差系数和虚拟机自动迁移次数是对云计算集群内计算资源承载平衡性衡量指标,越小表示集群内负载分摊越均衡。
实施前数值统计时间段为 2015年6月至2016年12月,实施后数值为2016年1月至2016年6月。期间云计算资源池物理硬件及配置无发生变更,保证测量环境的一致性。
测量数据表明,自适应的资源预警方法可以提出未来虚拟机消耗资源的预测值,以此作为安排部署虚拟机的依据。提升云资源池的资源使用效率并减少因负载不均衡引起的业务波动感知。
图2 自适应资源预警方法的实施流程
6 结束语
目前,云计算虚拟化技术应用在电信运营商及大型信息化企业应用越来越多,计算资源优化调度使用,是云计算虚拟化技术管理中极为重要的一环。自适应的资源预警方法针对云平台资源管理,提出一种分析虚拟机资源消耗变化规律的方法,预测未来虚拟机消耗资源值,以此作为安排部署虚拟机的依据,定期调整虚拟机部署,将消耗资源高峰期不同的虚拟机错开部署,达到削峰填谷和自适应业务发展变化的效果。
实时监控物理机运行负载,提出一种预测分析未来运行负载的方法。当运行负载较历史出现较大波动时,评估是否会出现资源消耗高峰,使物理机运行负载过高影响性能,以此作为启动虚拟机动态迁移,调整资源部署的依据,避免在资源消耗高峰时间中,进行虚拟机动态迁移,加剧对资源的消耗,影响业务感知。
1 罗军舟等.云计算:体系架构与关键技术.通信学报,2011,32(7):3-21
2 左利云等.云资源中多目标集成蚁群优化调度算法.计算机应用,2012,32:1916-1919
3 袁文成等.面向虚拟资源的云计算资源管理机制.西北工业大学学报,2010,28(5):704-708
10.3969/j.issn.1006-6403.2016.11.015
(2016-08-31)