基于非参数回归的主机性能预测模型
2013-07-29牛虎付哲张喆
牛虎 付哲 张喆
【摘 要】本文介绍了非参数回归模型在主机性能预测中的应用,着重阐述了非参数回归模型的基本步骤,通过对监控历史数据的分析和提取,选取相邻三个时间间隔的主机性能数据为状态向量,利用K邻近的搜索机制和带权重的预测算法对主机性能进行建模和预测,实验证明该方法取得了较好的效果。
【关键词】非参数回归;数据挖掘;预测;主机性能
1引言
数据挖掘是信息技术自然演化的结果,它是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有用知识的过程,其中数据预测是数据挖掘的重要目的之一,致力于为用户提供预警并辅助决策[1]。主机服务器的性能一直是IT运维监控的重点工作,为了定位系统的性能瓶颈,探寻系统负载规律,对主机的性能数据进行监控、存储、分析并进行预测很有必要。
相对于参数模型,近年来兴起的非参数回归模型在数据预测领域取得了较好的应用效果,它是一种适合不确定性的、非线性的动态系统的非参数建模方法。它本身脱胎于混沌理论,不需先验知识, 只需足够的历史数据即可。它寻找历史数据中与当前点相似的“近邻”,并用那些“近邻”预测下一个时刻的状态。该算法认为系统所有的因素之间的内在联系都蕴涵在历史数据中, 因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型[2] 。
2 模型建立
2.1 样本数据库的准备
一体化IT运维监控平台以Nagios为基础,可对IT基础设施进行全方位的监控和数据采集,其中主机的性能数据包括CPU的使用率、内存使用率、I/O读写速度、换页空间的占有率等都完整地存储在数据库中。
鉴于IT运维监控平台较为完整的数据存储,为建立预测主机性能的非参数回归预测模型提供了可能。
2.2 状态向量的定义
可将其按照状态向量的定义构建样本数据库,当输入实时的状态向量时,从样本数据库中搜索与输入状态最为匹配的历史数据集合,若不满足匹配准则的话则将该输入状态向量添加到样本数据库中,最后可根据设计的近邻机制和预测算法,对满足匹配条件的数据集合进行分析和计算,得到最终的预测结果。
2.3 匹配算法的设计
2.4近邻机制的选取
近邻机制是确定历史数据库中的点如何才能成为当前点的近邻。主要有两种机制:K近邻法和核近邻法。K近邻法是指相似度最大的K个历史数据库中的点;核近邻法是指以当前点为核心,R为半径的球中的点成为当前点的近邻。
K近邻法是应用很广泛的一种非参数回归算法,具有无参数、可移植、预测精度高等优点,它的误差比较小,且误差分布情况良好,在实际应用中更加成熟,因此在本研究中选用K近邻机制[3]。
根据已经定义好的样本数据库结构和匹配算法,寻找与当前输入状态向量最为匹配的K个数据点,然后利用这K个数据点采用预测算法预测主机的内存使用率、CPU使用率、逻辑卷繁忙程度等性能数据。这是非参数回归算法中非常关键的一环,而且非参数回归方法是否能达到实时性要求,主要取决于K近邻搜索算法性能的优劣[4]。
近邻值K表示了从样本数据库中选取的近邻个数。K值的选取在很大程度上和样本数据的具体情况相关。目前还没有既定的准则来指导K的选取,已有的研究也是针对各自的实验数据,根据不同K值下的结果来找到一个较优的K值。但是可以确定的是,K值过大或者过小都会影响预测精度[5]。本文在实验时将K的取值设在6至16之间,最后针对实验结果进行讨论。
2.5预测算法的设计
3 实证分析
3.1 实验数据来源
实验数据来源于IT运维监控统一平台,本实验从2013年1月开始采集某AIX主机的性能数据,截止到2013年6月,经过数据处理和筛选共得到实验数据17280组,选用其中的17000组数据来标定模型,剩下的280组数据来检验模型的预测效果。
4 结论
随着K值的增加,非参数回归预测模型的误差MRE均值波动变化,在K=9时MRE均值误差为最小,达到了5.58%,因此选用K等于9时的非参数回归预测结果来进行监控提示。
本文提出了使用非参数回归模型,论述从大量的监控历史数据中挖掘并预测主机性能,实验证明该方法取得了一定的效果,但是对于非参数回归中近邻机制的K值的确定方法目前还没有定论,本研究使用了实验的方法,选取了最优K值进行预测,但是针对如何确定最优K值的通用方法上还有待进一步研究。
参考文献:
[1]宋应湃,汪林林,数据挖掘技术在IT基础设施监控中的应用[J],计算机科学,2007,34(5),P205-207.
[2]宫晓燕,汤淑明. 基于非参数回归的短时交通流预测与事件检测综合算法[J]. 中国公路学报, 2003,16(1):82-86.
[3]范鲁明.基于非参数回归的短时交通流量预测[D].天津大学硕士学位论文,2007.
[4]张晓利,贺国光,陆化普.基于K-邻域非参数回归短时交通流预测方法[J].系统工程学报,2009,24(2):178-183.
[5]张涛,陈先,谢美萍,张碉杰,基于K近邻非参数回归的短时交通流预测方法[J],系统工程理论与实践,2012,30 (2),P376-384.
[6]陶洋,黄涛,唐毅,基于主机负载的任务执行时间预测研究[J],计算机应用,2009, 29(19),P2617-2623
[7]郭躬德,王晖,David Bellz,时间序列数据分析与预处理[J],小型微型计算机系统,2003,24(12),P2228-2232
[8]张晓利,贺国光,陆化普.基于K-邻域非参数回归短时交通流预测方法[J].系统工程学报,2009,24(2):178-183.
作者简介:
牛虎(1987-),男,河南濮阳人,硕士,现就职于北京首都国际机场股份有限公司信息技术部,担任助理工程师,主要研究方向: IT运维管理、智能交通系统等。