研究数据挖掘技术在IT基础设施监控系统中的应用
2016-05-14常宇
常宇
摘要:就目前的现代化信息数据挖掘技术领域来看,基于标准CRISP DM的IT基础设施监控系统已被社会各界广泛应用,它合理利用了时序性数据挖掘技术以及预测技术实现了对现有数据与历史数据的全面监控过程,在IT基础设施领域存在相当高的实用价值。本文就针对该技术的特殊性,探讨了它在基础设施监控系统中的应用流程。
关键词:IT基础设施监控系统 数据挖掘技术 CRISP DM
中图分类号:TP3 文献标识码:A 文章编号:1007-9416(2016)07-0107-01
从当代信息技术视角来看,数据挖掘为信息技术提供了一种自然演化的过程,并转化为积极的技术成果,它对于数据信息库中大量数据的挖掘过程相当擅长,也是对数据库技术、高性能计算、神经网络、数据可视化、信息检索等多项技术的综合性汇总和应用。基于数据挖掘技术,人们可以从数据库中以多元化形式提取信息,并因此而制定决策、控制信息数据的分析应用和处理过程,所以将这种技术应用于IT基础设施的监控系统中是具有可行性的。
1 关于CRISP DM标准
目前,国内的网络交易与证券交易所都采用了以交易为核心的IT基础设施,这其中就涵盖了核心交易机群、远程交易网络与场内交易网络。为了确保交易期间始终保持高效合理的运作机制,就必须建立并启动IT基础设施监控系统,实现对交易期间系统网络中诸如主机、数据库的实时监控,再借助数据挖掘技术来分析有关监控数据。
为此,国内所采用的数据挖掘技术标准为跨行业数据挖掘标准流程(Cross Industry Standard Process for Data Mining),即CRISP DM标准。该标准在网络、证券期货交易业务中的具体作用就是实现以数据挖掘技术为核心的IT基础设施监控系统应用,并为系统建立一个自适应性极强的迭代过程[1]。
2 基于数据挖掘CRISP DM的IT基础设施监控系统应用过程
基于数据挖掘CRISP DM技术,可以将IT基础设施监控系统的应用过程分为4个阶段。
2.1 项目决策
项目决策阶段的重点就在于理解系统中所要实现的项目需求及目标,利用数据挖掘转化的技术理念来满足这些需求与目标。首先,要对项目初期的所有数据进行基于量化的评估分析,比如说监控系统每年的监控数据存储量为2T,那么这些数据就应该包括了诸如系统运行知识、日常运维报告等等重要数据,所以就围绕此来定义系统的数据挖掘目标,以下简要论述三点目标。
第一,以定位系统性能瓶颈为目标。应该说,IT基础设施监控系统的整体效能一定是存在瓶颈的,如果基于CRISP DM标准,通过数据挖掘来定位系统瓶颈是可行的,因为它能够及时补充系统中所匮乏的对应资源。在大型交易系统中,就常常利用数据挖掘来扩大系统内存容量、增加磁盘列阵或直接对网络设备实施升级。
第二,以评估系统生命周期为目标。随着国民经济的不断进步,目前国内网络交易的会员数量明显在增加,交易品种也在不断丰富完善,因此这必然会造成对系统负载的加大。如果基础设施监控系统潜能被过分应用直至殆尽,就必须对其进行更新换代。在这里,数据挖掘技术就可以通过CRISP DM标准来评估系统寿命。
第三,以优化人力资源配置为目标。围绕人力资源配置展开的系统维护任务主要有3个部分:主机、数据库与网络,系统维护人员的配置完全根据系统技术实施难度和故障频率来确定。在这里采用数据挖掘技术,就能及早发现系统中可能存在故障的基本发生规律,从而对人力资源配置实现优化[2]。
2.2 模型建立
模型建立阶段要采用多种建模技术,并将模型参数校准到最佳值。具体来说,相同数据挖掘问题下是存在多种建模技术的,这些建模技术都可以围绕数据格式来提出其对应的要求,所以在这一阶段首先要准备数据。
以负载模型为例,它其中就包括了对网络设备CPU的利用率和缓存利用率分析,基于CRISP DM为其进行时序数据定位,根据时间变化序列值来检测CPU的程序端口实时状态,并对其数据进行现场处理。
为了降低IT基础设施监控系统中由于数据信息波动而造成的模型准确度偶然负面影响,就要对数据实施平滑处理,消除平滑效果,并同时保留负载曲线的趋势变化,选择3阶加权移动平均算法,假设加权系数分别为1、4、1其设计算式为:
除此之外,负载模型也能实现对系统瓶颈的定位、对系统总体负载趋势变化的获取等等。它最终应该有5项负载指标来组成负载模型曲线图,对IT基础设施监控系统进行总体负载趋势的有效规划[3]。
2.3 模型评价
在模型已经建立后,就进入模型的最终部署——评价阶段。一般情况下网络交易所为了保证自身的商业目的得以实现,都会通过模型来对市场进行全面评估,并审查模型中的每一个具体操作步骤,根据数据挖掘结果来得出相应结论,提出决策。
以故障模型为例,如果发现IT基础设施监控系统的网络故障要多于主机故障数量,则必须首先针对网络故障实施维护。另外,系统维护人员也可以根据一元性回归方程来预测系统的生命周期,确定其是否与预期评估相符。
2.4 实际部署
实际部署阶段就是将所建立的模型运用于真实的环境当中,所以基于数据挖掘的模型应用可以描述IT基础设施监控系统的可行性。如果系统中的操作有需要改进的地方则要根据CRISP DM流程标准进行相应改进,以确保监控系统应用的长期稳定。
3 结语
利用时序性数据挖掘技术可以解决IT基础设施监控系统中对历史数据和现有数据的深度挖掘,并建立模型实现对系统性能的高效发挥和维护。目前许多行业已经在采用这种基于数据挖掘技术的IT基础设施监控系统,这也证明了数据挖掘在当今社会各行各业发展的重要技术地位。
参考文献
[1]宋应湃,汪林林.数据挖掘技术在IT基础设施监控系统中的应用[J].计算机科学,2007,34(5):205-207.
[2]宋应湃,汪林林,宋华等.数据预处理在IT基础设施监控系统中的应用[J].计算机工程与设计,2007,28(15):3770-3772.
[3]罗美淑,刘世勇,夏春艳等.数据挖掘技术在教学评价中的应用研究[J].教育探索,2013(2):81-82.