IT设备数据管理技术应用浅析
2014-03-31赵旭
赵旭
【摘 要】介绍了IT设备数据管理技术在通信系统中的应用场景和数据分析方法,并对IT设备数据管理中设备性能数据采集、告警信息处理、消息处理引擎等方面进行具体分析,最后测试了IT设备数据管理技术的实用效果。提出将复杂的IT服务设备数据处理技术应用到企业业务系统中,通过对IT服务设备数据的分析处理,能够及时获取最准确的故障定位信息,大幅提升了运维管理水平。
【关键词】IT设备数据管理 轮询 告警 消息处理引擎
中图分类号:TP399 文献标识码:A 文章编号:1006-1010(2014)-03-
1 背景
伴随着通信技术的飞速发展,2G、3G、4G网络势必并存共生,每个运营商都面临业务支撑系统、内部OA系统、用户数据库、大数据信息中心等诸多IT系统的复杂格局,每个上规模的企业也都面临IT设备庞杂、亟需与云计算和大数据库连接等情况。IT设施规模的强大与复杂,给信息系统的运行安全、故障定位、信息监控带来了全新的挑战,增加了运维管理的难度。
目前市场上初步具备对主机、网络设备、数据库和业务系统进行监控管理的能力。但由于监控工具众多而分散,缺乏统一的监控数据集中展示和管理平台,导致现有的监控手段不能很好地在运维流程中发挥更大的作用。同时,对于不同的IT服务设备产生的告警和性能信息的处理工作日益复杂,也给通信系统IT运维管理工作提出了新的难题。因此,有必要研究如何提高对IT设备数据处理能力,以切实有效提高IT管理及业务服务能力,确保信息系统的安全稳定运行。
鉴于此,本文研究将IT服务设备数据处理技术与系统建设结合起来,通过分析IT服务设备数据的特点,提出将复杂的IT服务设备数据处理技术应用到企业业务系统中,对企业的运维管理进行辅助处理,提高企业IT设备故障处理的效率,并降低企业运维管理的难度。
2 IT设备数据处理技术介绍
2.1 IT设备数据来源和类型的定义
这里IT服务设备数据的来源主要包含以下类型:
(1)主机设备,包含小型机、PC服务器、VM、LPAR等;
(2)软件实例,包含操作系统类、数据库类、中间件类、用软件类等;
(3)网络安全设备,包含交换机设备、路由器设备、漏洞扫描设备、审计设备、入侵检测设备、VPN、防火墙设备、负载均衡等;
(4)存储设备,包含磁盘阵列、带库、光纤交换机等;
(5)环境设备,包含UPS、空调、机柜、配电柜等;
(6)业务服务类,包含基础的业务系统等。
以上这些设备在运行当中,最为重要的是性能数据和告警数据。而这些数据一般由不同的监控工具获取,各自独立存在,数据之间缺乏有效关联,对IT设备的故障排查、问题定位造成难题。
2.2 IT设备数据处理的主要方法
(1)列表法
列表法是记录和处理实验数据的基本方法,也是其他实验数据处理方法的基础。将实验数据列成适当的表格,可以清楚地反映出有关物理量之间的一一对应关系,既有助于及时发现和检查实验中存在的问题,判断测量结果的合理性;又有助于分析实验结果,找出有关物理量之间存在的规律性。一个好的数据表可以提高数据处理的效率,减少或避免错误。
(2)作图法
利用实验数据将实验中物理量之间的函数关系用几何图线表示出来,这种方法称为作图法。它是一种被广泛用来处理实验数据的方法,不仅能简明、直观、形象地显示物理量之间的关系,而且有助于研究物理量之间的变化规律,找出定量的函数关系或得到所求的参量。同时,所作的图线对测量数据可起到取平均的作用,从而减小随机误差的影响。此外,还可以作出仪器的校正曲线,帮助发现实验中的某些测量错误等。因此,作图法不仅是一个数据处理方法,而且是实验方法中不可分割的部分。
(3)逐差法
逐差法是物理实验中处理数据常用的一种方法。凡是自变量作等量变化而引起应变量也作等量变化时,便可采用逐差法求出应变量的平均变化值。该方法计算简便,特别是在检查数据时可随测随检,及时发现差错和数据规律。更重要的是可以充分地利用已测数据,并具有对数据取平均的效果。还可绕过一些具有定值的求知量而求出所需要的实验结果,以减小系统误差和扩大测量范围。
(4)最小二乘法
把实验的结果画成图表固然可以表示出物理规律,但是图表的表示往往不如用函数表示来得明确和方便,所以从实验的数据求经验方程也称为方程的回归问题,变量之间的相关函数关系称为回归方程。
3 IT设备数据处理系统的总体描述
3.1 IT设备性能数据的处理
IT设备性能数据的采集和处理是IT设备管理的重要环节。IT设备性能数据处理架构如图1所示。首先采集层根据性能数据采集的需求(数据量和采集周期),发出数据采集的请求,采用轮询服务和参数拼接对底层数据源进行性能数据采集。采集结果通过接口适配器传输给处理单元,对采集的性能数据进行基本的解析和分类。性能数据的采集和分类是周期轮询式进行的,每次采集的数据要经过汇总、归档,分类存入数据库中。最后,根据数据库中存储的性能数据,采用数据分析的各种方法对这些数据进行处理,达到监控和分析IT设备性能的作用。
(1)轮询采集
性能数据的轮询采集方案采用条件判断的方法,当满足轮询公式条件时则采集,不满足时则等待下一次判断。
轮询公式:指标采集频率+指标最后采集时间VS当前日期
判断频率:1分钟
◆大于:不处理,等待下一次判断
◆等于:发出采集请求
◆小于:发出采集请求
示例:
指标:CPU使用率endprint
采集频率:5分钟
最后采集时间:10:01
5+10:01>10:05 等待
5+10:01=10:06 发出采集请求
5+10:01<10:08 发出采集请求
(2)数据量
IT性能数据的采集量很大,估算其数据量可以大致了解需要的数据资源。
◆数据数量
IT设备性能数据约35个分类,共6.2万个性能指标,按每5分钟采集一次数据,则每年数据数量为:
6.2万*12次/小时*24小时/天*365天/年≈65亿/年
按上限浮动20%计,则:
65亿*2年*120%=156亿/两年
◆数据大小
按每条性能数据的大小为50Byte计,则:
156亿*50Byte/条=7800亿Byte≈726GByte
◆带宽要求
每5分钟取一次数据,则:
6.2万÷(60秒/分*5分)*50Byte=10333Byte≈
10KByte/秒
现有网络与硬盘带宽完全可以满足此速度要求。
(3)归档存储
鉴于当前数据量巨大,且早期的明细数据对系统本身并无实际意义的情况,系统设计为只存储最近3个月的活跃数据到数据库,其他18个月的明细数据采用文件存储,供后续使用。具体的存储方案设计如下:
◆活跃数据存放在单一表空间内;
◆明细数据按月存放,共3个月的数据表;
◆每个月末删除第3个月的数据表,同时新建下个月的空白表;
◆独立表存放性能指标最近2小时的明细数据:6.2万*12*2=148万;
◆独立表存放性能指标最近48小时的小时平均数据:6.2万*48=297万;
◆独立表存放性能指标天的平均数据:6.2万*365日/年*2=4500万;
◆每日凌晨1点计算上一天平均数据;
◆独立表存放性能指标周的平均数据:6.2万*4*12*2=595万;
◆每周一凌晨3点计算上一周平均数据;
◆独立表存放性能指标月的平均数据:6.2万*12*2=148万条;
◆每月的第一天凌晨4点计算上一个月的平均数据。
3.2 IT设备告警数据的处理
IT设备性能数据的监控除了为IT设备运行情况的分析提供数据基础之外,最重要的目的就是能够实时监测设备运行,在问题出现时第一时间发现故障。通信系统中IT设备的故障处理是以分钟甚至秒来计算的,能够第一时间响应设备故障并迅速作出应对,是成熟IT设备体系所必备的。该方案中设计的告警系统架构如图2所示。接收层持续对设备性能采集的数据进行解析和简单判别,当发现采集过程中出现了超出阀值的数据时,接收层启动级别映射,对告警级别进行初步判定,并通知持久层启动相应的告警流程。告警流程将告警信息与数据库比对,形成最终告警信息并通过展示层显示出来。同时,将该次告警信息的备份存入数据库,作为今后告警信息统计的基础。
(1)级别映射
IT设备监控管理系统的告警信息一般分为四个级别:严重、重要、一般、提醒。级别映射环节将分别收集整理底层监控工作的所有级别告警,并在系统的告警级别映射模块中搭建系统与底层工具的告警级别映射关系。该环节是获取原始告警信息后的第一个业务处理环节。
(2)告警过滤
◆系统支持对对象或对象组的过滤,比如定制单独针对小型机或针对小型机、PC机一起的过滤规则;
◆支持对IP、周期、级别、类型、业务系统、采集工具等的过滤;
◆支持对关键字的过滤;
◆支持对不同维度的交集或并集的联合过滤。
(3)次数过滤
◆鉴于底层采集工具中,告警次数过滤的算法参差不齐,初步确定在本系统中搭建一层次数过滤机制;
◆提供告警次数过滤的配置功能,一旦设定了次数,需要同类型的告警连续达到此数字才将告警抛出,否则将丢弃。
(4)压缩
◆告警数据压缩方式(见表1)
表1 告警数据压缩方式
序号 原告警级别 新告警级别 工具处理方式
1 某级别 相同级别 (1)告警状态:new→update;
(2)告警ID不变
2 高级别 低级别 (1)高级别告警会发出清除提示;
(2)在下一个采集频率,如低级别告警还存在的话,才会抛出
3 低级别 高级别 (1)系统会将告警级别升级,发出update提示;
(2)告警ID不变
◆对于来自不同的底层监控工具的告警数据,同样使用上述压缩方式,并需要分别确认:级别一致,则监控管理不需再做告警压缩策略;级别不一致,则需考虑弃用Tivoli(IBM的基础设施管理软件)内部的压缩机制,重新实现一套压缩策略,当然不排除根据个别情况单独补充。
(5)关联策略
◆对象指标关联
系统提供源指标和目标指标的配置功能。如在某时间段内,A对象的A1指标和B对象的B1指标均产生告警信息,而两个指标又存在关联关系,则报出A1指标告警,同时在告警内容中反映B1指标受关联的提示。
◆类型指标关联
在对象指标关联的基础上,提供根据主机或业务系统泛化功能,即:A对象所属类型中的A1指标对同属一台主机或同属一个业务系统内的B对象所属类型中B1指标存在关联关系。
(6)告警处理
◆自动处理endprint
支持对不同对象、级别、周期、类型、业务系统、采集工具等的并集或交集的处理策略。没有被处理策略覆盖到的告警,系统不做处理,可以采用手工处理方式。
◆手动处理
系统提供手工处理的功能。
(7)告警清除
◆自动清除(建议)
系统根据底层工具传递过来的处理标识,做自动清除工作。
◆人工清除
对于人工清除系统有严格的限制,在这三种情况之外的才可以手动清除:告警级别为严重或重要级别的不能清除;已转工单的告警不能清除;告警单中‘解决方案和‘处理意见为空时,不能清除。
3.3 消息处理引擎
消息处理引擎实质上是一个在后台专门负责处理各种消息的系统,如图3所示。它可以根据接收到的消息(轮询指令、告警处理、系统查询等)按照事先定义的事务流程(即规则)进行处理。因此,消息处理引擎包括两大部分内容:一是实时监督检测是否有需要处理的流程;二是按照配置好的规则处理各类消息。
该IT设备处理的方案中,采用可编程模型配置消息处理规则,并形成模块化结构,方便按需搭建各种规则,其中包括:自我监控支持、开发多线程支持、任务调度支持、访问认证支持、失败恢复支持、断电恢复支持、灵活部署安装。
按照消息处理引擎的配置规则,当整个IT设备系统出现消息处理请求时,消息处理引擎将处理请求分为自动处理和手动处理。自动处理的在IT设备管理软件内部完成;需要手动处理的,则会按照指定的规则分配给相应的关键人。具体到实际,表现为能够及时通知事先设定好的关键人,并准备好消息处理界面,供关键人作出快速响应。
4 测试与分析
针对IT设备管理系统的测试通常采用随机抽查的方式,人为造成某个设备“故障”,检测管理系统的灵敏度和反馈方式。基于此,选择凌晨话务量最少的时段对某地机房的三个随机设备进行人为“误操作”,测试管理系统。
“误操作”后,告警信息在一分钟后及时发到了相关关键人的手机上。这其中包括:
(1)轮询监控发现设备性能指标异常并定位和上报;
(2)告警系统及时响应,判定为重要告警,生成告警信息;
(3)消息处理引擎按照配置规则,将告警信息及时通报给关键人,并建立告警档案以备查询。
测试结果表明,该IT设备管理系统能够有效监控IT设备性能并及时完成告警指示。图4为测试中的系统拓扑图:
5 总结与展望
本文主要分析和论述了IT服务设备的性能数据和告警数据的处理方法及基本方案。通过引入先进的IT设备数据处理技术,在IT运维管理上对问题定位和及时响应起到决定性作用,大幅提高了整个运维工作效率,提升了运维管理水平,为通信设备的信息化管理起到了积极促进的作用。
但是,由于IT设备的复杂性以及底层监控工具的多样性,目前IT服务设备数据处理技术的公用性和通用性还存在着一定的缺陷,如跨平台监控工具之间难以达到互联互通、不同平台监控信息处理流程差异导致某些信息不能及时反馈等,这些都是IT设备数据处理技术有待提升和优化的方面。后续建议业界考虑对IT服务设备的属性数据进行进一步研究,一方面,合并、优化数据类型;另一方面,考虑性能数据、告警数据格式和流程的跨平台整合,为IT运维管理水平的提高起到积极的促进作用。
参考文献:
[1] 陆冰芳. 虚拟化环境下的IT资源监控与性能提升分析[J]. 广西电业, 2013(10): 82-88.
[2] 刘桂开,高蕾. 基于弹性定额值的分组轮询调度算法[J]. 计算机科学, 2013(8): 72-78.
[3] 王伟,娄一艇. 基于实时数据的统一告警平台的研究[J]. 浙江电力, 2013(10): 66-69.
[4] 吕铭刚,吕佳珩,王玮. 关于调控系统告警信息优化的几点研究[J]. 电子世界, 2013(20): 243-244.
[5] 黄建设. 基于移动互联网时代的IT系统与维护实训室的改建方案[J]. 福建电脑, 2013(9): 184-185.★endprint
支持对不同对象、级别、周期、类型、业务系统、采集工具等的并集或交集的处理策略。没有被处理策略覆盖到的告警,系统不做处理,可以采用手工处理方式。
◆手动处理
系统提供手工处理的功能。
(7)告警清除
◆自动清除(建议)
系统根据底层工具传递过来的处理标识,做自动清除工作。
◆人工清除
对于人工清除系统有严格的限制,在这三种情况之外的才可以手动清除:告警级别为严重或重要级别的不能清除;已转工单的告警不能清除;告警单中‘解决方案和‘处理意见为空时,不能清除。
3.3 消息处理引擎
消息处理引擎实质上是一个在后台专门负责处理各种消息的系统,如图3所示。它可以根据接收到的消息(轮询指令、告警处理、系统查询等)按照事先定义的事务流程(即规则)进行处理。因此,消息处理引擎包括两大部分内容:一是实时监督检测是否有需要处理的流程;二是按照配置好的规则处理各类消息。
该IT设备处理的方案中,采用可编程模型配置消息处理规则,并形成模块化结构,方便按需搭建各种规则,其中包括:自我监控支持、开发多线程支持、任务调度支持、访问认证支持、失败恢复支持、断电恢复支持、灵活部署安装。
按照消息处理引擎的配置规则,当整个IT设备系统出现消息处理请求时,消息处理引擎将处理请求分为自动处理和手动处理。自动处理的在IT设备管理软件内部完成;需要手动处理的,则会按照指定的规则分配给相应的关键人。具体到实际,表现为能够及时通知事先设定好的关键人,并准备好消息处理界面,供关键人作出快速响应。
4 测试与分析
针对IT设备管理系统的测试通常采用随机抽查的方式,人为造成某个设备“故障”,检测管理系统的灵敏度和反馈方式。基于此,选择凌晨话务量最少的时段对某地机房的三个随机设备进行人为“误操作”,测试管理系统。
“误操作”后,告警信息在一分钟后及时发到了相关关键人的手机上。这其中包括:
(1)轮询监控发现设备性能指标异常并定位和上报;
(2)告警系统及时响应,判定为重要告警,生成告警信息;
(3)消息处理引擎按照配置规则,将告警信息及时通报给关键人,并建立告警档案以备查询。
测试结果表明,该IT设备管理系统能够有效监控IT设备性能并及时完成告警指示。图4为测试中的系统拓扑图:
5 总结与展望
本文主要分析和论述了IT服务设备的性能数据和告警数据的处理方法及基本方案。通过引入先进的IT设备数据处理技术,在IT运维管理上对问题定位和及时响应起到决定性作用,大幅提高了整个运维工作效率,提升了运维管理水平,为通信设备的信息化管理起到了积极促进的作用。
但是,由于IT设备的复杂性以及底层监控工具的多样性,目前IT服务设备数据处理技术的公用性和通用性还存在着一定的缺陷,如跨平台监控工具之间难以达到互联互通、不同平台监控信息处理流程差异导致某些信息不能及时反馈等,这些都是IT设备数据处理技术有待提升和优化的方面。后续建议业界考虑对IT服务设备的属性数据进行进一步研究,一方面,合并、优化数据类型;另一方面,考虑性能数据、告警数据格式和流程的跨平台整合,为IT运维管理水平的提高起到积极的促进作用。
参考文献:
[1] 陆冰芳. 虚拟化环境下的IT资源监控与性能提升分析[J]. 广西电业, 2013(10): 82-88.
[2] 刘桂开,高蕾. 基于弹性定额值的分组轮询调度算法[J]. 计算机科学, 2013(8): 72-78.
[3] 王伟,娄一艇. 基于实时数据的统一告警平台的研究[J]. 浙江电力, 2013(10): 66-69.
[4] 吕铭刚,吕佳珩,王玮. 关于调控系统告警信息优化的几点研究[J]. 电子世界, 2013(20): 243-244.
[5] 黄建设. 基于移动互联网时代的IT系统与维护实训室的改建方案[J]. 福建电脑, 2013(9): 184-185.★endprint
支持对不同对象、级别、周期、类型、业务系统、采集工具等的并集或交集的处理策略。没有被处理策略覆盖到的告警,系统不做处理,可以采用手工处理方式。
◆手动处理
系统提供手工处理的功能。
(7)告警清除
◆自动清除(建议)
系统根据底层工具传递过来的处理标识,做自动清除工作。
◆人工清除
对于人工清除系统有严格的限制,在这三种情况之外的才可以手动清除:告警级别为严重或重要级别的不能清除;已转工单的告警不能清除;告警单中‘解决方案和‘处理意见为空时,不能清除。
3.3 消息处理引擎
消息处理引擎实质上是一个在后台专门负责处理各种消息的系统,如图3所示。它可以根据接收到的消息(轮询指令、告警处理、系统查询等)按照事先定义的事务流程(即规则)进行处理。因此,消息处理引擎包括两大部分内容:一是实时监督检测是否有需要处理的流程;二是按照配置好的规则处理各类消息。
该IT设备处理的方案中,采用可编程模型配置消息处理规则,并形成模块化结构,方便按需搭建各种规则,其中包括:自我监控支持、开发多线程支持、任务调度支持、访问认证支持、失败恢复支持、断电恢复支持、灵活部署安装。
按照消息处理引擎的配置规则,当整个IT设备系统出现消息处理请求时,消息处理引擎将处理请求分为自动处理和手动处理。自动处理的在IT设备管理软件内部完成;需要手动处理的,则会按照指定的规则分配给相应的关键人。具体到实际,表现为能够及时通知事先设定好的关键人,并准备好消息处理界面,供关键人作出快速响应。
4 测试与分析
针对IT设备管理系统的测试通常采用随机抽查的方式,人为造成某个设备“故障”,检测管理系统的灵敏度和反馈方式。基于此,选择凌晨话务量最少的时段对某地机房的三个随机设备进行人为“误操作”,测试管理系统。
“误操作”后,告警信息在一分钟后及时发到了相关关键人的手机上。这其中包括:
(1)轮询监控发现设备性能指标异常并定位和上报;
(2)告警系统及时响应,判定为重要告警,生成告警信息;
(3)消息处理引擎按照配置规则,将告警信息及时通报给关键人,并建立告警档案以备查询。
测试结果表明,该IT设备管理系统能够有效监控IT设备性能并及时完成告警指示。图4为测试中的系统拓扑图:
5 总结与展望
本文主要分析和论述了IT服务设备的性能数据和告警数据的处理方法及基本方案。通过引入先进的IT设备数据处理技术,在IT运维管理上对问题定位和及时响应起到决定性作用,大幅提高了整个运维工作效率,提升了运维管理水平,为通信设备的信息化管理起到了积极促进的作用。
但是,由于IT设备的复杂性以及底层监控工具的多样性,目前IT服务设备数据处理技术的公用性和通用性还存在着一定的缺陷,如跨平台监控工具之间难以达到互联互通、不同平台监控信息处理流程差异导致某些信息不能及时反馈等,这些都是IT设备数据处理技术有待提升和优化的方面。后续建议业界考虑对IT服务设备的属性数据进行进一步研究,一方面,合并、优化数据类型;另一方面,考虑性能数据、告警数据格式和流程的跨平台整合,为IT运维管理水平的提高起到积极的促进作用。
参考文献:
[1] 陆冰芳. 虚拟化环境下的IT资源监控与性能提升分析[J]. 广西电业, 2013(10): 82-88.
[2] 刘桂开,高蕾. 基于弹性定额值的分组轮询调度算法[J]. 计算机科学, 2013(8): 72-78.
[3] 王伟,娄一艇. 基于实时数据的统一告警平台的研究[J]. 浙江电力, 2013(10): 66-69.
[4] 吕铭刚,吕佳珩,王玮. 关于调控系统告警信息优化的几点研究[J]. 电子世界, 2013(20): 243-244.
[5] 黄建设. 基于移动互联网时代的IT系统与维护实训室的改建方案[J]. 福建电脑, 2013(9): 184-185.★endprint