使用“监控易”提升运维管理水平的研究
2019-09-10杨汝民
摘 要:随着信息化系统在企业各项业务中的深入应用,对运行业务的服务器、网络设备、数据库、中间件这些软硬件设备的连续性运行的要求也日益提高。对企业来说,每分钟的业务中断都可能意味着经济的损失。本文就企业的IT设备总量、设备类型,探讨如何更好地用监控措施实现管理提升。
关键词:监控;运维管理;智能化
中图分类号:TP311.52 文献標识码:A 文章编号:2096-4706(2019)22-0025-03
Abstract:With the in-depth use of information system in various business of enterprises,the requirement for continuous operation of servers,network devices,databases,middleware and other software and hardware devices running business is also increasing. Every minute of business disruption can mean economic losses for enterprises. In this paper,the total amount of IT equipment and equipment types of enterprises are discussed,and how to better use monitoring measures to improve management.
Keywords:monitoring;operation and maintenance management;intellectualization
0 引 言
在现在社会企业当中,IT部门承受很大的运维压力。每个运维人员通常要管理百台以上设备,完全依靠人工巡检,登录每个设备查看状态,忙碌程度可想而知。更重要的是,人工巡检间隔周期长,无法及时发现问题,通常是用户先发现业务出现问题,运维人员收到报告再进行处理。出现问题以后,故障定位有可能需要十几分钟、半小时,甚至更长时间。运维人员每天辛苦工作,可是得不到其他部门的认可,反而因为不断出现的问题和解决问题的低效而被抱怨。
北京基业共创科技发展有限公司2015年引入了美信监控易软件,目的是建设一个能满足“集中监控、主动预警、快速定位、随时管理”的现代化运维管理系统,并实现对北京本部和其他区域的统一监控、统一管理,全面提高工作效率。
1 系统介绍
1.1 面向运维管理需要的设计理念
监控易设计思想源于人工智能学习的方式,训练机器通过模仿去学习管理人员的操作方式,从而实现对整个系统的智能化监管掌控。在操作上需要将其安装到电脑系统主机当中,采用主动或被动的轮询方式,对平台上的信息以及多方位的数据进行收集,之后再通过实时传输将数据传给控制中心进行处理,从而完成报告和报警功能。
监控易在设计上采用了简易化的方式,以用户为主导,以系统为人服务作为基础理念,实现了用户的轻松操作,并能完成多人远程维护管理的任务。在平台管理当中,只需要动动手,就能轻松实现系统设置,对模块进行添加、删除等操作。
监控易把对IT基础架构和业务的管理、运维流程管理、可视化展现、移动运维有机结合在一起,既向管理层可视化展示IT业务运行的监控数据,又从IT基础架构层来分析IT业务系统的运行性能,同时为运维人员提供有针对性的预警和告警信息,既降低了故障发生率,缩短了故障定位时间,又给用户的IT规划和发展提供了支撑数据。
如图1所示,对IT基础架构的监控主要从三个方面来进行立体展示:
(1)采集层:采集路由器、交换机、防火墙、操作系统、数据库、中间件、存储、云平台,以及动环设备、物联网设备等的状态信息;
(2)监控层:统一对各类设备采集的监控状态进行处理,进行状态判断,实现告警和故障定位功能,以及提供IT业务监控和运维流程管理。如果要对IT业务进行数据监控,那么必须先从基础架构进行,对整体的数据分析进行处理,这样才能够得出有效的数据信息。此外就是通过模拟的方式,通过模拟用户的操作流程获得数据信息。后者更倾向于标准化采集与二次开发,需要对业务进行特定查询返回结果,模拟访问登录业务等,但整体上都能符合专业业务系统的监控;
(3)展现层:包括统一登录门户、大屏展示、视图和报表,以及APP移动运维功能。
1.2 先进的技术架构
使用C语言开发底层从而确保单台服务器在监控众多管理对象时仍能高效运行,采用自主研发的方式掌握核心技术,让架构能够达到1~2分钟进行一次轮询,重要指标能够在5秒内完成一次轮询。自主开发的数据库是专门针对运维大量数据频繁写入的需求设计的,数据写入可达百亿条,上万设备的监控也可以长期稳定运行,并且原始数据可以保留一年以上。
对分布式架构可以实现灵活支持。无论内网、公有云、私有云都可以实现分布式监控、集中管理。并且集中管理消耗网络资源很少,1000个设备上传状态和告警数据,带宽占用≤10kb/s。
1.3 全面深度的监控
深度监控可以分为以下几个方面,IT应用业务、操作系统层、基础网络层。详细内容则包括了自定义监控、网络设备监控、Web服务监控、Web Server监控、中间件监控、服务器监控、数据库监控,此外还能够进行物联网监控、动环监控等。由此能够提供一个平台替换多个平台的监控工作,极大地提升了工作的效率,降低了企业人力资源的消耗。
1.4 智能化事件告警机制
用户可以自行根据需求设置智能化事件告警管理机制,在故障发生之后或者是即将发生时发送警报给管理工程师,这样就能够让管理人员实时了解系统发生的问题,找到事故的原因进行及时处理。管理机制分为故障诊断工具、故障响应机制、事件日志管理机制、告警智能管理机制、组依靠告警机制等部分。
1.5 强大的报表展示门户
监控易在报表方面能够提供具有直观形式的视图管理,如业务组视图、监测点视图、管理对象视图、树形配置视图等。报表的形式主要分为历史分析报表、流量报表、趋势报表、实时报表等等,系统提供了丰富的管理视图与报表,能够极大地满足用户的需求。
1.6 VISIO应用拓扑图
系统管理人员可以自身需求为出发点,发布VISIO拓扑图导美信软件,然后通过应用拓扑图实时了解系统运行状况,并进行系统迅速定位故障排查。
1.7 完善的基础平台设计
这方面主要有开放式API接口、任务计划、安全性设计(详细)、用户权限分级管理体系等。
1.8 大型IT网络的分布式监控
监控软件的设计需采用三级架构设计,将模块功能分为界面表示层、统一接口层、检测服务底层。卓越的架构设计能够确保对大型IT网络采用分布式监控的方式实现集中管理。
2 系统实施
我单位从实际应用的角度着手应用了Windows服务器监控、Unix/Linux服务器监控、数据库监控(Sqlserver和Oracle)、中间件监控(Tomcat、Weblogic等)、防火墙监控。上述都是常规监控,因此并不做详述。
2.1 多网点地图
对我单位的全国各个网点进行统一地图展示。总部大屏能看到全国的设备状态。点击进入各个省市,可以看到该省市的设备状态。
这提供了直观的管理视图,可以对全国各个机构状态进行统一管理。我们的高级技术专家可以在北京总部为各个分支机构的技术人员提供指导,解决故障问题。同时,也可以看到各个分支机构IT设备运行的整体状况,对各地IT部门的工作进行整体评估。
2.2 网闸隔离区域的集中管理的实现方法
网闸也就是安全隔离网闸,由硬件与软件共同组成。网闸在硬件上主要是由内部外部处理单元、内部处理单元、隔离安全数据交换单元构成。
连接方式上采用“2+1”的主机架构方式,隔离网闸采用SU-Gap安全隔离技术,就能够创造出一个内外网物理断开的环境。
监控易实现对网闸隔离区域的集中监控,架构如图2所示。其优点是在符合安全规范的情况下实现了整体的集中化管理。
2.3 日志安全性监测方法与优点
Windows日志监测。通过对Windows日志进行监控,根据自己的用户习惯设置过滤条件,能够选择出不需要的内容,将其过滤掉后就能得到需要的。
Unix/Linux日志監测。通过脚本的方式对此类日志进行监测管理,无论事件日志如何变化,都能够提供匹配查询的方式,查询到自己需要的日志信息。
不间断扫描服务器系统日志能及时发现黑客行为,为系统信息安全提供有力保障,如若系统出现问题或安全事件日志,都能够被监测到并进行告警,维护工程师只需要根据告警的时间信息就能对系统进行修复安检,这种高效的快速排查方式能将故障影响降到最低。我单位原先采用的钉钉办公平台,系统部署采用的是美信开放API接口,能够很好地实现与钉钉办公平台接口的对接。
3 监控效果
3.1 部署前
3.1.1 被动管理
运维人员在用户提出问题后充当救火队员,内部用户业务和公司对外业务受到影响,造成经济损失,每个月都会出现某项业务中断半小时以上的状况,用户对IT部门也充满抱怨。
3.1.2 故障解决低效
解决故障主要的时间花费在逐项检查、故障定位。
3.1.3 人员效率低
IT人员每天要在机房和各个网点忙于重复性高且繁重的巡检工作,没有时间对IT业务做出其他贡献。一些高级技术人员也要分散在各地解决当地的故障问题。
3.1.4 IT决策缺乏合理性
网络带宽出现问题、业务性能出现问题时,通常只能通过增加带宽、增加硬件配置等IT资源来解决。解决后一段时间,问题往往重复出现。
3.2 部署后
3.2.1 主动式管理
IT部门能提前发现问题,防患于未然,甚至可以根据系统提供的业务性能分析设备历史数据,提前布局,优化IT整体性能。一年中,只出现几次网络故障引起的业务中断,并且都在十分钟内解决,IT部门工作得到各部门好评。
3.2.2 故障解决快速
系统中一键即可快速进行故障定位,并可看到业务线中所有出现问题的设备。故障平均解决时间比原来缩短了2/3。
3.2.3 人员效率提高
监控易系统自动完成设备巡检工作,及时、准确。IT人员只需关注收到的告警,即可保证业务不出现问题。使用APP移动运维,更是可以随时随地查看设备和业务的状态,不用枯守机房。IT人员可以将精力放在更有价值的工作上。高级技术人员在北京总部就可以指导各地解决问题。
3.2.4 IT决策更有针对性
可以确知问题根源,进行有针对性的调整,用最少的成本获得业务性能、网络性能的稳定提升。
4 结 论
现如今企业IT设备类型普遍增加,选择北京基业共创科技发展有限公司自主研发的监控系统,能够极大地提升系统运维水平,监控易实现了运维情况可视化、问题发现及时化、故障分析智能化,能使每个运维人员都成为数据专家,为各企业数据安全提供了更全面的安全保障。
参考文献:
[1] 史振霞,赵鹏飞.应用智能监控技术,提升“云”环境运维管理水平 [J].甘肃科技纵横,2017,46(3):11-13.
[2] 石国伟.信息运维系统的设计与实现 [D].西安:西安电子科技大学,2010.
[3] 徐谦.浅议效能监察在促进企业管理提升中的作用 [J].中国建材,2013(4):88-90.
[4] 陶克艳.以提升管理效率为目标的流程绩效监控体系研究与实践 [J].东方企业文化,2015(19):43-44.
作者简介:杨汝民(1968.12-),男,汉族,山西浑源人,高级工程师,本科,学士学位,研究方向:ITIL运维最佳实践。