基于专用网络的应用系统跨域集中监控系统设计与实现
2017-06-03霍胜杰
摘 要本文论述了基于专用网络的应用系统跨域集中监控系统的设计与实现技术。针对机房内的网络系统具有多安全域、跨网段节点、传输设备多样化等特点,从软件工程角度出发,介绍集中监控系统的组成及具体功能、核心技术及技术先进性,保证应用系统与数据的安全性与稳定性。
【关键词】应用系统 集中监控 跨域 运维
随着信息化工作的不断深入,每年都会有一批应用系统上线使用,为业务工作保驾护航,确保这些应用系统安全、稳定的运行,成为系统管理人员的日常维护工作的重要内容。而这些应用系统的系统架构与运行状态各不相同,其维护工作纷繁复杂。基于专用网络的应用系统跨域集中监控系统为针对应用系统群落多年建设运维过程中所积累的问题提供全面的解决方案,为及时排除应用故障隐患争取时间,为应用系统运维和管理工作提供强有力的技术支持。
本文第一部分为跨域集中监控系统的具体功能介绍,第二部分为核心技术,第三部分为技术先进性,最后一部分为结论。
1 具体功能介绍
系统采用B/S架构设计,主要包括如下五大功能模块:
1.1 综合监控系统
从总体上对系统的整体运行情况给出实时性的分析和报告,包括各类监控资源的运行状态,并以丰富的图表形式展现各类监控资产的报警信息,使系统管理人员可以全面的掌握各类业务系统的运行状况。
1.2 应用监控系统
主要对应用系统各组成部分及整体运行环境进行全面的实时监控和管理,将支撑各应用系统运行的网络、网络设备、硬件服务器、操作系统、数据库、中间件等各种软硬件资源进行监控,并将这些组成业务系统的IT资源按照其关联关系组成业务逻辑模型进行整体监控,同时针对不同的业务系统,按照具体业务系统分类,通过一定的定制开发形成面向业务端到端监控管理模式,并设定预警/报警阀值,根据安全策略进行预警和报警。
1.3 资源管理系统
主要实现对资产的分类管理,实现资产的登记注册、资产属性管理、监控规则、报警方式以及监控方式等的管理。同时提供对已经登记资产的导入、导出功能。
1.4 故障管理系统
智能识别各类不同来源的原始事件,通过内建的智能事件分析引擎,对标准化后的原始事件进行可靠过滤、重复压缩、对齐归并与依赖关联,自动修正告警记录,最终形成有效告警与事件记录,帮助系统管理人员进行后续维护提供有效的决策依据。
1.5 数据管理系统
主要为系统日常维护提供自动化帮助,按照设定的时间段以及设备的备份目录和清理标志完成操作日志、报警记录、监控记录的手动备份功能,运维数据以不可读文件的形式备份到指定的目录下,并支持数据还原操作。
2 核心技术
2.1 自动轮询监控采集
系统提供全面、细颗粒度的主机监测指标,通过SNMP、CLI、AGENT方式,能实现对Windows、UNIX、Linux、AIX等各种操作系统的主机的关键资源的自动监控,实现对服务器系统的基本信息和运行狀态的监控,能够支持各种服务器系统的32位或64位系统。对于所有监控的操作系统均支持对操作系统错误日志的监测,获得服务器的配置信息,并且进行实例化、对象化的处理。
2.2 Arbiter告警平台
整个运维平台以事件为驱动,统一事件平台实现对各类告警的接收、识别、标准化、过滤、压缩、丰富、告警等功能,并与服务流程管理子系统衔接进行工单派发。对于统一接入的故障,系统根据预设的故障过滤规则、相关性处理规则、关联规则、归并规则,自动对故障进行处理。
2.3 BPM流程引擎
在内置标准流程的基础上,系统还提供了BPM流程引擎供用户进行“随需而变”的业务流程设计,满足个性化的业务流程需求。该引擎完全通过Web可视化设计界面,实现流程、表单、数据字典快速建模和拖拽式的流程设计功能,可实现流程跳转、流程环节的执行人、流程环节的执行优先级等定义,协调组成工作流的四大元素,即人员、资源、事件、状态,推动流程的发生、发展、完成,实现全过程监控。
3 技术先进性
基于专用网络的应用系统跨域集中监控系统采用目前较为流行和领先的自动轮询监控机制和告警机制,同时采用灵活多变的流程引擎控制,其效果比较明显,适用信息化部门对较大规模机房设备及应用系统的管理,具有参考借鉴价值。其创新性主要体现在以下几个方面:
3.1 支持单向隔离设备的安全域间链路传输数据的采集与监控
在网络应用系统中,不同安全域间的数据类型不同,且数据间的传输在一定范围内是只能单向的、不可逆的过程。基于专用网络的应用系统跨域集中监控系统通过部署在单向隔离设备两端BCC数据库,一旦链路出现故障,可以利用数据同步功能将告警信息展现出来,供链路维护人员及时判断故障所在,从而实现单向隔离网闸链路运行状况的监控。
3.2 支持跨网段多操作系统运维数据的采集与监控
网络应用系统具有多安全域、跨网段节点、传输设备多样化等特点,基于专用网络的应用系统跨域集中监控系统通过代理设置,支持在不同安全域内的应用系统的监控与运维。经测试,可充分实现对不同区域下各种操作系统的监控,保证应用系统与涉密数据的安全性与稳定性。
4 结论
基于专用网络的应用系统跨域集中监控系统对被监控的节点采用探针管理模式,服务器端可挂载10个采集探针,每个采集探针至少可监控100个监控资源节点,每个节点可添加5到15个检测器,累计可监控数千个采集节点,且支持至少50人并发操作,在不大于100个用户并发登录时,页面响应时间小于5秒,从监控系统探测到故障发生到界面显示告警信息的时间(指设备上传告警到支撑系统显示告警)小于1分钟;在网络告警风暴情况下,该响应时间不超过3分钟,有助于系统管理人员迅速作出判断,查找故障来源,寻找应对策略。目前完全能够满足当前机房运行环境中需要被监控的资源数目,并支持大范围扩展。
参考文献
[1]吴超.远程监控集中管理平台的设计与实现[J].港口科技,2015.
[2]张先哲.信息系统安全运维管理平台建设研究[J].软件工程师,2015.
[3]李荣华.基于ITIL的IT运维管理系统的设计与实现[D].北京邮电大学,2010:13-15.
作者简介
霍胜杰(1985-),男,河南省鹤壁市人。助理工程师。硕士研究生。研究方向为计算机应用。
作者单位
上海现代信息技术研究所 上海市 200000