APP下载

信息机房综合报警系统的设计和实践

2014-03-14王旭亮

电脑与电信 2014年6期
关键词:服务端机房客户端

王旭亮

(山西义棠煤业有限责任公司,山西 介休 032000)

信息机房综合报警系统的设计和实践

王旭亮

(山西义棠煤业有限责任公司,山西 介休 032000)

近年来,煤炭企业信息化不断建设,各种主机长时间运行会出现软、硬件异常。但由于目前监控主机数量多,存放场所不集中,机房监控员不能实时实地进行综合监管,导致被监控系统的实时信息不能及时获取,对安全生产造成了严重影响。基于此,将各种监控主机进行联网,对监控主机进行异常状态监控,实现信息化机房综合报警系统的建设开发是保障煤炭企业信息监控机房安全新的课题。实现方法是利用高级语言编程,如利用.net编程与数据库技术,通过网络技术对各种监控主机进行实时的软硬件异常监测,形成机房综合预警系统,达到机房“一人监管,多点监测”的机房新型管理模式。

综合报警煤矿;信息化;机房;系统规划

1.引言

1.1 研究的背景和意义

随着煤炭企业自动化系统、计算机网络系统的不断建设应用,信息化、工业化在煤炭企业呈百花齐放的状态,各级管理技术人员对监控系统的认识观念不断提升,提出了监控系统新的报警维护管理模式,形成中、小型企业特有的机房监控自检、预警系统的软件项目,将分散的各个监测监控系统称为被监控客户端,对应到局部的监控自检管理服务端,实现了在服务端集中监控管理的模式。

这种集中监控管理与人工看守式管理在模式上不同,更大的区别是监控系统综合报警系统能够实现自动实时监控,当被监控主机的硬件、网络、软件或者是被监控系统内部的系统报警(下位机异常报警)有异常情况时,综合报警系统将作出快速响应,及时上传到管理服务端。从根本上改变了传统的人工监管模式,比如在过去人工看管各个被监测系统时,需要定时定点进行报表记录,针对时间段内的系统运行情况,异常情况等进行一一记录。采用监控综合报警系统后,进行了实时监控,自动记录,形成了以日报表的形式存储并可以进行历史调用、打印。在被监控设备可靠性不断提高的基础上,全面提高各个监控系统的安全可靠性,进而也更新了过去人工看守式的维护观念,建立新的监测监控制度。

1.2 当前现状分析

经过多年的发展,煤炭信息管理系统建设已经初具规模。信息系统的发展经历了从单机系统、局部网络系统到整个部门统一信息系统的多个阶段。但是,煤炭信息管理系统的建设涉及面广、信息量大、数据交换频繁。由于受资金和管理模式的影响,现行信息管理系统的建设存在的问题很多。比如业务流程不规范,多个系统分部门、分场所管理,造成监控人员配备多;管理模式和业务流程不规范造成系统报警信息不能互相传达;还有一些地方在系统建设之初,由于缺乏充分的需求分析,造成系统稳定性不足。

针对上述问题,将各种监控系统进行统一联网,进行集中管理,对监控主机进行异常状态实时监测,实现信息化机房的综合报警系统的开发建设是保障煤炭企业各种监控系统长期有效运行的方法之一。利用高级语言如.net编程与数据库技术,通过网络技术对各种监控主机进行实时的软硬件异常监测,形成机房综合报警系统,达到机房“一人监管,多点监测”的机房新型管理模式。

1.3 主要故障风险分析

煤炭企业自动化程度的提高,推进了信息化机房的建设,经过调查,煤炭企业信息化机房中运行的业务服务器、监控主机数量处于递增的状态。主要有各种信息化系统平台、千兆工业以太网、井下人员定位系统、井口射频卡检测平台、皮带保护系统、视频监控系统、井下广播系统、无线通讯系统、视频录像系统、程控调度通讯系统、产量监控系统和安全综合监控测系统(瓦斯监控系统),瓦斯抽放系统、污水处理系统。随着公司信息化建设的不断延伸,建立了内部ERP(办公平台),架设了WEB与FTP服务器。下面列举部分系统平台名称及被监测主机数量,如表1。

表1 部分系统平台名称及被监测主机数量

各种监控系统的建设应用,为煤炭企业的安全生产提供了参考依据,也为决策分析提炼了相应的数据。但各个监测监控系统的上位机在机房中由于24小时不间断运行,监测监控主机设备、软件在长时间运行的情况下,不定期地会出现各种故障。如:

(1)监控软件自动关闭;

(2)监控软件获取的下位机异常报警不能及时排除(监控员脱岗或忽视故障等现象);

(3)数据采集服务停止;

(4)数据库连接中断;

(5)网络中断。

由于在各个监测监控系统的软、硬件不定期地会产生各种故障,当故障发生时,如不能够及时发现,将不能够对监控数据进行完整统计,为决策管理提供的参考信息会大打折扣,同样也造成了安全隐患。主要体现在以下几点:

(1)造成了实时数据丢失;

(2)造成了历史记录不完整;

(3)造成了设备财产损失;

(4)影响了调度及时指挥;

(5)形成了安全生产隐患。

图1 预警软件工作流程

根据以上现象,将各个分监控系统上运行预警软件,监控系统上的异常信息实进传送到中心服务端,在中心服务端上进行综合预警与监测,并能以图形、声音的方式进行报警,见图1。系统自身下位机报警等),报警软件客户端第一时间将异常信息反馈回监控报警服务端,监控报警软件服务端作出异常报警,并具有报警类型、报警级别,同时将报警信息记录数据,以便日后作历史查询。最终达到“多个系统,集中监控;异常信息,及时处理”的效果,为煤炭企业信息监测监控系统的系统完整性、稳定性起到决定性作用。

(1)稳定性:机房监控综合报警系统具备运行稳定,并不影响各被监测系统的正常运行,软件不与被监测系统运行时所需的服务、控件等产生软件冲突,客户端软件运行时在正常进行系统自检的时候不会产生超过3M的内存使用率,并具有定时优化内存占用功能。

(2)智能性:机房监控报警系统具备智能判断功能,对网络中断、被监控软件停止运行、服务关闭、硬件温度过高等作出智能判断,分清故障类别。

(3)实时性:机房监控报警系统具备异常报警及时传输功能,当被监测端发生软、硬件异常时,监控自检客户端在不大于10s的时间范围内传回中心数据库,之后监控报警服务端软件在不大于5s的时间范围内将中心数据库的数据读取并做出报警,便于监控员在第一时间获取发生故障的被监控主机的详细异常信息,及时通知维护人员以故障处理流程进行异常排除。

煤炭企业的机房监控报警系统以各个信息化、自动化监控系统为基础内容,通过对各个被监测的监控系统进行异常状态监测,形成煤炭企业特色的机房监控报系统软件平台,以“多个系统,集中监控;异常信息,及时处理”为主导思想,进行煤炭企业机房监控自检系统软件项目的开发,见图2。

图2 煤炭企业监控综合报警系统软件流程图

2.机房监控系统综合报警的实现方法

2.1 建设思路

机房监控综合报警系统要建成为实时监测各个工业化、信息自动化系统的监控主机(上位机及下位机)软、硬件运行情况,当被监测系统发生软、硬件异常时(如被监测软件停止运行、网络中断或者通讯中断、被监控主机硬件异常、被监控

2.2 解决方法提纲

(1)软件监控:对被监测软件运行进程名称,运行服务名称进行分析;

(2)网络监控:对被监测主机网络中断、异常进行监测;

(3)硬件监控:对被监控主机硬件(CPU、硬盘、主板等)进行温度异常监测;

(4)优化平衡:监控报警系统软件具备软件自身故障排查,保证软件运行效率。

2.3 综合报警系统软件建设规划

(1)需求分析:完成软件总体需求分析,统计出需进行自检的系统数量及需自检的软件类型;

(2)总体系统设计:完成软件总体框架的设计、完成与数据库接口设计;形成客户端与监控端模块设计;

(3)编码:进行软件代码开发,完成功能模块;

(4)预留接口:为后续需报警的监控子系统预留接口;

(5)测试:对系统进行测试。

2.4 开发工具

(1)程序设计。采用先进的.NET环境作为软件开发平台,利用VS2005作为具体开发工具,用VB.net作为软件开发语言。

(2)系统数据存储:采用SQL SERVER2008作为数据存取库。数据资源存储在煤炭公司内部的磁盘阵列中。

3.系统实现关键步骤

3.1 机房综合报警系统客户端开发

被监测端作为监控综合报警系统软件的核心功能端,以下通称为客户端软件,被监测主机的异常信息都将由客户端将监测的到异常信息进行捕获,并及时将异常信息发送到中心数据库,供监测综合报警服务端进行判断并报警,客户端软件运行时自动运行在任务栏左下侧,不影响被监测系统的界面显示。客户端将对被监测系统的以下情况作异常监测:

(1)被监控系统进程监测

获取被监测各监控系统的进程名称,存入客户端自带的Access数据库中,客户端软件定时(默认为5S,并可根据实际情况进行自定义设置)进行检查系统进程中有无进程名称,如检测到进程列表中没有被监测的进程名称,将该异常信息保存到中心数据库中,保存格式以计算机名称(被监测系统名称)+异常情况+异常发生时间,当监控人员将异常问题处理以后,客户端软件将会在进程列表中捕获到被监控系统的进程名称,同时将存入到中心数据库的异常记录删除,以消除异常报警。如图3:

图3进程监控

例如视频监控系统的自检流程:视频监控系统DVR1主机录像软件的进程名称为NetControl.exe,监控报警客户端将该进程名预先在客户端定义保存,程序运行后,当在进程列表中找不到NetControl.exe名称的进程时,将以DVR1+停止录像+发生时间的格式发送到中心数据库异常信息表中。当客户端软件检测到异常消除时,将自动将中心数据库中的异常记录清除。

(2)被监控系统自身异常报警监测

各种信息化系统在运行时,下位机都会不定期地发生各种故障,这些故障异常通常都会被自身的监控软件采集并进行提示报警,可以通过监控报警系统软件客户端将各个信息化、自动化系统的监控软件在运行时获取的异常信息进行数据采集,形成对接接口,定时将各个被监测系统的异常信息发送到中心数据库,便于监控员统一监控,及时发现、处理各个系统的异常报警。

例如煤炭企业的人员定位系统,在井下基站断电时,报警系统客户端通过读取人员定位系统数据库,以基站编号+发生时间+报警类型的格式存储在数据表t_SiteStatus中。监控报警系统系统软件客户端定时读取被监测人员定位的数据库,当有异常记录时,将异常记录转存至监控报警系统软件的中心数据库中。当客户端软件检测到异常消除时,将自动将中心数据库中的异常记录清除。

(3)被监测系统硬件监测

监控报警系统软件客户端具有对被监测主机的硬件使用情况如CPU、内存、硬盘的占用情况进行定时检测,如当前的硬件占用率持续过高时,会将数据定时(每1h进行一次采样)发送到监控报警系统的中心数据库中。当客户端软件检测到异常消除时,将自动将中心数据库中的异常记录清除。

监控报警系统客户端还具备硬件温度监测功能,通过获取第三方软件的温度监测数据对主要硬件设备如CPU、硬盘、主板及CPU风扇转速进行监测,当硬件温度过高或转速变慢时,客户端软件将异常情况发送到监控报警系统软件的中心数据库中。当客户端软件检测到异常消除时,将自动将中心数据库中的异常记录清除。

(4)被监测系统网络状态监测

监控报警系统软件客户端具有对被监测系统网络进行全部的定向监测,当网络正常时,监控报警系统软件客户端会定时向中心数据库保存一条最近时间的记录,监控报警系统服务端将会根据数据库存取的时间与当前时间作对比,如大于5分钟,则说明网络连接断开或网络质量降低,进行网络异常报警。

网络监测采用Ping命令和定时利用SQL语名获取存储最后时间的方式进行网络正常与否的判断。如人员定位检卡器所用的网络IP为:192.168.20.66,监控报警系统客户端软件将定时(默认为10S)向中心数据库保存检卡器名称+ 192.168.20.66+保存时间的格式数据。当客户端软件检测到异常消除时,将自动将中心数据库中的异常记录清除。

3.2 机房监控报警系统中心数据库设计

中心数据库作为机房监控自检系统中的中间服务层,为整个系统的正常运行起到了核心作用,中心数据库用于保存各个客户端软件反馈回来的异常信息,以便监控报警系统服务端软件进行数理分析,进一步做出决策信息。

中心数据库采用SQL Server2008作为数据存储系统,在数据库中建立系统信息档案表jkzj_信息档案表,用于登记各个被监测系统的名称、IP地址、硬件设备信息、软件信息等;异常信息记录表jkzj_异常信息记录表,用于实时记录各个被监测系统的运行状态,存放客户端软件发送来的异常信息;历史记录查询表jkzj_历史查询表,用于历史查询记录。

3.3 机房监控报警系统服务端

服务端程序作为管理人员、监控员的统一的监控自检系统实时状态显示平台,它具备了从监控报警系统软件客户端实时获取各个被监测端的各类异常信息并进行列表显示、声音报警以及系统参数设置等功能。服务端程序首先以列表的形式显示当前有异常报警的被监测系统名称、异常状态、异常原因以及异常发生时间,同时以动画、声音提示报警信息,见图4。

图4 状态监控列表

3.4 预警软件稳定性设计

(1)兼容性检查:服务端程序和客户端程序在安装时或者在软件的工具里设计有容错检查,检查计算机中安装软件与硬件是否兼容,并进行提示。

(2)自身异常排除:服务端程序具备软件自身的异常排除性,当服务端软件运行时,遇到软件运行故障或其它难以预料的异常会自动将异常以日志的形式进行保存,并在界面上以文本的形式进行提示,避免了因软件自身异常引起影响监测数据的现象发生。

(3)资源优化:服务端程序具备合理调用数据库源,每10s-20s进行一次数据访问,访问后立即关闭网络连接,即保证了客户端异常捕获取的及时性,又降低了网络占用率;服务端程序具备内存优化功能,确保服务端程序资源占用不大于10M。

4.结论

通过机房监控报警系统在煤炭企业信息系统中的实际应用,信息化、自动化系统在运行效率上显著提高,发生故障的排除速度明显提高,各个被监测系统所监控的业务呈稳健上升的趋势,起到了对各个业务系统在调度、安全、运输等方面的数据保障。通过机房监控报警系统软件的推广应用,起到了以下实质成效。

4.1 经济、管理效应

机房综合报警系统软件的应用,为信息化管理产生了明显的经济效应。以往各个监控系统都需为每个系统配备至少一个监控人员,用于对系统运行情况、异常报警做记录及异常处理通知。机房综合报警系统投入运行后,通过服务端软件即可监控到全部的监测监控系统,实现了减少人员配备的效果;机房综合报警系统因具备及时、准确的异常报警,监控人员在第一时间内便能作异常处理通知,由于异常处理及时,避免了因为长时间得不到故障排除而造成的设备、系统彻底瘫痪,形成更大的经济损失,机房综合报警系统经过统计计算,降低设备、软件故障每年可降低费用15余万元。

在管理上,由于采用专人交接班对机房监控自检系统进行24小时的在线式管理,各种异常记录由软件自动记录到数据库,避免了人为操作、扯皮现象的出现。

4.2 安全指挥效应

机房综合报警系统的建立,通过对各个被监测系统的进行异常分析、将异常报警信息实时传回监控自检系统服务端,及时准确地将异常反映到监控管理人员,为生产调度中心、安检、通风、技术等相关职能部门提供了一手资料,即保证了被监测的各个监控系统稳定运行,又可以将各个被监测的系统内的异常报警信息及时反映,减少了人为操作,使各级管理人员能够了解了实际的生产、监控情况,提高了安全和生产的决策指挥。

[1]Silberschatz等,数据库系统概论[M].杨冬青,唐世渭等译.北京:机械工业出版社,2000.

[2]周立柱,冯建华,孟小峰等.SQL Server数据库原理[M].北京:清华大学出版社,2004.

[3]刘晨,张滨,黑客与网络安全[M].北京:航空工业出版社,1999.

[4]崔建江.C#编程和NET框架[M].北京:机械工业出版社,2012.

[5]丁士锋.C#典型模块与项目实战大全[M].北京:清华大学出版社,2012.

[6][沙洛维]Alan Shalloway,[特罗特]James R.Trott,徐言声.设计模式解析[M].北京:人民邮电出版社,2013.

Design and Practice of the IntegratedAlarming System in the Computer Room

Wang Xuliang
(Shanxi Yitang Coal Industry co.,LTD.,Jiexiu 032000,Shanxi)

With the information construction of the coal enterprises in recent years,problems of the software and hardware have come along with the long-running host.But due to the big number of the current monitoring host and disperse deposit place,computer room administrator cannot monitor in real time,resulting in the monitoring system information not being obtained and making bad influence on production.So this paper proposes an integrated alarming system to connect all the monitoring hosts to the Internet, to monitor the abnormal condition.The system uses.Net programming language and database technology,and monitors the hardware and software in real time with the network technology,achieving a new management mode of"one person supervising,multipoint monitoring".

comprehensive alarming;informatization;computer room;system planning

王旭亮,男,山西平遥人,本科,助理工程师,研究方向:煤炭应用程序系统设计。

猜你喜欢

服务端机房客户端
如何看待传统媒体新闻客户端的“断舍离”?
县级台在突发事件报道中如何应用手机客户端
孵化垂直频道:新闻客户端新策略
大枢纽 云平台 客户端——中央人民广播电台的探索之路
新时期《移动Web服务端开发》课程教学改革的研究
在Windows Server 2008上创建应用
N通信公司机房节能技改实践
某IDC机房结构设计
新型有线电视机房UPS系统的配置
大功率发射机房冷却送风改造