信息系统关键服务实时监控的实践
2019-11-03秦四滨
秦四滨
摘要:本文介绍了的生产过程执行系统(以下简称MES系统)在实际工作中经常出现故障的许多关键服务,并对这些故障的产生及产生故障后对系统的影响进行了分析,找到了判断故障发生的方法,根据判断故障放生的方法开发出监控程序,通过监控程序对这些故障进行实时监控,当故障发生时能够第一时间发现,能够程序自动恢复的,监控程序就自动进行故障恢复不需要人为干预,不能自动恢复的实时通知运维人员进行故障恢复,给出了很好的解决方案。
关键词:生产运行系统;故障;监控
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2019)23-0007-02
开放科学(资源服务)标识码(OSID):
生产过程执行系统(以下简称MES系统)已经成为生产制造企业每天运行的必不可少的应用系统,系统一旦出现问题,如果不能尽快进行恢复,会给企业的生产和经营造成一定的影响。能够使MES系统出现故障之后及时了解故障信息并快速恢复是摆在信息系统运维人员的一个巨大课题。
1 原因分析
MES系统在实际应用中,由于系统应用软件存在的设计缺陷、后天开发的第三方应用不那么成熟和服务器长时间运行导致不稳定,以及各种原因造成的网络中断都会造成MES系统故障,而每次故障发生后都是当用户使用系统时先发现,再由用户通知运维人员,往往这个时候故障已经持续很长时间了,有些时候会将故障这段时间的基础数据丢失,造成应用系统的统计计算结果不准确不及时,不但给用户的使用造成阻碍,更会给信息系统的运维工作带来很大的麻烦。
2 解决方案
2.1 运维模式的创新
对MES系统经常出现故障的重要服务进行深入研究及分析,找到程序自动判断这些故障的方法,开发监控程序,当上面提到的任一服务出现故障异常时,就会及时发现,用监控程序能够进行故障恢复的就在程序中自动处理,不需要人为干预,需要人为手动干预的就立即将故障信息发送手机短信到相关系统维护人员,并将每次得故障信息都记录到日志文件中,使运维人员第一时间获知故障信息并及时进行故障恢复,最大限度地保障用户的顺畅使用和数据的准确性,从而更加高效的保障了MES系统的平稳运行,显著地提高了部门的运维水平。
2.2 运维技术的创新
2.2.1实时数据库PHD运维创新
实时数据库PHD为整个MES系统提供所有的过程历史数据以及实时数据的采集,是DCS控制系统到MES的中间桥梁,为整个MES系统提供数据支持。实时数据库采用buffer-shadow架构,在各装置的控制室安装的buffer机连入DCS控制网络,通过RDI采集现场的数据存储在本地硬盘的基础上也同时通过RDI将采集到的数据上传到中心机房的shadow上。MES系统各个应用模块用到的数据都是来自中心机房的PHD主服务器shadow,为了保证shadow机出现故障后能够及时恢复,要做好两个方面:实时数据库故障监控与恢复、出现故障后PHD的历史恢复。
2.2.2实时数据库故障监控与恢复
不仅要解决故障,更重要的是在出现故障时第一时间知道解决且数据能够恢复。首先要进行PHD的历史恢复,PHD的历史恢复就是shadow机出现故障恢复后Buffer机自动上传故障期间丢失数据的功能。在实际的运维过程中发现,shadow机总出现故障,故障率为平均2次/月,每当出现这种故障,运维人员只能重新启动服务器进行恢复,不但对我们的应用和运维造成了很大的麻烦,通过分析发现PHD有5个关键服务:PHD SERVER,RDI SERVER,API SERVER,REMOTE API SERVER,LEGACY API SERVER,针对此情况开发出了实时数据库PHD监控程序,此程序实时地对PHD的运行状态进行监控,并能监控每个RDI的运行状态,一旦这几个关键服务出现故障或采集接口RDI的状态不对,就会实时地杀死这5个服务对应的系统进程,这种方法能够快速地关闭这5个服务,杀死进程后再重新启动PHD服务,保证PHD能够自动进行系统级的恢复,不需要人为干预,此技术的实现投用,很好地保障MES系统的正常运行。
2.3关系数据库Oracle运维创新
MES系统的Oracle数据库是非常关键的数据库,存储着所有的配置数据和每天的业务数据;如Oracle数据库出现问题,整个MES系统就失去的数据支持,系统就将瘫痪,所以在Oracle数据库出现故障的时候,能够快速地进行数据恢复就是非常重要的。
2.3.1 Oracle數据库的备份与恢复
原软件提供了一个数据库备份方案,对数据的恢复没有介绍,其备份方案需要人为定时清理过期备份,一旦忘记删除过时备份的话,使得以后的备份都不能进行,数据库系统也会因为磁盘空间的不足造成宕机,这在我们MES系统实施初期就发生过这种现象,给系统的实施造成了不小的麻烦,所以制定一个完善可行的备份恢复方案是非常必要的。通过研究,对原备份脚本进行改造,开发出一套新的备份恢复策略,新策略创新的功能是将每天备份的归档日志存储在当天数据备份目录的log子目录下,这样在自动删除过期数据备份时一并将过期的日志删除,新策略能够自动联机备份数据,并保留我们所需要天数的备份,并自动删除过期的数据备份和日志备份,并每天将最新的备份自动异地备份到一台备用的服务器上,一旦Oracle数据库出现故障,就算所有的数据文件、控制文件、归档文件及联机日志文件损坏或丢失的情况下,我们都可以在备用服务器上将数据库恢复到备份期间内任意时间点。
2.3.2 Oracle数据库的故障实时监控
随着系统数据量的增加,Oracle数据库总会出现莫名其妙的故障, Oracle服务器在出现故障后不再对外提供数据连接服务,所有客户端都会出现连接错误,并且在我们手动故障恢复后,发现物料平衡的后台服务calumass在Oracle故障恢复后不能恢复,calumass服务直接影响着装置质量计算数据的准确性,为了避免这样的情况出现,开发出了对这两个服务实时监控的程序,程序能在系统出现故障就能实时将这些故障地记录下来,并通过我们的邮箱将具体的故障信息发邮件及短信到相关运维人员的手机,运维人员能够及时地进行故障的恢复。
2.4 OM操作监控关键服务运维创新
OM操作监控部分的主要功能是实时监控生产工艺参数、记录工艺参数偏差原因并提供工艺参数趋势图分析方法。同时也为我公司的PHD及应用模块的平稳率计算提供基础数据。操作监控所涉及的后台关键服务有两个一个是REFRESHTARGETPHD,另一个是VARIANCE MONITORING WEB。然而在实际的MES运行中,经常会出现OM模块中的操作监控出现故障,停止监控的情况,每次出现这种情况时候,在OM的操作监控中看到的监控情况是所有监控指标都在正常指标范围内,也就不记录偏差,当这种情况发生时,到Business FLEX TPI组态工具中查看后台服务的运行情况,发现它们的下一周期运行时间都停留在过去的某个时间,而不是将来的某个时间,为了能够及时地发现后台服务出现故障,开发出了监控程序,此程序能够实施查询保存在数据库中的这两个服务的运行状态,就及时地将其调度时间改到不久将来某个时间点,重启这些服务及时进行故障恢复。
2.5 数据采集buffer机运维创新
数据采集buffer机负责连入DCS控制网络, MES系统用到的基础数据都是buffer机采集的,每个buffer机负责一套dcs系统数据的采集,在实际的系统运行过程中,经常会出现网络断网故障,机器系统故障,一旦某个buffer机产生故障,现场dcs的数据就不会传送到MES系统中去,造成某套装置的数据错误,如何才能对这些buffer机进行实时监控呢?我们也可以像监控PHD服务那样监控每一台buffer机,那样的话我们能够实时监控并自动修复PHD服务所产生的故障,但buffer机到MES网的网络故障判断不了,可以通过到shadow机实时数据库中查询每个buffer机采集的关键位号的信息与当前时间进行比较的方法来判断buffer机运行状态及其连接的网络是否正常。如常压装置的buffer机可以设定两个关键位号:大庆原油进料FQ_1001,俄油进料FQ_1007,如果一切正常的话在PHD实时数据库中会每2分钟产生FQ_1001的一条记录和FQ_1007的一条记录,会一直持续下去,用当前时间与这两条记录对应的时间戳进行对比,如果小于等于2分钟说明buffer机正常一直在采集数据,如果大于2分钟就说明就说明此buffer机出现故障或连接此buffer机的网络中断能采集数据但不能传输数据了。根据这种判断方法开发出了buffer机的监控程序,当出现异常时会及时地发送短信给相关的运维人员及时地进行故障恢复。
3 實际应用效果
监控程序应用一个月监控到的故障多起,有网络光纤被施工人员误挖断的情况,有网络交换机断电的情况,有buffer机网卡死掉的情况,有Oracle数据库故障情况,有关键服务phdsql故障情况,所有这些故障的发生,运维人员都及时收到了提示短信,并及时进行了处理,没有给MES系统带来影响,用户感觉不到故障的发生和影响。
4结论
MES是生产制造企业每天必须运行的系统,系统一旦出现问题,会给企业的生产和经营造成一定的影响。通过监控程序的实施,解决了系统运行中困扰信息运维多年的重大技术难题,使运维人员先于用户发现故障及时恢复,最大限度地保障用户的顺畅使用和数据的准确性,本文通过对MES信息系统实时监控的实践,为更好地运维信息系统提供了一种思路和方法,通过此方法的实施,显著地提高信息系统的运维水平。
【通联编辑:光文玲】