MES系统故障恢复探讨
2017-09-07谢末
谢末
[摘 要] 使MES系统尽少地出现故障及出现故障之后的快速恢复是系统运维人员面临的一个巨大挑战。本文通过对MES系统关键服务的深入研究,针对MES系统3个关键服务,能够在系统出现故障时及时地恢复系统,帮助运维人员很好地保障MES系统的平稳运行。
[关键词] Oracle;WPKS;PHD;备份;恢复;冗余
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 17. 039
[中图分类号] TP307 [文献标识码] A [文章编号] 1673 - 0194(2017)17- 0080- 02
0 引 言
炼油与化工运行系统(MES)是中国石油向地区公司推广的重点项目之一,它是处于企业资源计划系统和现场自动化系统之间的执行层,主要负责车间生产管理监控和调度执行,在统一的平台上集成诸如生产监控调度、物料平衡、统计报表等管理功能,使用统一的数据库通过网络可以同时为生产部门、质检部门、工艺部门等提供管理信息服务和监控服务。MES已经成为各地区公司每天运行的必不可少的应用系统。系统一旦出现问题,如果不能尽快进行恢复,会给地区公司的生产和经营造成一定的影响。如何能够使MES系统尽少地出现故障及出现故障之后的快速恢复是摆在我们运维人员面前的一个巨大课题。
1 Oracle数据库的备份恢复策略
1.1 Oracle数据库的基本情况
MES系统的Oracle数据库一共有3个,一个是LIMS系统需要的,存储着LIMS系统的配置数据和每天的业务数据;一个是我们所说的UNIFORMANCE数据库,存储着MES系统需要的所有生产过程实时点的配置信息和RDI接口的配置信息;数据量最庞大最核心的一个就是我们所说的TOTALPLANT数据库,其存储着系统的核心的模型数据和每天产生的业务数据。如Oracle数据库出现问题,整个MES系统就失去了数据支持,系统就将瘫痪,所以在Oracle数据库出现故障的时候,能够快速地进行数据恢复就是非常重要的。
1.2 Oracle数据库的备份策略
通过对Oracle数据库联机备份恢复的研究,对原备份脚本进行改造,开发出一套新的备份恢复策略,新策略创新的功能是将每天备份的归档日志存储在当天数据备份目录的log子目录下,这样在自动删除过期数据备份时一并将过期的日志删除,新策略能够自动联机备份数据,并保留我们所需要天数的备份(假如5天),并自动删除过期的数据备份和日志备份(5天之前的),不需要人为参与,一旦Oracle数据库出现故障,就算所有的数据文件、控制文件、归档文件及联机日志文件损坏或丢失的情况发生,我们都可以通过备份数据在本机或另一台安装了Oracle数据库软件的新机器上将数据库恢复到备份期间5天之内的任意时间点,只要归档日志和联机日志好用的状态下,就可以将数据库恢复到5天前到故障点之间的任意时间点并能实现完全恢复。
2 WPKS服务器的冗余运行
WPKS服务器是整个MES系统的界面展示服务器,是MES系统各个模块的统一集成平台,负责各个模块的发布和用户权限的管理,同时WPKS服务器也是各个模块程序发布的Web服务器,如:物料平衡(PB)、生产统计报表(PA)、实时数据库及应用(PHD)、统计平衡(SB)、共用工程(Utility)及总部炼化MES项目的Web程序都发布在这里。一般情况,SqlServer数据库也安装在WPKS服务器上,SqlServer数据库中主要存储着WPKS服务器系统配置信息、安全设定信息、桌面配置信息及数据源配置信息。所以WPKS服务器在MES系统中是非常重要的一个服务器,如果它一旦出现故障,我们就没有入口访问MES。为了提高系统的可靠性和稳定性,在出现故障后能够及时切换,通过研究按照HoneyWell提供的安装文档安装一台新的WPKS服务器(备用服务器),在安装过程中需要注意的事项有以下几个方面:安装用户使用生产环境用的域账户wpksadmin;在安装实时数据库PHD客户端时需要提供PHD Host Name时指定生产环境PHD服务器的IP地址或机器名;在安装Experion Desktop Server时必须在备用服务器上新建SqlServer数据库,在指定SqlServer账户sa的密码时必须和生产环境的SqlServer数据库账户sa的密码一致;在安装Business FLEX Base Components、OL、OM等软件时在需要指定连接实时数据库PHD的PHD Node Name时都必须指定生产环境PHD服务器的IP地址或机器名,在需要指定连接Oracle数据库的Oracle TNS时都必须指定TOTALPLANT,同時在备用服务器建本地Net服务名为TOTALPLANT的指向生产环境Oracle数据库的连接串。安装完成后,用浏览器打开备用服务器的主Web页面,只有HoneyWell默认的公共工作空间,在数据源服务中配置好BaseBFDatabase、BaseBusiness数据源和添加配置PHD数据源后,查看OM模块功能正常,这说明备用服务器安装正常,接下来进行界面的汉化,然后将SqlServer生产环境的数据库的备份恢复到备用服务器的SqlServer中,就会奇妙地发现所有生产环境服务器的应用模块共用工作空间及组件和用户权限配置在备用服务器上都有了,剩下的只需要将发布在生产环境WPKS服务器的Web应用程序(如:PB、PA、PHD等)同样发布到备用服务器WPKS上,将两个WPKS服务器共用工作空间用到的组件的Web地址引用都改成相对地址就大功告成了。这样就拥有了两个同时运行的具有相同功能的WPKS服务器。
3 实时数据库PHD的历史恢复及备份恢复
实时数据库PHD为整个MES系统提供所有的过程历史数据和实时数据的采集,是DCS控制系统到MES的中间桥梁,为整个MES系统提供数据支持,所以对PHD实时数据库做好维护是至关重要的。实时数据库一般都采用buffer-shadow架构,buffer机有多个,架设在各个生产装置的控制室,shadow机只有一个,架设在公司的中心机房。在各装置的控制室安装的buffer机连入DCS控制网络,通过RDI采集现场的数据存储在本地硬盘的基础上也同时通过RDI将采集到的数据上传到中心机房的主PHD服务器shadow上。MES系统各个应用模块用到的数据都是来自中心机房的PHD主服务器shadow,为了保证shadow机出现故障后能够及时恢复,要做好两个方面的工作:PHD的历史恢复、PHD的备份与恢复。
4 结 语
MES是一个非常庞大和复杂的应用系统,其在统一的集成平台上所涉及的应用模块和服务器也非常多,如何能够有效地维护好MES系统的平稳运行是对各地区公司运维人员的巨大挑战,本文对MES系统三个关键服务器-Oracle数据库服务器、WPKS服务器、PHD实时数据库服务器所实施的维护策略都是通过研究了HoneyWell有关MES系统方面的说明文档和Oracle的有关数据库备份恢复方面的文档之后,经过了多次测试实践,成功实施到我公司生产环境的MES系统当中的成果,通过这些策略的实施大大提高了MES系统的稳定性和故障恢复能力,从而保障了MES系统的平稳运行。endprint