APP下载

控制系统计算机故障的快速处理恢复探讨

2016-05-14梅昌利

关键词:恢复控制系统故障

梅昌利

摘 要:计算机作为控制系统输入及输出设备,运行维护及故障处理关系着控制系统及生产装置的安全平稳运行。从设备选型、日常维护、故障快速处理等方面着手提高控制系统计算机的可靠性。

关键词:控制系统;计算机;故障;恢复

中图分类号: TP309.1 文献标识码: A 文章编号: 1673-1069(2016)22-106-2

0 引言

沧州炼化焦化装置控制系统主要有DCS系统ECS-700一套,带3台工程师站,5台操作站;SIS系统TRICON一套,带1台工程师站、2台操作站;顺控系统AB SLC5000系统1套,带1台工程师站、1台操作站;除焦系统AB SLC5000系统1套,带1台工程师站、1台操作站。共17台计算机,型号皆为DELL T5500系列工作站。

自2009年大修改扩建以来已7年,各控制系统操作站/工程师站已出现多台计算机软/硬件故障。计算机硬件故障部位主要有:主板/硬盘/电源/显示器/网卡等。软件故障主要有:系统文件丢失、系统不能正常运行等。处理故障时一般要至少半天时间,若计算机主板故障则时间更长。计算机硬盘故障后要重装系统及软件,对于比较复杂的软件安装及配置则要依托厂家到厂解决。对于组态数据、历史趋势、操作记录等数据丢失,没有很好的解决办法。

这些问题一直对装置平稳操作、安全生产造成了很大威胁。特别是有一些单操作站/单工程师站配置的控制系统影响最大。

1 影响控制系统计算机平稳运行的因素

①焦化装置因生产焦炭的原因,环境比较差,焦碳粉容易进入计算机内部,对计算机的平稳运行造成很大影响。

②这些计算机已经至少工作6年以上,已出了质保期,硬件故障后不能快速、便捷、低成本的维修。配置为:DELL T5500/5600系列,CPU 至强Xeon E5506,主板 Intel 5520,内存 2G,硬盘容量 320G,显卡芯片 英伟达nVIDIA Quadro NVS295,网卡 Broadcom 5754,支持操作系统 Windows Vista/7/Red Hat Enterprise Linux WS v.5.3.0,购置时间 2009年,质保3年。

③这批计算机官方不对Windows XP系统进行支持(现有控制系统计算机因控制组态软件兼容问题,全部装Windows XP),无官方硬件驱动,只能找兼容驱动,容易造成工作不稳定。

④这批计算机因成本问题,只配了单硬盘,未配置成RAID1(独立磁盘冗余阵列,数据安全性高),数据损坏后不可恢复。

⑤一些控制系统安装、组态复杂,且操作不够人性化;同时还存在软件、组态有缺陷等问题。

除了国产的ECS-700和研华Advantech外,其他系统都是英文界面,组态都是厂家直接完成的,且厂家对维护人员的培训不到位。控制系统软件要求长期稳定运行,基本整个寿命周期都不需要更新,造成维护人员缺少练习机会,组态培训后,维护能力逐渐下降。

2 针对以上问题制定的措施

2.1 加强控制系统计算机日常管理

控制系统计算机一般不停机运行一个大修周期,所以日常巡检、维护很关键。焦化装置计算机故障频发后,加强了对计算机的日常巡检。重点工作主要包含:

①检查计算机硬件情况。计算机CPU、显卡温度, CPU使用率、内存占用率、各硬件运行情况。

②控制柜用过滤网封堵,减少粉尘进入。若设备积灰严重,则要交替停机清灰。

③严格控制操作室及工程师站温度、湿度及静电。温度18℃~24℃,相对湿度45%~70%,操作室门口竖立防静电柱消除静电。

2.2 建立每台控制系统计算机档案信息

控制系统计算机很多关键信息需要记录并及时更新。主要记录了控制系统计算机各类信息:装置、控制系统型号、计算机配置、软件配置、用户密码、备份方式、保存方式、备份日志等。这些信息基本包含了控制系统计算机的大部分信息,为维护工作打下了坚实基础。

2.3 准备备用计算机及配件

为了能及时、快速地恢复损坏计算机运行,那么准备备用计算机和易损件的备件是必要的。按近期实际运行统计,计算机易损件一般有:电源、硬盘、主板、显示器、网卡等。其中硬盘、网卡因通用性强,全厂各机型基本都能替换,可提前储备。

因计算机硬件更新很快,电源、主板一般为系列专用产品,这个不用储备,到时直接返厂维修。更节省的方案是选用工况好的淘汰的计算机作为备用机,可作为应急使用。同时应准备一些可读写光盘,作为系统和软件工具载体。一些移动硬盘或3.5寸硬盘盒,保存备份文件。

注意:备用计算机和配件一定要确认在原操作系统下具有完整驱动程序,否则不能使用。

2.4 尝试快速备份、还原数据

根据控制系统计算机的长期基本不用变更软件配置的特点,尝试将整个计算机硬盘全部镜像复制,并保存在同型号硬盘上。硬盘最好准备一个3.5寸硬盘盒,便于随时外接到USB口备份。当然,这个工作需要在每次修改了组态后,再执行。当出现硬盘故障后,可马上更换上新硬盘,即可马上恢复计算机正常运行。当然可能损失各类历史数据。

当出现主板、电源等故障后,可将原硬盘换到备用机上,即可马上恢复计算机正常运行。

当备用机与原计算机配置不同时(即使一个大型号的设备不同批次也可能不同配置),可用带异机还原这种功能的软件,比如ATIH。ATIH是一个强大的备份还原工具,主要有以下特点:

①唯一支持开机热备份(包含操作系统盘)。这样就可不停机随时备份,对控制系统稳定运行有利。

②支持不间断备份。可保护关键数据,当数据损坏或进行了错误操作可及时恢复。

③支持异机还原。这样即使硬件完全不同也能实现完整备份与还原。

④支持windows系统备份文件转换,适应性更强。

⑤支持多核多线程备份还原等功能,备份还原操作更快,对系统影响更小。

备份完成后,对每个硬盘进行标记并登记,这样原计算机不管软件还是硬件故障都能简单、快速恢复,确保数据万无一失。

按照以上几点执行后,控制计算机故障率逐步下降。控制系统厂家需要来厂服务的次数大大减少了。维护工程师基本能处理控制计算机各类故障,节省了不少维护费用。最关键的是即使发生硬件和软件故障后,都能及时、简单的恢复系统运行。一般此项步骤现在只需要花1到2小时即可完成。减少了停机时间,确保装置稳定。

猜你喜欢

恢复控制系统故障
GE LOGIQ P5 彩超故障维修2例
数控机床故障检测与维修
大数据的中低压配网故障智能诊断
汽车出了故障
Ka频段卫星通信自适应抗雨衰控制系统设计
利用存储系统恢复服务器系统
基于PLC的钢厂热连轧感应加热炉控制系统实现