基于西门子PCS7的服务器维护
2017-08-10邓莹
邓莹
摘 要 本文介绍了基于西门子PCS7控制系统的服务器维护的非典型案例(如磁盘空间迅速变小)、解决思路及设计原理,对于提高生产效率,保证生产安全有及其重要的意义。
关键词 服务器;磁盘空间;病毒
中图分类号 TH17 文献标识码 A 文章编号 2095-6363(2017)12-0099-01
DCS的操作监控层,主要由操作员站、工程师站、监控计算机和服务器等组成。它综合监控各站所有信息,集中现实操作,控制回路组态和参数修改,优化过程处理等。其中服务器又是属于衔接网络操作层与过程控制层的重要衔接点,如果服务器产生故障,短期将会导致上位机失去对下位机的监控,影响生产;严重情况下会触发联锁条件导致生产停车和重大安全事故。所以服务器(包括连接服务器的网络设备)都是我们日常维护的重点,尤其是不宜发现的软故障。某项目服务器在项目运行初始出现过一些异常情况,最终由于通过完善授权、重装服务器、加装杀毒软件使问题得到处理,现将一些典型案例解析如下。
1 服务器故障现象
1.1 服务器要求重启
某项目采用的是PCS7的系统(v7.0),采用的是双服务器双环路冗余配置。服务器自动重启短期内出现过3次。在服务期负荷分担均匀,单个服务器负荷冗余量较大的情况下,双服务器冗余配置中其中一个服务器重启并不会导致太大的故障。但是服务器开始重启到完全恢复,需要30min左右的时间,这个时间段如果另外一台服务器发生故障,也会导致网络失控的情况出现。
该项目其中有一次是服务器B重装系统,倒回了备份的授权,再次出现了要求服务器重启的情况。
我们查看服务器Windows事件记录多次一致,均出现了“reboot” “applicationerror”“redundancycontrol”等情況,根据微软提供的解决方案,为了解决“crypt32”的问题,“必须连接到Internet或关闭更新根证书组件。要按下列步骤要关闭更新根证书组件:
1)在控制面板,双击添加/删除程序。
2)单击添加/删除Windows组件。
3)单击以清除UpdateRootCertificates复选框,然后再继续Windows组件向导。”问题依然存在。另外一个冗余服务器也存在有相似的错误。结论:排除了CPU时间不一致的前提下,很大可能性是病毒。
1.2 服务器系统盘突变
某项目在使用操作员画面的过程中,反映打开趋势图,画面长时间显示“从归档装载”。现场分析,发现起服务器A的C盘(系统盘)已经满(12G/0G)。而对应的服务器B却是正常的(12G/3G)。经过分析和对比,发现c:\programfile\microsoftsqlserver\MSSQL.1\MSSQL\DATA\tempdb.mdf的大小为3G多,对应B服务器却为70多M。本问题在7天内连续出现过3次。
对于该问题,我们采用了三大临时解决办法:
1)重启服务器。为了应急,首先可以考虑重启服务器。重启服务器可以暂时消除临时文件,但文件后面还会自动增加。
2)转移临时文件位置。主要目的是针对C盘初始划分过小的情况,将SQL的临时文件转移到其它相对较大的驱动盘中。
3)转移虚拟文件位置的设置。服务器的物理内存为8G。Window系统推荐虚拟内存设置为6G多。查看了一下虚拟内存的设置,虚拟内存在C盘设置为2G~4G。可以将虚拟内存修改为:C盘300M~500M(系统提示,C盘至少需设置为200M)。设置虚拟内存8G~12G至E盘。(150G/145G)。目前,C盘尚余5G左右空间(共计12G)
不管是转移临时文件、转移虚拟内存还是增加C盘分驱的大小都是治标的方法,不是治本的方法。因为还是可能”“tempdb.mdf”还是会突然变大(大概500M/分钟的速度),从而使得磁盘满,导致操作速度变慢,问题没有得到根本解决。分析故障原因的方向还是指向了病毒。
2 原因分析及解决
2.1 原因分析
无论是服务器要求自动重启,还是服务器系统盘突然增大的情况,都是反复出现,我们首先从网络架构和服务器配置方面入手分析。该服务器对应操作终端的组态为:物理服务器为A、冗余服务器为B、无首选服务器。从现象上看,三次问题均发生在A,有一次问题发生在B。咨询了400工程师,给出的问题是服务器负荷问题,但是从本系统组网架构上看不是负荷问题,且系统建成后出现很多疑似病毒的征兆,加装杀毒软件,该告警在半年内没有再次出现过。巡检又反复发现“crypt32”告警,初步认为有可能是顽固病毒导致部分程序死循环运行引起的问题。
分析发现了红色的“ServiceControlManager”记录在Windows的系统日志里多次出现,并且同时发现了“等待DLANX服务的连接超时(30 000毫秒)”这个告警。通过深入研究,发现是Win32.Almanahe.B在C盘下自动生成setup.exe文件引发的,它将会下载并运行任意文件,终止某些程序进程,并且导致“tempdb.mdf”等文件增大。
2.2 最终解决
最终还是要从病毒防治方面入手:1)严格采购与DCS系统版本匹配(在DCS的说明手册上有说明)的杀毒软件;2)在系统刚刚开始建设的时候就要引入杀毒系统;3)要配置防火墙并且进行网络安全测试;4)一定要定时更新病毒库;5)配置好查杀策略,可以在摸透生产运行规律的前提下,在低负荷时段查杀;6)对操作员站的USB端口要作物理和技术隔离处理;7)加强对DCS维护人员和操作员站的操作人员进行培训。
3 结论
服务器的运行管理是涉及服务器运行负荷、链路端口状态、防病毒和防木马策略配置、信息安全管理等各个方面的综合事务。除了各种渠道获取解决经验外,更要建立完备的日常管理运行台账,以便于查找历史记录,快速解决类似问题,为生产赢得宝贵时间。
参考文献
[1]邹稥鹏.DCS系统安装调试技术与改进措施[J].大科技,2016(16).
[2]刘杰.DCS安装、调试中经常出现的问题及改进措施[J].城市建设理论研究(电子版),2014(28).
[3]王建民,娄国焕,郝成.冶金竖炉烧结温度的仿真与控制[J].冶金自动化,2004,28(5):47-49.