APP下载

EPKS系统的网络结构和典型故障浅析

2016-09-27中国神华煤制油化工有限公司鄂尔多斯煤制油分公司

电子世界 2016年16期
关键词:煤制油霍尼韦尔以太网

中国神华煤制油化工有限公司鄂尔多斯煤制油分公司 崔 勇

EPKS系统的网络结构和典型故障浅析

中国神华煤制油化工有限公司鄂尔多斯煤制油分公司崔勇

EPKS系统即过程知识系统,是一个规模可变的,带有基于各种知识驱动的应用,整合业务与制造智能化的平台;作为世界首套,百万吨级的煤直接液化的工艺流程;选用霍尼韦尔公司EPKS系统作为工业控制系统,是明智之举;可是在项目实施中,通讯符合核对,网络机构设计科学性,20英寸4:3显示器的停产,微软公司Windows XP停止服务等因素,给我们的工控系统的安全性,稳定性,造成一种威胁!

Experion™ Process Knowledge System 过程知识系统;容错以太网(Fault Tolerant Ethernet)(FTE);网络瘫痪;Windows XP停止服务;屏幕纵横比(Aspect Ratio)4:3

1 EPKS系统介绍和网络结构

EPKS是Experion™ Process Knowledge System 过程知识系统,是美国霍尼韦尔公司2002推出的一个规模可变的,带有基于各种知识驱动的应用,整合业务与制造智能化的平台。

1.1DCS系统的骨架—系统网络,它是DCS的基础和核心

由于网络对于DCS整个系统的实时性、可靠性和扩充性,起着决定性的作用,因此各厂家都在系统网络方面进行了精心的设计。衡量系统网络性能的指标并不是网络的速率,而是系统网络的实时性,即能在多长的时间内确保所需信息的传输完成。系统网络还必须非常可靠,无论在任何情况下,网络通信都不能中断,因此多数厂家的DCS均采用双总线、环形或双重星形的网络拓扑结构。而Honeywell的EPKS系统采用的网络结构是容错以太网(Fault Tolerant Ethernet)(FTE)。

1.2容错以太网(Fault Tolerant Ethernet)(FTE)的特点

容错以太网(FTE)是Experion PKS的控制网络,FTE不但提供了容错的特点,也提供了快速网络的相应,及工业以太网的控制应用的安全性。

➢ 容错以太网(FTE)是冗余网络结构(物理)的单网(逻辑),这种冗余的结构是通过Honeywell的FTE驱动,及商用的网络设备实现的。

➢用在Experion PKS中的主干网络

➢ Honeywell专利技术(与CISCO技术完美结合),为PKS量身定制开发的FTE驱动与CISO交换技术完美结合突破以太网瓶颈实现优先级选择。

➢ 使得商用的100Mbps 以太网实现容错

· 允许所有的单点故障,以及一些多点故障,以先进的多路由选择替代双网结构的传统冗余模式网络。

· 快速切换, 切换时间约为1秒。传统的双网结构切换时间约为20-30秒。

1.3容错以太网(Fault Tolerant Ethernet)的工作原理

容错以太网是在商用以太网技术基础上结合霍尼韦尔网络控制策略的工业以太网。其拓扑结构是顶部连接在一起的双重并行树形网络结构,是冗余网络结构(物理)的单网(逻辑)。FTE分为两层,第1层为控制层,第2层为操作层,由冗余的交换机和通讯电缆构成。服务器、操作站、控制器等FTE节点,安装有FTE软件和双网络接口卡,同时连接到两个树网中,FTE节点之间有4条路径。

路径1:操作站→交换机A→交换机A1→控制器;路径2:操作站→交换机B→交换机B1→控制器;路径3:操作站→交换机A→级联线C→交换机B→交换机B1→控制器;

路径4:操作站→交换机B→级联线C→交换机A→交换机A1→控制器。

FTE网络为系统提供了多路由选择和最佳路径选择,既可容错单故障点,还可容错多故障点,并具有容错链路的快速切换功能。FTE还支持普通以太网节点和标准的TCP/IP应用。

图1 FTE网络如何工作原理图

2 我公司EPKS系统出现的典型故障案例分析

2.1我公司EPKS系统出现的典型故障(一)

虽然,EPKS系统采用容错以太网(Fault Tolerant Ethernet),但是于2010年8月30日16时21分15秒UCR1的DCS系统开始出现通讯故障。部分操作站出现短时间通讯中断。呈LOV状态;那次发生故障的范围包括103单元装置4台CONSOLE站、104/107单元装置2台CONSOLE站、111单元装置2台CONSOLE站及2台CONSOLE EXTENSION,这些操作站几乎同时出现数据通讯中断,画面数字变“红”反显示或不显现数字,没有趋势显示,之后又有部分FLEX站不断出现通讯时好时坏的现象。119单元也出现数据通讯中断, PMCC监视画面看不到UCR1五个单元的数据,但PMCC服务器的DSA状态正常。

从111单元一台CONSOLE站“PING”控制器的 IP地址,显示时通时断;“PING”对应的服务器IP地址,一直显示通。FTE STATUS网络节点状态显示,频繁地无规律出现连接中断。从16时58分45秒开始到18时40分,103单元6对控制器、104-07单元3对控制器、111单元1对控制器在报警画面上均有报警出现,但机柜控制器的状态指示正常,也未发生切换。

霍尼韦尔公司当晚派2名服务工程师紧急到现场处理,对交换机进行了交替重启,对服务器进行了交替重启,仍没有效果。119单元就地控制室断掉与UCR1网络连接后,就地控制室操作恢复正常。将103单元、104单元、107单元的CONSOLE站逐台切断网络连接查看FTE各节点状态;用McAfee杀病毒软件分别对103serverA、104serverA、103-DCS-OPS01、103-DCS-OPS06进行杀毒处理,并未发现病毒,故障现象仍然存在。21时27分开始,FTE网络节点连接中断现象逐渐减少,DCS显示和操作逐渐恢复正常,但原因不明。

2010年8月31日10时27分32秒,103单元4台CONSOLE站再次出现数据通讯中断,10时29分47秒通讯恢复正常。

CONSOLE站数据通讯中断的现象,在2010年8月18日10时30分曾出现过一次,当时UCR1全部CONSOLE站(含103/104/107/111)通讯中断。查看事件纪录,所有CONSOLE站均有DATA/ NOTIFICATIONS FROM SERVER UNAVAILABLE 的通讯问题。

Honeywell对网络故障原因的分析:

总之,生态林业的主要目的是改善环境质量,进而促进整个生态建设重点工程。造林技术推广,林业的发展是非常重要的,所以在新的时代背景下,为了更好地提高造林技术建设质量,相关人员必须重视林业推广技术,必须结合具体情况林业在相关领域的发展,要有一定的针对性,现阶段,我国北方地区正在积极开展植树造林活动。开展森林复垦活动,改善我国生态环境意义重大。森林资源的减少对我国未来的发展非常不利,因此在当前的发展过程中增加森林资源总量和造林是非常必要的。相信随着我国林业部门的不断努力,北方的森林资源总量将逐步增加,北方的经济水平也将提高。

2010年9月13日17:25,Honeywell提交分析报告给我公司,标题为“神华煤直接液化项目UCR1系统性能下降事件分析报告”。作出如下的结论:

1)本次DCS系统故障的主要原因只是交换机性能下降,导致交换机CPU负荷过高(目前约为25~30%,最大为50%左右)

2)交换机性到了使用年限,导致能下降

3)104/107/111等单元的2A、2B交换机负荷很大,有16MBPS的数据流量(所有端口之和),这也是网络故障的原因。

4)现场计算机中的病毒可能是系统故障的原因

显然Honeywell仅仅将本次严重威胁到安全生产的网络故障事件看作“系统性能下降事件”。但是我们对这样的结论实在是不能接受,对此,我们公司有如下分析和质疑;

1)从CISCO官方网站提供的数据看,霍尼韦尔的分析不成立;

2)一般来讲,CISCO交换机机房环境下,使用寿命至少10年。而UCR1内的交换机也就是刚投用5年左右。但是该交换机(CISCO2950)的背板带宽是8.8GBPS,折合负荷大约是0.18%,我们认为这个数据流量对于该交换机来讲负荷几乎为0。

3)通过McAfee AntiVirus以及Symantec AntiVirus 获得的关于该病毒的信息仅仅是将自身复制到移动存储设备(如U盘、移动硬盘、MP3、MP4等),并在系统上打开一个后门,从而植入广告插件。该病毒对系统的危害程度极低,不具备网络攻击性,对网络通讯的稳定运行不具备任何威胁。

Honeywell整改方案中,其核心有三:1)更换C200控制器为C300控制器;2)全面升级软件由原来的R211.0升级为R311.2;3)将大网络划分为小网络。

2010年9月,霍尼韦尔公司组织专家队伍,进行现场整改工作,其工作主要按照如下几个方面开展。

1)一批专家队伍负责硬件整改工作;将我公司以前的C200控制器更换为C300控制器,但是C300控制器所带的卡件是原来的PMIO,不是C系列卡件;实践验证,C300控制器和PMIO是可以完美的结合,并且能稳定运行。

2)另外一批专家负责将我公司所有的服务器的软件由以前的PKSR211升级为R311.2,将服务器由原来的DELL 2850.2950.2900.换成DELLR710, Precision WorkStation 的内存全部扩展为2G,Server

的内存为4G。

3)还有一批网络专家负责将UCR1,UCR2,UCR7的网络整改,整具体改方案如下:

➢ 为配合新版PKS软件,更换UCR1和UCR2内的二层交换机为Cisco 2960系列

➢ 将UCR1,UCR2, UCR7的控制网络进一步划分为多个小规模的FTE网络。

➢ 使用冗余三层交换机维持UCR内不同网段通信。

➢ 各个UCR到PMCC的连接通过新添加的UCR内三层交换机完成。

➢ PMCC端3750交换机要根据重新规划的IP地址重新配置路由。

原有Cisco 2950交换机替换掉,换为Cisco 2960系列交换机。新增Cisco 3560V2交换机。

· WS-C3560V2-24TS-S 3层交换机 2台,用来汇聚原UCR1控制室所有系统并远程连接PMCC,每台交换机配置SFP模块(GLCLH-SM)1个,用来连接UCR1与PMCC。UCR1内不同装置分开,分别处在独立的FTE community内,IP地址处于不同网段,减少相互影响。UCR2,UCR7的改造分别按照此方案进行;经过一个多月的改造,基本上对我公司的核心控制室改造完成,后来经过几年来的运行,当时的整改方案确实可行,再也没有出现过网络瘫痪的现象,后来在我们的新建项目中,我公司的这一方案被后续工程项目采用,实践证明,改造有效。

2.2我公司EPKS系统出现的典型故障(二)

DCS是分布式控制系统的英文缩写(Distributed Control System),在国内自控行业又称之为集散控制系统。它是一个由过程控制级和过程监控级组成的以通信网络为纽带的多级计算机系统,综合了计算机(Computer)、通讯(Communication)、显示(CRT)和控制(Control)等4C技术,其基本思想是分散控制、集中操作、分级管理、配置灵活、组态方便。在上面我谈了其中的通讯(Communication),中遇到的一些故障,以及整改策略,下来我说一说计算机(Computer),这个模块中遇到的一些故障。

我公司拥有WorkStation221台,server44台,22套DCS控制系统,(这里的数据还不包括自备电厂工控系统的台帐)这其中221台WorkStation的操作系统是Windows XP,由于霍尼韦尔EPKSR311.2的软件只能在Windows XP的环境下运行,但是微软中国此前宣布对Windows XP的支持将在2014年4月8日结束。这意味着我们的工控系统的安全性将接受一次严峻挑战。2014年第七个周,微软发布了一个安全公告,警告依然使用XP的用户注意相关漏洞。同时,根据相关的安全调研报告显示,Windows XP SP3是目前遭受威胁最大的操作系统,达到了Windows 7的两倍,这也意味着XP更容易遭到黑客的攻击。另外,由于微软很快就会停止对XP的支持,届时XP用户将面临更多的威胁。更加令人毛骨损然的是,中国神华煤制油化工公司是神华集团一个新兴的产业化板块,包括鄂尔多斯煤制油分公司、包头煤化工分公司两个主要生产厂,各方面以“新”为特点,建设起点高,工艺装备技术先进,经营管理要求精简高效,生产管理要求严格精细,对企业信息化建设同样提出了高标准、新水平的要求。建设煤制油化工公司MES系统,是公司信息化发展战略的核心组成,是公司煤制油化工产业示范工程的成功要素,是实现公司发展目标,用信息技术提升煤制油化工产业,以信息化带动工业化,发挥后发优势,实现跨越式发展的重大举措。2011年,我公司开始搭建MES系统,实现各模块之间的无缝集成、MES与ERP的集成、MES与工业系统的总体集成)的综合信息化系统平台。这样,我们的工控系统得数据就要对外开放,也就是于外部网络实现互联, Windows XP的支持将在2014年4月8日结束,这样我们的工控系统更容易受到黑客攻击,对此,我们经过认真分析,公司领导的讨商,决策形成如下应对举措:

➢禁用或限制使用USB设备,部署防病毒基础架构,即防病毒服务系统;

➢部署EBR系统可以提供完备快速的数据恢复方案;

➢由于要接入互联网,我们计划尽可能升级到Windows 7或Windows 8系统。来保障我们的工控系统的安全。

关于升级到Windows 7或Windows 8系统,目前,我公司正在与霍尼韦尔制定升级方案!

2.3我公司EPKS系统出现的典型故障(三)

最后我在谈一下显示(CRT),这个模块也有长期困绕我们的一大难题;我公司共有工艺流程图一万多幅,在项目建设期间,我们采用的霍尼韦尔系统的HMIWeb Display Builder绘图软件制作,当时显示器屏幕纵横比(Aspect Ratio): 显示设备中显示图像的横向尺寸与纵向尺寸的比例,最常见的为4:3,所以,在组态流程图的时候,我们对画布的布局,是1024*768。全公司一万多幅流程图都是这样布局的,显示器均采用屏幕纵横比4:3的20英寸的。但是市场的变化和商业化的需求,从2011年各大电脑厂商的出货产品上来看,采用1366x768、1600x900分辨率占绝大部分,16:9成为的各大厂商争相采用的黄金比例,屏幕纵横比(Aspect Ratio)4:3的显示器,包括DELL,清华同方,HP都已停产,靠市场上仅有的库存,那里够中国这么庞大的消费群体,更新换代呢,当然,我公司目前正在使用的20英寸4:3的显示器将接近500多台,并且从2003年陆续上电到现在有10多个年头,故障录相当高,再加上市场上4:3的显示器又停产,对于我公司又是一大威胁;经过多少次的与霍尼韦尔的沟通和对接,初步形成的方案如下:

1)重新布局流程图的分辨率(其工作量相当大,等于重新组态),将原来的1024x768改为1366x768、1600x900;

2)更换开放式的操作台,显示器更换为16:9的22英寸的;

3)将霍尼韦尔EPKS系统的软件HMIWeb Display Builder上升级到R430。

目前,此方案正在实施!

3 结束语

总之,我公司目前出现的这些问题,也许其他的公司也正为此困扰,CRT市场瞬息万变,微软公司Windows XP停止服务等因素,给我们的工控系统的安全性,稳定性造成一种威胁;我们也只能面对,只能结合市场和现状制定一系列的整改策略和措施, 来克服困难,使我们的工控系统运行更加稳定,更加安全!

[1]超越1080P,LG发布全球首款2560x1440分辨率手机/平板屏幕.平板电脑网,2013-08-22[引用日期2015-09-29].

[2]微软公布XP延保方案:可通过腾讯电脑管家获得安全服务.DoNews.2014-04-8[引用日期2014-04-8].

[3]腾讯微软联想联合发布升级过渡期XP用户支持计划.环球网[引用日期2014-03-25].

[4]Windows XP即将结束支持.微软中国[引用日期2014-03-24].

[5]美报:“震网”开启网络战新时代.新华网[引用日期2013-04-3].

[6]Stuxnet病毒全球肆虐 将影响我国众多企业.瑞星安全资讯,2010-9-25[引用日期2014-10-18].

[7]范宗海,于宝全.大型炼化一体化工程DCS网络安全策略[J].石油化工自动化,2010(3):1-5.

[8]张原.计算机域管理在局域网安全管理中的应用[J].自动化与仪器仪表,2013(5):136-137.

[9]彭慧,任治法.炼化企业DCS与MES一体化网络安全研究[J].甘肃科技,2010,26(20):21-23.

崔勇(1981—),男,大学本科,学士学位,工程师,现任职于神华煤制油化工有限公司鄂尔多斯煤制油分公司机动部,任仪表主管,专业、专长:DCS,PLC过程控制系统的管理、维护、搭建。

猜你喜欢

煤制油霍尼韦尔以太网
煤制油化工装置检维修工程结算审核与审计工作的思考
基于国家能源安全保障的煤制油发展研究
基于1500以太网养猪场的智能饲喂控制系统的设计与实现
霍尼韦尔自动化控制(中国)有限公司
谈实时以太网EtherCAT技术在变电站自动化中的应用
浅谈EPON与工业以太网在贵遵高速公路中的应用
焦虑的煤制油
表面活性剂在煤制油化学清洗中的应用
万兆以太网在连徐高速公路通信系统改造中的应用
霍尼韦尔:360度全方位保障