超融合技术在钢铁企业生产过程控制系统中的应用
2024-01-11肖偲钰
柯 骥,肖偲钰,程 曦
(武汉钢铁有限公司硅钢部,湖北 武汉 430080)
《“十四五”智能制造发展规划》指出,要以新一代信息技术与先进制造技术深度融合为主线,深入实施智能制造工程。在此指导思想下,某大型钢铁企业硅钢生产厂在智慧工厂建设项目中,使用超融合系统作为硬件平台,提高了生产过程控制系统的稳定性、安全性和可维护性,为提高企业生产效益、促进企业高速发展提供了坚实的技术保障。
超融合技术在银行、教育、金融等行业得到了广泛的应用,它将计算、网络、存储和服务器虚拟化等资源和技术进行整合,在增强计算能力的同时提高了网络的吞吐量、降低网络延时,并通过依赖分布式存储、多重备份和冷热数据分层技术提高了存储稳定性和数据容灾能力。因其成本、运维优势,超融合也成为了大型现代企业的ERP、MES、大数据和桌面虚拟化等应用的理想承载平台,但在生产控制系统中尚未有大规模应用。本文依据某大型钢铁企业硅钢生产线的智慧工厂建设项目,在超融合技术应用于钢铁企业生产过程控制系统方面做了一定的探索实践。
1 项目应用概况
某大型钢铁企业硅钢生产厂于2019年至2022年间对机组的生产过程控制系统(简称L2)实施大规模改造,项目经过近3年的建设,建立了厂部L2集中机房,采用5组共25台超融合服务器承载L2应用系统,优化L2的光纤网络拓扑,实现基于超融合的物理隔离。目前项目已投用1年以上,整体运行稳定,满足了厂部对于机组过程控制的需要,同时扩展了L2与无人天车、机器人、智慧工厂集控、大数据域等的接口,满足智慧工厂建设需要。
下面就项目应用和实施经验,对过程控制系统在硬件平台的需求分析、技术选型、实施内容和实施效果等方面进行论述。
2 L2硬件平台需求分析
生产过程控制L2系统在自动化、信息化、智慧化中具有重要地位,在传统L1~L5层的企业信息化架构中,L2是控制系统(L1)与生产制造执行系统(L3)之间的桥梁,主要负责生产计划接收、生产顺序调整、模型设定计算、工艺指令下发L1、工艺数据采集、生产实绩上抛L3等作业[1]。随着智慧制造发展,传统5层架构升级为工业互联网体系,L2承担了“云—边”协同的边缘执行任务,增加了实时数据上传数据域、执行云端模型的优化指令、协同智慧制造设备完成智慧生产等实时性、运算量、模型化要求更高的任务。
本项目应用于冷轧硅钢片生产线,生产线特点是生产时间长,例如酸洗和热处理等主要生产线的生产频率一般为1~3卷/h;在生产过程中要求温度、张力、速度等控制工艺保持稳定,避免频繁工艺调整;L2系统对硬件平台及网络的要求主要体现为高系统稳定性、一般通信实时性、高网络安全性和智慧制造功能支撑等方面。
(1) 系统稳定性:L2系统要求硬件及网络平台7×24 h无间断运行,故障时间小于2 h/a,检修时间<2 h/次。系统稳定性是硬件平台需具备的必要要素。
(2) 通信实时性:L2与L1间的通信频率为秒级,网络流量较小。以热处理生产线为例,L2每秒接收一次L1发送的全产线位置表,每3~5 s接收一次L1发送的炉区工艺数据,单电文信息量最大可至800条/笔(6.4 K/s)。对于通信的稳定性和实时性要求较高,若发生通信断开或延迟,会造成跟踪错误和应用误判。
(3) 网络安全性:工控系统的通信网络和传统互联网或局域网相比,在网络质量方面的要求更高。一旦网络攻击、网络流量异常增大等事件发生,将会造成生产线急停、产品报废等严重损失。一般情况下不同生产线之间需做到网络隔离,对于突发的网络事件能够预防和提前控制[2]。
(4) 智慧制造需求:L2服务器与机器人、无人天车、智能表检、视觉识别装置等均有数据接口,在网络安全方面有较高要求;L2服务器采用定时或主动发送电文的方式将机组过程事件、秒级实时工艺数据上传到大数据域,对服务器的CPU和内存消耗有额外增加。
3 超融合技术与传统技术的选型分析
生产过程控制系统通常采用传统技术架构,即服务器+存储架构的模式,如图1所示。传统架构由单独的硬件服务器、外置存储设备、交换机、安全类设备、数据中心等堆砌而成,存在可靠性低、投入成本高、可扩展性低、运维复杂、上线速度慢等问题。超融合架构在通用硬件上不需要单独的存储设备(如NAS、SAN等),如图2所示。在超融合集群中每个节点不仅仅包括计算、网络、存储和服务器虚拟化等资源和技术,而且具备管理监控、备份恢复、数据快照技术、数据除重、数据压缩等功能,多个节点可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale-out),从而形成统一的资源池。
图1 传统服务器硬件系统图Fig.1 Traditional server hardware system diagram
图2 超融合服务器硬件系统图Fig.2 Hyper-converged server hardware system diagram
以6条生产线L2的需求为例,对两种技术架构的整体投入成本、业务可用性、稳定性、可扩展性及可维护性进行对比分析,结果如表1所示。
根据以上分析,超融合技术在成本可保证的情况下,其各项功能均要优于传统技术方案。
4 系统架构实施及功能验证
4.1 硬件及网络架构
超融合服务器实施的难点之一在于网络架构的设计,需针对不同的安全管控需求和业务扩展需求,采用合理的网络架构。传统单机组过程控制系统多采用物理隔离的方式,以L2服务器双网卡和防火墙等方式与L1及L3通信;采用超融合服务器后,多个机组服务器在同一个物理网络中,需要和不同机组的L1通信,且存在L1之间互通或L2之间互通的场景,网络架构设计需同时考虑网络互通和网络安全。
网络设计可分为三种:①物理隔离:各条产线L1、L2间无通信,物理链路完全隔离,见图3。②逻辑隔离:各条产线L1、L2间有通信,物理链路共用,逻辑隔离,见图3。③业务混用:各条产线L1、L2间有通信,物理链路共用,逻辑不隔离,不推荐。
图3 超融合系统硬件及网络架构图Fig.3 Hyper-converged system hardware and network architecture diagram
项目采用物理隔离方式:每台服务器配备7块网卡用于与6条机组的HMI和PLC分网段联通,采用2个网口聚合L3网络为多机组共用,2个光口连接万兆光纤交换机用于超融合服务器内部数据和管理网络,虚拟机服务器使用物理网口聚合对外通信,实现6条生产线L2服务器和终端网络的物理全冗余,避免因为个别设备的异常导致L2服务中断。
全冗余模式下,每增加1条生产线,服务器需增加2个网口(L1PLC、L2HMI独立);在半冗余模式下,L1PLC、L2HMI网口合用,服务器需增加1个网口。因此服务器可承载的机组L2数量,除受CPU、内存、硬盘和I/O资源限制外,还受制于单台服务器的网口数量。
每组服务器承载的机组数量上限=(网口数量-1个管理口-2个L3口-2备用口)/2,约为10条机组。超融合服务器网卡布局如图4所示。
图4 超融合服务器网卡布局图Fig.4 Network adapter layout of hyper-converged servers
4.2 网络安全架构
工业控制系统的第一要素是安全,超融合技术由于集成需要,在网络拓扑中出现了不同层级网络的物理联通。为了保障网络安全,需要进行多种方式的联合控制:
(1) 物理隔离方式:采用此架构的网络具有较高的安全性,需配置防火墙点对点控制策略,杜绝不受控流量,重点防护终端和服务器的系统漏洞。
(2) 逻辑隔离方式:采用此架构的网络具有较高的安全性,但安全策略较为复杂。机房汇聚交换机由于物理联通了L1/L2/L3网络,需将交换机按业务不同划分虚拟网络(Vlan),汇聚交换机划分为L1、L2、L3三个业务网段,实现互相逻辑隔离,配备冗余交换机避免单点故障。对特别业务如防毒软件更新等,将L3网络的病毒服务器加入交换机Vlan的ACL表实现准入控制。
(3) 防火墙边界控制:在L1-L2接入层和L2-L3接入层采用防火墙控制IP和端口策略;关闭常用病毒攻击端口如445、135~139等;开启IP白名单,仅允许服务器和终端互访,避免网络攻击。
4.3 超融合云台管理
超融合云端管理平台全面覆盖了运维管理的各项业务,具有一定的智能化运维能力,能有效降低运行故障和风险,提供包括物理机运行资源监控、虚拟机资源监控、虚拟网络链路监控、网口通断实时检测等功能。云台具备多种手段保障系统安全稳定运行:软件定义可靠性避免硬件故障导致的业务风险,采用BPF技术检测硬件健康状态,发现问题及时对主机进行隔离;链路聚合对于网口离线、光模块故障等直接导致单链路不可用的情况具有保护能力,可自动切换到冗余链路;采用多副本同时写入的方式,实现业务高可用;在主机运维、替换或服务器性能下降时,可自动或手动热迁移L2应用至其他主机,同时保障业务连续;基于存储层快照方式,实现秒级在线备份;可挂载灾备存储盘,实现在线远程灾备。
4.4 功能验证
系统运行一年期间,对各项指标和功能进行监控测试,结论如表2所示。
表2 各项指标测试内容及结论Table 2 Test content and conclusions of each index
5 实现的价值及思考
本项目在超融合技术用于钢铁企业过程控制系统中做出了探索。经过一年的观察,超融合系统运行稳定、性能平稳,故障极少,总体取得了良好效果。超融合技术满足了企业智慧制造要求,适合对稳定性及安全性有较高需求的场景。
在智慧制造中应用超融合技术应重点关注以下问题:
第一,平衡经济性。超融合架构设备较少但单体设备价格较高,在超过6条机组的项目中,其经济性方可体现,同时考虑到故障成本、维护成本和备件成本,超融合技术长期看比传统架构有价格优势。但在有大量设备利旧的场景中,超融合技术并未体现优势。
第二,重视网络安全。超融合技术带来的硬件融合,同时也带来了网络安全问题,需考虑物理隔离、逻辑隔离和准入控制的综合应用。
第三,横向扩展性有限。由于网络安全需要,服务器所需网卡较多,网线也随着产线条数增多而几何式增加,网络维护复杂。在物理隔离全冗余模式下,每台服务器至多能搭载10个需要网络隔离的应用;采用逻辑隔离方式可增加一倍以上应用,但可靠性下降。
第四,超融合技术日前发展迅速,大部分厂家支持信创硬件和软件,可实现本质化安全,支持AI服务器等超算力,这对于过程控制系统丰富边缘计算能力,提升模型智能化具有重要支撑作用。
最后,由于超融合架构一般搭配虚拟化技术使用,因此不适合未采用虚拟化技术的IT应用系统,和不适合部署超融合架构的系统,例如使用非通用硬件的工业控制系统。
现代大型制造企业随着智慧制造的推进,其传统自动化和信息化的改造需求也逐渐增多,如果在项目建设中使用超融合架构,可实现业务快速部署、资源统一管理、设备故障率降低等目标,能有效降低企业总拥有成本(TCO),快速创造价值。