工业设备运维云平台的设计与实现
2022-09-19康华夏周正宇刘文军
康华夏,周正宇,刘文军,陈 晨
(1.苏州工业职业技术学院 软件与服务外包学院,江苏 苏州 215104;2. 苏州砺行信息科技有限公司,江苏 苏州 215104)
0 引 言
实现工业生产设备的互联和协同是工业智能化的基础。工业设备运维云平台的实现是工业设备网联化及应用不断深化的具体体现,为生产要素的集约管理和高效利用提供保障,是工业智能化的基础。平台的构建对于推动网络技术与传统工业融合、促进传统工业转型升级具有重要意义。特别是目前工业生产中存在设备运维难、管理维护粗放、产能利用不足、服务模式落后、沟通协作性差等现状大大制约了制造企业的转型升级。
当前,已将工业设备运维云平台在钢铁、风电、交通等相关装备制造业进行探索和实践。完整的运维平台从功能上通常涉及工业设备接入、数据采集、数据传输、数据分析和创新应用等多个环节。本文提出了一种针对工业场景下通用的设备运维云平台,主要聚焦设备管理与监控、告警管理、分析模型、设备维保等功能模块。从设计上要求平台具有良好的通用性和扩展性。
1 平台技术架构
平台采用基于SpringBoot和MyBatis的技术栈,如图1所示,自下而上分为协议接入层、存储层、持久化层、服务接口层和前端展示层。其中,现场协议接入层包含了对Modbus、OPC-UA等主流工业协议以及对MQTT、HTTP、CoAP等各种IoT协议的支持。存储层主要存放业务配置数据、设备采点历史数据以及告警数据,采用MySQL等关系型数据库。持久化层采用MyBat-is、MyBatis-Plus进行SQL映射,ShardingJDBC作为分库分表中间件,Druid作为数据库连接池。服务接口层对外提供业务REST API接口和安全认证管理,主要通过SpringBoot、JWT等框架实现。前端展示层使用Vue+Element UI框架,在服务调用以及数据访问链路中,通过分布于各个层级的多级缓存提升了系统的性能和整体响应效率。
图1 设备物联云平台技术架构
考虑稳定性和可靠性,引入Zookeeper分布式协调组件。通过引入ShardingProxy对在分库分表场景下的数据库基础设施进行高效管理和服务治理;通过引入Prometheus和Grafana实现了对各个系统节点健康运行的监控以及整体的可观测性。
2 平台设计
2.1 平台功能架构
本平台功能架构如图2所示。系统自下而上分为边缘层、基础设施层、平台层和业务层。边缘层主要负责设备接入、协议解析和适配、边缘数据处理。边缘层由工业网关、PC、嵌入式设备及附属软件构成,将工业传感器、执行器、PLC等现场设备通过工业协议接入系统。基础设施层为整个系统的业务平面提供底层文件服务、数据存储服务、消息服务、缓存服务、容器服务。平台层包含用户管理、任务调度、事件驱动、接口管理等功能模块,为系统提供模块间通信及服务运行机制,并支持上层各个模块的充分解耦。业务层功能模块主要包含设备管理、告警管理、分析模型管理、维保管理等。
图2 平台功能结构
除纵向功能性架构以外,横向非功能性架构分层提供了安全性、高可用性和可观测性基础设施。安全性基础设施负责统一认证、权限校验、数据加密、安全接入,保障系统的安全运行。高可用性基础设施通过分布式协调机制协调多个冗余节点,能够在主节点失效时自动完成主备切换,从而保障系统的业务持续运行。可观测性基础设施收集各个节点的实时运行状态和度量指标,并通过仪表板将各种指标进行实时展示,在节点异常或者故障情况下将消息进行实时推送。
2.2 业务功能分析
2.2.1 设备管理
设备管理是平台的核心模块,提供对网关、设备模板、设备、采点等资源的创建、管理和信息维护。设备管理资源创建流程如图3所示。首先依据工业设备类型,创建对应的设备模板,并定义属性配置和数据采点配置;基于不同的设备模板创建对应的设备(或者设备实例),创建的设备中自动生成所关联的设备模板中定义的属性和数据采点,并根据设备组网设计将设备关联到网关,网关用于将一个或者多个设备上报的数据通过通信协议转换后发送给消息中间件,并最终由平台接收并处理。
图3 设备管理资源创建流程
2.2.2 分析模型管理
平台在提供了对工业现场整体设备采点数据和状态的监控功能基础上,通过分析模型和基于分析模型的告警规则来实现对现场和设备异常状态和模式的捕获与识别;并将此异常以实时的告警实例的方式展现出来。以此实现对现场更深入的可观测性,增强了设备运维的可靠性、业务运营对于异常情况响应的敏捷性,并提升了整体业务的稳定性和安全性。
平台中的分析模型定义了从设备数据到可识别的状态模式之间的数学映射。在实现和使用上,分析模型通过数学公式来表达这一映射关系。分析模型与设备采点以及告警规则的关联关系如图4所示,一个设备采点关联一个或者多个告警规则,一个告警规则也可以被一个或者多个设备采点所关联;告警规则关联到分析模型,二者关系为一对一。在配置流程方面,首先配置分析模型,再配置告警规则并关联分析模型,最后将设备采点与告警规则相关联。
图4 分析模型与采点规则的关联关系
2.2.3 告警管理
以上述分析模型的配置和管理为基础,平台还提供了基于分析模型的告警规则管理,将分析模型映射的结果通过规则的设置来决定告警的触发,告警的触发会生成相应的告警实例,用于记录告警的详细信息,包括触发的告警规则、告警级别、告警描述、告警时间等。
对于一般的设备采点监控而言,告警规则用来设置对单独的采点告警判定评估规则。它通常关联单采点分析模型,并且只能被单独的采点所关联,告警的触发会生成单告警实例,表示在当前关联的采点上发生了数据或者状态的异常。单告警实例流程如图5所示。
图5 单告警实例流程
在某些工业场景下,对单一采点的监控和规则设定并不足以判定评估是否出现异常状况,此时需要采用多个采点协同告警的方法,联合与同一异常模式有关联关系的多个采点(此多个采点可能位于不同设备,甚至位于不同网关下的不同设备)来协同设置告警规则。由此也需要建立多采点分析模型,以及定义采点组(包含此多个采点),将告警规则与此多采点分析模型和采点组相关联来实现多采点协同告警。基于这样的告警规则触发生成多告警实例,表示来源于采点组中的多个采点数据经过模型评估后符合所定义的异常模式,并触发该告警规则。多告警实例流程如图6所示。多设备采点协同告警规则可以跨越多个设备上的采点,建立较为复杂的分析模型,并由此处理复杂业务场景下的异常状态告警。
图6 多告警实例流程
2.2.4 维保管理
平台设计了设备维保管理模块,提供设备的全生命周期管理功能。设备的定期维保和告警导致的设备临时维保,均可在平台上进行信息化管理。在平台上可创建针对某一台设备的维保计划;一个维保计划下可创建多个具体的维保项目,维保项目描述了具体维保内容;根据维保项目对设备进行某一方面的维保后,将产生维保记录,包括维保开始时间、结束时间、操作员,方便后续跟踪。设备维保信息维度如图7所示。
图7 维保管理流程
3 系统实现
3.1 设备管理
如图8所示,左侧导航栏的“设备管理”下包含“设备模板”“网关列表”“设备列表”子菜单,分别支持设备模板、网关、设备的创建、修改、查看、删除等操作。“设备模板”用于对同一类型或者型号的工业设备进行元数据的配置和建模,主要包含对数据采点的配置以及属性的配置。网关作为数据采集监控组网环境中的核心节点,对下承载了工业现场数据的上报和工业协议数据转换,对上承担物联网协议适配和向云端进行数据上报。“设备监控”可以对设备数据和状态进行在线实时监控。
图8 设备管理界面
3.2 分析模型管理
如图9所示,从主页面左侧导航栏“分析模型管理—分析模型管理”进入分析模型主页面,以该页面为入口,能够支持对分析模型的创建、修改、查看、查找、删除等操作。
图9 分析模型管理界面
3.3 告警管理
如图10所示,“采点组”和“告警规则”可以分别对采点组和告警规则进行创建、修改、查看、查找、删除等操作。“单告警实例”和“多告警实例”可以分别查询系统的单告警实例和多告警实例,告警实例是由采点告警规则触发生成的。
图10 告警管理界面
3.4 维保管理
如图11所示,“维保计划”和“维保记录”分别支持各自功能的创建、修改、查看、查找、删除等操作。“维保计划”定义了所要进行维保的设备,还包含操作员、设备ID、计划描述等信息;“维保记录”用于跟踪设备的维保历史,记录维保的相关信息,包括开始时间、结束时间、操作员等。
图11 维保管理界面
4 结 语
工业物联网为制造业数字化转型、经济高质量发展注入强大动能。针对工业设备的便捷接入和高效管理等典型问题,给出了一种工业设备运维云平台的设计和实现,平台支持多种主流工业协议,实现设备的快速接入,支持设备管理、告警管理、维保管理等功能。平台采用分层架构,具有良好的扩展性,分布式组件的使用保证了平台的高可靠性。在具体应用和实践中将不断强化工业大数据分析与工业机理模型的融合,使得智能化水平不断提升。