基于XGBoost 的非侵入式污染企业环保工况识别

2023-03-29李霄铭陈汉城

机电信息 2023年6期

黄锐李霄铭余翔熊军陈汉城

（国网福建省电力有限公司信息通信分公司，福建福州 350013）

0 引言

环保作为实现碳达峰、碳中和的重要路径，在“双碳”政策背景下备受关注。目前，传统的环保监测工作主要是通过在每条线末端设置各种传感器进行化学检测，来判断企业是否违规排污[1]。然而，治污设备所处位置的周围环境比较脏乱差，传感器工作容易受外界环境干扰，产生偏差甚至失效。

而电力数据具有覆盖度广、价值密度高、实时准确性强等特点[2]，利用电力数据进行环保监测工作实时性强，能从产污源头进行环保监测。目前，大多数基于电力数据的环保监测工作，主要是对治污设备进行电力信息的采集与分析[3-4]，当需要监测的治污设备数量众多时，监测设备数量也随之增加，环保监测成本会随之升高，企业较难接受。

基于上述分析，本文研究提出了一种基于XGBoost的非侵入式污染企业环保工况识别方法，即记录企业的生产工况，将企业生产工况与环保设备工况相结合得到企业环保工况，再将企业环保工况与用电数据输入XGBoost中进行训练，得到最终的模型。

1 企业环保工况提取

需要对企业生产工况与环保设备工况一定的先验数据进行训练。对于环保工况的判断方法如图1所示，对于某一个时刻的环保工况，若企业生产正常，且环保设备为开启状态，那么环保工况即为正常，当环保设备关闭，则视为异常，其中，生产设备关闭时视为环保工况正常。这样就得到了环保工况标签。

图1 环保工况判定流程

2 基于XGBoost的环保工况识别

2.1 XGBoost的基本原理

XGBoost（Xtreme Gradient Boosting）是一种高效的基于决策树（CART）的分布式梯度提升算法，它可被应用到分类、回归、排序等任务中。

预测值计算公式如下：

目标函数计算公式如下：

最小化目标函数，经过正则化项对算法学习权重的平滑，最终得到目标函数的最优解如下：

2.2 环保工况异常识别流程

本文提出的环保工况异常识别方法主要流程如图2所示，其主要步骤如下：

图2 环保工况异常识别流程

（1）在监测点获取电能质量监测数据，在选择数据时包括电能质量监测数据与基本电气数据；

（2）记录企业生产工况与环保工况；

（3）将环保工况与电能质量的监测数据输入到XGBoost模型中进行训练；

（4）将企业后续电能质量监测数据输入到XGBoost中进行测试，得到企业的环保工况，识别其中的异常环保工况。

3 仿真算例分析

3.1 污染企业用电工况仿真模型基本情况说明

为了验证本文方案的实用性，搭建了模拟污染企业用电工况的仿真模型。考虑实际企业中各种设备的用电情况，如图3所示，仿真将以一条10 kV的母线进行模拟，其中包含两台生产设备与两台环保设备，同时为了更好地模拟各种用电场景，加入了线性负荷、整流器及单相线性负荷。可以发现，在企业中生产设备多为线性负荷与变频电机，例如变频电机包括钢厂用于轧钢的大型电动机、水泵、压缩机等，而环保设备如静电除尘、增压风机、袋式除尘器等运用了调频、调速、升压等相关电力电子技术，所以在这里用两个变频器进行模拟。

图3 仿真电气接线图

参考非侵入式负荷监测，在10 kV进线处安装一个模拟的电能质量监测装置[5]。如表1所示，在实际监测中，一天24 h，每隔3 min进行一次数据采集，会得到480个点的监测数据，其中包括基本电气量数据与电能质量监测数据。采用等比例缩放的方法，将一天24 h等比例缩放，仿真时间设置为960 s，每隔2 s进行一次数据采集。

表1 仿真数据说明

在算例中，为了更好地监测本方案的实用性，负荷1～5将采用生成随机数的方法来控制负荷启停，即随机生成1～24内的两个随机数，随机数中，前者为开启时间，后者为关闭时间。不同于实际生产中设备的启停具有一定的周期性与规律性，仿真模型中设备的不定时启停，能更好地验证变点检测与聚类算法的实用性与准确性。对于负荷6～9，则一直处于运行状态，来模拟企业工厂中不间断运行的设备。

对于生产工况的分类，模型中共有两个生产设备，针对不同的企业生产场景可能采用不同的生产设备，在这里设置两个不同的生产用电场景。

场景1：负荷1运行时，视为企业正在正常生产，反之为停止生产。

场景2：负荷2运行时，视为企业正在正常生产，反之为停止生产。

划分好生产工况，就可以结合环保设备的工况得到企业的环保工况是否异常。根据实际环保部门的监管规则，设置判定企业环保工况的规则，当企业正常生产时，仅当两台环保设备同时开启时视为环保工况正常，反之则为异常。

3.2 环保工况类别先验数据获取

对模型进行24天数据仿真，共11 520个样本点，用前70%数据进行模型训练，后30%数据进行测试。如表2所示，分别对两个场景下前70%数据的环保工况进行统计。

表2 环保相关工况类别情况

3.3 基于XGBoost模型的环保工况识别结果

这里引入混淆矩阵与机器学习模型评价指标[6]。如图4所示，混淆矩阵是机器学习中总结分类模型预测结果的情形分析表。在本方案中，混淆矩阵表示的是模型判断的环保工况正常与异常两种情况与其真实值的对比情况，其中TP表示模型正确识别出环保工况异常情景下的数量，TN表示模型正确识别出环保工况正常情景下的数量，FN表示模型错误识别出环保工况异常情景下的数量，FP表示模型错误识别出环保工况正常情景下的数量。在预测性分类模型中，肯定希望模型能准确预测环保工况。那么对应到混淆矩阵中，TP与TN的数量越多，FP与FN数量越少，则该模型的拟合程度越高。