基于随机森林算法的智能电表故障诊断及寿命预测模型设计

2023-02-02黄勇华姜林林车恩羽

南通职业大学学报 2023年4期

车玲，黄勇华，姜林林，车恩羽

（1. 南通职业大学电子信息工程学院，江苏南通 226007； 2. 西南大学计算机与信息科学学院，重庆 400715）

智能电表是一种利用数字技术、网络技术实现多种费率双向计量、多种数据双向通信、用户端控制、防窃电等智能化功能的新型数字电度表[1]。智能电表是智能电网（尤其是智能配电网）数据采集的主要设备之一，对于提高电力系统的运行效率、优化电力资源配置、实现用电侧管理等具有重要意义。由于智能电表的元器件构成复杂且类型多样，运行过程中难免产生损坏和各种故障[2]，如外观故障、时钟单元故障、计量性能故障等。这些故障会影响电表的计量准确性、通信可靠性、使用安全性等，给电力系统带来安全风险和经济损失。因此，及时发现并处理智能电表故障，延长其使用寿命，是保证智能电网正常运行的一项重要任务。本文拟针对智能电表存在数据采集量大、故障数据种类繁多等问题，构建智能电表故障诊断及寿命预测模型，以期实现智能电表的故障预测和及时处理，确保智能电表的安全可靠运行。

1 随机森林（RF）算法

目前，对于智能电表的故障诊断和寿命预测，主要采用基于规则或机理的方法[3]。这些方法需要依赖专家知识或者物理模型，往往缺乏通用性和适应性，无法有效处理复杂的非线性关系和多因素耦合问题。而且，这些方法往往只能在故障发生后进行诊断，无法提前预测故障发生的可能性和时间。为克服上述方法的局限性，提出一种基于随机森林（Random Forest，RF）算法的智能电表故障诊断及寿命预测模型。随机森林（RF）是一种集成学习方法，可通过构建多个决策树并进行投票或取平均值来提高预测性能[4]。

1.1 随机森林（RF）算法框架结构

随机森林（RF）算法是集成算法的一个子集，利用随机方法构建具有多棵决策树的森林，并根据决策树的投票选择决定最终分类结果。随机森林算法采用有放回的采样，即每棵树从训练集中选取固定数量的样本，选取后再放回到原始训练集中。图1 为随机森林算法建立的决策树框架结构。

图1 随机森林算法框架结构

随机森林（RF）算法的构建步骤如下：

1）从原始训练样本集随机抽取n 个相互独立的训练样本，作为每棵决策树的根节点样本。

2）使用生成的n 个测试样本，构建n 棵决策树，并从M 个特征属性中随机抽取K 个特征属性，从中选择一个最合适的特征属性作为分裂节点。构建的决策树不进行剪枝，保证其完整生长。

3）建立随机森林后，利用测试样本进入每一棵决策树，进行类型输出和回归输出，并以投票方式输出最终类别。

随机森林（RF）算法具有以下优点：

1）可处理高维度、非线性、非平衡数据；

2）可同时进行分类和回归分析；

3）可评估各特征的重要性；

4）可抵抗噪声和过拟合。

1.2 智能电表故障与寿命预测模型设计

根据大数据分析理论，对某智能电表的海量累积数据进行挖掘分析，并从中提取与故障和寿命相关的特征变量，提出一种基于随机森林（RF）算法的智能电表故障及寿命预测模型。首先，收集和整理电表的特征数据，如用电功率、用电质量、用电计费等特征，以及电表的故障标签，如正常、异常、损坏等类别；其次，对数据进行预处理，如处理缺失值、异常值、噪音等问题，以及进行特征选择、特征编码、特征归一化等操作，使数据符合随机森林算法的输入要求；再次，将数据集中85 %的数据作为训练样本，训练随机森林分类器和回归器；最后利用数据集中15 %的数据作为测试数据，评估分类器和回归器性能。预测流程如图2 所示。

图2 智能电表故障及寿命预测流程

对某地级市供电公司提供的真实数据进行实验验证，并与支持向量机回归、线性回归等几种常用回归模型的预测结果进行横向比较，验证模型预测的准确度和信用度。

2 预测模型构建

2.1 数据来源与处理

使用某地级市供电公司提供的真实数据进行模型构建与验证，所研究的智能电表用户包括工业和大型商业用户，约20 万。每个用户对应一个唯一编号，有相应的计费信息和转账信息，还有一个或多个智能电表编号，并有相应的实时功率数据和质量字节数据。

实时功率数据是指每15 分钟记录一次用户用电功率（kW），每天共96 条记录。计费数据是指每月记录一次用户用电量值（kW·h），每年共12条记录。转账信息是指每次用户缴纳电费时记录其使用的银行账户信息。质量字节数据是指每15分钟记录一次用户用电质量信息（8 位二进制数），每天共96 条记录。每个二进制位代表一个警报类型。表1 显示用户用电质量信息及其含义。

表1 用户用电质量信息含义

选取2017 年1 月至2019 年12 月共36 个月内发生过至少一次故障检修事件的用户作为研究对象。如图3 所示，根据检修事件记录，智能电表故障类型中时钟单元故障、计量性能故障和外观故障占比较大。因此，将发生过这三类故障之一的用户标记为异常用户。

图3 智能电表故障类型及占比

为保证数据完整性和有效性，在进行模型构建前，对原始数据进行预处理。

1）删除缺失值超过10 %或异常值超过5 %的用户数据；

2）删除用电功率为0 或质量字节值全为0的无效记录；

3）对于连续变量（如用电功率），采用均值填充法补全缺失值；

4）对于离散变量（如质量字节），采用众数填充法补全缺失值；

5）对于异常值（如用电功率值超过正常范围），采用中位数替换法处理；

6）对于分类变量（如银行账户信息），采用独热编码法转换为数值变量；

7）对于数值变量（如用电功率），采用标准化法转换为标准正态分布。

预处理后的数据，可进行有效的特征提取，减少无效数据特征占比，提高数据应用的准确度。

2.2 特征提取与选择

建立智能电表的故障预测及寿命预测模型，需要从原始数据中提取出与故障和寿命相关的特征变量，包括用电功率、用电质量、用电计费、用户编号、智能电表编号、转账信息等特征。为减少特征维度，提高模型效率，采用随机森林（RF）算法对所有特征进行重要性评估。其主要思想是，观察各特征在随机森林树中所做贡献，取平均值，再比较各特征的贡献度。

根据随机森林算法，依据下列原则判断特征的重要性。

1）特征与目标变量的相关性越高，特征的重要性越高。例如，如果目标是预测电表的寿命，那么用电量、用电功率等特征比用电质量更重要。

2）特征在随机森林中每棵树上所做贡献越大，特征的重要性越高。

3）特征的取值范围和变化程度越大，特征的重要性越高。例如，如果一个特征的取值范围很小，或者取值分布很不均匀，那么这个特征可能比其他特征更易被忽略或更易受噪声影响。

依据以上原则和特征重要性，从用电功率、用电质量、用电计费等三方面进行数据特征提取，共提取特征值k=14 个，具体如下：

1）用电功率特征：用电功率反映了用户的用电行为和负荷变化，与电表的损耗和老化有关。从用电功率数据中提取平均功率、最大功率、功率标准差等特征，如表2 所示。

表2 提取的用电功率特征

2）用电质量特征：用电质量反映了用户的用电环境和电网状态，与电表的稳定性和可靠性有关。从质量字节数据中提取质量字节频率、字节比例等特征，如表3 所示。

表3 提取的用电质量特征

3）用电计费特征：用电计费反映了用户的用电规模和消费水平，与电表的使用强度和寿命有关。从计费数据中提取平均用电量、最大用电量等特征，如表4 所示。

表4 提取的用电计费特征

3 实验结果与分析

3.1 故障预测结果

采用同一训练集和测试集，将RF 算法与其他常见分类算法，包括决策树（decision tree，DT）、逻辑回归（logistic regression，LR）、朴素贝叶斯（naive Bayes，NB）、K 近邻（K-nearest neighbor，KNN）及支持向量机（support vector machine，SVM）等算法进行比较。

交叉验证法是模型进行训练和验证较为有效的方法之一。利用交叉验证法，将数据集划分为5个子集，包括4 个训练集和1 个测试集。然后，依次对训练集和测试集进行5 次轮换训练和测试。最后，将5 次测试结果进行平均，得到最终评估指标。

采用的评估指标分为故障预测指标和寿命预测指标。故障预测指标包括召回率（recall）、准确率（accuracy）、F1（F1-score）、精确率（precision）；寿命预测指标包括均方误差（mean squared error，MSE）、均方根误差（root mean squared error，RMSE）及平均绝对误差（mean absolute error，MAE）。

各算法在故障预测任务中的评估指标比较如表5 所示。

表5 RF 算法与其他分类算法故障预测结果比较

从表5 可以看出，RF 算法对准确率、精确率、召回率等的预测准确率达90 %以上，F1 达0.92，均高于其他分类算法，表明RF 算法可以有效识别异常用户，具有较高准确率，且在故障预测方面表现最优。

3.2 寿命预测结果

将RF 算法与其他常见回归算法，包括支持向量回归（support vector regression，SVR）、线性回归（linear regression，LR）、岭回归（ridge regression，RR）、LASSO 回归（least absolute shrinkage and selection operator，LASSO）和决策树回归（decision tree regression，DTR）等算法进行比较，各算法在寿命预测任务中评估指标比较结果如表6 所示。

表6 RF 算法与其他分类算法寿命预测结果比较

从表6 可以看出，RF 算法在寿命预测任务中表现最优，其MSE（均方误差）、RMSE（均方根误差）和MAE（平均绝对误差）均为最低。表明RF算法可有效估计智能电表的剩余寿命，且具有较高精度。

4 结语

利用RF 算法分别建立了智能电表的故障诊断及寿命预测模型，通过对大量的智能电表数据进行分析和处理，提取了用电功率特征、用电质量特征和用电计费特征，并利用RF 算法评估特征的重要性，再进行特征选择，最终得到优化的模型输入特征向量。利用交叉验证法进行模型训练和验证，并与其他常见的分类回归算法进行比较。结果表明，RF 算法在故障预测和寿命预测方面均表现出较高的准确性和稳定性。研究成果可为智能电表的运行监测和维护管理提供有效的技术支持。