基于改进梯度提升决策树的10 kV及以下配电网线损率预测

2023-09-06陈世炳潘晶晶林金山

系统仿真技术 2023年2期

陈世炳，潘晶晶，王斌，林金山，罗雁

（海南电网有限责任公司，海南海口570203）

随着网络、通信、传感器、物联网等技术飞速发展，电网领域也迎来了黄金发展时代。然而随着电网应用领域不断拓宽，绿色及可持续发展理念不断深入人心，10 kV 及以下低压配电网中“线损”问题越发突出［1-2］。然而，目前10 kV 及以下低压配电网存在数据量大，可用特征少，且数据质量参差不齐等问题［3-4］。

为此，众多学者对10 kV及以下低压配电网线损率计算方法进行了研究。文献［5］基于专家系统设计了一套台区线损异常智能诊断系统。文献［6］基于用电信息采集系统建立了台区线损分析平台。上述计算方法较传统计算方法结果更加精确，但收集大量的操作数据和结构数据需要时间和人力。文献［7］基于数据驱动提出了一种台区线损评估方法。然而，该方法需要建立复杂的计算模型，因此会牺牲部分计算精度。

近年来，人工智能算法在电力系统中得到了广泛的应用，如SVM［8］、BP神经网络［9］、深度学习［10］等为预测线损率提供了新的途径。然而，这些方法很大程度上依赖于大量的数据。当数据质量不高或数据维数较大时，将严重影响线损率预测结果。为此，本文提出了一种基于梯度提升决策树［11］（Gradient boosting decision tree，GBDT）的10 kV 及以下低压配电网线损率计算方法，以解决数据存在异常值的情况下线损率预测不高的问题。

1 模型介绍

1.1 特征选取

考虑到10 kV 及以下低压配电网中有大量与线损率相关的特征，一旦特征选取标准不合理，将严重影响线损率计算结果。GBDT 是一种经典的计算智能算法，该算法可为10 kV 及以下低压配电网众多特征选取提供参考依据。

令特征为j，则其重要性程度可根据j在GBDT 的平均重要性计算，故

式（1）中，为特征j的全局重要性程度，M为树的数量，为特征j在第m个树中相对重要性程度。

计算公式如下所示：

式（2）中，J为树中叶子节点个数。J- 1为非叶子节点个数。vt为与节点t有关的任意特征。为划分节点t后的均方损失。B(⋅)为布尔函数，当其参数为真，则B(⋅) = 1；否则B(⋅)= 0。需注意

为实现特征选择的一致性，本文使用Spearman 相关系数过滤无关变量。Spearman系数可评估2个变量之间的关系是否可以用单调函数来描述。因此，有

式（3）中，di表示每个观测值之间的差异，n为样本数。

1.2 数据聚类

本研究采用基于密度的带噪空间聚类算法（Density-based spatial clustering of applications with noise，DBSCAN）对数据进行聚类，实现数据异常检测。DBSCAN 是一种典型的可处理带有噪声数据的聚类算法。

令C={(X1，Y1)，…，(Xn，Yn)}为数据点集，其中Xi={x1，x2，…，xm}。聚类数据点集C的过程可描述为

步骤1：初始化ε和MinPts，其中ε为扫描半径，MinPts为最小样本个数。

步骤2：确定任意数据点之间的欧几里德距离Dhi，即

式（4）中，Sk为标准距离。

步骤3：∀Xi，搜索在其扫描半径内的任意数据点构建核心簇。

步骤4：确定数据集中孤立的数据点，并将这些数据点组成新群。

步骤5：重复上述过程，直至执行完任意数据点划分为核心簇的过程。

步骤6：划分过程结束，如果存在任意数据点不属于任意核心簇，则将这些数据点标记为异常点或噪声数据。

2 基于改进的GBDT线损预测模型

传统GBDT 是一种典型的串行计算模型，存在计算效率低、易过拟合等缺陷。为此，本文提出了一种改进的GBDT模型实现并行计算，以提高模型预测性能，同时加速模型训练效率，避免过拟合。

改进的GBDT 模型中，预测值为所有树模型预测值的加权和，因此有

式（5）中，Xi={(x1，x2，…，xm)}为由特征构成的向量。m为模型中所有树的个数。fi(X)为树i模型的预测值。

令M表示最大迭代次数，L[]y，f(x) 为模型计算时的损失，c为任意无穷小常数。因此，第m个决策树构建过程如下。

步骤1：确定当前模型损失，并计算其负梯度，即

步骤2：计算fm-1(X)，同时以最小损失线性估计每个叶子节点的梯度rms（s= 1，2，…，S，s是第m个树的叶子节点个数），则在下次评估时更新权重以减少损失。因此，该计算过程如下所示：

步骤3：模型更新，其更新公式如下所示：

式（8）中，v为学习率。I(x∈rms)为指标函数，当X∈rms时，该值取1；否则取0。

步骤4：循环至最大迭代次数M，至此可得到预测的线损率。

3 仿真与分析

为了验证本研究所提方法的有效性，本章以10 kV 及以下低压配电网的数据为例，选取1446 个实例样本进行仿真与分析。需注意，每个样本应包含功率因数、电表数量、线路总长度、平均负荷率、主线横截面积和供电功率6个电气特征。

3.1 构建特征库

首先，对1446 个实例样本进行数据预处理操作，初筛部分不合格数据。其次，结合GBDT 相对重要性和Spearman 相关系数对所有电气特征进行评估，选取均方误差最小的特征构建特征向量，最终统计结果如图1所示。由图1可以看出，供电功率和主线横截面积始终是重要的特征，功率因数和电表数量2 个特征贡献程度相对较低。因此，本研究将功率因数及电表数量2 个特征略去，最终选取线路总长度、平均负荷率、主线横截面积和供电功率建立特征库。

图1 不同方法特征贡献对比统计结果Fig.1 Comparative statistical results of feature contributions of different methods

3.2 低压配电网的分类

表1 所示为不同特征聚类中心统计结果。其中聚类1 表示4 个指标占比最大；聚类2 次之；接下来是聚类3；聚类4中各指标占比最小。

表1 特征聚类中心统计结果Fig.Statistical results of feature clustering centers

3.3 仿真结果与分析

图2 所示为支持向量回归（Support vector regression，SVR）、随机森林回归（Random forest regression，RFR）与本研究所提模型的预测误差对比结果。可以看出，SVR 的预测曲线误差最大，其次是RFR，而本研究所提方法误差最小。与SVR 和RFR 相比较，本研究所提方法的均方误差分别降低了2.24%和0.86%。

图2 不同模型预测误差对比结果Fig. 2 Comparison of prediction errors of different models

4 结语

本研究对10 kV 及以下低压配电网线损预测方案进行了研究与分析，提出了一种基于改进GBDT 的10 kV 及以下低压配电网线损预测模型。该模型结合GBDT相对重要性和Spearman相关系数对所有电气特征进行评估，选取均方误差最小的特征构建特征向量。进一步利用基于密度的带噪空间聚类算法对10 kV 及以下低压配电网数据进行分类，解决数据集中数值离散性造成的评估精度低问题。本研究所提方法对10 kV及以下低压配电网线损预测具有一定的借鉴作用。