基于改进K-Means 的低压台区线损预测

2023-09-29姚梦婷覃光惠吴庆荣

广西电业 2023年6期

姚梦婷覃光惠吴庆荣

0 引言

线损率作为降损节能的一项综合性指标，不仅体现了输配电效率，反映了电网企业的规划管理水平，对电网企业的经济效益也有着重要影响。低压台区数量庞大、管理薄弱、数据质量较差，传统的台区线损管理通常是人工设定线损率指标，缺乏科学依据，严重影响到低压台区线损精细化管理的质量和水平。因此，快速、准确的线损计算成为了迫切需求。

目前，计算线损的方法主要有传统方法，包括均方根电流法、平均电流法、最大电流法等，基于潮流计算的方法［1-3］，基于负荷实测的方法［4-5］，基于人工神经网络的计算方法［6-8］、支持向量机［9-11］及其他改进算法［12］。近年来，随着用电信息采集系统的普及和数据挖掘技术的广泛应用，线损预测成为了可能［13-17］。K-Means聚类算法思想简单、易实施、效率高，适合应用于低压台区线损预测，但考虑到受网架结构和管理水平影响，线损数值分散且差异大，为避免模型性能准确度受到影响，本文提出了一种基于改进K-Means 的低压台区线损预测方法。首先，进行数据预处理，选择台区特征指标；其次，使用改进K-Means 算法对台区进行分类，并在此基础上建立多元线性回归预测模型，以台区特征指标为输入自变量，线损率为因变量；最后，对预测结果进行误差分析。利用A 县1434 个台区数据对模型进行验证，表明了本文方法的简便性、合理性、有效性。

1 改进K-Means 算法

K-Means 算法是一种基于距离的聚类算法，用质心到属于该质心的点距离这个度量来实现聚类，通常可以用于N 维空间中的对象［18］，其优点是可以处理大数据集，具有良好的伸展性［19］。算法流程如下：

1）随机选择K 个初始质心，K 为期望的簇的个数；

2）计算样本与每个质心之间的相似度，将样本归类到最相似的类中；

3）重新计算并更新质心，直至簇不发生变化。

K-Means 算法的原理简单、收敛速度快，但存在两个主要缺陷：一是随机选择初始聚类中心容易导致聚类结果不稳定；二是需事先指定聚类数K，而K 值是未知的。

改进的K-Means 算法则对上述缺陷作出了相应的弥补：

1）初始聚类中心的选取

计算两个对象间的欧式距离D（xi，xj），公式如（1）：

计算样本中所有对象的平均距离AvgD 公式如（2）：

计算对象xi的密度Den（xi）公式如（3）：

当xt≥0 时，=1，否则=0。

D=｛Den（x1），Den（x2），…，Den（xn）｝，将密度进行降序排序，如此可依次作为第一个初始聚类中心，第二个初始聚类中心，以此类推，直至达到预定聚类数为止［20］。

2）最佳聚类数k 的确定

K-Means 聚类属于无监督聚类，没有较为直接的聚类评估方法，但可以通过簇内的稠密程度和簇间的离散程度来评估聚类的效果。本文选择Calinski-Harabasz Index（以下简称CH 指标）来衡量聚类效果。CH 指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度。计算CH 指标的数学表达式如（4）：

其中，k 为聚类数，m 为训练集样本数，Bk是类别之间数据的协方差矩阵，Wk是类别内部数据的协方差矩阵，tr 为矩阵的迹。CH（k）值越大表示类自身越紧密，类与类之间越分散，即表示可得到更优的聚类结果。

2 基于改进K-Means 的低压台区线损预测模型

2.1 台区数据预处理

本文主要对数据进行处理的工作，一是选取台区特征指标，指标的选取应既能影响线损率大小又易于获取［21］；二是数据清洗，主要是删除原始数据集中的无关数据、重复数据，平滑噪声数据，筛选并去掉与挖掘主题无关的数据，处理缺失值、异常值，缺失值采用平均值填充法，异常值视为缺失值，再使用平均值填充；三是数据标准化，数据标准化是将数据按比例缩放，将其转化为无量纲的纯数值，便于不同单位或量级的指标进行比较，本文采用Z-score 标准化。Z-score标准化也称标准差标准化，这种方法是给予原始数据的均值和标准差进行数据的标准化，其转化函数如公式（5）：

2.2 线性回归模型的建立及评价

线性回归（Linear Regression）是利用线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。在本文的线损率预测模型中，由于自变量取影响线损率大小的指标，即自变量存在多个，因此需做多元线性回归分析，采用最小二乘法求线性回归方程的参数。可根据求得的最优聚类数，分别对每一类台区进行多元线性回归建模。

用线性模型拟合数据后，还需对模型的合理性及预测效果进行分析。合理的多元线性回归模型应满足4 个假设：第一，自变量与因变量性存在线性关系；第二，残差呈正态分布；第三，残差方差基本不变；第四，残差（样本）间相关独立。对于前3 个假设，可通过残差图、正态Q-Q图及尺度-位置图来验证。

1）残差图：用于估计观察或预测到的误差（残差）与随机误差是否一致，是以残差为纵坐标，以任何其他指定的量为横坐标的散点图。合理的残差图以残差值0 为中心，并平均散布在拟合值点附近。

2）正态Q-Q 图：用于验证两组数据是否来自同一分布及是否有类似的分布形状，是以样本数据每个值在样本数据集中的百分位数为横坐标，在参考数据集中的百分位数为纵坐标的散点图。如果两组数据来自同一分布，那么样本数据集的点应该都落在参考（x=y）附近。

3）尺度-位置图：包含尺度参数和位置参数的分布，若满足不变方差假设，那么在尺度-位置图中，水平线周围的点应该随机分布。

线性回归模型预测效果的判断指标有5 种，MSE、RMSE、MAE、R-squared、adjust R-squared，本文选择 adjusted R-squared（校正决定系数）作为线性回归模型的评价指标。adjusted R-squared用于表示模型的解释能力，其数学表达式如（6）：

其中，n 为样本数量，k 为模型变量个数。校正决定系数的取值范围为［0，1］，越接近1，说明模型的解释能力越好，即自变量与因变量之间的线性关系越强。

2.3 基于改进K-Means 的低压台区线损预测流程

基于改进K-Means 的低压台区线损预测流程主要分为以下6 个步骤：

1）数据预处理。选取台区特征指标，并对台区数据进行清洗、标准化。

崔：关于几位作曲家，我有一些问题想要问您。首先是格里格，您似乎对格里格有着由衷的偏爱？因为您录制了他的全部独奏及室内乐作品。

2）确定最佳聚类数。采用改进K-Means 进行聚类，取CH 指标最大时的k 值作为最优聚类数。

3）进行多元线性回归分析。取特征指标作为模型的输入量，线损率作为输出量，得到k 元线性回归模型。

4）模型评价。对建立的线性回归模型进行评价，采用校正决定系数adjust R-squared作为衡量指标。

5）将待预测的台区数据输入到线性回归模型中，预测线损率的值。

6）分析预测结果。通过预测值与实际值的对比，分析预测误差。

台区线损率预测流程如图1 所示。

图1 基于改进K-Means 的低压台区线损预测流程

3 算例验证及分析

3.1 低压台区数据分类

选取A 县一年的台区数据样本（共1434 个）进行预处理。数据类型包括居民户数、非居民户数、居民容量、非居民容量、变压器容量、总表有功/无功电量、功率因数、供电量、售电量等。考虑到特征指标获取的难易程度，以配变容量、供电半径、负载率、供电量、售电量作为聚类模型的输入自变量。

令初始聚类数从2 遍历至10，对应得到的CH 指标值如表1 所示。

表1 不同k 值对应的CH 指标值

通过对CH 指标值的分析对比可知，当聚类数k=4 时，CH 指标值最大，聚类效果最好，因此最优聚类数k 取4。其中，第一类有857 个样本，第二类有427 个样本，第三类有118 个样本，第四类有32 个样本。各聚类样本数占比如图2 所示。

按照最优聚类数k=4，选择每类样本集的中心作为初始聚类中心，如表2 所示。

表2 初始聚类中心

3.2 多元线性回归建模

本文采用多元线性回归分析对台区线损率进行预测。其中，自变量为配变容量、供电半径、负载率、供电量、售电量，因变量为线损率。对四类台区数据分别进行线性回归得到模型如图3所示。

图3 线性回归拟合结果

设计算台区线损率的多元线性回归方程表达式为（7）：

其中，A、B、C、D、E 分别为5 个自变量，即配变容量、供电半径、负载率、供电量、售电量的系数，F 为常数项，Y 为线损率。求得的各模型线性回归方程系数如表3 所示。

表3 各模型线性回归系数

3.3 模型合理性分析及评价

为验证上述合理线性回归模型的4 个假设，进行模型评估验证前述建立的多元线性回归模型是否合理，分别用残差图、正态Q-Q 图和位置-尺度图进行可视化分析。分析结果如图4 所示。

图4 线性回归模型分析

其中，残差图用于检验假设1。此图中散点以残差值0 为中心均匀分布，表示自变量与因变量存在良好的线性关系；正态Q-Q 图用来检验假设2，除了99、117、253 三个点外，其余点都在正态Q-Q 图的45 度角的直线附近，可见残差正态性良好；尺度-位置图用于检验假设3，图中的点随机分布在曲线周围，表明残差方差基本不变，满足不变方差假设；假设4 的独立性无法通过以上图片来检验，只能通过数据本身的来源的意义去判断。

3.4 台区线损率预测及误差分析

对A 县1434 个低压台区的数据进行线损率的回归预测。确定初始聚类中心，采用欧式距离判断待预测数据所属的台区类型，取其与4 个聚类中心的最短距离的类别作为其所述台区类型的判定，并由此进一步将待预测数据代入对应的多元线性回归方程中进行线损率计算。

对台区的预测结果进行误差分析，采用相对误差作为量度，如表4 所示。其中，相对误差小于1%的台区有167 台，占比为11.65%；相对误差介于1%～10%的台区有624 台，占比为43.51%；相对误差介于10%～20%的台区有545台，占比为38.01%；相对误差大于20%的台区有98 台，占比为6.83%。从表4 中可以看出，约80%的样本预测相对误差主要集中在1%～20%之间，模型总体计算精度在可接受范围内。

表4 线损率预测结果分析及评价

综上，相对误差介于0～1%和1%～10%时，表明预测值线损率与实测值接近，此时的预测结果是合理的。相对误差介于10%～20%时，表明预测结果合理，但需要对这部分台区进一步分析考察是否存在降损潜力。相对误差大于20%时，考虑两种原因：一是线性回归模型拟合效果差，此时需要对模型进一步调整，对相关参数进行调优；二是考虑计量设备误差、抄表错漏、窃电等原因。