联合知识图谱与改进高斯混合模型的电力用户聚类方法

2022-02-08朱韵攸王迥源

重庆理工大学学报(自然科学) 2022年12期

吉涛，何轶，朱韵攸，王迥源，申强，廖勇

(1.国网重庆市电力公司信息通信分公司，重庆 401120；2.国网重庆市电力公司, 重庆 400014；3.重庆大学微电子与通信工程学院，重庆 400044)

0 引言

目前，为了适应科学环保的经济发展模式，智能电网成为了目前电力工业关注的热点。然而，与传统电网相比，智能电网的终端用户信息以及各种电气设备数据急剧增加，因此对用户侧进行数据的采集、传输和存储并进行行为分析和管理是目前电力系统面临的一大难点，同时这决定了智能电网的可靠运行[1]。

传统的用户划分方式只考虑了用户的单一特征属性，忽略了目前用户数据的多样性，同时传统的数据处理方法也无法很好地挖掘数据之前的相关性。因此，如何对电力用户侧的行为进行精准分析是当前重要的研究课题[2]。

聚类方法是处理随机数据的一类代表性方法，如基于原型聚类、层次聚类、密度聚类等都可以对未知特征的数据进行挖掘。其中高斯混合模型(gaussian mixture model,GMM)聚类作为原型聚类的代表方法，由于其良好的聚类性能而被广泛研究。蔡秋娜等[3]利用用户的负荷数据使用GMM方法进行聚类，提取其典型日负荷曲线，并采用支持向量机方法，根据用户类别与其典型日负荷曲线之间的关系，在训练集上建立分类模型，并据此对新的用户进行行业分类。李婉婉等[4]采用GMM聚类方法对车站微机监测系统中采集的功率数据进行分类，根据结果建立概率神经网络的训练集和测试集，结果表明基于 GMM 聚类和概率神经网络的方法可以改善不收敛、误差大等问题。薛琳[5]首先提取电力用户的行为特征，借助GMM方法得到不同质量的电力用户，以条件互信息为标准进行更优用户的筛选，最后借助长短期记忆网络(long short-term memory,LSTM)进行负荷预测。上述3种方法虽然都借助GMM方法进行聚类分析，但只有文献[3]和文献[5]提及了电力用户的聚类分析，并且文献[3]使用GMM方法对电力用户进行聚类分析，但是没有对其行为特征进行进一步挖掘，而文献[5]的方法存在输入特征增加而难以建模的问题。所以基于GMM的电力用户数据分析还需进一步的研究。

另一方面，知识图谱(knowledge graph,KG)也被称作知识域映射地图或知识域可视化，KG目前在智能电网领域的应用主要面向用户服务、设备运维、知识管理等方面。徐蕙等[6]针对电网企业的数据资源无法被智能分析与管理等问题，提出基于KG的语义搜索方法，相比于传统的关键词搜索，该方法的性能得到有效提升。周帆等[7]针对模型管理等相关业务的问题解答，利用电力调度模型构建了KG，并实现了智能问答系统的构建。由此可得，KG在智能电网中的应用还有很大的发展空间。李金星等[8]通过使用BiLSTM-CRF模型对电网故障分析和电网调度领域进行分析，利用KG技术，获取到各电网间的拓扑关系以及电网故障信息，提高了电网维修的效率。上述方法均表征了基于KG的电网管理方案要比传统的方法高效，因此KG技术在智能电网中的应用还有很大的发展空间。

为进一步提升对电力系统用户的管理，本文提出联合KG和期望最大化[9](expectation maximization,EM)的GMM聚类方法，简称KGEG方法。该方法主要包括2个步骤：① 利用KG，将复杂的文本转换为GMM方法所需要的输入；② 利用EM方法对上一步骤中获得的数据进行GMM聚类，实现对数据隐藏的相关性进行聚类分析。最后将所提方法应用在电力公司的用户数据分析中，得到电力公司用户分群，并通过评价指标将该方法与其他方法进行对比，以验证所提方法的可行性和有效性。

1 KGEG方法

1.1 KG预处理

KG采用四元组表示知识，知识元可以表示为：kej={cj,pj,rj,aj}，其中cj,pj,rj,aj分别代表概念、实体、关系和属性，由ɡ个知识元组成的知识域记为kud={ke1,ke2,…,keg}。知识域、知识元的关系如图1所示：

图1 知识域与知识元示意图

对于复杂文本，KG可以有效分析文本的核心概念以及关键内容，对于聚类方法，需要规范的输入数据x=[x1,x2,…,xn]T，通过KG得到文本的知识元节点后再进行聚类，避免手动处理聚类所需要的数据，其原理如图2所示。

图2(a)为KG预处理过程的抽象描述，图2(b)为具体过程。记文本数据输入为s，通过KG预处理文本数据后，得到聚类方法输入x=fKG(s)，下一小节将描述基于GMM的聚类方法。

图2 KG预处理过程框图

1.2 高斯混合聚类

对于所有的输入样本集合D={x1,x2,…,xm}，假设这些数据分为k类，对于其中的一个输入x，其服从于高斯混合分布，因此概率密度函数为：

(1)

式中，p(x|vi,Ci)表示其中的一个成分，服从均值为vi、方差为Ci的高斯分布：

(2)

式中：vi和Ci分别为均值、协方差，(·)T为转置运算。对于式(2)，其参数为vi和Ci。记隐变量p(yj=i)=γji为样本xi是来自第j个高斯分布成分的概率，通过下式，能够判定xj第i个高斯成分：

maxγji,j=1,2,…,k

(3)

为了求解以上参数，构建以下对数似然函数：

(4)

对于均值vi，其偏导数为：

(5)

(6)

(7)

(8)

最后，对于参数αi，注意到δi存在约束，引入拉格朗日乘子法：

(9)

(10)

(11)

vi、Ci以及δi这3个参数均需要分模型p(xj|vi,Ci)的概率，根据式(12)，结合贝叶斯公式，可以得到p(yj=i|xj)为：

(12)

由于第i个分模型需要参数vi和Ci，因此式(12)又需要参数vi、Ci和αi，参数和模型交替迭代，达到最大似然估计的目的，该方法即为EM方法的原理。在初始化模型参数(αi,vi,Ci)后，反复更新均值、协方差、分模型概率3个参数，直到这些参数在下次迭代时收敛为止。方法1描述了基于KG预处理的GMM聚类方法的过程：

方法1：KGEG方法

输入：复杂文本s

输出：聚类簇划分θ={θ1,θ2,…,θk}

过程：

1.复杂文本查询转换为聚类输入x=fKG(s)

2.随机从x中选取k个数据xinit={x1′,x2′,…,xk′}作为初始聚类的中心点

4.令αj=dj/n；令vj=xj′，j=1,2,…,k；令Cj=COV(θj)

5.Δαi=∞,Δvi=∞,ΔCi=∞

6.while

7.forj=1,2,…,n

9.(i=1,2,…,k)

10.end for

11.fori=1,2,…,k

15.end for

16.until Δaiand Δviand ΔCi

17.fori=1,2,…,n

18.根据式计算每个xi的簇类别ξj，划分到簇θξj

19.end for

2 聚类有效性评价

判断聚类标准的指标有很多，本文从内部、外部以及整体3个方面选择评价指标，包括紧凑度CI[10]、FM[11-12]、Adjusted-Rand(AR)[13]以及分离度(degree of separation,DS)，其中CI为内部评价指标，FM和AR为外部评价指标，DS为选取的整体评价指标。

2.1 内部评价

CI指标：从数据簇的内部来判断聚类的效果，用于体现一个簇的数据集的聚集程度，若一个簇内的数据越相似，则CI指标越高，也说明了聚类效果优秀[14]。

计算簇内CI的方法如式(13)，其中n为总样本数，每个样本由p个向量组成：X={x1,x2,…,xn}，X⊂Rp，c为最后聚类分簇数，U是一个维度为c*n矩阵，uij为数据j对第i类的支持度，若该支持度越大，说明其包含的信息越多；V是一个维度为c*p的矩阵，表示聚类原型；并且采用的计算距离方式为欧氏距离。

(13)

2.2 外部评价

使用外部评价指标的过程一般是将聚类方法用于现有的标准测试数据集中，再利用相应的指标进行评判方法划分的准确程度[15]，经典的外部聚类评价指标如FM指标和AR指标等。

1) FM

如下式所示，计算FM指标的过程为：

(14)

FM指标为精度和召回的几何平均数，取值范围为0～1，一般该值越大，则说明该聚类方法划分的簇与标准结果越接近，只有当聚类结果完全正确时，IFM=1。

2) AR

首先，如下设置对应的参数的式子：

(15)

(16)

(17)

(18)

(19)

AR是兰德系数的改进版本，为去掉随机标签对评估结果的影响，取值范围在0～1，该值越大，也代表了聚类效果很好。

2.3 全局评价

DS表示了划分后各个簇的分离界是否清晰，之间的界线越清晰，即DS越高，则聚类效果更好。

簇间DS公式如式(20)和式(21)所示：

Fij=(uij-α)2

(20)

(21)

如下式为整体分离度，通过将所有子簇的DS相加获得：

(22)

式中:α表示惩罚系数，其默认取值为0.5；Fij表示模糊偏差，主要用于加强隶属度矩阵特征。模糊集合的DS为簇之间的模糊偏差做积运算。

3 应用案例分析

3.1 数据处理

在进行聚类之前，需要对数据先进行预处理，以保证数据具备规范的格式，也保证聚类的质量。

3.1.1数据准备

首先尽量选取能对聚类产生较大影响的数据特征作为聚类的特征对象，这是后续聚类分析的基础。

1) 特征属性的选取

参考电力通信中已有的对用户分析的研究，确定出能有效体现用户行为的特征，通过这些特征来细分，并建立对应的指标体系，能大大加强管理者对其中业务组织的管理并改善服务质量。如表1所示，本文的聚类特征属性分成了四大类，分别为用户消费能力、掉电容纳水平、用户欠费评估以及用户安全等级。通过这些方面的指标特征，能整体地分析电力用户所属的大致群体。

表1 用户分群评估信息

2) 数据采集

本文选用了10 000位电力信通用户的数据，通过上文选取的评估特征进行提取，表2为其中的一些用户的消费能力数据信息。

用户掉电容纳水平选取的部分数据如表3所示，包括了用电类型、合同容量等类别。

表4为部分用户的欠费评估数据信息，这些数据能较为全面地体现用户缴费的一个积极度与诚信度。

表2 用户消费能力信息

表3 用户掉电容纳水平

表4 用户欠费评估信息

用户的设备风险的信息如表5所示，通过安全检查不合格次数等类别属性可以判断用户对用电安全的整体素质，包含的用电量和合同量的匹配度通过式(30)得到：

(23)

式中:γ为用电匹配度；β为实际用电量；α为合同中包含用电量。

表5 用户安全等级信息

3.1.2数据标准化

为保证聚类时的数据规范统一并且完整，还需要对数据进行标准化处理。

1) 空缺处理

由于选用的随机用户数据在收集时不完整，存在空缺信息，需要对这种情况进行处理。譬如部分用户存在掉电后投诉次数的数据为空，为了保证聚类的过程的正常运行以及结果的准确，采用平均值填空的方法进行补充数据，具体来说，通过找到该类特征数据的众数值进行补充，而对于缺失属性量大于2的数据直接进行删除。

2) 噪声数据处理

在选用的数据中还存在数据噪声，若其中的数据远远不在该类属性数据的范围之内，那么可以确定该数据为噪声数据，需要进行处理，本文采用了箱型图自动识别噪声数据，即通过2个阈值U、L，其中U为所有数据中该类属性的大小的前1/4数据的阈值，而L为所有数据中该类属性的后1/4数据的阈值，取2个阈值的差为Q，则上界设定为U+1.5Q，下界设定为L-1.5Q，超过上界以及低于下界的数据都为噪声数据，将该条数据删除处理。

3) 不一致数据处理

在选取的数据中也存在少量数据混乱的情况，如不同类别的数据位置相反，如将用电合同容量填写到了缴费形式处，或者将安全检查不合格次数写到了用电匹配量处，这样存在的数据较少，对于这样的数据，通过中值法来进行处理，具体为：通过统计该类属性的中位数来替代该类数据。

将这些数据标准化处理后，就得到了本文聚类时的最终数据。

3.2 结果评价

本小节将本文所提方法与传统方法中的层次聚类方法以及K-Means方法进行了仿真对比，使用的数据是由电力公司提供的用户数据，通过对比不同测试结果指标综合分析评价本文所提方法的性能。

1) 聚类结果

为了使聚类结果更具代表性，本文只选择对聚类结果有影响的特征变量进行操作。首先从电力公司提供的用户信息中选取10 000名用户信息，并对这些数据信息进行数据转换和数据清洗，然后使用本文所提KGEG方法对数据进行分析，聚类结果以及每一类用户群的特征均值分布情况如图3、图4所示。

图3 KGEG聚类结果

图4 3种用户群特征

表6展示了聚类结果的详细信息，即电力公司用户数据经所提KGEG方法处理后的结果。从表中可以得出所分三类用户的各项参数的平均值，对这些聚类数据结果进行分析能够使电力公司为用户提供更加具有科学依据的服务方案。

表6 用户聚类结果

2) 结果分析

将聚类后的数据进行分析整理，其结果如表7所示。从表7可以看出，电力用户被分成了三类群体，下面对这三类用户群体分别进行分析。

表7 用户聚类结果提取

用户群1：该类用户在总用户群中占有一定的比率，具体为40%，同时该类用户的消费水平较高，平均月消费水平为14.76万元；该类用户的拖欠金额平均为3.15万元，说明这些用户拖欠电费比较多；该群体主要是大工业用户群，他们的合同容量高达400 KVA，用电需求非常高；并且该类用户群的安全意识比较高，用电匹配度高达96%。总的来说，用户群1对电力公司而言是优质的客户群。

用户群2：该用户群具有最多的数量，占总用户数的50%。这些用户的每月平均消费额为2.53万元，消费水平相对是最低的；该类用户的拖欠金额平均为0.21万元，该类用户的诚信水平较高，拖欠金额较少；该群体主要是工商业用户群，他们的合同容量仅为70 KVA，用电需求不高；这些用户的用电安全意识薄弱，因为其用电匹配度为0.88。因此，用户群2对电力公司而言是中等的客户群。

用户群3：该用户群的数量是最小的，即只占总用户10%的数量。该类用户的每月平均消费额为5.15万元，消费处于中等水平；该类用户的拖欠金额平均为2.87万元，该类用户的诚信水平一般，拖欠金额中等；该群体主要是农业生产用户群，他们的合同容量为160 KVA，用电需求较高；该类用户群的整体安全用电意识是最差的，因为用电匹配度仅为0.79。总的来说，用户群3对电力公司而言是一般的客户群。

根据上述方法得到最后的聚类结果，电力公司可以针对不同的用户群制定不同的销售方案，能够满足不同用户群的需求，提高电力公司的销售量，同时获取更大的用户满意度，以此来提高整体电力公司客服效率、提高客服满意度并减少客服开销。

3) 聚类质量评价

为了对本文所提KGEG方法的聚类效果进行评价，本节将所提KGEG方法、层次聚类方法以及K-Means方法对电力公司信通用户数据的仿真结果评价指标进行了对比，为了防止出现偶然误差，本文对数据集进行了100次重复实验，最后计算采样数据的平均值作为最后的评价标准。通过五项指标来测试评价所提方法与其他两类方法的聚类效果，分别为AR指标、FM指标、DS指标、CI指标以及运行时间。具体聚类指标如表8所示。

表8 用户聚类指标

从表8可以看出，在用户样本数为10 000的情况下，本文所提KGEG方法的各项评价指标均要优于K-Means方法和层次聚类方法。并且，从表中还可以得出所提KGEG方法的AR指标和FM指标均要接近于1，说明所提KGEG方法能够取得非常好的聚类效果，因为得到的聚类簇与数据原始簇非常接近。对比这几种方法的DS指标，可以看出所提KGEG方法的结果均要低于层次聚类方法和K-Means方法，虽然与层次聚类方法的结果有些接近，但是所提方法在这3个方法中的结果值是最低的，说明所提KGEG方法的聚类后的簇的分离度要比层次聚类方法和K-Means方法聚类后簇的分离度更大，聚类效果更好。在CI指标上，所提KGEG方法明显要优于层次聚类方法和K-Means聚类方法，说明所提KGEG方法聚类后的簇具有很好的紧凑度。但是所提KGEG方法的运行时间要高于K-Means方法，运行时间是第二长的，运行时间最长的为层次聚类方法。虽然所提KGEG方法的运行时间略长于K-Means方法，但是其余的各项指标性能都要远远高于K-Means方法，并且KGEG方法的运行时间只比K-Means方法高1.4 s，方法复杂度的提升是完全可以接受的。总的来说，所提KGEG方法能够取得比其他2种方法更好的聚类效果，只是运行时间稍长。

4 结论

针对电力用户聚类问题，提出了一种联合KG和EM的GMM方法，简称KGEG方法。该方法首先采用KG对复杂电力用户文本数据进行预处理，得到聚类方法的输入，接着采用基于EM方法的GMM聚类方法，能够有效提高聚类的全局寻优能力。通过对给定的电力用户数据进行仿真验证，以标准聚类质量评价指标进行对比，结果表明所提KGEG方法相比于传统聚类方法能够得到更好的聚类结果、分类效果和全局寻优性能，验证了所提方法的可行性和有效性。

由于本文在验证时采用的数据集较小，方法的泛化能力体现不够，所以下一阶段的研究重点将使用更大数据集对所提方法进行进一步地测试验证，另外还考虑将所提方法应用于电力公司数据分析的其他领域。