APP下载

基于时间特性的电力用户行为意图挖掘方法

2024-12-21张宏伟

中国新技术新产品 2024年16期

摘 要:电力用户行为数据具有复杂性和多样性,因此用户行为数据呈现出极大的差异性和不确定性,导致电力用户行为意图挖掘难度增加、挖掘率较低。本文针对上述现象,提出基于时间特性的电力用户行为意图挖掘方法。通过预处理和降维方式处理电力用户行为负荷数据,利用先进的特征提取技术,在处理后的数据中提取电力用户行为意图特征,考虑时间特性,揭示电力用户行为背后的意图和规律,以达到挖掘电力用户行为意图的目的。试验结果表明,本文方法能够将复杂的电力用户行为负荷数据转化为有价值的意图特征,挖掘率较高,有助于理解用户的日常用电模式,为电力系统的优化调度和资源配置提供有力支持。

关键词:时间特性;电力用户;用户行为意图;挖掘方法

中图分类号:TM 714" " " " " 文献标志码:A

基于时间特性的电力用户行为意图挖掘方法是在电力大数据背景下深入分析用户用电行为的重要手段。在电力大数据中,用户用电数据占较大比例,对理解用户行为、优化电力资源配置等方面具有重要价值。但是电力消费数据具有规模大、维度高、来源多、时效特征强和价值密度低等特点,与海量的社会经济环境数据有紧密关联[1],现有的研究手段很难有效解决这一问题,也不能挖掘其中的有用信息。因此,本文提出基于时间特性的电力用户行为意图挖掘方法。该方法分析了用户用电负荷数据的时间序列,结合用户的用电信息,挖掘用户的用电行为意图,可帮助电力企业更好地了解用户的用电行为规律,优化电力资源配置,提高电力供应的可靠性和经济性。综上所述,本文基于时间特性的电力用户行为意图挖掘方法旨在提高电力数据的应用质量,为电力企业的决策支持、资源配置和市场营销等方面提供有力支持。

1 处理电力用户行为负荷数据

采用预处理和降维处理方式对用户电力负荷数据进行处理。在预处理阶段,设定异常值规则,将任何距离平均值超过3倍标准差的数据点均视为异常值,并从数据集中移除。在此基础上,本文提出一种基于Z标准化的方法,即将原始数据转换成一个均值为0且标准偏差为1的新的数据集合[2]。具体过程如下所示。

假定原来的每日负载数据是X={x1,x2,…,xn},从原日负荷数据中剔除离群点,Z标准化后得到X={x'1,x'2,…,x'n},如公式(1)所示。

(1)

式中:xi和x'i分别为第i个时间的实际用电负荷和归一化后的用电负荷;n为一天中的负荷取样点数;μ和σ分别为每日负荷数据的平均值与标准偏差;i为时刻。

采用分段聚合近似法降维处理数据[3],采用降维处理,可得精简的日负荷数据为={,,…,},如公式(2)所示。

(2)

式中:w为负荷曲线PAA表示的分段数;为该段中数据的值;x'j为未简化前的日负荷数据。

由此完成电力用户行为负荷数据处理。

2 提取电力用户行为意图特征

为了更有效地提取电力用户行为意图的特征,在处理电力用户行为负荷数据的基础上,本文提出一种基于堆栈自编码器和无监督学习的自适应特征选择算法[4]。AE模型结构如图1所示。

编码器将x从输入层投射到隐藏层h=[h(1),h(2),…,h(m)],其中m为隐藏层可变矢量的维数。映射函数f(x)=sf(Wx+b),其中W为n×m维权重矩阵,b为偏差向量。在解码器中,通过映射函数f将隐藏层表示的h映射到输出层x,映射函数为f(h)=sg(Wh+),为平均偏差向量[5]。

利用公式(3)将平均重建误差以最小的方式进行重建,求出自编码器的模型参数,并采用梯度下降法更新自编码的参数,在满足|x-x|无限逼近于0的条件下,将当前自编码器的参数保存为训练好的自编码器参数[6]。

(3)

式中:J为损失函数;xi为输入自编码器中的原始数据样本;xi为自编码器通过编码和解码过程后重构出的数据样本;N为数据样本的总数;为平均偏差向量;b为偏差向量;ϖ为权重矩阵。

堆栈自编码器由多个自编码器逐层连接而成,第i个编码器将原始数据映射到第i个隐藏层,再将第i个隐藏层数据作为第i+1个自编码器的输入,训练第i+1层隐藏层得到参数{Wi+1,bi+1},并把该隐藏层数据作为下一个AE的输入。采用这种方式逐层训练整个堆栈自编码器。多个自编码器堆叠起来后结构如图2所示。

图2所示的自编码器属于无监督学习方法。自编码器通…过最小化损函数多次迭代来使输出与输入的误差尽可能接近于0。训练好的自编码器隐藏层数据被视为降维后的特征数据[7]。在上述基础上,为了更好地自适应选择用户行为意图数据的特征,本文提出基于K-Means聚类算法的用户行为特征自适应选择方法,整体框架如图3所示。

利用K-Means聚类算法聚类分析降维后的特征值,通过聚类,将具有相似行为意图的用户进行分组,进一步提取能够代表不同行为意图的特征。根据K-Means聚类的结果,提取每个聚类中心的特征向量,将这些电力用户行为意图特征的时间序列记作A=[a1,a2,…,am],代表不同行为意图用户的典型特征。

3 基于时间特性挖掘电力用户行为意图

为了更全面、深入地理解用户行为的动态特性和演变模式,本文基于这些时间序列的电力用户行为意图特征进行聚类分析。

分析时间序列时,需要度量相似性,为了精确衡量2个时间序列间的相似程度,采用互相关的方法。将2个电力用户行为意图特征时间序列分别记作序列A=[a1,a2,…,am]和序列B=[b1,b2,…,bm]。为了全面比较这2个序列的全局特征,设定一个平移窗口,逐步移动序列A,如公式(4)所示。

(4)

式中:As为由序列A时间窗平移s个单位;am为时间序列元素;s为时间窗平移单位个数。

根据公式(4)得出A、B的互相关序列,如公式(5)所示。

Eω(A,B)=[e1,e2,…,eω,…,e2m-1] (5)

式中:ω和m为移动位次。

进一步得出基于时间特性的电力用户行为意图相似性度量函数R,如公式(6)所示。

(6)

式中:L0(A,A)、L0(B,B)分别为序列A、B相对位移0的相关值;R(A,B)为0时,表示序列A、B完全相似[8]。

相似性度量的提取目标为序列A、B间的相似性,而非差异性,将斯坦纳树优化问题转化为求解相似性最大化问题,可得公式(7)。

(7)

式中:Pk为第k类聚类数据集合;n为聚类总数;ui为电力用户行为意图聚类数据集合中第i条聚类数据;uk*为矩阵M最大特征值对应的特征向量,即电力用户行为意图各类聚类中心曲线;uk为矩阵M最小特征值对应的特征向量。

聚类流程如图4所示。1) 输入聚类数k,指定零向量作为初始化聚类中心。2) 利用时序相似性度量函数计算时序数据集U中各时间序列ui到各聚类中心R的距离c,同时把ui归类到与零向量距离最小的第i类中[9]。3) 提取每类聚类形态的聚类中心曲线。4) 重复步骤2、3,当聚类中心不再变化时停止迭代,聚类完成,得到电力用户行为意图,如公式(8)所示。

(8)

式中:ε为距离阈值;c为时序数据集U中各时间序列ui到各聚类中心R的距离。

通过观察每个聚类的中心曲线和特征分布,揭示不同用户群体的行为模式、动态特性和演变规律。结合其他相关信息和背景知识,深入挖掘用户行为意图的深层含义。

4 试验

4.1 试验准备

为了验证本文方法的有效性,进行电力用户行为意图挖掘试验。首先,选择适当的硬件资源,CPU型号为Intel Xeon Gold 6248R,GPU型号为NVIDIA GeForce RTX3090,配置256GB的内存和SSD存储类型,以满足大数据处理的需求。其次,对软件环境的相关配置,本文选择Ubuntu20.04的操作系统,编程语言采用Python3.8。最后,对于数据处理和可视化工具,本文将Pandas和NumPy库作为数据处理库,将Matplotlib和Seaborn工具作为可视化工具。具体试验环境参数见表1。

进而收集电力用户用电数据,需要考虑不同地域的用电习惯和模式差异,保证数据能反映不同地区的独特行为。收集到的数据见表2。

这些数据反映了不同用户在总用电量、高峰和低谷时段用电量的差异,有助于进一步分析用户的用电行为模式和特点。将收集到的数据进行预处理,提取与用户行为意图相关的特征,按照设计部分内容挖掘电力用户行为意图。保证试验覆盖的用户群体具有足够的多样性,包括不同年龄、职业和收入水平等,以反映不同用户群体的独特用电意图。

4.2 试验结果和分析

为了验证本文方法在电力用户行为意图挖掘中的优越性,将其与基于事件驱动的挖掘方法和基于用户画像的挖掘方法进行比较,得到电力用户行为意图挖掘率的比较结果,见表3。

由上述试验结果的比较数据可知,在所有试验条件下,本文方法的行为意图挖掘率均高于基于事件驱动的方法和基于用户画像的方法。表明使用本文方法处理电力用户行为意图挖掘任务时精度更高,特别是在条件2和条件6下,本文方法的挖掘率分别为92.45%和91.56%,显著领先于其他2种方法。基于事件驱动的挖掘方法需要对特定事件进行检测和分析,在事件定义和检测方面可能存在一定的主观性和局限性,从而影响了挖掘率的准确性。基于用户画像的挖掘方法虽然能够综合考虑用户的多个维度信息,但是构建用户画像时可能面临数据稀疏性和用户行为多样性的挑战,导致挖掘率受限。本文方法基于时间特性,自动学习并捕捉用户行为模式与意图间的复杂关系,从而提高了挖掘的准确性,可为电力公司提供更准确的用户行为分析,优化电力资源配置,提高运营效率。

5 结语

本文对电力用户用电负荷数据进行了深入剖析,揭示了用户用电行为的时间特性及其背后的意图。该方法能够更精准地把握用户的用电需求,为电力资源的优化配置和电力服务的个性化提供有力支持。但是,本文研究仍存在一些不足之处。例如在数据处理和分析过程中,可能受数据质量、数据完整性等因素的影响,导致分析结果存在一定偏差。后续研究将致力于提高数据处理的精度和效率,减少数据质量对分析结果的影响。

参考文献

[1]练琳,卢万平,黄家宝.基于MESCM算法的电网用电行为智能识别[J].电子设计工程,2024,32(5):127-130,135.

[2]吴昀烔,赵健,宣羿,等.基于多维负荷特性挖掘的电力特殊用户用电行为分析[J].电力建设,2024,45(3):116-125.

[3]费飞,翁利国,寿挺,等.基于数据挖掘的电力用户行为特征分类研究[J].自动化技术与应用,2023,42(11):101-104,117.

[4]洪居华,洪兰秀,李源非,等.基于自适应权重特征聚类的用户用电行为分析[J].计算机应用与软件,2023,40(11):341-349.

[5]万伟,刘红旗,杜单单,等.考虑负荷季节特性的电力用户用电行为画像[J].哈尔滨理工大学学报,2023,28(3):45-55.

[6]李冀,赵成,羡慧竹,等.基于k均值聚类算法的用电数据行为分析[J].电子技术,2023,52(4):319-321.

[7]武灵耀,郭贺宏,赵庆生,等.基于MACD指标与聚类算法的电力用户用电行为分析[J].上海电力大学学报,2023,39(2):105-111.

[8]赵爽,阮俊枭,支刚,等.考虑尖峰负荷特性指标的用户用电行为分析[J].内蒙古电力技术,2022,40(5):39-45.

[9]张洁,夏飞,袁博,等.基于特征优选策略的居民用电行为聚类方法[J].电力系统自动化,2022,46(6):153-159.