APP下载

基于紧凑模式树的配电网物资供应链中异常数据挖掘

2022-04-20亓红红

微型电脑应用 2022年3期
关键词:约束条件粒度数据挖掘

亓红红

(广东电网有限责任公司珠海供电局,广东, 珠海 519000)

0 引言

异常数据集内会包含偏离大部分对象的数据,一般和大多常规对象数据存在较为明显的差异,甚至会使人怀疑这些数据是通过另一种完全不同的机制所产生的,这类数据隐藏在各类隐私文件中,对整体数据的合理性和安全性产生严重影响。这一现象受到国内外学者的广泛关注,成为数据挖掘领域里较为关键的分支[1]。

这种人工操作方式客观实时性较差,且过程复杂并容易出现错误。又因为配电网供应链上涵盖层次太多、数据极大,这种异常数据挖掘工作所需要人力、物力成本高[2]。传统基于统计、距离、密度以及聚类的挖掘方法又难以满足配电网物资供应链实时需求[3]。

针对上述问题,本研究提出一种基于紧凑模式树的配电网物资供应链异常数据挖掘方法。

1 异常数据挖掘

配电网物资供应链内的物资数据经常组织为多种维的形式,可以表示为D={d1,d1,…,dn},每种维di组织即一种层次Hi,每种层次经过部分维层组成[4]。所有维层次的笛卡尔集可以凭借格架构描述Γ=H1×H2×…×Hn。格架构就是有向图,每一种节点都能够描述一种cuboid,边为每个cuboid之间含有的依赖关联。在实际情况下,为了提高查询处理效率,通常会将格架构内的一些cuboid进行实体化并储存至供应链物资数据库内。

设定M为格架构Γ里每一种已经通过实体化的供应链。在配电网物资供应链内的挖掘异常点需要以下约束条件:层约束条件Clev、数据约束条件Cdata与异常约束条件Cexe。这些约束条件能够通过基于条件的数据过滤、数据切块或切片来进行设定。利用层约束条件,计算Clev能够得到最底层的拟定阈值。

这2种约束条件把供应链限定在一个较小的多维空间内,这个空间可被描述为受限的数据立方体,由满足条件Cdata∩Clev=true的数据单元所组成,所有数据单元也可以被描述成受限数据单元。异常约束条件Cexc给工作人员提供了凭借个人特定状况设定一种异常数据点的标准阈值。

1.1 首次挖掘

配电网物资供应链异常数据挖掘,也能描述成数据库内异常信息发现,由以下3种阶段形成:数据预处理、异常数据挖掘、结果描述。异常数据挖掘流程如图1所示。

图1 异常数据挖掘流程

同时数据集通常使用决策表或是物资供应链的形式来进行处理与描述。通过信息系统来进行异常数据的定义和检测。

依靠异常定义,能够对异常数据进行以下设定。

拟定IS={U,A,V,f}代表一种物资供应链,∀x∈U,如果数据x和每一种非异常数据的距离比较远,同时和每一种异常数据的距离较近,那么描述数据x是异常数据。

为了准确估算数据之间的距离,下面设定相对知识粒度来描述距离函数,通过估算数据和其他数据的距离之和来描述该数据的异常程度[5-7]。

(1)

式中,KG(A)为A的知识粒度,KGx(A)为删除数据x之后A的知识粒度。知识粒度能够描述不确定性数据的程度,所以,数据相对知识粒度能够衡量x的不确定程度。假如剔除数据x的知识粒度转化较小,那么x的不确定性程度较小,反之,x的不确定性程度较大[8]。

A={a1,a2,…,ak}凭借粒度从大至小的排序,组成序列S=,其中KG({i})≥KG({i+1}),描述S代表物资供应链内单属性递减序列。

S=<1,2,…,k>代表单属性递减序列,拟定序列AS=<1,2,…,k>,其中1=A,1={1},并且1+1=1-{1},描述AS代表物资供应链内的属性子集递减序列。

为了描述数据集内每一种数据的异常程度,在数据相对知识粒度的基础上,通过异常度理念来描述物资供应链内每一种数据的异常程度。

S=<1,2,…,k>代表单属性递减序列,AS=<1,2,…,k>代表属性子集递减序列,∀B⊆A,WB(x)=1-|[x]B/|U||代表x的权重,数据x的异常度设定为

(2)

设定v代表一种拟定的阈值,对x∈U随机,假如KOF(x)>v,那么x被描述成物资供应链IS内的一种基于知识粒度的异常数据[9],其中KOF(x)代表数据x的异常程度[10]。

但上述使用知识粒度进行挖掘后,并没有进行二次检测,所以可能存在冗余的异常数据未被挖掘,因此,在知识粒度方法的基础上添加紧凑模式树作为二次异常数据挖掘的方法。

1.2 基于紧凑模式树的二次挖掘

(1)Tprefix内父节点的索引编号不能超过子节点的索引编号。

(2)Tprefix内所有节点需要具有一种记录rni,其需要存在原始层编号li,异常出现次数si。

(3)Tprefix内最左侧节点组成的左斜树,节点数需要和索引表内的索引编号总量相等。

紧凑模式树Tprefix组建预处理方法主要具有2步:首先凭借索引编号的顺序组建左斜树,之后把数据预处理产生的转换异常集添加至左斜树内,形成紧凑模式树Tprefix。

基于紧凑模式树Tprefix的异常数据二次挖掘步骤:向上累积,自底向上映射挖掘。因为Tprefix内只存在每种数据tr1的最后一个节点处具有信息记录rni,所以在二次挖掘的流程内使用向量累积法。

为了使挖掘流程内的系统空间消耗降至最低,映射紧凑模式树[11]。考虑到使用自底向上的挖掘方法,在挖掘编号是lj时,值需要处理紧凑模式树内每一种编号是lj的节点的子节点,所以,能够对紧凑模式树内找到的节点进行部分投影,从而获得子树。这种映射形式并不需要额外的节点来暂存一种新的映射数,不需要占用任何额外的空间,并且因为映射的流程非常简单,还能够最大程度地提升挖掘的效率。

2 实验验证

2.1 实验环境

为了充分验证本研究所提出的基于紧凑模式树的配电网物资供应链异常数据挖掘方法的有效性,进行实验验证。实验环境拟定配电网系统为B/S模式,基本说明见表1。

表1 配电网系统参数

根据上述参数设置,以编号索引精度、异常数据识别、异常数据挖掘时间为实验对比指标,将所提方法与基于模糊神经网络方法、基于改进聚类算法的挖掘方法进行对比。

2.2 异常数据识别

在二维数据集中进行异常数据划分对比,代表数据对象的4种距离领域,距离领域与的距离越远说明该领域中包含异常数据,实验开始前设定C3、C4中包含异常数据,C1、C2中不包含异常数据。3种方法的异常数据划分结果如图2~图4所示。

图2 所提方法

图3 基于模糊神经网络方法

图4 基于改进聚类算法的方法

根据设定情况可知,领域C1、C2与数据对象O的距离应该相近,而领域C3、C4应与数据对象O的距离较远。从对比结果可以看出,所提方法的异常数据识别结果与设定结果一致,而2种对比方法均出现较大误差。所提方法是通过估算物资数据对象的子节点来测定一个数据集中可能存在异常数据点的概率,即评测该物资数据相对于周围领域的孤立程度,因此所提方法能够准确识别异常数据。

3 总结

为了满足日益增长的社会用电需求,进一步提升资源利用效率,减少配电供应链内数据不清,存在异常信息问题,提出一种基于紧凑模式树的配电网物资供应链异常数据挖掘方法,其主要完成了以下几种方面的工作:主要介绍了配电网物资供应链的使用现状,深入了解了配电网信息采集系统应用于动态。其次,完成基于知识粒度的物资供应链分析,了解知识粒度概念的同时对异常数据的影响原因深入分析,详细描述异常数据干扰流程。针对异常数据挖掘,使用紧凑模式树对异常数据进行向上累积的二次异常挖掘,实现了异常数据的实时挖掘。接下来要深化研究,不仅要对异常数据进行全面、实时挖掘,还要判定产生原因与指定可行的降损方案。

猜你喜欢

约束条件粒度数据挖掘
基于一种改进AZSVPWM的满调制度死区约束条件分析
粉末粒度对纯Re坯显微组织与力学性能的影响
探讨人工智能与数据挖掘发展趋势
基于矩阵的多粒度粗糙集粒度约简方法
A literature review of research exploring the experiences of overseas nurses in the United Kingdom (2002–2017)
基于并行计算的大数据挖掘在电网中的应用
基于粒度矩阵的程度多粒度粗糙集粒度约简
线性规划的八大妙用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究