APP下载

电力监控平台I6000接口的数据处理模型

2019-01-30李斌赵中英王敏

电子技术与软件工程 2019年1期
关键词:测试环境聚类距离

文/李斌 赵中英 王敏

1 相关工作

1.1 研究背景及意义

随着信息化的迅速发展,大数据、云平台在电力领域的广泛应用,电力数据规模越来越庞大,部分数据的价值不高,I6000作为电力领域信息化的业务平台,每天产生大量的数据,如何有效的处理数据,探测其中有效的数据,及时的探测其中有效的数据显得颇为重要,通过一定的数据挖掘和算法对数据进行采集和分析,可以快速检测到其中的隐藏数据和故障数据,有助于保证系统安全稳定的运行,提升运维工作效率。

1.2 算法概述

Mitchell定义机器学习为:对于一个给定任务,通过一个性能参数P来衡量任务的性能高低,一个目标程序可以从实例中或者经验中进行学习,通过学习,这个目标程序对于给定任务的处理效率和性能就会提高。本文以T作为给定的任务,E作为训练样本,性能的度量参数设置为P,经过训练集E的训练以后,采用新的测试集进行测试,观测参数P的变化。结合I6000接口数据的特点,本文采用的是无监督学习法,无监督K-means算法流程为:

给定const值K,从测试集中选择一个random M 值作为聚类中心。对于测试集中的每一个点w(x,y),计算点w到M的距离D(x),公式如下:

图1:K值的选取

从测试集中选取D(x)较大的点作为新的聚类中心:a.同理,对于测试集中的每个点,计算其和最新聚类中心的距离D(x),并将结果保存,Sum(D(x)=所有保存结果之和。b.重新选择随机值,通过同样的方法计算新的聚类中心。Sum(D(x)*Randomr=r,currSum += D(x),循环遍历直到其currSum>r。得到种子点。

重复重复上述步骤,至数量M=k即可。对测试集中所有测试点与k个中心的距离进行计算。将最小的距离记为Ki。计算所有的检测框后,重新计算每一类的质心。再重复计算,直到聚类中心的变化小于5%,最终输出k个坐标的x和y。

2 数据集选择

本文采用的数据都是I6000接口的测试数据,经过清理、集成、选择、归一化等过程。使用的数据都是测试环境中的真实数据。在数据选择前,对数据进行预处理,删除不符合字段类型等错误数据。量化数据进行归一化处理。公式如下:x*=(x-min)/(max-min)把数据变为(0-1)区间进行分析。

3 实验过程

3.1 K-means算法K值的选取

本文通过测试K值和聚类后平方误差的关系,绘制图表,如图1所示,随着K值的增大,平均误差逐渐趋于平稳,当K值增大到6以后,平均误差基本不再发生变化。

3.2 对数据进行聚类

在选定k值后,对于给定的I6000接口数据进行聚类,聚类完成后,得到对应的数据分析的结果分布,本文实验结果显示,数据呈现具有规律性,不同类型的数据会分布在一定的区域内。不同区域的数据代表不同的数据结果和导向。

4 结语

本文通过I6000测试环境中的实际数据,对数据进行了聚类分析和深度学习,通过测试发现,I6000的接口数据可以通过聚类分析的方法使得结果呈现不同的类型,便于对系统的故障和敏感信息的定位,同时解决了I6000数据延迟问题,本文只需要在I6000接口采集相应的数据进行处理,无需通过延迟或者定期传输。

猜你喜欢

测试环境聚类距离
算距离
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
距离有多远
自适应确定K-means算法的聚类数:以遥感图像聚类为例