电力监控平台I6000接口的数据处理模型

2019-01-30李斌赵中英王敏

电子技术与软件工程 2019年1期

文/李斌赵中英王敏

1 相关工作

1.1 研究背景及意义

随着信息化的迅速发展，大数据、云平台在电力领域的广泛应用，电力数据规模越来越庞大，部分数据的价值不高，I6000作为电力领域信息化的业务平台，每天产生大量的数据，如何有效的处理数据，探测其中有效的数据，及时的探测其中有效的数据显得颇为重要，通过一定的数据挖掘和算法对数据进行采集和分析，可以快速检测到其中的隐藏数据和故障数据，有助于保证系统安全稳定的运行，提升运维工作效率。

1.2 算法概述

Mitchell定义机器学习为：对于一个给定任务，通过一个性能参数P来衡量任务的性能高低，一个目标程序可以从实例中或者经验中进行学习，通过学习，这个目标程序对于给定任务的处理效率和性能就会提高。本文以T作为给定的任务，E作为训练样本，性能的度量参数设置为P，经过训练集E的训练以后，采用新的测试集进行测试，观测参数P的变化。结合I6000接口数据的特点，本文采用的是无监督学习法，无监督K-means算法流程为：

给定const值K，从测试集中选择一个random M 值作为聚类中心。对于测试集中的每一个点w(x,y)，计算点w到M的距离D(x)，公式如下：

图1：K值的选取

从测试集中选取D(x)较大的点作为新的聚类中心：a.同理，对于测试集中的每个点，计算其和最新聚类中心的距离D(x)，并将结果保存，Sum(D(x)=所有保存结果之和。b.重新选择随机值，通过同样的方法计算新的聚类中心。Sum(D(x)*Randomr=r，currSum += D(x)，循环遍历直到其currSum>r。得到种子点。

重复重复上述步骤，至数量M=k即可。对测试集中所有测试点与k个中心的距离进行计算。将最小的距离记为Ki。计算所有的检测框后，重新计算每一类的质心。再重复计算，直到聚类中心的变化小于5%，最终输出k个坐标的x和y。