基于Spark的电力设备在线监测数据可视化方法

2016-05-03曲朝阳熊泽宇

电工电能新技术 2016年11期

曲朝阳, 熊泽宇，颜佳，辛鹏，曲楠

(1. 东北电力大学信息工程学院，吉林省吉林市 132012； 2. 国网吉林省电力有限公司，吉林长春 130021； 3. 国网吉林省电力有限公司吉林供电公司，吉林省吉林市 132001；4. 江苏省电力检修分公司，江苏南京 210008)

曲朝阳1, 熊泽宇1，颜佳2，辛鹏3，曲楠4

大数据可视化可以实现海量电力设备在线监测数据中各种属性、运行状态等电力特征信息的图形、图像化直观呈现，为设备运行状态的及时有效监控分析提供有力保障。因此，本文提出一种基于Spark的电力设备在线监测数据可视化方法，为实现大数据环境下的电力设备在线监测数据的状态信息快速提取，在Spark大数据计算平台上，建立了基于设备状态评估指标体系与模糊C均值聚类(FCM)的电力设备状态信息提取算法。针对数据的多维、时序特性，构建三维平行散点图的数据可视化展现形式，实现电力设备在线监测数据信息全貌的可视化展现。将该方法运用于吉林省某风电场的风电机组在线监测数据集，实验结果证明了该方法的有效性。

Spark; 电力大数据; 信息可视化; 在线监测

1 引言

在线监测系统是智能电网稳定运行的安全监控保障之一[1]，其产生的海量状态监测数据连续、广泛地反映了电力设备运行状态的每一个细节, 是电力大数据的重要组成部分[2]。在大数据背景下，电力设备状态监测的重心从传统的运行故障的实时精确定位与分析向运行状态的全景展现与趋势预测转变[3]，而大数据可视化作为信息传递的有效方式，可直观展示电力设备在线监测数据与运行状态变化情况[4]，对状态监测具有重要意义。

电力设备在线监测数据可视化属于大数据信息可视化方向[5]，主要存在两个方面的问题。其一是设备状态信息提取的问题，传统的电力设备状态评估方法将神经网络、关联规则综合分析、层次分析法、模糊理论等数据挖掘方法运用于电力设备在线监测数据[6-9]，并建立设备运行状态评估指标体系，实现设备运行状态的分析评估与信息获取，在小规模数据的设备状态信息提取上取得了较高的精度。而设备在线监测系统积累的数据通常在GB、TB级，记录条数至少在百万条以上，通过小规模样本设计出的分析方法无法满足对大规模的电力设备在线监测数据进行设备状态信息提取的半实时性要求[10]，因此不能直接运用于大数据环境下的电力设备状态监测数据。其二是可视化展现形式的问题，电力设备在线监测数据属性种类繁多(如风电机组在线监测的数据属性包括风速、有功功率、无功功率、电机转速、相电压及电流等多个属性[11])，产生的状态监测数据属于典型的高维数据。目前大数据可视化中用于高维数据可视化分析展示形式主要有散点图、投影及平行坐标方法[12,13]，散点图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况；投影及平行坐标方法尽管可以展示多维信息，但是这两类方法运用于电力设备在线监测数据上会忽略数据固有的时序性，无法展示设备状态的变化情况。

针对上述问题，本文提出一种大数据环境下的电力设备状态监测数据可视化方法。首先，设计了基于设备状态评估指标体系与模糊C均值聚类(FCM)的电力设备在线监测数据的设备状态信息提取算法，在Spark大数据计算平台上实现了大数据环境下的电力设备运行状态信息快速提取；然后，建立了三维平行散点图的数据可视化展现形式，在Spark上完成了将电力设备在线监测数据与运行状态信息映射到三维空间的全方位直观展示；最后，将本方法运用于吉林省某风电场的119号1.5MW风机在线状态监测数据集的可视化展现，并对该方法的执行效率与可视化结果进行了分析与验证。

2 基于Spark的电力设备在线监测数据状态信息提取

在信息可视化中，电力设备在线监测数据集的实质是在线监测数据与其蕴含的设备状态信息的集合。由于同类设备运行状态信息对应的数据元素具有较强的聚集效应，因此采用FCM聚类算法将在线监测数据集X柔性划分至设备状态类别集C中，并利用已有的设备状态评估指标体系确定每个聚类所反映的设备状态，最后根据最大隶属度原则对聚类结果进行去模糊化，实现数据集X中所有数据元素反映的设备状态信息的整体提取。

2.1 状态信息提取算法

设电力设备状态监测数据集X为：

X={xj,j=1,2,…,m},

xj∈Rs,xj=(xj1,xj2,…,xjs)

式中，m为数据集中的元素个数；xj为数据集中的数据元素；s为xj的维度；xj1,xj2,…,xjs为xj中的监测值。

设备状态类别集C为：

C={ci,i=1,2,…,n}

分类ci的聚类中心pci为：

pci=(ci1,ci2,…,cis),pci∈Rs

式中，n为类别集C的分类数，使用设备状态隶属度uij来确定数据集X中各个元素xj所反映的设备状态属于类别集C中的分类ci的程度，则设备状态分类隶属度矩阵U为：

(1)

其约束条件为：

∀j=1,2,…,m

(2)

在数据集X中，由于各个监测量对应的数量级、量纲及设备状态的变化情况不尽相同，因此采用设备状态评估中的劣化度对各监测值xji进行归一化处理，归一化处理后的值为xnor,ji，具体计算如式(3)～式(5)所示。

对越大越优型监测量：

(3)

式中，α为该监测量的告警值；β为该监测量的良好值。

对越小越优型监测量：

(4)

对中间型监测量：

(5)

式中，α1、α2为该监测量的告警值；β1、β2为该监测量的良好值。

在实际的设备状态评估中，各个监测量对设备运行状态的影响程度也不尽相同，而传统的FCM算法基于欧式距离，并未对该情况加以体现，因此根据评估指标体系的权值向量W={wp,p=1,2,…,s}对欧氏距离计算进行加权处理。归一化后的数据元素xnor,j与分类ci的聚类中心加权欧氏距离wdij与相应的FCM的目标函数J可以表示为：

(6)

(7)

根据聚类准则构造如下拉格朗日函数：

(8)

根据Kunhn-Tucker定理对式(8)中的所有输入参量求导，可以得出数据元素xj对聚类ci的隶属度uij与ci的聚类中心pci的迭代计算公式为：

(9)

(10)

通过迭代，不断更新设备状态隶属度矩阵与聚类中心，设最终得到的聚类中心集SPfinal为：

SPfinal={pci,i=1,2,…,n},

pci=(ci1,ci2,…,cis),pci∈Rs

(11)

通过式(12)计算各状态分类ci的状态评估值Vi，以确定聚类对应的设备状态(正常、注意、异常、严重)：

(12)

根据隶属度最大原则确定X中数据元素xj所属的设备状态分类，根据式(13)生成电力设备状态信息集ISX，从而完成数据集X的设备状态信息提取。

ISX={isj,j=1,2,…,s},

isj={xj,ci},i∈{1,2,…,n}

(13)

基于上述核心思想，算法步骤如图1所示。具体如下：

(1)根据在线监测数据类型选取相应的监测状态评估指标体系，获取指标层中各个评估指标Ri的权值wi，得到评估指标体系的权值向量为W={wp,p=1,2,…,s}。

(2)根据式(3)～式(5)对初始数据集X={xj,j=0,1,…,s}进行归一化处理，得到处理后的数据集Xnor={xnor,j,j=0,1,…,s}。

(3)从X中选取n个初始聚类中心C={ci,i=1,2,…,n}，迭代终止参数ε，并初始化模糊划分矩阵U如下：

(14)

(4)依据式(6)计算X中每个数据元素xj与聚类中心的加权距离wdij，按照式(7)计算目标函数J的值。

(5)若第I次迭代的目标函数J(I)的值与前次之差|J(I)-J(I-1)|<ε，则停止迭代，转步骤(6)；否则，依据式(9)和式(10)更新模糊划分矩阵U与聚类中心集C，返回步骤(4)。

(6)利用选取评估指标体系计算最终的聚类中心集SPfinal中各个聚类中心pci对应的设备运行状态评估值Vi，确定其对应的数据分类ci所处的运行状态(正常、注意、异常、严重)。

(7)根据最大隶属度原则对最终得到的设备状态隶属度模糊划分矩阵U进行去模糊化处理，确定在线监测数据集X中的各个数据元素xj对应的设备状态分类，并生成电力设备状态信息集ISX。

图1 电力设备在线监测数据集的状态信息提取步骤Fig. 1 State information extraction steps of electrical power equipment online monitoring data set

2.2 Spark上的电力设备在线监测数据状态信息提取实现

Spark是一个基于内存计算的通用大数据计算平台。通过弹性分布式数据集(RDD)，Spark将数据集的全部或部分缓存在内存中，并利用Lineage机制进行容错，在极大地提升数据处理效率的同时，也将MapReduce、Streaming(Spark Streaming)、SQL(Spark SQL)、Machine Learning(MLlib)、Graph Processing(GraphX)等大数据处理模型统一到一个平台下，形成了可以应对任何大数据处理场景的Spark Ecosystem，如图2所示[14]。

图2 Spark Ecosystem层次结构图Fig. 2 Hierarchical structure graph of Spark Ecosystem

图3 基于Spark的电力设备在线监测数据的状态信息提取过程Fig.3 State information extracting process of electrical equipment online monitoring data based on Spark

如图3所示，基于Spark的电力设备在线监测数据的状态信息提取主要分为三个阶段: ①完成Spark大数据计算平台的初始化及电力设备状态监测数据集的RDD构建；②建立电力设备在线监测数据集信息提取的SparkApplication，将其提交至Spark集群上运行，并返回相应的分析结果(聚类中心集、聚类结果集、模糊划分矩阵的SparkRDD)，以实现在线监测数据信息的快速并行化提取；③利用电力设备状态评估指标体系对结果集中的聚类中心进行分析计算，确定各个聚类表征的设备运行状态，构建电力设备在线监测数据的状态信息集。

算法的实现过程如下：

(1)利用SparkContext类的textFile方法，根据存储路径(HDFS或是本地文件系统路径均可)读取电力设备状态监测数据，根据文件中的增量建立读入的电力设备状态监测数据文件的弹性分布式数据集RDDeFile，并利用RDD类的cache方法进行数据缓存。

(2)使用RDD类的map方法并行执行对RDDeFile中的记录数据进行类型转换(JavaRDD转JavaRDD)，根据式(3)～式(5)的数据属性值归一化处理，以得到预处理完成的弹性分布式数据集RDDparse，并利用RDD类的rdd方法转换为SparkRDD类型进行数据缓存。

(3)根据聚类数n使用RDD类的takeSample方法随机选取数据集RDDparse中的n个点作为初始聚类中心集Cinit；建立一个n行m列的DenseMatrix类型的模糊划分矩阵U，根据式(11)使用Spark中Matrice类的update方法进行初始化；通过SparkContext类的broadcast方法将Cinit、RDDparse及U发送至Spark集群中的各个worker上。

(4)利用RDD类的mapPartitions方法，根据式(6)在集群上的每个RDDparse副本的每个Partition上并行计算数据元素xnor,j与各个聚类中心ci的加权距离wdij及目标函数在每个Partition上的值，通过reduceByKey及collectAsMap方法根据隶属度最大原则统计属于各个聚类的点的个数，并得到各个聚类ci的目标函数的值Jci。

(5)对各个聚类的目标函数值Jci进行求和操作得到整体目标函数J的值，记为Jcur，若Jcur与前次迭代时目标函数值Jpre之差的绝对值小于阈值ε，且各个聚类中心pci的欧氏距离变化小于阈值eps，则停止聚类分析并返回聚类结果弹性分布式数据集RDDclustered、聚类中心集SPfinal及模糊划分矩阵U；否则，利用map方法分别根据式(9)和式(10)更新状态类别集C的聚类中心、模糊划分矩阵U，返回步骤(4)进行迭代计算。

(6)通过选取的设备状态评估体系计算式(12)得到各个聚类中心ci的状态评估值Vi，确定其对应的聚类ci的设备运行状态。根据式(13)及聚类结果集RDDclustered，利用RDD类的map方法并行产生所有信息元素isj，进而将RDDclustered转换为设备状态信息集ISX对应的弹性分布式数据集RDDIS。最后通过使用SaveAsTextFile方式将RDDIS保存至HDFS中，实现信息集ISX的持久化处理。

3 基于三维平行散点图与人机交互的数据可视化展现

3.1三维平行散点图可视化原理

本文的三维平行散点图是二维散点图在三维空间的自然延伸。其将高维、时序的电力设备状态信息集ISX中的信息元素isj映射为一组三维空间中的点pj，点pj的位置由isj中的数据元素xj的时间属性t、属性编号k及属性值xjk决定，映射关系F为：

(15)

为展示在ti时刻的设备状态，对平行坐标系进行着色加强处理。为数据点着色是重要的平行坐标信息反混淆方法。在特定的颜色空间中，每一组数据点pj对应的设备状态分类ci都有一个(ri,gi,bi)值与其对应，其中，ri、gi、bi分别表示红绿蓝三原色。通过应用不同的颜色空间，使设备状态信息集ISX中每一个数据元素isj反映的设备运行状态类别区分明显，从而使用户更清晰地了解设备运行状态的变化规律。

3.2 Spark上的数据展现实现步骤

在Spark大数据计算平台上，通过jzy3d大数据可视化类库，实现了电力设备状态监测数据的可视化展现，实现步骤如下：

(1)使用RDD类的collect方法读取电力设备在线监测数据信息提取产生的设备状态信息弹性分布式数据集RDDIS，生成类型为List的设备状态信息元素列表ListIS，其中Vector的结构为{聚类编号N，时间点T，监测量x1,…,xs}(其中s为监测数据集的维度)。

(2)将ListIS中的每个Vector类型的数据元素Di分解为聚类编号Ni、数据点集Pi，其中Pi的结构为：

pi={pi1,pi2,…,pij,…pis},

pij=(Ti,i,xij)j=1,2,…,s

进而构建相应的聚类编号列表ListN、数据点集的列表ListP。

(3)为聚类编号列表ListN中每一个聚类编号Ni指定相应着色(ri,gi,bi)，构成着色列表Listcolor。

(4)以着色列表Listcolor、数据点集列表ListP为输入数据，利用jzy3d的Scatter方法建立三维平行散点图。

(5)利用ChartLauncher类的instruction方法为建立的三维平行散点图添加Z轴平移、Z轴拉伸、中心旋转、单个属性与时间关系的分解展示等人机交互操作，以便于可视化展现结果的查看，并通过openChart方法进行可视化结果的展现。

4 实验结果与分析

将本方法运用于某风电场的119号1.5MW风电机组在线状态监测数据集，该风机在线监测数据集包含14个监测量，数据量为20G(2000万条数据)，监测量如表1所示。

由于电力大数据可视化主要关注数据处理的实时性及可视化结果的直观性，所以本实验分别对可视化方法执行效率与可视化结果进行分析。为模拟真实的大数据处理环境，在4台曙光I620-G10服务器上搭建真实的Spark集群作为实验环境，系统配置如表2所示。

表1 风电机组在线监测数据集属性表Tab.1 Attribute list of WTGS online monitoring data set

表2 实验环境配置Tab.2 Configuration of experiment environment

4.1 设备状态信息提取算法的执行效率

将本文基于Spark的电力设备状态监测数据的设备状态信息提取算法与传统的基于MapReduce的算法运用于该实验数据集，对处理时间进行对比以说明本文方法在执行效率上的优越性，结果如图4所示。

图4 基于MapReduce的算法与本文算法的信息提取用时对比Fig. 4 Time consumption of state information extracting between algorithm based on MapReduce and our algorithm

由图4可以看出，由于Spark是基于内存计算的大数据处理平台，除构建RDD时的数据读入阶段与结果写入HDFS的结果输出阶段，其余时间都不涉及磁盘IO操作，减少了数据计算中的磁盘数据存取时间，且Spark的基于DAG的任务处理结构比传统的MapReduce任务处理结构更为高效，所以相比传统的基于MapReduce的方法在执行效率上有了极大提升，减少了约84.6%的数据处理时间，满足了电力大数据对历史数据处理的准实时性要求。

可扩展性是按节点数成比例增大数据规模时并行算法的执行效率。为测试算法的可扩展性，从实验数据中取出5G、10G、15G三个样本作为测试数据集，在Spark的Yarn-Cluster模式下，通过设置num-executors参数以实现分别在1、2、3个节点上进行规模和时效对比实验，结果如图5所示。

图5 本文方法的可扩展性测试Fig. 5 Expansibility test of our method

由图5可以看出，虽然由于硬件和平台运行资源消耗的原因，节点数增加时算法性能略微浮动，但这些作业的运行时间基本保持了相同的水平，这体现出本文并行算法良好的可扩展性。

加速比是数据规模固定、不断增加节点数时并行算法的执行效率。理想的加速比是线性的，但由于计算机间通信、任务调度等开销，实际的加速比将低于理想情况。测试数据集数据量为20G时节点数及用时如图6所示。

图6 本文设备状态信息提取算法的加速比测试Fig. 6 Speed-up ratio test of our method

从图6中的设备状态信息提取时间和节点数目的关系可以看出，本文基于Spark的设备状态信息提取算法在节点数目增加时，作业执行用时显著减少，具有良好的加速作用。

4.2 可视化展现的执行效率分析

在执行可视化展现时，Spark自动将该作业分解为本地任务进行调度处理，不涉及Spark集群中的并行数据计算，因此仅对不同数据量下的基于三维平行散点图的可视化展示效率进行分析，结果如图7所示。

图7 Spark上基于三维平行散点图的可视化展现用时Fig. 7 Time consumption of visualization based on 3-D parallel scatter and Spark

由图7可以看出，Spark上基于三维平行散点图的可视化展现的作业用时随数据量的增加呈线性变化，对2000万条记录进行展现的用时26.705s，基本满足电力大数据中历史数据处理的半实时化数据处理需求。

4.3 可视化结果分析

该119号风机的在线监测数据集的三维平行散点图可视化结果与风机有功功率属性、风速属性随时间变化的分解展示结果分别如图8(a)、图8(b)和图8(c)所示。图8(a)中属性的名称和顺序如表1的z1～z12所示，状态A代表状态评估值为良好，状态B为一般，状态C为注意，状态D为严重。图9为风机变桨角、转速随时间的变化关系图。

首先由图8(c)的风速-时间变化中可以看出，在该时间段内该地区的风速保持在0～15m/s，小于风机的切出风速25m/s，因此不存在实际风速大于切出风速所导致的风机停止捕获风能的情况。

图8 可视化结果Fig. 8 Visualization results

图9 风机变桨角、转速随时间的变化关系图Fig.9 Visualization results of relation between pitch-angle and time and relation between rotate-speed and time

然后从图8(a)三维平行散点图的可视化结果中可以看出，该风机在2月份的运行状态可以被分为四类，其中状态A所占比例最多，结合图8(b)的有功功率-时间变化可以看出，在状态A下风机有功功率保持在约100～300kW的范围，结合图8(c)与图9(a)可知对应的风速及风机变桨角多处于3～10m/s及0°～20°之间，由图9(b)可知此状态下风机转速基本保持为某个恒定值，因此状态A代表的是风机正常工作时的转速恒定状态，有功功率随风速的变化而变化。

在状态B所代表的状态下，风机变桨角基本保持不变或是呈上升趋势，在变桨角保持不变时风机的转速随风速变化，表示在有一定风速的情况下风机捕获最大风能的运行状态，即最大风能捕获区；在变桨角增加时表示风机在功率极限区域工作一段时间后进行调整，增加风机变桨角以控制风机转速及输出功率的调整状态。

在状态C下，由图8(b)、图9(a)可知风机变桨角保持在0°附近，风速达到额定风速11.1m/s，输出功率保持在1000～1500kW，已接近或达到功率极限，由图9(b)可知此时风机的发电机转速接近极限值(约1750r/min)，此时应引起工作人员的注意，应查看发电机轴承、绕组温度等监测量，以保证风电机组的安全稳定运行。

在状态D下，由图9(a)和图9(b)可知，其中绝大多数情况显示风机变桨角大于89°，可以看出这是因为风机进入停机或紧急停机状态使得风机有功功率为0。其余情况下，状态D的分布稀疏且风机变桨角变化极快，可以认为是风机在由停止到起动过程中叶片变桨角调节至迎风状态或是风机自动解缆所导致。

5 结论

本文为实现大数据环境下的电力设备在线监测数据的可视化展示，在Spark大数据处理平台上对电力设备在线监测数据可视化进行了研究，提出了一种基于Spark的电力设备在线监测数据可视化方法。该方法通过对电力设备状态监测数据进行FCM与设备状态评估指标体系相结合的设备状态信息提取，以获取设备运行状态信息集，并通过三维平行散点图的形式,进行状态变化与监测数据相结合的一体化展现。实验结果证明，在处理千万级的电力设备状态监测数据时，该方法在数据信息提取上具有良好的可扩展性和加速比，完全可以满足电力大数据处理的半实时性需求，且可视化结果易于理解，实现了数据的全景展示。下一步工作的重点将是对电力大数据可视化的人机交互方法进行进一步研究，以便使其能够更好地应用于电力大数据可视化分析和电网管控决策中。

[1] 邹建明(Zou Jianming).在线监测技术在电网中的应用(Application of on-line monitoring technology on power grid)[J].高电压技术(High Voltage Engineering), 2007, 33 (8): 203-206.

[2] 周国亮,宋亚奇,王桂兰，等(Zhou Guoliang, Song Yaqi, Wang Guilan, et al.).状态监测大数据存储及聚类划分研究(Research of condition monitoring big data storage and clustering)[J].电工技术学报(Transactions of China Electrotechnical Society), 2013, 28 (S2): 337-344.

[3] 彭小圣,邓迪元,程时杰,等(Peng Xiaosheng, Deng Diyuan, Cheng Shijie, et al.).面向智能电网应用的电力大数据关键技术(Key technologies of electric power big data and its application prospects in smart grid)[J]. 中国电机工程学报(Proceedings of the CSEE),2015, 35 (3): 503-511.

[4] 张东霞,苗新,刘丽平,等(Zhang Dongxia, Miao Xin, Liu Liping, et al.).智能电网大数据技术发展研究(Research on Development Strategy for Smart Grid Big Data)[J].中国电机工程学报(Proceedings of the CSEE),2014, 35 (S1): 432-437.

[5] 王栋(Wang Dong).大数据可视化技术在电网企业的应用(Application of big data visualization technique in power grid enterprise)[J].江苏电机工程(Jiangsu Electrical Engineering),2014, 33 (6):82-84.

[6] 阮羚,谢齐家,高胜友,等(Ruan Ling, Xie Qijia, Gao Shengyou, et al.).人工神经网络和信息融合技术在变压器状态评估中的应用(Application of artificial neural network and information fusion technology in power transformer condition assessment)[J].高电压技术(High Voltage Engineering),2014, 40 (3):822-828.

[7] 李黎,张登,谢龙君,等(Li Li, Zhang Deng, Xie Longjun, et al.).采用关联规则综合分析和变权重系数的电力变压器状态评估方法(A condition assessment method of power transformers based on association rules and variable weight coefficients)[J].中国电机工程学报(Proceedings of the CSEE),2013, 33 (24):152-159, 22.

[8] 梁永亮,李可军,牛林,等(Liang Yongliang, li Kejun, Niu Lin, et al.).变压器状态评估多层次不确定模型(A multilayer uncertain transformer condition assessment model)[J].电力系统自动化(Automation Electric Power Systems),2013, 37 (22):73-78.

[9] 廖瑞金,王谦,骆思佳,等(Liao Ruijin, Wang Qian, Luo Sijia, et al.).基于模糊综合评判的电力变压器运行状态评估模型(Condition assessment model for power transformer in service based on fuzzy synthetic evaluation)[J].电力系统自动化(Automation Electric Power Systems),2008, 32 (3):70-75.

[10] 曲朝阳,陈帅,杨帆,等(Qu Zhaoyang, Chen Shuai, Yang Fan, et al.).基于云计算技术的电力大数据预处理属性约简方法(An attribute reducing method for electric power big data preprocessing based on cloud computing technology)[J].电力系统自动化(Automation Electric Power Systems), 2014, 38 (8):67-71.

[11] 肖运启,王昆朋,贺贯举,等(Xiao Yunqi, Wang Kunpeng, He Guanju, et al.). 基于趋势预测的大型风电机组运行状态模糊综合评价(Fuzzy comprehensive evaluation for operating condition of large-scale wind turbines based on trend predication)[J].中国电机工程学报(Proceedings of the CSEE),2014, 34 (13):2132-2139.

[12] 任磊,杜一,马帅,等(Ren Lei, Du Yi, Ma Shuai, et al.). 大数据可视分析综述(Visual analytics towards big data)[J].软件学报(Journal of Software),2014, 25 (9):1909-1936.

[13] 雷君虎,杨家红,钟坚成,等(Lei Junhu, Yang Jiahong, Zhong Jiancheng, et al.).基于PCA和平行坐标的高维数据可视化(High-dimensional data visualization based on principal component analysis and parallel coordinate)[J].计算机工程(Computer Engineering),2011, 37 (1):48-50.

[14] 周国亮,朱永利,王桂兰,等(Zhou Guoliang, Zhu Yongli, Wang Guilan, et al.).实时大数据处理技术在状态监测领域中的应用(Real-time big data processing technology application in the field of state monitoring)[J].电工技术学报(Transactions of China Electrotechnical Society),2014, 29 (S1):432-437.

Visualization method of electrical equipment online monitoring data based on Spark

QU Zhao-yang1XIONG Ze-yu1YAN Jia2XIN Peng3QU Nan4

(1.School of Information Engineering, Northeast Dianli University, Jilin 132012,China; 2.State Grid Jilin Province Electric Power Supply Company, Changchun 130021, China; 3. Jilin Power Supply Company, State Grid Jilin Province Electric Power Supply Company, Jilin 132001, China; 4.Maintenaue Company of Jiangsu Power Company, Nanjing 210008, China)

With the strengthening of range and quality of the electrical equipment online monitoring in smart grid, the collected data volume in online monitoring is growing exponentially. All the attributes and the operating state in electrical equipment online monitoring data which is of massive amounts can be presented directly by the big data visualization, which can provide powerful guarantee to effective and timely monitoring and analyzing of the operating state. However, the application of the big data visualization to electrical power big data is still in a preliminary stage, and there is still lacking of visualization method of electrical equipment online monitoring data under big data environment. Therefore, a visualization method of the electrical equipment online monitoring data based on Spark is proposed. To realize rapid extraction of electrical equipment state information, the state information extracting algorithm based on FCM and evaluation system is constructed on Spark. For the multi-dimensional and time-serial feature of electrical equipment online monitoring data, the representation based on 3-D parallel scatter is constructed, and the data information of the electrical equipment online monitoring is realized. The method is applied to the WTGS online monitoring data set, and the efficiency of the method is proved by the experiment result.

Spark; electrical power big data; information visualization; online monitoring

2015-12-24

国家自然科学基金项目(51277023)、吉林省科技计划重点项目(20130206085SF)、吉林省科技重点转化项目(20140307008GX)

曲朝阳(1964-), 男, 吉林籍, 教授, 博士生导师, 研究方向为智能电网与电力信息化、虚拟现实、网络技术等; 熊泽宇(1991-), 男，江苏籍，硕士研究生，研究方向为电力大数据可视化(通信作者)。

TM46

1003-3076(2016)11-0072-09