面向电力电缆状态监测综合云计算平台架构设计
2020-11-28刘伟
摘要:电力电缆状态信息监测对于保障电力安全至关重要,但现有监测系统的处理能力无法满足海量监测数据的实时分析和处理。传统的串行处理方式在应对海量数据增长时也暴露出很多不足,本文在传统数据处理分析方法的基础上,面向电力电缆的故障数据监测的应用场景,设计出一种能够满足全方位实时需求的综合云平台架构,能够满足海量数据的处理和存储要求,为故障的及时发现与处理提供支持。
关键词:电力安全;海量数据;云平台
1、引言
电力电缆作为电力传输的重要载体,一旦出故障,对于人民的生产生活将造成极大影响。为了保障电力传输的安全,对电缆的状态信息进行实时监测分析,及时发现电缆故障意义十分重大。随着网络技术和传感器技术的不断发展,电力监测中心能够监测到的数据量极为庞大,传统的信息监测系统无法满足如此量级数据的分析和处理,因此构建海量监测数据快速、高效、稳定的处理平台是目前电力企业极为关注的问题。
传统的串行处理方式难以满足海量电缆监测数据的处理需求,但随着云计算、大数据等技术的快速发展和普及,为海量数据的处理分析带来了新的思路。目前,多数的电力监测平台采用的是大数据处理框架Hadoop,该平台的大数据批处理能力较强,但无法满足海量监测数据的快速处理以及实时性处理。针对以上不足,本文设计了一种基于云计算的电力电缆监测数据处理框架,从而保证了电缆监测数据处理的快速性和实时性要求。
2、传统并行计算的不足
并行计算是一种相对于串行计算的计算模式,在该模式下多个计算过程是同时进行的,不同于循序进行的常规计算方式[1]。按照应用的计算特征分类,主要有以下几方面的应用:
(1)数据密集应用。此类应用可以处理海量数据,但是计算并不复杂,以数据并行的方式进行计算。
(2)计算密集应用。此类应用处理的数据较少,但是计算非常复杂,主要以任务并行的方式进行计算。
(3)混合应用。相对于前两种来说,此类应用的数据量和计算量都非常巨大,进行计算时可以采用数据并行的方式或任务并行的方式,也可以两者结合使用。
并行计算相对于串行计算来说,具有处理速度快、高并发等多种有点。但是传统的并行计算仍存在着一些不足,主要体现在以下几点:
(1)扩展性有限。计算性能的提高很大程度上依赖于硬件系统的性能,如需进行扩展的话,可以采用更换处理器、提高内存、增加存储空间等方式实施,但是此种操作的扩展性有限,成本代价也非常高。
(2)容错性较差。传统的并行计算模式是没有提供容错性机制的,因此,如果在计算的过程中某一部分出现错误,就要对整个过程进行重新计算。即使用户在并行的程序设计中实现了容错性,整个系统的稳定性是无法保证的。
(3)编程难度大。传统的并行计算模型只是对一些功能进行了简单的封装,但是对于数据的管理、任务的调度、数据通信等较为复杂的功能并未进行封装,因此,用户在使用时,除需要考虑自身应用外,还需要处理较为繁琐的技术细节,编程难度很大。
3、云计算编程模型
根据美国国家标准与技术研究所(NIST)给出的一种定义是:云计算是一种模式,它可以实现从可配置的计算资源共享池中方便地、按需地通过网络访问获取所需的资源(包括网络、服务器、存储、应用及服务),所需资源能够迅速被提供或释放,只需投入很少的管理工作或与服务供应商进行很少的交互[2]。云计算主要包括虚拟化、可靠通用、面向服务等特点。随着云计算技术的快速发展,一批新的编程模式的出现可以给用户提供并行编程的服务平台,并且屏蔽掉了底层细节,相对于传统的并行计算具有很大的优势,本文设计的云计算平台主要采用三种主要的计算模式:
(1)Hadoop MapReduce计算模式
Hadoop是目前应用最为广泛的大数据处理系统,其核心是分布式文件系统HDFS和MapReuce计算模型。HDFS具备分布式存储的基本特征,采用主-从架构,建立一个完整的物理连接集群。MapReduce编程模型的基本思想仍是并行处理方式,但是其提供的Map和Reduce兩个借口将很多底层功能封装起来,使用户可以更加注重问题本身。本文通过Hadoop MapReduce计算模式对电力电缆监测中产生的海量数据进行分析和处理。
(2)Spark计算模式
相对于Hadoop来说,Spark由于是在内存中对数据进行处理,因此,处理速度更快,适用于大量迭代和交互的计算场景,本平台在设计中通过Spark完成电力电缆海量局部放电信号的分析和处理,从而弥补Hadoop处理速度相对较慢的不足。
(3)Storm计算模式
对电力电缆进行监测,及时发现问题非常关键,因此数据的实时性处理尤为重要,Storm主要面向大规模不间断数据流的实时分析[3],因此本研究中使用Storm研究在线监测数据的实时处理方法。
4、综合云平台架构设计
为了能够满足电力电缆监测数据的实时快速分析和处理的需求,本文基于上文三种计算模型设计了综合云平台架构,整体包含三个层次:基础层、平台层和服务层。
(1)基础层
基础层的主要作用就是将需要用到的服务器设备、存储设备等通过虚拟化的技术进行整合,通过整合,原有的底层之间的异构信息会被虚拟化资源屏蔽掉,因此可以有效降低设备的投资成本。同时,高层应用也不会与底层设备绑定,从而使资源的利用大大提高。
(2)平台层
平台层主要作用是在基础层硬件的基础之上,为上面的应用层提供需要的计算以及存储的软件。该层中的存储主要是采用HDFS,大量的非结构化数据会以文件形式在其内部进行存储。对于少量的非结构化数据和半结构化数据可以存储在Hadoop的HBase中。平台层整体的资源调度由YARN进行,YARN是一种资源管理系统,可以为上层的应用提供统一的资源调度,通过YARN,前文所述三种框架可以在统一的物理集群中运行,减少维护成本。根据用户的需求以及监测到数据的特征,不同应用场景会分配给不同的计算模式来运行。
(3)应用层
设计应用层的主要目的是为用户提供接口和各种服务,提供的接口中包含了很多的通用接口,这些接口可以重复使用,并且具有很好的扩充性。应用层提供的各种服务与用户业务相连,根据不同的应用提供不同的、相应的服务。
参考文献:
[1]王龙晖. 基于并行计算的调节阀大数据智能分析及建模方法研究[D].山东大学,2019.
[2]石秋发,邱瀚.基于云计算的大数据挖掘体系构建[J].电子技术与软件工程,2020(10):153-154.
[3]李川,鄂海红,宋美娜.基于Storm的实时计算框架的研究与应用[J].软件,2014,35(10):16-20.
基金项目:
衡水市科技计划自筹经费项目《基于大数据的XLPE电力电缆绝缘故障智能诊断方法研究》(项目编号:2019011003Z)单位:衡水市科技局
衡水学院高层次人才科研启动基金项目《基于大数据的XLPE电力电缆绝缘诊断在线监测数据处理方法研究》(项目编号:2019GC13)
作者简介:刘伟(1985-),男(汉族),河北衡水人,博士研究生,讲师,研究方向:计算机大数据应用。