输变电设备现场状态监测数据搜索引擎优化研究
2021-06-27赵彦阳惠小东金鑫
赵彦阳,惠小东,金鑫
(南方电网数字电网研究院有限公司,广东广州 510670)
分析输变电设备状态对于确保电网正常运行有重要意义,研究内容包括电气信息、绝缘信息、机械信息和化学信息。目前,相关学者对于输变电设备现场状态监测进行了大量研究,并且根据研究特性将监测分为绝缘在线监测、GIS 局放在线监测、变压器油色谱在线监测[1]。上述监测方法主要是针对电网的局部特征进行监测,利用能量管理分析电网所运行的各种信息,在确定电网各项设备的技术参数后,得到检修测试报告,从而为状态监测提供支持[2]。
虽然目前研究了大量输变电设备现场状态监测数据搜索引擎,但是由于搜索的信息种类复杂,选择的信息模型基准不同,所以在匹配时会存在很大差异,难以轻松地确定匹配对象,而且当前的搜索引擎都为在线引擎,必须要利用输变电设备内部的系统来分析软件才能实现开发接口互相关联。由于得到的在线监测数据十分零散,难以共享到其他系统,所以很难实现整体管理。从输电网数据配置划分上可知,传统的搜索引擎在数据标准性分析和开放性方面仍然存在很多问题[3]。
文中对现有的输变电设备现场状态监测数据搜索引擎进行优化研究,分析输电网的整合变压器、覆冰状态、雷电状态和电能质量信息,使用驱动开发方法对信息进行汇集、转换和发布,建立扩展模型,从而实现现行标准化,增强搜索引擎的扩展性和开放性。
1 搜索引擎架构优化
目前的输变电状态数据监测系统使用的架构网络多为串行网络,结构比较复杂,一旦通信链路的任何一个环节出现问题,就会导致整个监控网络出现故障,降低数据传输的可靠性。由于传输难度不同,所以部分监测数据均需要多次转发,通过多次转发上传到网络主站,影响传输的实时性[4]。监测装置与主站之间存在多个通信协议,各种私有协议不断出现,使主站端的接口越来越复杂,厂家与厂家之间的监测数据形成孤岛,无法快速搜索到相关数据[5]。
为了解决当前搜索引擎架构复杂、实时性差、可靠性低、通信规约不统一等问题,在传统搜索引擎的基础上进行优化,构建扁平化搜索引擎架构,如图1所示。
图1 输变电设备现场状态监测数据搜索引擎优化架构图
文中设计的搜索引擎架构在层次上进行了优化,使用IEC 61850 标准接口对不同层次的数据进行通信。文中设计的搜索引擎使用的通信模式为“一发双收”的模式,得到的通信信息能够同时向省级主站和网级主站发送,每个网络端的综合处理单元都可以直接与主站通信,网络主站数据的传输节点被大大缩小,节点与节点之间可以直接进行数据通讯,省略了节点之间的数据转换,扁平化的搜索引擎实现了在线搜索[6]。
在该搜索引擎模型中,使用了IEC 61850 协议,变电站的各监测装置数据通过该协议汇集到处理单元中,省级主站和网级主站可以同时发送监测信息,用户通过该搜索引擎可以实现查询、查看、下载等工作[7]。
搜索引擎在使用扁平架构后,搜索数据时传输等级就得到了有效降低,搜索实时性得到显著提高,数据的所有上传通道都互相成为对方的备用通道,数据传输过程中如果一个通道出现问题,其他通道也可以使用,保证了数据传输的可靠性。搜索引擎内部的综合处理单元将所有的监测数据汇集到一起,网级主站和省级主站的描述具备一致性,数据融合效果好,分析能力高[8]。
2 搜索引擎存储优化
2.1 数据分布优化
在对输变电设备现场状态监测数据进行关联数据搜索时,执行的查询方式为MapReduce,通过分析数据与数据之间的相关性来执行Hadoop 布局方案。设定映射阶段,将得到的数据在所有节点上重新分组、排序,利用远程访问的方式拉取数据[9]。为防止大量与操作无关的数据在网络传输中被复制,甚至被上传,将所有的数据根据数据属性放在同一个节点上,利用映射实现连接,减少不必要的数据通讯,提高整体的执行效率[10-11]。
基于一致哈希方法的数据搜索引擎分布优化过程如图2 所示。
图2 基于一致哈希方法的数据搜索引擎分布优化过程
根据图2 可知,数据在第一个副本中会确定采集装置的ID,根据得到的采集装置ID 实现哈希映射;在第二个副本中可以得到采集时间,根据确定的采集时间实现哈希映射;在第三个副本中可以得到数据之间的自定义关系,根据自定义关系实现哈希映射[12-13]。根据上述3 个副本的映射结构来进行综合分析,从而满足不同搜索要求和数据查询要求[14]。监测数据使用的相关系数是研究的重要属性,为更好地确保自定义相关性,要根据上层应用程序对需求进行赋值。
文中提出的优化算法为多副本一致性哈希数据存储算法,该算法利用数据相关性将所有的数据集中存储到一起。在对数据进行分析和查询时,所有主要的搜索查询工作都会被放在映射端,由映射端统一执行,从而降低由映射到通信过程的网络负载量,确保引擎可以在短时间内实现查询和分析[15]。
不同类型的输变电设备现场监测数据所拥有的数据类型和数据格式不同,但是所有的监测数据都具备时空特性,每一个传感器的采样数据都会对应一个与之匹配的采样时间和地点,利用上述的关键字实现采集。优化后的Hadoop 会将数据储存成3 个副本,从输变电设备现场使用的监测装置放置位置、数据采集花费的时间和自定义的相关性来判断优化效果。
使用优化算法时需要建立哈希环,所建立的哈希环如图3 所示。
图3 哈希环配置
具体流程描述如下:
1)确定监测数据之间的相关系数,使用冗余副本对监测数据进行预定义,设定冗余副本数量为3;
2)分析每个集群中的哈希值,得到的哈希点配置到哈希环不同的区间中;
3)对监测数据的时空属性和相关系数进行计算,从而得到确切的哈希值,分析副本1 的数据来源,确定监测ID,计算得到哈希值1,以映射的方法复制在哈希环上;分析副本2 的时间属性,计算得到哈希值2,将时间戳映射在哈希环上;分析副本3 的相关系数,得到对应的哈希值3[17],映射方式为依次映射;
4)通过所得到的数据哈希值和数据节点哈希值确定数据所存储的位置,以顺时针的方式实现映射;
5)如果数据存放的节点出现异常现象,要将这一节点跳过,存到下一节点。
2.2 拓扑优化
数据的读取内容主要为名字节点,分析数据节点和客户端之间的距离,从而确保从最近的节点读取到数据内容,提高读取时间。在搜索引擎网络节点中,Hadoop 以树状结构分布,每棵子树的根节点都与计算机的交换节点连接到一起,设定节点之间的距离为一个节点到另一个节点所经历的跳数[18]。Hadoop 集群示例如图4 所示。
图4 Hadoop集群示例
分析图4 可知,Hadoop 所有的默认配置节点都会被统一到一个框架中,在分析出实际集群的配置效果后,以拓扑的方式将节点网络传递给Hadoop,确保数据以合理的方式读取和写入。
3 实验研究
为了验证文中研究的输变电设备现场状态监测数据搜索引擎的工作效果,与传统的搜索引擎进行实验对比,通过多数据源连接并行查询实验验证文中设定的搜索引擎的优越性。
使用的搜索方式为3 种:第一种为全连接搜索,在搜索时不设定查询条件,分析设备ID,查询所有输变电设备的综合信息,确定设备的查询条件;第二种为半连接搜索方式,查询设备ID 从而确定不同范围的监测综合信息;第三种为时间搜索。针对这3 种搜索方式进行实验对比,分析搜索时间,得到的实验结果如图5、6 所示。
图5 运行时间对比实验图
相比较于传统的搜索引擎,文中研究的搜索引擎传输速率更快,传统搜索引擎的数据传输平均速率为19.8 M/s,文中搜索引擎的数据传输平均速率为21.2 M/s。该搜索引擎采用的分布方式为优化分布,传统的搜索引擎采用的分布方式为随机分布。
根据图6 可知,随着规模数据的增长,运行时间也在增长,数据处理的速度都有所提升,文中研究的搜索引擎在处理过程中基本不会受到网络通信带宽的影响,算法性能基本稳定。
图6 运行时间对比图
文中研究的搜索引擎可以分析输变电设备现场监测的主属性、时间戳和相关系数,分析数据使数据能够在集群中聚集,从而提高搜索引擎的实时性。文中搜索引擎对传统算法进行改变,使用的编程方法为MapReduce 并行编程,同时使用多通道数据融合,提高数据搜索的执行速度。
4 结束语
文中以开放性标准研究了一种新的输变电设备现场状态监测引擎,在架构和存储方式上进行了优化,利用扁平架构对设备进行优化。使用Hadoop 分布数据,数据分布标准为IEC 61850 标准,实现数据共享,降低监测装置的监测难度,使引擎内部的所有数据都能够转发。
文中研究的引擎装置验证实验由于受到实验数据和实验规模的限制,所以采集的数据集仅为GB 规模,虽然能够反映出算法的运行时间变化趋势,但是数据量还是相对较小,下一步应该向着TB 数据规模展开分析与研究。