APP下载

电力系统非结构化数据处理方法研究

2019-09-10高明陆宏治梁雪青

现代信息科技 2019年17期
关键词:智能算法聚类电力系统

高明 陆宏治 梁雪青

摘  要:本文首先简述了非结构化数据的背景以及电力系统非结构化数据的特点,然后阐述了对非结构化数据挖掘利用时所遇到的问题,回顾了电力系统不同应用层面非结构化数据的处理方法及优缺点。在此基础上,从非结构化数据处理中的数据提取、数据过滤、数据转化和利用方面进行归纳和分析。最后根据电力系统战略规划,提出了未来非结构化数据处理的发展方向。

关键词:非结构化数据;大数据处理;电力系统;聚类;智能算法

中图分类号:TM7      文献标识码:A 文章编号:2096-4706(2019)17-0009-04

Abstract:This paper first briefly describes the background of unstructured data and the characteristics of unstructured data of power system,then expounds the problems encountered in the exploitation of unstructured data,the processing methods and advantages and disadvantages of unstructured data at different application levels in power system are reviewed. On this basis,the data extraction,data filtering,data transformation and utilization in unstructured data processing are summarized and analyzed. Finally,according to the strategic planning of power system,the development direction of unstructured data processing in the future is proposed.

Keywords:unstructured data;big data processing;power system;clustering;intelligent algorithm

0  引  言

如今,在移動互联、大数据、人工智能时代背景下,在电力行业中,随着能源互联网、智能电网、泛在电力物联网的建设和发展,各种网络拓扑变得更加复杂,整个电力行业运营中产生爆炸式增长的多源异构数据。伴随着移动互联技术的普遍应用,电力物联网中复杂的传感器网络产生了海量数据,这些数据覆盖了电力生产、传输、销售等各个环节,并且电力监管和电力资源之间的信息交互数据也会不断增长。电力行业产生的海量数据将会带来存储、传输和信息处理等各方面的挑战,也成为了移动互联、物联网及人工智能技术在电网企业融合应用中需突破的实际问题。

在电力系统数据中,结构化数据与非结构化的数据有着不同的应用价值。结构化数据通过统计分析可以用来制定发展策略、预测动向。但实际上,与电力企业内目前用于记录、统计、控制的显性结构化数据相比,大量的非结构数据中蕴含了更加持久和影响深远的价值,包含着大量可以提高企业效益的有利信息。对于电力企业来讲,通过再检索、共享、分析这些数据,可以挖掘其中的隐藏价值,对电力公司的战略部署、发展方向将会产生深远影响[1]。

结构化数据主要基于关系数据库存储,通过保存不同的业务数据到对应的表中,方便查询统计、操作便捷、易于维护。而非结构数据占比较高,如设计图纸、合同、报告、说明书、标书等,这些数据文件格式多样、内容繁多、不易理解,数据含义比较隐性,无法使用关系数据库存储,只能通过不同文件形式存放。鉴于非结构化数据的特点,对这些非结构化数据存储检索时难度会比较大。为了获得其中蕴含的价值,需要在使用这些非结构化数据时,必须根据具体需要对其进行预处理,将其标准化,建立更加智能化的系统来处理这些数据,深入挖掘其中的价值。

1  电力系统非结构化数据的特点

根据数据来源以及数据特征结构的不同,电力系统中所产生的数据可以分为结构化、半结构化和非结构化数据,如表1所示。

结构化数据特征表现为可以在固定字段集合中存放并且可以用二维表表示;而半结构化数据虽然说是结构化的,但是数据结构变化大,因此不能像结构化数据一样简单地通过建立表来处理,但适合将数据元素用标签区分,用XML来存储;非结构化数据本身主要表现为格式和标准多样,存储量大且增长速快,可以是任何类型的数字信息形式,如文本、图片、Web页面、Office文档、电子邮件等[2]。非结构化数据内容无法直接获取,如有些音频视频文件需要用相应的方式打开才能读取,所以难以用数据库中的二维逻辑表表示,且检索困难,大部分要借助处理方法或者处理工具才能方便管理利用,但是这些非结构化数据中所蕴含的价值是巨大的。这类数据在电力系统中占80%以上,例如故障录波、监控视频、图像、CIM等数据[3]。

在电力系统中,对非结构化数据的处理上存在以下问题[4-7]:

(1)相比于结构化数据,电力系统中非结构化数据产生速度快、格式多样化、价值密度较低等导致难以系统化,部门之间的数据交互很多依靠扫描件、邮件、人工传递的方式,这就使得数据传递效率低下,交互成本高。

(2)非结构化数据的管理无法双向进行,只能根据业务的需要单向传递,由于传递缺乏实效性导致更新以及变更后的文档不能完整及时地传到用户那里,而且文档利用的情况无法及时反馈。

(3)目前非结构化数据的传输主要通过数据交互平台,但是由于传输通道的容量较小、传输速度较低,通常需要在保证主要信息的前提下,删除图片、正文数据信息,导致信息存在失真的情况。

(4)非结构化数据在业务系统间传递时,文件标识没有统一的定义标准,导致更新文件版本时,需要人为定位历史版本。

2  电力系统中非结构化数据的处理方法的现状

2.1  采集提取

非结构化数据的采集提取,是指从一个数据集中抽取一类所需的信息导入对应数据库的过程,提取技术有很多种,可以根据不同的标准来分类。例如,根据人为参与程度可以分为人工方式、人工辅助方式和全自动方式的提取方法。非结构化数据的提取相对比较复杂,对于文本数据,一般需要采用模糊匹配法匹配行上的字段并逐行进行抽取。数据的抽取涉及到几个关键的问题:数据仓库需要抽取的数据内容;数据抽取的来源;数据存放在哪个系统的数据库;根据需要制定各个系统的数据抽取规则;确定所抽取记录的唯一标示符。

文献[8]利用聚焦类网络爬虫Scrapy构架来采集网页非结构化数据信息,爬虫根据提交的查询表单,寻找选择合适的Web数据库,然后把页面存储到本地的数据库中。

文献[9]提出了一种从数据库抽取数据的方法,该方法将ODBC用于数据抽取,为了建立数据仓库,在数据转换过程中应用转换规则集,从而有效地提取和管理非结构化数据。此外,文中还采取了虚拟化集群存储、资源池存储和容错机制来方便非结构化数据的抽取。

文献[10]提出了数据提取的三种方法。方法一:通过应用机器学习归纳算法的包装器归纳方式来生成抽取规则,抽取规则的制定是基于對语义项上下文描述,通过语义边界来定位语义项;方法二:基于Ontology方式的信息根据数据本身的描述来实现抽取;方法三:通过Web页面的定位信息并基于HTML结构实现信息抽取,再将Web文档解析成语法树,然后进行信息抽取的同时,还需采用后模式的方式为其添加语义,该方法通过使用大量的样本进行训练来提高抽取数据的精确性,以避免抽取到与用户无关的信息。

2.2  过滤清洗

数据的过滤清洗是指对数据进行杂质去除和校验的过程,主要在于去掉重复信息、纠正错误,以及排除非用户需求的数据等,对于多数据源的数据,还需要对其进行关联性验证。

文献[11]中提到的数据清洗在目前可以通过匹配算法、机器学习算法和相应的数据关联表进行,文中采用改进后的Skyline算法对数据进行过滤排查,通过找出具有代表意义的点,对这些点进行统计分类处理,然后生成多种统计图。由于电网中复杂的环境因素,以及设备传感器的故障、信号的干扰等因素会形成数据的噪声点并导致数据的缺失,这会影响到接下来对数据分析的结果,文中提到在进行数据清洗过程中,应采取相应方法对噪声点进行数据的修复,对于缺失的数据通过相应调控进行填补,以减轻清洗过程中数据价值的流失。

文献[12]中提到对于清洗过程中缺失内容数据的填充可以通过四种方式实现。方式一:人工参与,主要根据专家经验和专业知识来补充;方式二:对相应字段进行数据计算;方式三:通过字段的组合规律计算分析所缺失的数据;方式四:对于失真严重的数据可以通过数据的重新采集,或者从其他渠道获取对应数据集。

2.3  拆分转换

由于所抽取的非结构化数据格式属性复杂多样,难以进行后期的存储、分析和检索,需要将非结构化数据创立标准化、转换为可识别的数据,需要根据目标数据模型或者统一数据模型对数据进行数据格式转换、关键数据重新构建等。

2.3.1  非结构化数据拆分

为了提高存储资源的利用率,优化计算机资源分配,可以把非结构化数据分离为元数据和二进制数据。二进制数据可以直接以数据流的形式存储在关系表中,元数据以XML格式存入实际数据所在的节点中[13]。

2.3.2  非结构化数据的结构化处理

文献[14]提到在非结构化数据结构化处理过程中,可以使用XML作为转换媒介,利用XML支持嵌入和链接非结构化数据的特征,使用XlLink链接非结构化数据,非结构化数据通过XML的过渡最终转换为结构化数据,由于非结构化数据的文件格式的不同,有文本、图片、视频、音频等,所以必须根据文件格式的不同,采取不同的半结构化转换方法。

文献[15]中提出基于规则库来实现不同格式的非结构化数据的转换,先对原始数据格式描述,或者定义生成描述然后存入规则库,最后提取相应规则描述。

文献[16]中提到在非结构性数据的转换过程中,还可以依靠相关机器学习算法对非结构化数据进行实体识别和关系抽取,从而获得构建数据库所需要的特定的数据对象,如通过K-means聚类算法实现实体的关系抽取,以及通过CRF++工具包实现文本数据的实体识别。

这种逐级转换是一种典型的思路,可实现非结构化数据到结构化数据的映射,再加上CLM作为电力系统公共信息模型,通过统一的表达方式将CLM与XML链接,可以很好地解决电网中大部分非结构化问题。但这种逐步转化的方式,存在转换后缺乏通用性、文件元数据难以管理的问题,不具备大量数据转换的条件,以及对于视频,音频等需要打开查看再提取有价值信息的数据只能依靠人工处理等缺点。这就需要创建文件模板表、文件联系表来建立转化前后的联系,通过引入大数据文件解析优化方法,来提高系统转化容量。

2.4  解译利用

2.4.1  语义处理

文献[17]中引入人工智能和模式识别领域中的向量表示法来描述非结构化文本数据;采用算法提取关键词,用文档含义和属性组成的语义向量代替文档,并且使用语义相似度检索算法,从而实现非结构化文本数据也可以用传统的SQL语句来进行检索。

文献[18]中提到可以借助统计学习或深度学习算法提取语言特征,通过句法或者语法分析器,实现所查文本的语义的分析,此外文中还提到使用知识图谱和语义搜索技术对文本进行语义解析,通过文档关键词提取、自动生成摘要等技术可以进一步提高检索效率。

文献[19]中提到可以通过分词的方法,将字符串变成词的集合,一般的文本文件通常是连续的字符串流,分词要根据语言的类型,其中中英文的处理方法并不相同。一般的全文索引工具采用正向最大匹配算法,此外,对于编码过的文档类型,则需要另将其解码成字符串流。

2.4.2  文本建模

在对非结构化文本进行预处理后,为了方便对文本进行系统的分类和存储,通常需要对文本进行建模。很多企业普遍运用混合模型如Hybrid模型来对文档进行建模。因为相对于单一的模型,此类混合模型对于非结构化文本建模效果较好,通过文本建模,可以把每个文档映射到多维空间向量中,从而可以进一步进行文档相似度的计算,方便文本的分类和储存[20]。

3  未来电力系统非结构化数据处理的发展方向

随着非结构化数据规模的不断扩大以及行业发展的需要,再加上相关技术的创新,非结构化数据的处理技术也需要不断改善、创新以适应不同行业的需求。例如,随着电力数据的爆炸式增长,电力企业的非结构化与结构化数据统一储存调用系统已经展现出不足,迫于数据库存储压力,新型的非结构化数据存储系统在不断研究开发之中,与之相应的非结构化数据的优化管理和处理技术成为未来研究的重点之一。总之,虽然国内外对非结构数据的处理有一定经验,但是总体来说还处于初级阶段,相关技术还不够成熟,为了满足未来大数据时代信息价值的充分挖掘,未来非结构化数据处理应该向以下几个方面发展:

(1)满足应用范围不断拓展。随着企业信息化程度的不断加深,以各种文档、图像、音频视频、报表等为代表的非结构化数据挖掘处理在业务中的需求不断增大,应用范围不断扩大,数据处理作为构建信息化平台的核心组成要素之一,必须提高非结构化数据处理技术对不同业务的需求,从而保证业务的全面开展。

(2)满足数据的快速增长。互联网技术的发展使得网络信息数据迅速增长,非结构化数据库也随之迅速发展起来,这也对信息管理与共享提出了更高的要求。但目前非结构化数据库的处理主要是通过构建数据库集中处理,为了适应非结构化数据“爆炸式”的增长,进一步提高非结构化数据的处理性能,满足分布在网络中的各类数据同步处理。建立分布式处理体系便是未来非结构化数据处理的重要方向。未来针对非结构化数据需采用更加先进的体系架构、处理技术以满足分布式存储和处理大批量数据的需要[21]。

(3)特定方面的技术改进。比如,在数据存储检索过程中。虽然可以通过XML统一格式存储非结构化数据,但是非结构化数据以此方式存储后在系统的检索上仍旧比较困难,必须针对非结构化数据库本身的结构特点,在操作记录、限制机制以及数据元组方面结合XML的特性加以改进,优化非结构化数据的处理方式,进而提高非结构化数据库的检索性能。

(4)智能化处理。随着人工智能的普及,機器学习是非结构化数据处理的一个重要方面,特别是可以从数据中发现规律和挖掘知识,为基于非结构化数据处理的综合决策提供基础。在数据表示层面上,非结构化数据的可视化和特征提取以及数据降维,仍然是研究的重点[22]。

4  结  论

虽然现在电力企业拥有较为成熟的数据库管理处理系统,但这仅适用于结构化的数据。在大数据分析挖掘中,非结构化数据的有效处理可以充分挖掘大数据价值。但是在国内外,非结构化数据的处理仍是大数据处理技术的关键和难点。非结构化数据处理的核心问题包括数据的采集与表示、数学建模、信息挖掘、知识推理与综合决策等。未来随着产业的升级和大数据的扩张,非结构化数据的处理技术迫切需要得到创新与优化,以满足智能电网和泛在电力物联网中数据挖掘利用的需要。非结构化数据的处理技术会朝着智能化数据建模与机器学习,特别是非线性高维数据机器学习方面融合发展。此外推进大容量高速率的分布式数据处理与存储平台的建设,对于提高电力系统海量非结构化数据的处理能力和处理效率也有着极为重要的现实意义。

参考文献:

[1] HUANG Y,ZHOU X. Knowledge Model for Electric Power Big Data Based on Ontology and Semantic Web [J].CSEE Journal of Power and Energy Systems,2015,1(1):19-27.

[2] 施超.智能电网大数据相关应用问题研究 [D].广州:华南理工大学,2015.

[3] 裴珍.国家电网公司非结构化数据管理平台的设计与实现 [D].天津:天津大学,2016.

[4] 王玮,刘荫,于展鹏,等.电力大数据环境下大数据中心架构体系设计 [J].电力信息与通信技术,2016,14(1):1-6.

[5] 李泽江.电力系统多源异构数据优化管理技术的研究及应用 [D].兰州:兰州理工大学,2016.

[6] 陈硕,闫春生,王欧,等.国网辽宁全业务统一数据中心分析域关键技术组件研究 [A].中国电力科学研究院2017智能电网发展研讨会论文集 [C]//中国电力科学研究院:北京市海淀区太极计算机培训中心,2017:4.

[7] 邝苏鹏.国网业务与财务协同平台数据交换系统设计与实现 [D].哈尔滨:哈尔滨工业大学,2017.

[8] 张瑀.基于非结构化招聘信息的采集与清洗系统 [D].长沙:湖南师范大学,2017.

[9] 刘冬兰,刘新,马雷,等.电力系统中数据集成技术关键问题研究 [J].山东电力技术,2016,43(11):23-27.

[10] 马珊.面向Web文本数据仓库的预处理关键技术研究 [D].西安:西安电子科技大学,2011.

[11] 王瑞杰.面向电力调度控制系统的多源异构数据处理方法研究 [D].北京:华北电力大学(北京),2017.

[12] 吴伟波.轨道交通非结构化数据处理与维修决策研究 [D].广州:广东工业大学,2018.

[13] 李泽江.电力系统多源异构数据优化管理技术的研究及应用 [D].兰州:兰州理工大学,2016.

[14] 万里鹏.非结构化到结构化数据转换的研究与实现 [D].成都:西南交通大学,2013.

[15] 张枝令.结构化数据及非结构化数据的分类方法 [J].宁德师专学报(自然科学版),2007(4):417-420.

[16] 马晓荣.科技云中非结构化数据向结构化数据的转换方法 [D].西安:西安电子科技大学,2017.

[17] 邱剑.电力中文文本数据挖掘技术及其在可靠性中的应用研究 [D].杭州:浙江大学,2016.

[18] 苏兴华.非结构化生产信息的向量表示提取方法 [J].中国管理信息化,2018,21(23):159-161.

[19] 温绍楠.非结构化数据处理技术的应用和研究 [D].北京:北京邮电大学,2011.

[20] 李青,陈阳,谢浩然,等.一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法 [J].计算机工程与科学,2012,34(1):103-107.

[21] 周静宁.基于XML的非结构化信息存储系统事务处理模型研究 [D].武汉:武汉科技大学,2004.

[22] 徐宗本,张讲社.基于认知的非结构化信息处理:现状与趋势 [J].中国基础科学,2007(6):4-8.

作者简介:高明(1978-),男,汉族,陕西宁强人,高级工程师,硕士研究生,研究方向:电力信息化;陆宏治(1984-),男,汉族,广东广州人,高级工程师,工程硕士,研究方向:电力行业信息化、软件工程、基于云大物移智技术的共享服务应用;梁雪青(1985-),女,汉族,广东广州人,高级工程师,硕士研究生,研究方向:信息技术。

猜你喜欢

智能算法聚类电力系统
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
改进的多目标快速群搜索算法的应用
烟草香级智能集成分类方法
信息时代的电力系统信息化经验谈
探讨电力系统中配网自动化技术
配网自动化技术的应用探讨
基于Robocode的智能机器人的设计与实现
基于云模型的单路口交通信号智能控制系统研究