APP下载

浅析电力数据中的知识提取算法及应用

2020-11-17郝景昌

装备维修技术 2020年37期
关键词:电力大数据知识图谱

郝景昌

摘  要:随着计算机技术及互联网产业的发展,电力行业越来越多的数据进入网络。海量的数据给电力行业中的数据存储、处理、分析带来较大的开销。知识图谱、属性约简、智能决策等技术为电力大数据的处理提供了较好的解决方案。然而在多维度、全方位的电力大数据中,针对知识本身的提取及表示的相关研究仍有所不足。电力大数据中的知识在多个维度的归一化、知识表达的标准化方面仍有所不足。基于云模型本身的定性定量不确定性转换能力,对多维云模型增加归一化改进,进而提出一种面向电力大数据的知识提取算法。

关键词:电力大数据;知识图谱;数据约简;知识提取

1引言

随着国家新电改方案的实施与推进,“互联网+电力”思维逐渐开始引领电力企业,成为一种主要的经营思路之一。随着电力企业市场化的推进,电力企业逐渐告别垄断,开始走向营销服务的时代。另一方面,随着工业互联网,能源互联网的发展,电力行业的各个环节,从发电到电力公司的运营,均开始向信息化、自动化、智能化方向发展。

在“互联网+电力”的发展过程中,越来越多的电力数据进入互联网。这些数据涵盖电力行业的全过程,包含多个场景、多种环节。电力行业也在逐步迈入大数据时代。

当前电力大数据领域的研究均在数据的处理与分析基础上进行。其中,电力知识的构建是其核心过程。然而,当前研究中,对于电力知识的构建过程仍有进一步提升的空间。在多维数据的处理中,如何有效挖掘不同维度数据中的信息,如何能够既避免噪声的干扰,又不忽略实际具有价值的信息,是当前知识构建中的主要难题。

本文围绕电力大数据中的知识构建展开研究,在云模型的基础上,提出了一种改进的多维云模型。该模型能够对多维属性进行归一化处理,处理后构建多维云。在改进的多维云模型基础上,本文提出一种电力大数据中的知识提取算法,该算法能够有效提取核心属性信息,并基于核心属性信息,构建知识的抽象表示。所提取的知识还具备重构数据的能力。仿真实验表明了本文所提出的算法在数据重构以及知识准确提取方面均具有较强的性能。

2改进的多维云模型

2.1多维空间知识

物理世界中的现象映射至互联网空间时,数据往往包括多种维度的属性。此时的知识包含多个维度下,数值接近的数据点。数据点的集合形成多维空间知识。现给出多维空间知识的定义及表示方法。

定义1 多维空间知识. 设U是N维空间中数值表示的定量论域,K是U上一类数据的集合,使用给定值 ,将X在论域上的分布称为多维空间知识,记作K(X),每个X称为知识的一次实现,其表示为N维空间中的一个数据点: 。

多维空间中的知识提取,是将观察到的知识的若干次实现提取为知识的抽象表示的过程。为此,我们引入改进的多维云模型。

2.1改进的多维云模型

李德毅院士在基于概论率、模糊数学的基础上提出了云模型的概念,实现了包含不确定性的语言概念值与定量数值之间的相互转换。云模型的数据特征用期望Ex ,熵En 和超熵He来表示,它们反映概念整体的定性特征。云模型既可以表示一维空间中的概念,也可以表示多维空间中的概念。当使用云模型表示多维空间中的概念时,三个特征值均为多维数据。然而,由于多维空间中的数据尺度变化较大,缺乏统一的度量,本文云模型基础上引出了多维属性的归一化策略,提出一种改进的多维云模型,用以表示多维空间中的知识。

定义2 多维空间云模型. 设U是N维空间中数值表示的定量论域,K是U上的知识,其中包含M次实现。多维空间云模型MC用以对K进行抽象表示,包含两部分信息:核与多维尺度因子。其数学表示如下:  。其中, 表示核,是N维云的中心点, ;A表示云在N个维度下的不确定性, ;I表示多维尺度因子,为一个N维向量 。

在多维空间云模型中,核 是云的中心点,是最能代表知识的点,也是知识最典型的实现,也可以表示知识的内涵。不确定性A由知识的随机性和模糊性共同决定,是多维属性归一化后的结果,表示与知识的内涵、外延无关的,蕴含在知识中的不确定性。多维尺度因子I表示知识在多个属性下的标尺,是多维属性归一化后提取出的结果,也可以用来表示知识在多个维度下的外延。

2.2多维属性的归一化方法

在知识的多维属性中,不同维度的数值具有各自不同的量纲,不同维度下数值的分布会出现分布不均衡的现象。在提取知识时,分布范围较窄的属性往往会被忽略,这将造成知识提取的不准确。为此,本文提出一种多维属性的归一化方法。

多维属性的归一化主要目标是将多个维度的属性数值进行处理,使各个维度的云模型表示中熵值均等于1。此时各维度下所去除的标尺即为多维尺度因子,此时的超熵值即为不确定度。使用K表示N维空间上的某一知识: 。其中, ,多维属性的归一化可以从数据中提取抽象特征,得到多维空间的云模型。

相比原始的逆向云模型算法,增加了归一化处理的改进的多维云模型能够去除不同维度下属性尺度的影响。在知识发现中,能够有效防止忽略变化范围小的数据。当数据在多个维度分布时,增加归一化处理之后,一方面可以使多個维度下的尺度统一,另一方面在数据特征提取及数据生成时,由于各个维度数据统一,可以通过特征的提取与叠加实现多维度下数据的统一快速处理。

3面向电力大数据的知识提取算法

在电力大数据中,数据涵盖的范围非常广泛,主要包括电力行业基本信息数据、电力标准数据、电力基础设施数据、电力业务数据、用电行为数据、运维行为数据、商业运营数据等等。其中任何一个领域中的数据又包含多种维度,这些维度可能存在交叉,也可能具有高度的相关性。因此,在面对特定范围内电力数据的知识提取中,首先需要对多维数据进行分析,去除噪声,寻找属性的相关性,获取其核心属性,进而在核心属性的基础上,提取知识。

3.1电力大数据的核心属性发现算法

针对某一范围的电力数据,其中往往含有多种属性,在这些属性中,有三类属性在知识发现中无需参与运算,本文定义为“非核心属性”。非核心属性主要包含如下三类:

(1)非数值型属性。某些属性的数据不具备数值特性,例如用户ID,用户手机号等。这些数据没有数学意义,无法参与数学运算,属于离散的非数字属性。这些属性在知识发现中无法参与运算,因而需要首先进行排除。

(2)噪声属性。某些属性的数据虽然具备数值特定,然而这些数值始终相同或极为接近,基本不会发生变化,这些数据在知识发现中将冲淡核心属性的价值,属于噪声数据,也应在知识发现中进行排除。

(3)从属属性。某些属性的数据虽然具备数值特性也会变化,然而其变化受某种核心属性的影响,随某种核心属性的变化而变化。这类数据称之为核心数据的从属数据。在知识发现中,基于核心属性已经足以进行知识的发现。从属数据将增大知识发现的计算量,对知识发现结果的影响较小,因而也需要进行排除。

3.2电力大数据的知识提取过程

在电力大数据中,知识的提取是从多个定量数据转化为抽象的数学表示的过程。假设当前存在某种知识的多次实现,使用多维数据集合K表示。电力大数据中的知识提取可表示为: 。具体步骤如下:

(1)知识数据集获取。从已有数据全集中,根据先验知识,得出其中表示某种知识的数据集合K。

(2)核心数据发现。基于算法2,从数据全集中去除非核心属性,保留核心属性,形成数据集合K。

(3)基于改进云模型的知识提取。对现有数据集合K进行归一化处理,得出改进的多维云模型 。

(4)此时,改进的多维云模型 即为该知识的抽象表示。

在改进的多维云模型中,云模型的核 表示该知识的内涵;表示多维尺度因子I表示该知识在多个属性下的外延;云模型的不确定性A,代表该知识在多维维度下的不确定性。改进的多维云模型一方面可以表示该知识的抽象特征,另一方面还可以根据该抽象特征生成该知识的实现。

3.3基于知识的数据生成算法

根据知识的抽象特性生成数据,是多维云模型属性归一化的逆向过程。

对于已经得到的某种知识抽象特性,可以基于知识生成近似的数据。为知识提取提供了一种抽象概念到具体数据的转换方法。对于模拟电力领域中的业务,构建电力领域知识图谱都具有一定的应用价值。

4结论及未来工作展望

针对当前电力大数据领域中的知识表达能力缺乏标准、知识提取能力相对较弱等问题展开研究,针对云模型进行了改进,并提出了一种面向电力大数据的知识提取算法。仿真实验验证了该算法在数据重构、知识提取等方面均有较好的性能。该算法电力行业大数据分析,知識图谱构建具有一定的参考价值。

参考文献

[1]盛魁.混合数据的邻域区分度增量式属性约简算法[J].电子学报,2020,48(04):682-696.

[2]周峰.泛在电力物联网智能感知关键技术发展思路[J].中国电机工程学报,2020,40(01):70-82+375.

猜你喜欢

电力大数据知识图谱
分布式技术在电力大数据高性能处理中的应用
电力大数据应用研究与展望
基于云计算技术的电力大数据预处理属性约简方法
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
电力大数据质量评价模型及动态探查技术研究