基于知识图谱的台区线损异常分析
2021-09-09高泽璞赵云张提提张莲梅
高泽璞,赵云,张提提,张莲梅
(1.武汉大学电气与自动化学院,湖北 武汉 430072;2.南方电网科学研究院,广东 广州 510080)
在低压配电网中,随着人们生活水平的不断提高,各种电力设备数量的急剧增加导致用电量飞速增长,电网企业越来越关注统计线损率,其成为衡量供电公司管理水平、经济效益的核心指标[1]。低压配电网作为大电网线路末梢,错综复杂的拓扑结构使得线损异常问题愈加严重。配电网端提高线损管理水平是降损、减损以及消除异常线损的有效手段。
目前,确定线损异常原因的方法多为电网工作人员现场勘查、总结,之后人工录入[2]。伴随电网信息化的技术引入,目前南方电网在积极推进配电侧信息档案化管理,与配电网相匹配的档案线损异常原因分析模型的研究尚处于起步阶段。目前,低压配电网线损管理的主要形式为分台区管理[3]。针对台区线损所存在的异常问题,国内外学者也做了大量研究。文献[4]使用实测负荷数据和理论线损计算方法分析线损产生机制,提出了节能降损的策略,但该文献仅分析了理论情况,未就实际的用电情况进行讨论,不具备实际可操作性。文献[5]使用小波变换对电流谐波进行检测,通过分析频谱信息解决了因电流畸变导致线损异常的问题,但存在一定的局限性,台区线损异常包含诸多因素,该文献仅仅讨论了其中一种,不具备代表性。文献[6]提出了一种灰色关联分析与改进神经网络相结合的线损预测方法,并与实际线损比较从而确定线损是否异常,该方法可以较好地筛选出异常线损,但无法确定线损异常的具体原因,从源头解决线损异常问题。文献[7]使用相似性方法,分析了与线损相关的气象因素,从而有针对性地对不同区域采取不同线损异常治理方法,但其采用外部因素对线损异常进行宏观调控,没有分析内部因素对台区线损异常的影响。
基于现有的线损异常原因分析研究现状,针对目前研究者对线损异常分析的研究尚处于局部分析的问题,本文提出了一种基于档案管理的整体线损异常原因研究,将较好地推动当前线损管理方面的研究进程,提高线损异常原因判断的实用性和实时性。其具体实施方案为:将大量的线损异常原因档案数据依照相似性归类,依据每类异常原因不同的表现特征,设定不同的异常原因判断规则,并将规则集合成线损异常判断知识图谱,用作线损异常分析判断。知识图谱技术在处理数据关系时具有优势,与线损异常原因的分类及特性分析的研究需要完全契合。文献[8]将知识图谱运用在电气设备缺陷查询中,产生了良好的效果。因此,本文提出了一种使用知识库的线损异常原因判断方法,并运用推演格算法对其进行规则优化。采用实际数据进行检验,并与传统专家库进行对比,验证了本方法在线损异常原因判断方面具有良好的效果。
1 知识图谱技术
1.1 知识图谱简述
知识图谱又称知识领域映射地图,能够挖掘、分析、构建、绘制和显示知识及它们之间的联系,利用可视化技术,直观清楚地展示知识之间的关系,并将知识之间的关系转化成三元组的形式,存储到图数据库中[9]。知识图谱的基本结构为“实体—关系—实体”或“实体—属性—属性值”的形式。图谱显示为以实体为节点、关系为边的多实体、多关系的网状结构图[10]。
目前,知识图谱多应用于学科发展趋势分析和互联网领域,在电力行业中应用较少。根据应用领域的不同,知识图谱可分为通用知识图谱和行业知识图谱[11]。通用知识图谱知识来源多、覆盖范围广,通常采用自底向上的知识图谱构建方法,其多用于搜索引擎中,最具代表性的是国外的谷歌知识图谱以及国内百度知心知识图谱等[12]。行业知识图谱是以特定领域中的知识作为基础来构建,知识之间的关系网简单、明确,抗干扰能力强。行业知识图谱通常采用自顶向下与自底向上相结合的构建方法。最具代表性的行业知识图谱有Geonames,Linked Movie Database等[13]。
1.2 知识图谱的构建环节
通常知识图谱的构建环节包括知识抽取、知识表示、知识融合、知识存储等4个步骤[14]。
1)知识抽取:根据不同形式的数据源,采用适当方法分别抽取出实体、关系、属性等知识。
2)知识表示:将抽取出的实体、关系和属性按照该领域的知识结构和人的思维方式转化为计算机可处理的形式。
3)知识融合:不同数据源所获取的知识在表示命名时,可能存在重叠关系,需进行消岐整合。
4)知识存储:将知识及关系依照三元组的结构存储到图数据库中,方便查询与显示。
2 台区线损异常知识图谱的构建
在电网稽查部门的线损档案数据库中,对线损异常台区的异常原因及处理办法的记录方式通常为自然语言[15]。知识图谱技术可以将记录中的实体及关系以三元组的形式清晰明确地表示出来,解决了台区线损异常原因查询、复检以及参考难的问题。
线损档案中的台区线损异常原因所涉及范围的数据既包括结构化数据(电压、设备容量等),也包含自然语言类的无结构化数据。因此,在知识抽取、融合及构建三元组时,需分开进行。
2.1 实体、属性抽取及关系建立
台区线损异常原因知识图谱中,所涉及的实体包括:台区、变压器、低压用户表、台区总表等。首先,每一类对象建立本体V,本体是一类物理设备的抽象概念,例如变压器。每一类本体包含若干实体V={v1,v2,…,vn},n表示每一类本体下的实体数,实体数量由构建知识图谱时所抽取的对应知识数来决定。每个实体表示为(vi|id,E),id为每个实体的唯一标识,E为实体自身的属性集合。实体与实体之间可能存在关系r,[vt,r,vh]为两个存在关系的实体组成的三元组结构。从电网信息系统中,抽取出线损异常原因所涉及的实体及其主要属性。这些数据为结构化数据,保存在源数据库中,源数据库表的字段表示每一列的数据类型,源数据库表的每一行为同一实体的各个属性[16]。将抽取出的知识按照上述方法,根据关系组成三元组,即构成知识图谱雏形。例如抽取出“台区A”的电压值,则构成“台区A—电压—电压数值”。
2.2 线损异常原因抽取及分词处理
设备名称、属性这些结构化数据知识抽取方法比较简单,而台区线损异常原因为非结构化数据,没有规则性,知识抽取较困难。本文采用自然语言处理(natural language processing,NLP)基于词典的分词算法对台区线损异常原因的非结构化数据(自然语言表示的数据)进行划分,并过滤掉停用词[17]。分词结果实例如表1所示。基于分词的结果,可以将自然语言组成[台区,连接(错误),用户]的三元组。
表1 分词结果实例Tab.1 Examples of segmentation results
对分词结果使用TF-IDF算法,将涉及的实体及异常表现形式按照权重进行排序,对权重较大的实体及异常形式着重分析并建立判断规则[18]。TF-IDF算法表达式如下:
当该词的TF×IDF越大,表明该词在台区线损异常原因中占比越大。对453个台区的线损异常原因样进行NLP分词及TF-IDF算法分析,结果如表2所示。从表2可以看出,台区线损异常原因多集中在总表、分表、采集器等数据传输块,异常形式也多与数据采集相关。
表2 实体及异常原因前三名关键词Tab.2 Top three keywords for entities and abnormal reasons
将线损异常原因中的实体与实体、实体与异常形式之间建立完善的三元组关系,并与1.1节中的知识图谱相结合,则构成了台区线损异常知识图谱。
3 台区线损异常原因判断方法
本文对台区线损异常做了大量调研以及参考电网中的相关线损文件,将异常原因分为6大类:档案因素、计量因素、采集因素、统计因素、技术因素以及窃电因素[19]。根据2.2节台区线损异常原因关键词提取结果,所掌握数据未涉及统计因素与窃电因素,因此只针对其余4类异常原因进行分析。台区线损异常原因分类如图1所示。
图1 台区线损异常原因分类图Fig.1 Classification diagram of the cause of transformer areas line loss anomaly
3.1 台区线损异常原因判断规则
本文针对每大类异常原因,挑选出异常形式占比较高的具体小类原因设定规则。具体线损异常原因判断规则如表3所示。
表3 异常原因判断规则Tab.3 Judgment rules for abnormal causes
所挑选出的台区异常原因包括失压、失流、台户关系不正确、三相不平衡等在内的10种异常原因。借鉴电网中对这些台区异常原因的定义和判断方法,改进后形成本文的台区线损异常原因的判断规则步骤。判断算法不是本文研究的重点,在此不再过多赘述。
3.2 台区线损异常原因判断流程
将表3每小类线损异常原因按照各自判断规则构建出算法流程图。每类算法的执行步骤之间存在先后顺序,根据这种先后关系将其整理成三元组的形式,构成异常判断知识图谱。将推演格算法应用于异常判断知识图谱中,利用知识融合技术将异常判断知识图谱的各算法步骤优化整合。
推演格算法是一种智能高效的偏序推理模型[20]。推演规则包括:1)C1∧ C2∧ …∧Cn→h,其中,C1,C2,…,Cn是条件,h 为结论;2)若C1∧C2∧(Ci∨…∨Ci+n)→h,须拆分为:C1∧ C2∧ Ci→ h,…,C1∧ C2∧ Ci+n→ h;3)若存在C1∧C2∧C3→h1和h1∧C4∧C5→h,则可将其合并为C1∧C2∧C3∧C4∧C5→h。
以计量、采集因素下的线损异常原因为例,在未经过推演格优化前,每个异常原因小类的算法流程步骤都是独立的,实际运用中需要对每个算法逐个运行进行判断。经过推演格优化后的算法流程步骤如图2所示,从图2中可以看出,不同的小类异常原因的算法中存在相同的判断步骤,如果按照先前的异常原因判断方法,会造成大量的判断冗余,影响线损异常原因的判断速度。优化之后的算法步骤不需从根节点进行算法判断,线损异常判断速度得到了提高。
图2 优化后异常规则流程图Fig.2 Flow chart of the optimized exception rules
4 算例分析
为验证本文所述的线损异常分析方法在实际应用中的效果,以现有台区线损异常数据进行实验,并与电网中现有的线损异常判断专家库的实验结果作对比。
从某电网公司中选取600个线损异常台区作为实验数据源。选取判断正确率和判断速度作为台区线损异常原因判断效果的评判标准。600个台区中的线损异常原因分类数量如表4所示。
表4 各大类线损异常台区数量Tab.4 Quantity of major types of abnormal line loss transformers
4.1 台区线损异常判断库判断结果分析
从电网信息系统中抽取此600个目标台区的属性数据,按照本文方法构建出台区线损异常知识图谱。运用本文的优化后的台区线损异常原因规则对600个线损异常台区的异常原因进行判断,并与电网中的专家库判断结果相比较,如图3、表5所示。
图3 台区线损异常原因判断结果Fig.3 Judgment results of the cause of transformer areas line loss anomaly
表5 台区线损异常原因判断结果Tab.5 Judgment results of the cause of transformer areas line loss anomaly
从图3和表5中可以看出,本文方法对台区线损异常的原因判断正确率与电网中所使用方法的异常原因判断正确率相当,特别是档案原因与技术原因,判断正确率分别达到了98.7%和96.0%,超过了电网方法的正确率,表明了本文方法在台区线损异常原因判断方面具有可行性与实际应用价值。其中计量因素与采集因素的判断正确率稍低,其原因有2个:1)本文构建的异常判断规则没有涵盖电网中所有的线损异常行为,存在原因遗漏;2)计量与采集因素的规则判断多依赖于配电网采集数据(电压、电流、电量等),这类数据处于动态变化中,其数据质量直接影响着异常原因判断结果的准确性。以某电网公司某台区为例说明判断流程:该台区原始数据包括各相电压和电流,数据频率为15 min 1个数据点,每天96个数据点。该台区数据如表6所示。表6中为各相电压、电流1 d的平均值,通过方法流程判断,A相电压小于78%的正常工作电压,A相电流大于0.5%的额定电流,因此该台区线损异常原因判断为A相失压。
表6 某台区计量数据Tab.6 Measurement data of a certain transformer area
本文方法中所使用的台区线损异常原因判断规则参考了电网中已有的规则,并根据每一种异常原因所表现的电力数据特点,构建的规则更具针对性。当判断出当前台区的异常原因时,对台区线损异常原因知识图谱进行知识拓展,将该台区的判断算法及判断结果以三元组的形式扩充入知识图谱中,将其不断完善,为电网工作人员日后的线损异常处理提供参考,具有借鉴意义。知识图谱实例如图4所示。
图4 知识图谱实例展示Fig.4 Example of knowledge graph
4.2 台区线损异常判断库判断速度分析
在正确率保持在较高水平的基础上,对本文方法的异常原因判断速度做进一步的实验验证。根据不同异常判断算法的流程步骤个数,将现有样本台区线损异常原因分为[1,9]区间的复杂程度,异常判断算法的步骤越多、流程越长,其复杂程度也就越高。将本文方法对复杂程度为1的台区线损异常原因的判断所需时间作为基础,判断其他复杂程度的异常原因所需时间与该时间相比较,求得出相对速度。本文方法和电网方法的异常原因判断速度对比结果如图5所示。
图5 台区线损异常原因判断速度结果Fig.5 Speed result of judging the cause of transformer areas line loss anomaly
从图5中可以看出,在对台区线损异常原因进行判断时,本文方法的判断相对速度优于电网方法的判断相对速度,并且随着判断规则复杂程度的增加,判断相对速度的差距越来越大。本文方法的判断相对速度下降趋势远小于电网方法的下降趋势,且逐渐趋于稳定;而电网方法的判断相对速度随着判断规则复杂程度的增加而急剧下降。这是因为本文方法运用了推演格算法进行优化,将各算法规则中的冗余步骤相融合,在对目标台区进行异常判断时,无需每次都从头运行算法规则流程,从而节约了异常原因判断的时间,大大提升了台区线损异常原因的判断速度。
5 结论
本文将知识图谱技术运用于台区线损异常原因判断分析中,构建出台区线损异常知识图谱。分析并建立对台区线损异常原因的判断规则,并利用知识图谱技术将判断规则按照步骤先后顺序组合为三元组进行存储,运用推演格算法理论和知识融合技术,对判断规则优化整合,构建出本文的台区线损异常原因判断方法。与电网现使用的台区线损异常判断方法相比较,所提方法能够在准确率上与其处于持平状态,并大大提高了台区线损异常原因的判断速度,具有极好的实用性和高效性。异常判断结果和所使用的判断算法可对现有台区线损异常原因知识图谱进行增补完善。利用知识图谱的可视化技术,能够给电网工作人员提供参考借鉴,便于对线损异常台区进行查询、复检等工作。
本文不足之处是所采用的异常原因判断算法没有涵盖当前所有的台区线损异常原因,在之后的研究中,将继续扩大台区线损异常判断规则的数量和范围,不断对台区线损异常知识图谱进行完善,提高其完备性及应用范围。