电力设备状态评估中的数据科学问题:挑战与展望

2018-11-26赵文清刘云鹏高树国

电力系统自动化 2018年21期

李刚, 张博, 赵文清, 刘云鹏, 高树国

(1. 华北电力大学控制与计算机工程学院, 河北省保定市 071003; 2. 河北省输变电设备安全防御重点实验室(华北电力大学), 河北省保定市 071003; 3. 国网河北省电力有限公司电力科学研究院, 河北省石家庄市 050021)

0 引言

电力设备作为电力系统运行的基本要素,其运行状态直接影响着能源电力系统的效能。电力设备(如发电机、变压器、继电保护装置等)的状态评估工作(如风电机组状态预测、变压器剩余寿命、输电线路状态监测等)对保障电力系统安全稳定运行有着重要的理论意义和实践价值。随着智能电网体系的不断完善,电力设备的类型、数量、工况复杂性等大幅增加。设备的日趋复杂和规模的不断庞大,使优质高效的数据分析模型在电力设备状态评估与应急事件响应中显得尤为重要。2015年乌克兰电力系统大范围停电事件[1]警告我们,电力设备状态评估已经进入了数据敏感时期,更迫切地需要研究新型数据分析模型应用于电力系统。

到目前为止,已有诸多数据分析方法应用于电力设备状态评估中的各个领域,研究者们针对设备的元部件、多部件组合、多条件组合等不同角度,从专家系统、基于统计学方式、数据挖掘方式和智能算法等角度,研究数据分析方法应用于电力设备状态评估的可行性。同时,得益于多样的数据获取方式,现阶段设备本体监测数据、工况运检数据、环境气象数据、家族质量史等数据日趋规模。数据显示,仅国家电网有限公司的入网智能电表数据,年产数据量就达到了200 TB,国网灾备中心的数据量,更是接近了15 PB[2]。电力设备状态信息数据逐渐趋向形成一个全景、庞大、多元的综合数据体,如何采用恰当的数据处理原理建立完整的集设备信息采集、传输、转换、存储、集成、挖掘分析、展示、设备维护、信息再学习的完整电力设备状态评估处理体系模型[3],是摆在当下研究者面前的一大问题。

当下,以大数据技术为代表的一系列数据科学理论方法,已经渗透到医疗、金融、环境、工业等诸多领域并取得了相应的应用成果。同时在国家层面上,美国于2013年颁布了大数据研究和发展计划[4],同年中国发布的《中国电力大数据发展白皮书》确立了大数据技术在智能电网设备安全运行、电力设备数据管理、电力市场业务分析上的应用前景和潜在价值。现阶段国家电网正逐步建立电力设备信息全数据采集与实时处理体系,数据科学在电力设备状态评估领域的重要性步入一个崭新的高度。

本文在对电力设备状态评估方法进行概述的基础上,分析现阶段电力设备状态评估工作中的面临的数据科学问题,探讨了电力设备在数据科学背景下的关键技术和研究趋势,同时论述了数据科学在电力设备状态评估中的典型应用场景,最后结合相关工作实际,展望了数据科学在电力设备状态评估领域的潜在发展方向。

1 电力设备状态评估方法概述及面临问题

自20世纪70年代美国麻省理工学院Schweppe和Widles两位教授开创性地总结并建立电力设备状态评估模型以来,电力设备状态监测方法已经历经近50年的发展历程[5-7],衍生出了多种评估方法。从时间维度上,可以将电力设备状态评估分为预期状态评估、瞬时状态评估和自适应状态评估[8]。

传统电力设备故障诊断方法受数据源质量、分析技术等制约,往往只对设备进行预期状态评估,在瞬时状态评估和自适应状态评估中研究较为匮乏。随着电力系统并网设备的增加、传感器技术的改进,产生了海量的实时监测数据、历史数据和检测数据等,传统的状态评估方法逐渐显露出了一些不足,主要体现在:①传统的因果框架下的状态评估方法因设备机理、工况较复杂,难以建立完备的知识库且维护成本高、更新难度大;②传统的阈值处理法逐渐显现出对不同设备、不同运行条件下的评估片面性;③由于管理层级的隶属不同、信息参量格式不一致等原因,导致数据无法有效利用。

伴随大型电力工程的实施,电力设备体现出了集成度高、部件耦合性强的特点。同时高性能通信网络和传感器的应用和普及,使电网信息系统可以快速获取设备电压、电流、振动、频率、温度、油脂气体等诸多信息[9]。因此,当下电力设备状态评估模型,可囊括不同地域、类型、时区的数据集。这就要求数据分析平台应具备将多种在空间上隔离、在时间上异步的数据集进行整合、关联同步的能力,以及具备通过语法整合和算法分析,发现离散的异构数据集中所隐藏的关联性的能力,从而可以挖掘电力设备在部件级、系统级等方面潜在的信息。总的来说,现阶段电力设备状态评估领域可大致归纳为以下几个特点。

1)截至2017年底,美国电网已接入超2 500个同步相量测量装置,通过实时态势感知方式传输,其响应速度较传统数据采集与监控(SCADA)相比提高了100倍[2],这就需要评估系统具有更高的数据处理实效性。

2)待处理数据维度更大、数据密度更低。暂且不考虑电网生产、市场营销、企业运行管理等非设备类数据,仅电力设备运行数据就包含设备状态监控数据、设备检修维护日志、设备仿真数据等。根据数据类型亦可归纳为:二维数据流、图像数据、波形数据、文本数据等多种数据类型。

3)并行化处理能力与存储同步性更高。多数据

源大容量数据采集要求数据传输网络支持多种类数据的高带宽传输(例如:SCADA系统的数据采样间隔达到3～4 s,智能电表以5 min为采样周期实时采集数据[2])。同时电力设备会发生概率性偶发故障导致的局部网络瞬时数据洪峰,电力设备断路器开关需在纳秒级时间内完成数据传输、分析、响应过程,这就给电力数据传输、存储分析平台提出了更高的要求。

4)设备数据具有不确定性。电力设备结构复杂,表征设备状态的指标众多,在状态评估过程中具有诸多不确定性问题。例如,评估指标存在定性与定量描述问题;评估指标的权重设置存在主观随意性和客观失真性问题;评估指标的状态等级边界存在信息模糊性与随机性等问题。

2 数据科学背景下电力设备状态评估的关键技术与研究趋势

数据科学概念最早由图灵奖获得者Peter Naur在1974年提出。目前普遍认为是一种涵盖数学、统计学、信息论、自动控制理论、机器学习及深度学习方法、数据存储技术和可视化技术的综合学科。对比大数据技术较公认的“3V”特性(即容量大、多样性和高速性)而言。数据科学的研究特点可总结为:用数据驱动的方式研究科学问题,同时以科学的理论为基础分析数据。数据科学图灵奖获得者Jim Gray博士根据人类历史的科学研究历程,提出在经历了实验科学、理论科学和计算科学的进程后,科学研究正迎来“第四范式”——数据科学,即从实验推理论证的计算科学,转变为以数据为基础的数据科学,强调数据在科研中的基础地位[10]。

现代电力设备的状态监测数据,包涵SCADA数据、广域监控系统数据、数字故障录波器数据、事件序列记录器数据、从终端用户获取的电源管理单元数据,以及诸如地理信息系统数据等[11],是一个典型的多源异构数据集合。这就要求电力设备状态评估跳出通常情况下结构化数据存储分析处理的局限,在数据科学应用背景下,其将是一个包含半结构化/非结构化数据存储、大规模集群并行计算、数据仓库数据挖掘、数据可视化的综合数据处理技术体系。因此,本文归纳了数据科学背景下电力设备状态评估的一般技术流程,如图1所示。未来电力设备状态评估的趋势是建立一个集电力设备多种类状态监测数据采集、预处理、存储与可视化展示等全生命周期的模型,下面将着重讨论几个关键问题及其研究进展与趋势。

图1 数据科学背景下电力设备状态评估的一般技术流程Fig.1 General technical process for the state evaluation of power equipment under data science background

2.1 电力设备状态数据清洗技术

由于电力设备大都暴露在工况复杂的外界环境中,导致经采集、传输而来的数据集中包含诸多非正常数据[12-13],具体分类如图2所示。以往在清洗单一设备数据时通常采用删除、替换和插补等方法,或在传送过程中采用多种校验方式进行验证,但由于当下数据种类多样且电网对设备实时监控水平的提高,对电力设备数据清洗提出了新的要求。

图2 电力设备数据价值分类Fig.2 Power equipment data value classification

由于数据集体现出越来越强的设备综合特征表达能力,若对原始数据进行清洗时只针对部件级的诊断需求,则会使得原始数据被局部诊断问题所约束、破坏,降低了设备状态数据的泛化性。现有研究进展尚无法做到对设备多种数据同时清洗,大多采用规避阈值法处理数据的方式。例如根据风机运行功率与实时风速建立模型[14],依据输变电设备状态信息契合客观时序规则建立模型[15],或者不依据输电设备机理与工作线路影响,根据所采集数据驱动特征建立模型[16],上述均从电力设备数据所具有的某一共性特征出发,以达到对多维度数据同时清洗的目的。

然而,电力设备通常具有高耦合性,对设备并发数据同时清洗,必然会使某些设备部件的故障、异常等数据被当作噪声处理,导致后续的状态评估结果出现偏差。目前已有研究者讨论对噪声和异常值进行监测、分类[17]。例如,针对相量测量单元(PMU)数据的扰动事件分类[18],依据关联规则、基于密度聚类和小波变化等统计模型对变压器中油中溶解气体分析(DGA)数据预处理和噪声分类等[19],但是从电力设备多维状态数据的噪声分类中发现设备部件的异常,仍显得有些吃力。同时,现阶段研究表明,在大统计量数据中,过于倾向从设备噪声中获取信息可能造成信息的无中生有,导致设备局部部件可疑点的信息量不必要的增加。研究者需进一步探究如何权衡噪声及“伪噪声”的利用价值。

2.2 电力设备状态信息融合技术

传统的数据挖掘方法只能对设备特定部件的单一状态量进行状态评估,无法反映设备综合运行状况并进行合理预测[20]。设备状态数据与设备机理并不是一一对应关系,存在较多的耦合性,信息融合可以使设备状态评估方式从单一电气量分析扩展到多电气量、状态量、开关量的复合评估方式。信息融合一般分为3种:数据级融合、特征级融合和决策级融合。现有研究方法中,通常将设备多种状态参量分别评估加以打分,再使用卡尔曼滤波器、证据理论模型、模糊集理论、神经网络等方法,并借助权重、评分等方式对状态评估结果进行决策级融合[21-22],在数据级和特征级融合的案例尚不多见。

电力设备状态评估的决策级(或多级决策)的信息融合虽可以评价设备的整体状态,但由于设备机理复杂,且评价规则树仍需研究者根据实验和专家经验建立,无法避免主观因素带来的影响,而实现数据级融合仍是当下研究热点之一。现阶段,国家电网有限公司正逐步探索在电网设备监控平台中实施数据标签化,即通过统一各个设备监测量的数据模型来实现数据级信息融合[23]。

2.3 电力设备状态信息的存储技术

目前,关系数据库已无法满足当下设备状态评估对大容量、高并发、快速响应的数据处理需求和实时监测、设备故障协同处理等业务需求。与传统存储平台相比,云平台则可以很好地应对以上问题,有研究者指出,云计算平台在执行效率上有显著优势[24],如式(1)所示。

(1)

式中:β为风险指数;rc为风险控制率;e为两平台预期执行差异;a为两平台实际执行差异。结果显示,云平台在数据处理速度、正确率、预期返回值、数据备份等方面,均优于非云平台。

如表1所示,目前已有多种成熟的云存储模型,并逐步在电力系统中应用。例如,基于Hadoop平台多副本一致哈希数据存储的输变电设备信息模型[25],基于HBase数据库建立分布式计算和二级索引机制相结合实现快速检索变电设备状态监测数据[26]。由于当下设备状态数据类型多样(图片、声音、文本、流数据、大体量历史数据等),数据需求场景不一(设备实时状态分析、历史状态全景评估、异常快速检测等),笔者认为需结合电力设备数据特征,建立多存储模型结合的复合型数据存储框架。

表1 常见云存储模型Table 1 Common cloud storage models

2.4 电力设备状态信息可视化技术

现有的设备可视化规范依据的是《电力系统图形描述规范》,由于围绕电力设备的数据采集不断细化,数据分析处理的规模不断扩大,状态评估模型呈现出实时与非实时数据的数据量巨大、智能化调度需求增加和系统综合分析要求明显等特点,传统的数据展示技术无法满足当下的业务需求。研究表明,人类从视觉获取的信息占总信息量的80%以上[27],现今电力设备状态信息囊括数值类、文字类、图像类、音/视频类，以及设备各部件参数间的耦合数据。因此需要一个较好的数据可视化展示模型,真实客观、生动有效地呈现数据分析结果。现阶段既有基于电力系统图形规范实现设备局部级综合状态信息的可视化呈现模型[28],也有基于第三方平台技术的可视化模型[29]。但不同用户(例如运维、检修、设备厂商等)对可视化数据呈现需求不同,导致现阶段还未出现综合的可视化展示模型框架,随着计算视觉和虚拟现实等技术的不断发展,为可视化平台及基于可视化的故障、失效发现机制提供了技术基础。

3 几种典型应用场景

随着数据科学在状态评估领域的不断深入,未来电力设备状态评估不再拘泥于定期检测、例行维护和事后抢修的模式,而是如图3所示,可根据不同需求,综合提取电力设备多种特征参量,对高耦合性的设备提出具有针对性的评估需求,做到“对症下药”,以延长资产使用寿命、减少运维成本等。

图3 典型应用场景Fig.3 Typical application scenarios

3.1 电力设备信息特征提取

随着数据获取技术的不断发展,电力设备状态信息日趋形成集电气量运行与工况数据、多种文本记录、部件红外紫外与绝缘老化等图像、振动与局部放电波形等在内的多源数据集,对其进行综合分析,既可以从纵向时序角度发现设备各部件潜在的状态变化规律,也可以横向对比设备类别、运行地域环境、生产信息等,为发现设备家族缺陷、故障发生规律以及确定设备维修策略提供有力依据。

1)电力设备文本信息挖掘

电力设备文本数据大致可分为设备台账类、日常检修巡检类和故障记录类,包括设备规格记录、试验与检修记录、巡检与带电检测记录、故障与缺陷描述报告和事件顺序记录等在内的多种文本数据[30],是极少数可以贯穿电力设备从生产到报废整个生命周期的数据集。由于文字对设备信息的描述具有语义偏差、描述信息字段化且描述程度阈值化的特点,导致电力设备的文本挖掘尚属探索阶段。现有成果中有针对断路器建立与国家电网有限公司评价导则相结合的语义库,实现依据缺陷文本对断路器状态评估的实例[30],针对结构、机理更加复杂的变压器等设备则有待研究。同时,如何建立与电力设备运行机理、规律对应的自然语言语料库,是现阶段解决电力设备中文文本数据语义冲突和文本信息分类检索[31]等问题的关键,并有待进一步研究。

2)电力设备图像信息识别

图像数据可以直观地呈现出设备(例如输变电线路、绝缘子,电力变压器套管、油温、绕组温度等)特征。在电力设备快速巡检、故障定位和状态评估等人工较难作业和判定测量的工作中,具有较大的应用前景。例如,采用模板匹配算法和Canny边缘检测算法相结合对绝缘子覆冰厚度进行检测,达到与人工测量平均值相差1.5 mm的精确度[32];采用改进的多尺度Retinex算法与Fisher准则函数相结合对恶劣条件下绝缘子灰密程度进行识别,准确率可达95%[33]。对于设备集成度、复杂度更高的电力变压器等大型综合设备来说,还有待进一步研究。

3)电力设备波形信息分析

电力设备运行过程中不但会生成诸多电气量数据,也会伴随多种物理现象产生,如局部放电、部件振动等设备内部现象和雷击、地震等外在工况现象。提取此类信息量的波形,可以挖掘设备运行的物理特性,确定设备损耗情况(如绝缘损耗),发现环境工况对设备的直接影响。经典的统计分析、相关分析、傅里叶变换等无法较好地表现信号的频域特征,研究者通常采用时域和频域处理相结合的模型。例如,采用基于Hilbert-Huang变换、Wigner-Ville分布、小波分析等方法,在变压器振动[34]、局部放电[35]和输变电设备雷击[36]等场景取得了较好的应用效果。

由于电力设备集成化程度较高且大多露天运行,信号中存在多种信号叠加(如电力变压器负载引起的铁芯与绕组振动叠加)和周边信号干扰(局部放电夹杂的窄带干扰和白噪声等)的现象,有研究者提出了采用深度学习方法解决振动信号复杂而带来的诊断困难问题[37],以及采用小波包和模态分解结合降低振动噪声[35]的模型。但如何更有效地处理波形信号中的信号叠加、噪声信号、非平稳信号等,仍需更深入研究。

3.2 电力设备全景状态评估

当前的电力设备状态评估工作,已呈现出从设备单一部件的评估向设备全景状态评估发展的趋势。传统的专家系统和经验公式(如针对高压断路器的模糊综合评价法、针对电力变压器的三比值法等)虽具有较完备的设备机理依据,但逐渐显现出评价指标固化、无法综合参照设备各个参量的不足,可采用“在线数据+实验机理数据”或“智能算法+故障机理模型”这类数据驱动与传统评价指标相结合的方式。例如,针对电力变压器提出的在线监测数据与静态机理实验相结合的评价模型[38],较好地评估了设备实际运行情况。

从设备本体角度上讲,由于电力设备涉及金属、绝缘材料和油脂等物质,导致设备各个部件的评估导则不同,传统经验模型的固定权重评估方式,在针对不同设备、厂家、工况等特定诊断情形时,往往只能提供宏观的评价导向而无法提供较精确的分析结果,适用性较差,有研究者提出了可变权重法。例如,采用关联规则和变权重公式建立SF6高压断路器评估模型,较好地解决了综合评估过程中设备性能劣化程度不均导致的评价结果失真问题[39]。

从设备状态参量角度上讲,如前文所述,电力设备状态参量具有一定的不确定性,这也是进行电力设备全景状态评估的一大难点。目前已有采用关联规则和集对分析原理降低电力变压器状态评估误差的实例[40],平均有效正判率达到94%。此外,电力设备部件众多,以变压器为例,其包含铁芯、套管和有载分接开关等,各个部件涉及的油色谱、电气指标和设备家族质量问题也各不相同。状态参量的不断丰富也为归纳设备家族缺陷、设备地域运行特征等差异提供了依据。

从状态评价方法上讲,由Wolpert等提出的“没有免费的午餐理论”[41]可知,没有哪种算法是普适的。现阶段的各种评估模型,在设备部件级评估中有良好表现,建立电力设备全景状态评估模型,还需联动多种评估模型以达到取长补短、优势互补的目的,这就要求研究者深入挖掘电力设备数据特征和模型之间的潜在联系,在电力设备数据级融合的基础上,实现模型间的异构融合。

3.3 电力设备故障诊断

传统故障诊断方法主要依据既定的阈值公式或专家经验来判定,诊断结果较为泛化,缺少设备针对性。虽然获取的状态量不断丰富,但由于设备本体具有高度集成性,电网负荷环境及工况外部环境具有诸多不确定性,另外电力设备数量虽然庞大,但故障样本数相对较少、重大故障样本更为稀少等诸多因素存在,导致大体量数据仍无法较好地实现综合性故障诊断的目标,现阶段状态数据源的多样性可以实现对电力设备更细化的诊断需求。例如,以尽可能降低资产损失为目的的电力变压器快速故障诊断[19]、针对输电系统的并发性故障诊断[42]、针对异步电机的以振动信号和电流信号为组合依据的可降噪故障诊断[37]、针对风机叶片退化问题的早期故障诊断[43]等。这类具有针对性的故障诊断方式使电力设备故障诊断逐渐形成从事后分析到事前控制、事前异常趋势预警、事中快速处置和事后闭环分析的全周期式设备故障诊断体系。

此外,由于电力设备状态评估需要依托较完备的设备故障机理,在采用数据科学手段建立模型的基础上,引入设备故障诊断历史经验和专家技能,会进一步提升诊断决策水平。例如,结合时序信息的多元Petri网诊断模型[44]、采用Apriori算法与Tanimoto系数相结合的方式更清晰地表示套管接线、红外数据和末屏引出线的相关度[45]等。

总的来说,现阶段电力设备故障诊断力求建立集故障归类、发现家族缺陷、寻找隐含故障诱因等功能于一体的设备级故障诊断体系,使电力设备故障诊断逐渐从被动接受转为主动发现,最终实现对设备故障率的分析判断。对此已有研究者采用解析模型、关联规则、机器学习及其衍生方法,在二次设备家族缺陷[46]、电力变压器故障归类和模型自由化[47]等方向取得了一定的进展。但是电力设备故障频率低,故障集缺乏完备性,导致模型易出现诊断误差等。笔者认为,可借助数据增强理论并通过专家系统等方法验证,进一步缓解这类问题。

3.4 电力设备剩余使用寿命预测

设备剩余使用寿命预测通常指利用设备状态评价数据、故障发生率、设备部件老化程度等,对设备未来运行状态和可靠性做趋势分析,可以将其看作是状态评估和故障诊断的延伸。现阶段研究成果主要集中在依据传统经验公式(如英国EA公司的电力变压器健康预测公式)并在其基础上做改进的模型;也有依据数据驱动方式,根据设备某一类或几类部件数据的统计趋势建立预测模型,如针对油色谱、继电保护装置[48]、风电机轴[49],或通过某些数据在客观尺度上的变化规律(如依据Marquardt法[48]、Wiener过程[49]等)做设备部件级剩余使用寿命预测。

目前,得益于先进的数据采集技术,设备全景寿命预测需求的数据维度和数据量已经较为完备,当下研究趋势逐渐转向建立集设备健康指数评估和设备家族对比的故障预测与健康管理(prognostic and health management,PHM)平台。从基于数据驱动的设备早期状态预警[50],到基于设备持续退化趋势的协变量预测[51]均有相关研究报道。笔者认为,在保留数据间关联度和变化趋势敏感性的同时,将数据驱动方法和设备机理、经验模型相结合,建立设备全景寿命预测模型,是今后的研究方向之一。

4 展望及挑战性问题

随着数据科学在电力设备状态评估中应用的逐渐成熟,当下状态评估已从传统的“统计学习+设备机理”的分析模式,发展为数据驱动背景下的具有设备、场景针对性的状态评估模式。笔者认为,数据科学在电力设备状态评估领域的发展过程中,还有如下几点值得讨论和关注。

4.1 电力设备数据压缩存储与数据同步

当前的电力设备状态信息存储管理不再局限于传统强一致性数据存储方式,而是需要根据设备状态数据特性和数据类型建立弱一致性存储方式。例如,在设备环境数据与设备运行数据之间建立实时更新一致性关联,以解决电力设备多源数据缺乏有效数据关联度的问题。同时在设备突发数据流到来时(如电力设备因故障或其他情况引起的暂时洪峰式数据潮流,或电力设备正常运行工作时的持续异构数据流),需要对瞬时庞大的数据量进行数据压缩以确保状态评估模型的稳定运行,有研究者对实值多变量维度约简问题做了相关研究[52],对提高电力设备多维度状态信息的计算、存储效率等方面具有借鉴意义。

多源数据综合状态评估对数据同步也提出了较高要求,保证近端数据和远端数据在同一时间尺度内的一致性和吻合性对电力设备在时间点(或段)中的状态评估有着重要影响。此外,分布式能源设备不断并入电网,也会带来地域差异性、设备多样性、出力不稳定性、运行工况时变性等问题,现有的电力远动传输协议主要依照IEC 60870-5-101，IEC 60870-5-104等,需进一步研究如何规范电力设备数据传输接口、降低网络延迟、保持数据一致性。

4.2 电力设备数据质量与数据处理时效

如前文所述,电力设备的运行环境复杂,其数据源的地理分布较为广泛,会在传输链路中出现信息干扰、丢包、缺失等问题,数据预处理必不可少。但是当数据集的广度宽、数量大时,其总体质量不会因为少量“脏数据”而受到较大影响,当前电力设备状态数据预处理的关注点逐渐从脏数据对整体数据质量的影响转变到各特征参量数据是否规整、与分析模型是否直接适用上来。总的来说,要避免为得到规整数据而盲目地预处理,需结合具体的状态评估模型和设备特征,权衡清洗强度、明确清洗目标,构建更加快速高效的处理模型。

同时,电力设备因其运行工况各异,使得状态评估模型不仅需要分析历史数据,同时需要具备一定的瞬时数据在线处理能力,因此,要求系统具有在秒级甚至毫秒级时间尺度内,对电力设备瞬时数据进行快速响应分析的能力。例如,针对实时交通信息动态规划电动汽车充电导航和路径选择策略的群智感知和矩阵分解方法[53]。由于电力设备的数据类型多样、数据分析算法繁杂,未来依然需研究在有限的时间尺度内如何做出快速响应。

4.3 电力设备数据安全性

由于电力设备数据传输链路较长,容易产生数据窃取、系统入侵等风险。2010年出现的首个针对工业系统的Stuxnet病毒,对SCADA系统具有较强的破坏性,直接造成伊朗核电站出现推迟发电的严重事故[54]。分布式信息存储和云平台的接入,需要配置与之相对应的安全保密传输链路和分析存储架构环境,从而确保电力设备状态信息的安全性。在国家倡导“工业4.0”的趋势下,现已有源自军工领域的网络态势感知(cyberspace situation awareness,CSA)技术的工业互联网态势感知预警平台,在电力领域,也有研究者从智能配电网态势感知角度做了相关论述[55],这一问题未来有待继续深入研究。

同时,以区块链为代表的新型安全存储技术,也契合当下电力设备数据安全存取的需求。区块链技术于2008年以比特币底层技术首次出现,具有高吞吐量、低延迟、弱中心化、高安全性等诸多优点[56]。已有研究者提出分布式能源设备“区块链群”概念,为搭建分布式电力系统提供了新思路[57],也有针对电力设备信息采集无线传感网络中可能存在的单点失效、数据篡改等安全问题,提出了结合联盟区块链的智能电网数据存储联盟链系统,并论证了其在数据存储和共享安全中的可靠性[58]。总的来说,区块链尚属于新兴技术,在电力设备状态数据存储领域中的研究潜力和实用价值,仍需持续关注。

4.4 电力设备数据评估分析与展现

多维度大体量的电力设备状态数据的出现,使数据科学方法在电力设备状态评估领域中逐渐显现出强大的潜力与活力,但是仍有几点值得关注。

第一,数据科学方法缺少理论层面的支持。数据驱动的分析技术虽然在智能性、场景复用性上要比传统状态评估模型有一定优势,但电力设备所具有的完备的设备运行机理却无法在数据驱动模型上体现,使得评估模型包含较强的数据经验但缺少理论经验。

第二,当下数据分析技术往往只针对设备某一状态信息的特定问题并采用表现良好的分析技术设计模型,存在优势效率突出、局限性缺陷不足的双重特性。需要进一步探究如何整合现有评估技术,建立多方法融合的电力设备状态评估信息处理平台。

第三,海量的设备状态数据使得建立综合评估模型成为可能,但过于复杂的多维数据分析,其评估结果可能会逐步趋向于专家系统。所以在对电力设备进行数据分析的业务需求上,需要把握设备宏观状态分析与微观状态分析的程度。

第四,受限于终端用户的专业职责,不同用户(如调度、检修、厂家售后、企业资源计划(ERP)管理等)所关注的设备状态评估的侧重点不同,数据分析结果如果不以一个结构清晰、关系分明的可视化方式呈现,将会严重影响终端用户对当下设备状态的评估判断。因此,采用何种可视化技术呈现多源数据的分析结果,展示不同分析结果之间的关联关系,是设备信息可视化技术需要考虑的问题。

笔者认为,数据科学分析技术在电力设备状态评估领域,更倾向于辅助作用。在宏观上,可以辅助应用成熟的专家系统;在微观上,可以对设备某部件、某特征、某故障类型做精确评估诊断。使电力设备状态评估从单一、多参量参与的纵向分析,转换为类似医疗中的“核磁共振”式立体分析。

4.5 电力设备耦合数据分析

在智能化技术的推动下,电力一次设备与二次设备耦合度逐渐加深,《信息物理系统白皮书(2017)》详细地对电力信息物理系统(cyber physical power system,CPPS)进行了阐述,设备间耦合数据可进一步增加设备评估的准确性和参考价值。例如,采用关联特性矩阵,较真实地反映了电网内设备耦合信息的复杂机理[59]。同时电力CPS模型的强关联性,使研究者们可以根据设备故障特性对故障追根溯源。可以预见,依托电力CPS理论分析设备间和不同信息量间的高耦合数据,将会大幅提高电力设备可靠性评估与寿命预测领域的精确性和实效性。

4.6 电力大数据与小数据的讨论

虽然以大数据为背景的数据科学模型在电力设备状态评估中取得了较好的应用效果,但依然存在如下不足:①受传感器种类、状态信息采集特点(如采集周期不同)等诸多因素,设备的状态数据往往停留在数据量大而种类不足的“伪大数据”层面;②数据驱动的模型较容易回归出基于统计理论中的显著特性,但可能脱离设备运行机理的因果关系;③受企业隐私、商业机密等因素影响,尚无法得到完全公开透明的大数据集。

大数据这种“撒网式”被动数据分析,无法替代基于设备机理、具有因果关系的小数据分析模型,两者为相辅相成、宏观与微观的并行处理方式。笔者认为,小数据分析模式具有以下特点:①针对设备具体部件,以专家系统等客观理论做支撑,数据分析更具备针对性和实效性;②可以得出设备状态变化与状态数据间的因果关联;③小数据相比大数据而言,数据更易获取,较容易规避各种经济商业利益纠纷。众多小数据分析模型,是建立电力设备综合性状态评估模型的基础和依托,恰当地将两者结合,是更合理的研究途径。

总体来看,目前电力设备状态评估领域,在数据体量上可能还未达到大维度的数据特性,部分原因在于相关机构存在一定的数据壁垒,设备厂商之间也存在技术保密因素等,导致暂时无法形成较大的数据维度和广度。但这种不强调先验模型的数据驱动分析方式,实现了从数据角度出发,关注各个数据参量之间随时间、环境的变化态势。数据分析模型不局限于“数据采集—数据分析—数据呈现”的传统工厂式分析流程,分析模型的计算智能化,使得模型既可以不断学习迭代,又可以根据终端用户需求及时反馈当下技术指标或某类技术指标的相关分析结果,形成一个“数据采集—模型学习—数据分析—用户需求呈现”的动态状态评估框架,其中的关键技术、经济可行性等,需要研究者们进一步系统而深入的研究。

5 结语

电力系统的发、输、变、配、用电等环节,涵盖了大量的电气设备,无论是哪一个环节,全面而清晰地掌握相关设备的运行状态与可靠性演变趋势,对于电力系统的稳定运行具有重要的理论意义与实用价值。通过借助较成熟的数据科学对电力设备的运行状态进行系统而深入的研究,是当前快速发展的信息化技术的一个典型应用场景。

本文立足于宏观的数据科学技术理念,对现阶段数据处理技术在电力设备状态评估中的关键技术、典型应用场景和未来发展方向做了阐述。由于“电力设备”是一个较为笼统的概念,它包含了种类繁多、形态各异的组织结构、技术内涵,本文所述方法与技术体系,力争在普适性和完整性上做了归纳,如果涉及具体的设备型号,仍需具体问题具体分析。

数据科学作为科学研究的第四范式,已经呈现出越来越成熟的技术规范,与物理研究的因果分析相辅相成,可实现对电力设备运行状态的精确评估,同时,也为“电—气”协同的能源互联网等的发展提供了可靠的技术支撑。